mabonki0725の日記

強化学習を用いた画像の枠認識の論文を読む

AI論文

ランニング30分　英語:movie Pappion

(1) 強化学習を用いた画像の枠認識の論文を読む

「Learning Policy for Adaptive Tracking with Deep Feature Cascade」

[1708.02973v1] Learning Policies for Adaptive Tracking with Deep Feature Cascades

単なる画像枠の認識の論文と思っていたが、画像認識の方法を強化学習して早期に認識完了を判断するモデルである。しかしロジックは下記の有名な論文(2015/11/08)を殆ど同じであることが解った。この様な重要な論文を見逃していたのは勉強不足と反省する。

「Active Object Localization with Deep Reinfrocement Learning」https://arxiv.org/abs/1511.06015

下図にある様に上段に枠認識用の画像のCNNの過程があり、下段に対象の画像のCNNの過程がある。この間に強化学習用のQ-Netが挟んであり、各段のQ-Netが枠認識の状態を学習している。この学習結果を使って多様な枠認識でも早期に認識が完了できる様になっている。（注：Hog層は伝統的な特徴量抽出のフィルター）

f:id:mabonki0725:20170815065626p:plain

このQ-netの学習例では以下の簡単な例と難しい例が示されている。左は２層で認識でき、右は５層目で認識できている。最上段は枠位置の確信度の分布、最下段のマークは強化学習の最適な方法を示している（上図の右端に説明が記述）●で枠認識が終了する。

f:id:mabonki0725:20170815071545p:plain

強化学習のロジックとしては、以下の方法となっている。

・７種類の行動を選択　Q-Learningで最適選択

f:id:mabonki0725:20170815085711p:plain

・状態 $S_l=(F’_l,h_l)$

　 ${F'_l=\sum_{k=1}^{l} \frac{F_l}{l}}$

$F’_l$ ：枠位置確信度分布

$h_l$ ：認識過程

・報酬は各層の状態の差

$R(S_{l-1},S_l)=sign(IoU(b_l,g) - LoU(b_{l-1},g))$

$IoU(b_l,g) \ge 0.6 \to R(S_{l-1},S_l) = 3$ 終了判断（有効）

$IoU(b_l,g) \le 0.6 \to R(S_{l-1},S_l) = -3$ 　終了判断（無効）

$IoU(b_l,g)$ ：確信度 $b_l$ と正解 $g$ との重なり割合

・学習はQ-learningで最適選択

　　 ${Q(S_l,A_l) = R + \gamma \max_{A'} Q(S',A')}$

執筆者が述べるこの論文の有意な点は、現状では高価なGPUを必要とする枠認識を、簡単なカメラやCPUでも認識しやすい枠は早く補足できることで、商用的なカメラに実装できる所としているが、自分としては人間が試行錯誤しながら対象認識する行動を再現できた事が大きいと思われる。

・特徴量抽出で複数の行動を取り入れることができた。

・検出の確信度で打切りが可能になった。

人間の場合、この行動は過去に学習した類似状況から適応していると考えられる。