DeepMindとヒントンによる配置認識の生成モデルの論文を読む

ランニング30分 英語できず

DeepMindとヒントンの状況認識の生成モデルの論文を読む

「Attend,Infer,Repeat:Fast Scene Understannding with Generative Models」

https://arxiv.org/abs/1603.08575

DeepMindのハサビスのサーベイ論文「人間の脳と人工知能」で、何故人間は前提知識無しに早期に状況が認識できるのかで言及していた論文の1つである。

下記の記事は1つの物体の認識についてVAEモデルで解明したものだが、本論文は複数の物体の配置の認識に答えたものである。

DeepMindの幼児の視覚理解モデルの論文を纏める - mabonki0725の日記

こちらも前提知識を仮定できないので生成モデルで解くことになるが、複数物体の配置認識の生成モデルでは下記となる。xは視覚イメージ zは認識 nは物体数

   p_\theta(x) = \sum_{n=1}^N P_N(n) \int p_\theta(z|n) p_\theta(x|z) dz

これは解けないので、VAEをLSTMで連結した複雑なモデルとなっている。

本論文ではこのモデルをAIR(Attend Infer Repeat)と云う。

f:id:mabonki0725:20170823072412p:plain

人間は複数の物体を一度に認識できるが、このモデルでは順番にVAEで認識し、物体間はLSTMで認識するモデルとなっている。しかし全体としてはEncoder-Decoderを繰り返して隠れ変数を精緻化するVAEと同じ構造となっている。

(左図)は3文字の認識の図で隠れ変数(正規分布)として以下を仮定している。物体の存在をZ_{pres}^1\sim Z_{pres}^nから順番に認識して、存在なければ処理が止まるモデルである。

 Z_{pres}^i:物体の存在の有無

 Z_{what}^i:物体の特性認識(文字と手書きの癖)

 Z_{where}^i:物体の位置の認識

(右図)は2文字の隠れ変数の認識過程(Encoder)と再表現(Decoder)の図である。

 まず入力画像xからLSTMの隠れ変数h^1で存在認識z_{pres}^1と場所認識Z_{where}^1の隠れ変数を生成する

 次にVAEで文字の癖Z_{what}^1を認識している

上記の処理は一般のVAEと同じでEncode-decodeをネット上で繰り返して隠れ変数Z_{pres},Z_{where},Z_{what},hを精緻化している。

下記はこのモデルの実験結果で、縦の繰返し回数毎で認識した結果をDecoderで再表示している。

f:id:mabonki0725:20170823074452p:plain

やはり文字の連結認識にLSTMを単純に使うの問題があり、3字文字で訓練した後4文字を認識させると4文字目が再現できない現象がある。

f:id:mabonki0725:20170823084030p:plain

このモデルを下図で補正したモデル(DAIR)した場合は問題が解消されている。

f:id:mabonki0725:20170823080952p:plain

上記の実験は複数文字の認識であるが、画像レベルでも同様に隠れ変数を再現(Decode)した結果が以下である。

f:id:mabonki0725:20170823081316p:plain

 感想としては以下である。

現状では無理にLSTMを使って複数物体の関係を学習している。VAE自体は生成モデルとして明解であるが、LSTMというブラックボックスを使っているところにモデルの不透明性や不安定性を残している。早期に複数物体が認識できるVAEモデルの研究成果が望まれる。