DeepMindとヒントンによる配置認識の生成モデルの論文を読む
ランニング30分 英語できず
DeepMindとヒントンの状況認識の生成モデルの論文を読む
「Attend,Infer,Repeat:Fast Scene Understannding with Generative Models」
https://arxiv.org/abs/1603.08575
DeepMindのハサビスのサーベイ論文「人間の脳と人工知能」で、何故人間は前提知識無しに早期に状況が認識できるのかで言及していた論文の1つである。
下記の記事は1つの物体の認識についてVAEモデルで解明したものだが、本論文は複数の物体の配置の認識に答えたものである。
DeepMindの幼児の視覚理解モデルの論文を纏める - mabonki0725の日記
こちらも前提知識を仮定できないので生成モデルで解くことになるが、複数物体の配置認識の生成モデルでは下記となる。は視覚イメージ は認識 は物体数
これは解けないので、VAEをLSTMで連結した複雑なモデルとなっている。
本論文ではこのモデルをAIR(Attend Infer Repeat)と云う。
人間は複数の物体を一度に認識できるが、このモデルでは順番にVAEで認識し、物体間はLSTMで認識するモデルとなっている。しかし全体としてはEncoder-Decoderを繰り返して隠れ変数を精緻化するVAEと同じ構造となっている。
(左図)は3文字の認識の図で隠れ変数(正規分布)として以下を仮定している。物体の存在をから順番に認識して、存在なければ処理が止まるモデルである。
:物体の存在の有無
:物体の特性認識(文字と手書きの癖)
:物体の位置の認識
(右図)は2文字の隠れ変数の認識過程(Encoder)と再表現(Decoder)の図である。
まず入力画像からLSTMの隠れ変数で存在認識と場所認識の隠れ変数を生成する
次にVAEで文字の癖を認識している
上記の処理は一般のVAEと同じでEncode-decodeをネット上で繰り返して隠れ変数を精緻化している。
下記はこのモデルの実験結果で、縦の繰返し回数毎で認識した結果をDecoderで再表示している。
やはり文字の連結認識にLSTMを単純に使うの問題があり、3字文字で訓練した後4文字を認識させると4文字目が再現できない現象がある。
このモデルを下図で補正したモデル(DAIR)した場合は問題が解消されている。
上記の実験は複数文字の認識であるが、画像レベルでも同様に隠れ変数を再現(Decode)した結果が以下である。
感想としては以下である。
現状では無理にLSTMを使って複数物体の関係を学習している。VAE自体は生成モデルとして明解であるが、LSTMというブラックボックスを使っているところにモデルの不透明性や不安定性を残している。早期に複数物体が認識できるVAEモデルの研究成果が望まれる。