DeepMindの2D画像から3D動画を生成するGQNの論文を読んでみる
GQNは下図の様に隠れた物体が写っている2Dの画面を様々な方向から見た3D画像にして評判になっているが、これは現象から実体(3Dでの位置)を掴むベイズ式をうまく実用化しているからである。
まさしくプラトンのイデア論[1]を実現した画期的な試みである。画期的というのは、ベイズは次式の通り観察から実体を推定する式であるが適当な実体の分布を仮定しなければならず実用的でなかった。しかしGQNはこれを深層学習で逐次的処理に置き換えて実用化したものと云える。
GQNの論文は下記サイトの(open access version)から入手でき23頁から手法の記述がある
Neural scene representation and rendering | DeepMind
(1) GQN(Generative query networks)
観察の分布から実体の分布を推定するのは次のベイズを使ったの変分を使って最適化すればよい。
但しは損失関数 はKL距離で以下が定義である。
これは次の様に式を展開すると証明できる。
ところでなので
GQNは実体を観察で推測するが、見る場所を条件とした条件付き変分式を解いている。
上式を論文の記述に従うと観測点が複数ある場合、損失関数を使って
上式を変形して論文の(S4)式が得られる。
(S4)
但し論文の記述に合わせて以下とした。
(S2)
(S4)の左辺の損失関数をELBO(Evidence lower bound)と云っている。
(a) 距離の最短化の問題
確かに(S2)式のELBOは美しい式であるが簡単に解けない。KingmaのVAE[2]はもも混合ガウス分布を仮定しているので距離は解析的に解け最適化は容易である。しかしGQNの様な2Dから3Dの生成の様な複雑な課題に対しては混合ガウス分布の適用は難しいと考えられる。そこでGQNは変分に自己回帰の深層学習(RNN)を導入して時系列の繰返し処理で距離を漸近的に最短化を図ろうとして画期的な試みをしている。下図の様にこの処理をRendering stepと云っている。
まず実体をL個に分解して次の様な工夫をしている。
(S8)
ここで
は推定したい画像のカメラ位置
はM個の観測された画像群の特徴情報
但し実装ではは単純和を採っていて、Mは最大30もあれば十分としている。
は観測画像 は観測画像のカメラ位置と傾き
は
はカメラの位置 とはカメラの傾き
この分割した実体は上図に示す様に、生成モデル側(Generation process)と回帰モデル側(Inference process)との両方で推定し、この両方をELMOで一致させる事で精緻化を行っている。
(a-1) Decoder側(Generation architecture)
右辺は次の(S11)でを使った正規分布で定義され、隠れ変数は(S12)の自己回帰型RNN深層学習で更新している。但しは多次元正規分布を示す。
(S11)
(S12)
また推定された画像は次式でサンプリングしている。
ここで
は推定された画像
は最終時の状態を示す情報
で更新される
(a-2)Encoder側(inference architechture)
(S20)
(S21)
(a-3) ELBOによるの一致
下図の様にRendering stepの生成側と回帰側で実体をELBOで一致させている。論文では(S4)のELBOを上記の実体をL個に分割した結果を使って次式で解いている。
ここで
は観測データ群
また上述に示した様に次の定義を使うと論文の(S24)が得られる。
(S14)
(S11)
(S21)
(S24)
上式のELBOは全て多変量正規分布で記述されているので求めるパラメータは平均と分散となる。少なくともは解析的に計算でき、このELBOの最小化は局所解を持たず必ず収束できるはずである。
(2) 感想
変分ベイズの美しい式で初めて実用化に成功したのはKingmaのVAEであった。しかしこのVAEでは簡単な画像を対象とし、回帰と生成画像は同じであったので、変分を混合ガウス分布と置いて距離を解析に解き、回帰側と生成側はCNN型深層学習で近似する方法であった。
しかし2D画像を3Dにする複雑な課題ではを解析的に解けるモデルでは精度に限界があると予想される。そこでGQNではRenderingと称する実体を分割して自己回帰型で逐次精緻化する手法を採ったと思われる。
GQNは今まで変分ベイズでの距離が混合ガウス分布しか適用できなかった限界を始めて超えたもので、VAEの応用を広める手法として画期的な手法として評価できる。
なお松尾研の松島さんの報告[3]では松尾研で開発した状態表現用ライブラリィPixyzを使ってGQNを学部4年生が実装(公開済)したとのことである。
[2][1312.6114] Auto-Encoding Variational Bayes
[3]第32回 強化学習アーキテクチャ勉強会 状態表現学習と世界モデルの最近の研究,および深層生成モデルライブラリPixyzの紹介 #rlarch - Speaker Deck