画像から実体の推移を予測して学習する論文を読んでみる
プラトンのイデア論では「本当にこの世に実在するのはイデアであって、我々が肉体的に感覚している対象や世界とはあくまでイデアの《似像》にすぎない」[1]としている。例えば3D迷路の場合、迷路内の自己位置が実体で、壁に囲まれた通路の視野が似像(画像)とするとプラトンのイデア論そのものである。3D迷路内を効率的に探査するため、画像から実体を推定し、その遷移予測から画像を復元する論文(以下TD_VAE)を読んでみる。
[1806.03107] Temporal Difference Variational Auto-Encoder
(1)モデル
(a)潜在空間モデル
3D迷路の自己位置が時系列で移動するとして、実体がと変動するに応じて観察も変化する潜在空間モデルを考える。
ここで実体の推移確率を全観察から推定するEncoderを導入する。
(0)
ここで は 全観察上の関数である。
また実体と観察の同時分布は尤度と推移確率を使かうと次となる。
この対数表現は
上式の実体での期待値は
の代わりにを使うため(0)式のEncoderを使うと次の下位限界が得られる。
(1)
ここで中括弧内の(0)式の近似が一致する場合、両辺が一致することがわかる。
(b)ELBO(Evidence Lower Band Optimizer)モデル
(1)式で過去の観察に依存し、2回のの両方がに依存すると(3)式に変形できる。
を使って
(3)
さらに以下の事実を使うと(4)式で示せる。
はのみ依存
実体遷移ではは無関係
Bayes公式
(4)
ここで記憶の概念をRNNで導入する。即ち時点までの観測を使う代わりに過去の記憶を反映できるRNNモデルとすると便利である。RNNを使ってをとすると(4)式を変形して次のELBOの損失関数が定義できる。
(5)
但し
負の対数尤度
(c)TD_VAE Jumpyモデル
ある目的を達成する場合は道標(マイルストーン)を設定して進む場合が多い。目的を達成する強化学習でも例外でなく逐次的処理を効率化できる。されに道標を設けることにより、道標間の上位モデルと道標内の下位モデルで階層モデルを導入できる。TD_VAEでは2階層のRNN構造階層モデルを構築している(論文図8参照)。そこでTD_VAEではステップ間でのELBOモデルに変換している。
(6)
(2) TD_VAEのアルゴリズム
アルゴリズムでは下記の(a)と(b)は同じ実体を示しており、Encoderと実体の推定確率とが同じになる様(下図ではSmoothing)に距離最小化を損失関数に挿入している。
(6)式TD-VAEの損失関数とアルゴリズムの損失関数の対応を以下に示す。
(a)
(b)
(c)
(d)
(e)
論文では上記のアルゴリズムの手順を下図の①から⑧に示している。
以下の ①から⑧を繰返して損失関数を改善してEncoderとDecoderのパラメータを改善する。
十分改善した時、Encoderで画像を再生し強化学習より次の道標に進む。
①RNNと観察よりを生成
②次の道標を選択
③RNNのより(d)式で次の実体を予測
④(d)式により実体を予測
⑤(b)式のEncoderと(a)式のDecoderとのを計算
⑥次の予測実体を使ってEncoderを計算
⑦予測された実体をEncodeして観察を生成
⑧損失関数を最小化するためとのパラメータを最適化
(3) 実験
DeepMind-Labの3D迷路では2種類の実験を行っている。
(a) [1 ~40]をランダムの時点についてRNNで記憶をさせて、適当に3つの記憶から実体の推移5回予測してDecodeした画像を指名している。下図では異なった場面で連続した画像が得られていることが分る。
(b) TD-VAEで迷路探索を行った結果では、下図の4種類の画面遷移では全て前に進み通路に向かおうとしている事がわかる。これは実体を予測してDecodeした画像により強化学習を行っている事を示している。
(4) 感想
(a)残念な事にTD-VAEでは(6)式の損失関数のみ定義されているだけで、次の分布の、詳細な記述が無い。KingmaのVAE[2]ではは混合正規分布でしか収束が保障されないはずである(最近この拡張論文を知った[3])。報告されているアルゴリズムで正しい収束ができているか不安である。ELBOの収束の問題は[4]に詳しい。
実態の分布 (普通は正規分布)
変分Encoder (普通は混合正規分布 数千次元)
記憶呼出
(b)TD-VAEではJumpy(飛ばし)な時系列を導入して、効率的な実体の予測をしているが実験ではランダムに時系列をサンプリングしているに過ぎない。論文の4.3節では価値関数やに対してを探索すべきとある。また一方で記憶ととの訓練で得られるとあるが、具体的な方法が述べられていない。
(c)3D迷路図でDecoderされた画像は相当粗いものらしく拡大しても精度が良くない。これではUNREAL[5]の様な迷路を解くモデルが適用できるか不明である。
(d)TD-VAEは画像予測にVAEを使ったもので、強化学習はその予測を使うだけになっているが、Jumpyな画面遷移を予測できることからSuttonのoption等を導入できれば階層型強化学習として有望だと思われる。
[1] イデア論 - Wikipedia
[2][1312.6114] Auto-Encoding Variational Bayes
[3][1808.10805] Spherical Latent Spaces for Stable Variational Autoencoders
[4][1706.02262] InfoVAE: Information Maximizing Variational Autoencoders
[5] DeepMindのUNREALでの暗黙の特徴量 - mabonki0725の日記