夢で学習する強化学習モデルの論文を読む

この論文のタイトルは「world Model」で世界認識と訳せばよい分らないが、大げさなタイトルに適った素晴らしい内容である。

著者は日本では有名なDavid Haであるが、著者の一人はLSTMの開発者の一人でシュミットフーバー等(Schmidhuber)である。この人物は汎用人工知能を目指しているだけに論文の内容はこれに迫るものと思える。

この論文はLSTM+VAE+RLの次の様なモデルを考案している。

　1) Vモデル：画像をVAEで抽象化する。VAEは生成モデル $z$ として多峰ガウシアンを使用

　2) Ｍモデル：生成モデル $z$ をLSTMでメモリ $h$ に保存する

　3) Cモデル：メモリ $h$ と生成モデル $z$ 内容と環境からの報酬で強化学習RLで行動 $a$ を決定

但しCモデルはLSTMの負荷を軽減するため非常に簡単な線形モデルとしている。

$a_t = w_c^T [z_t,h_t] + b_c$ $t$ は時刻

図中の画像はゲームDoomのモンスターが吐く火炎の動画を示している。

　　　　　 f:id:mabonki0725:20180801200133p:plain

上記Ｖ-M-CをLSTMで繋ぐことによって、現実のゲームも学習できるが、さらに次の過程を繰返すことによって仮想現実でのゲーム学習を可能にしている。

　1)未来での状況の予測

　2)未来の状況での行動を予測

　3)さらに行動により次の状況も予測

f:id:mabonki0725:20180801201025p:plain

論文ではこの仮想現実を「夢」として捉えている。

この論文の驚くべき報告はゲームDoomの仮想現実でのゲーム学習により、次を発見したことである。

　夢でのゲームを繰返すと現実でのゲームが旨くなる

f:id:mabonki0725:20180801214928p:plain

論文では仮想現実での訓練が現実に寄与する理由を以下で分析している

1) 現実を簡略化してゲームを学習することができる

　2)現実で有り得ない方策を試せる

例えば、エージェントが宙に浮いたり、モンスターが壁の向こうから現れたりする

3) 敵対的な方策も試せる

　　現実と反対の方策が採りえる。

　　多分VAEの生成モデルが多峰ガウシアンなので反対のイメージが生成できるためと考えられる。

この論文の示唆する所は次の様な、人間の創造性的な訓練の可能性を示したことである。

一般に人間の睡眠は記憶の定着といわれるが、この実験の成果はそれ以上に重要であって、人間の夜間に見る夢は、現実の世界を抽象化し、現実世界で試せないイメージや行動で創造的な方策を生成していて、目が覚めてもそれを記憶しており現実に生かせるか試していると思われる。