DeepMindのI2Aモデルの倉庫番ゲームの論文を読む
ランニング30分 英語できず
(1) 学校の研修用に以前書いたOpenPoseの論文資料からアルゴリズムを1枚に纏める
(2) DeepMindの行動計画の論文「Imagination-Augmented Agents for Deep
Reinforcement Learning」(I2A)を引き続き読む。
このモデルの実験はSokoban(倉庫番)で指定のセルに荷物を押すだけで収納するゲームであるが、通路を荷物で塞いでしまうとデットロックになって失敗する。そのため前もって模擬が必要なモデルとなっている。
下記の場面は、I2Aが右側にある模擬の候補を生成して、最適な戦略を選択(最下段)している場面である。この様な事が可能なのは、このモデルがBellman方程式を模した多段階のCNNモデル(Enviroment Model)を複数生成しているからである。I2Aはこの多段階の結果をLSTMでエンコードしてModel-Basedとし
Model-Freeと統合したモデルとしている。Model-FreeはGameの内容に依存せず画面から直接学習するDQNを並列化したA3Cのモデルである。このモデルによって安定化が図られている。