DeepMindのI2Aモデルの倉庫番ゲームの論文を読む

ランニング30分　英語できず

(1) 学校の研修用に以前書いたOpenPoseの論文資料からアルゴリズムを１枚に纏める

f:id:mabonki0725:20170727081558p:plain

(2) DeepMindの行動計画の論文「Imagination-Augmented Agents for Deep

このモデルの実験はSokoban（倉庫番）で指定のセルに荷物を押すだけで収納するゲームであるが、通路を荷物で塞いでしまうとデットロックになって失敗する。そのため前もって模擬が必要なモデルとなっている。

下記の場面は、I2Aが右側にある模擬の候補を生成して、最適な戦略を選択（最下段）している場面である。この様な事が可能なのは、このモデルがBellman方程式を模した多段階のCNNモデル（Enviroment Model)を複数生成しているからである。I2Aはこの多段階の結果をLSTMでエンコードしてModel-Basedとし

Model-Freeと統合したモデルとしている。Model-FreeはGameの内容に依存せず画面から直接学習するDQNを並列化したA3Cのモデルである。このモデルによって安定化が図られている。

f:id:mabonki0725:20170727123301p:plain