DeepMindのI2Aモデルの倉庫番ゲームの論文を読む

ランニング30分 英語できず

(1) 学校の研修用に以前書いたOpenPoseの論文資料からアルゴリズムを1枚に纏める

Open posedoc

f:id:mabonki0725:20170727081558p:plain

(2) DeepMindの行動計画の論文「Imagination-Augmented Agents for Deep

Reinforcement Learning」(I2A)を引き続き読む。

このモデルの実験はSokoban(倉庫番)で指定のセルに荷物を押すだけで収納するゲームであるが、通路を荷物で塞いでしまうとデットロックになって失敗する。そのため前もって模擬が必要なモデルとなっている。

下記の場面は、I2Aが右側にある模擬の候補を生成して、最適な戦略を選択(最下段)している場面である。この様な事が可能なのは、このモデルがBellman方程式を模した多段階のCNNモデル(Enviroment Model)を複数生成しているからである。I2Aはこの多段階の結果をLSTMでエンコードしてModel-Basedとし

Model-Freeと統合したモデルとしている。Model-FreeはGameの内容に依存せず画面から直接学習するDQNを並列化したA3Cのモデルである。このモデルによって安定化が図られている。

f:id:mabonki0725:20170727123301p:plain