DeepMindの倉庫番ゲームの論文を纏める

ランニングできず 英語:Toeic

(1) DeepMindの倉庫番ゲームの論文「Imagination-Augmented Agent s for Deep Reiforcement Learning」がやっと読了した。難航した理由は以下である。

 ・重要な単語の意味の取り間違え

  (Augmented →Argmented  rollout→rollover  unroll →unrole)

 ・model-freeについて記述が少ない

 ・同時期の論文「Learning model-based planning for scratch」との強い相関想定

やはり意味が取れない場合は丁寧に読む必要があることを学んだ。

凡その概要は掴んだと考える。

倉庫番の様なゲームでは、計画や方策が無いと荷物が通路を塞ぎ解けなくなる。この様なゲームのモデルでは計画を推定するのが必要である。

f:id:mabonki0725:20170728110622p:plain

この論文のモデルはI2A(Imaginateion Augmented Agents)と云い、所謂DQNの拡張版であるA3Cの画面の特徴量から深層強化学習であるModel-freeに将来状況を予測するModel-basedでアシストするものである。Model-basedは将来の3から5先を予測するだけのImparfect Model(不完全モデル)であるが、これを補助としてModel-freeで解くと精度が向上するとの内容である。

f:id:mabonki0725:20170728112336p:plain

問題は次の状況と報酬の予測ICモデルの構築であるが、これはModel-free(画面の深層RL)を使って多数データを生成しCNNによる逆強化学習(負の対数尤度)で方策{\pi}を学習させている

f:id:mabonki0725:20170728121209p:plain