DeepMindの倉庫番ゲームの論文を纏める
ランニングできず 英語:Toeic
(1) DeepMindの倉庫番ゲームの論文「Imagination-Augmented Agent s for Deep Reiforcement Learning」がやっと読了した。難航した理由は以下である。
・重要な単語の意味の取り間違え
(Augmented →Argmented rollout→rollover unroll →unrole)
・model-freeについて記述が少ない
・同時期の論文「Learning model-based planning for scratch」との強い相関想定
やはり意味が取れない場合は丁寧に読む必要があることを学んだ。
凡その概要は掴んだと考える。
倉庫番の様なゲームでは、計画や方策が無いと荷物が通路を塞ぎ解けなくなる。この様なゲームのモデルでは計画を推定するのが必要である。
この論文のモデルはI2A(Imaginateion Augmented Agents)と云い、所謂DQNの拡張版であるA3Cの画面の特徴量から深層強化学習であるModel-freeに将来状況を予測するModel-basedでアシストするものである。Model-basedは将来の3から5先を予測するだけのImparfect Model(不完全モデル)であるが、これを補助としてModel-freeで解くと精度が向上するとの内容である。
問題は次の状況と報酬の予測ICモデルの構築であるが、これはModel-free(画面の深層RL)を使って多数データを生成しCNNによる逆強化学習(負の対数尤度)で方策を学習させている