DeepMindの行動計画の論文を読む

ランニングできず　英語20分 Toeic問題

(1) DeepMindの７月に投稿された４本目の論文　「Learning Model-Based Planning from scrach」を読む。これはModel-basedの問題解決のため計画をするLSTMモデルである。同時に出された「Imagenation-Augumented Agents for Deep Reinforcemennt Learning」はModel-free版と思われる。

[1707.06170] Learning model-based planning from scratch

まだ読了していないが、これまでの行動の結果やこれからの模擬（ここではImaginationと言っている）の結果を外部記憶に入れる。外部記憶と報酬予測とをLSTMに入れ、すぐ行動するか模擬を持続するか判断するモデルである。

実験として、下記にあるDeepMindのデータベースにあるSpaceShip taskと云うゲームで中央に母船があり、ここに帰還する最小コストのミッションを行っている。途中に星があり引力や噴射のノイズで思った所に移動できない。これを行動と模擬予測とで最適な行動を行う。

赤：実際に移動した軌跡　青：実際の奇跡からの模擬予測　緑：模擬予測の次の予測

右端は経路のグラフ

f:id:mabonki0725:20170723224605p:plain