DeepMindの行動計画の論文を読む

ランニングできず 英語20分 Toeic問題

(1) DeepMindの7月に投稿された4本目の論文 「Learning Model-Based Planning from scrach」を読む。これはModel-basedの問題解決のため計画をするLSTMモデルである。同時に出された「Imagenation-Augumented Agents for Deep Reinforcemennt Learning」はModel-free版と思われる。

[1707.06170] Learning model-based planning from scratch

まだ読了していないが、これまでの行動の結果やこれからの模擬(ここではImaginationと言っている)の結果を外部記憶に入れる。外部記憶と報酬予測とをLSTMに入れ、すぐ行動するか模擬を持続するか判断するモデルである。

実験として、下記にあるDeepMindのデータベースにあるSpaceShip taskと云うゲームで中央に母船があり、ここに帰還する最小コストのミッションを行っている。途中に星があり引力や噴射のノイズで思った所に移動できない。これを行動と模擬予測とで最適な行動を行う。

赤:実際に移動した軌跡 青:実際の奇跡からの模擬予測 緑:模擬予測の次の予測

右端は経路のグラフ

f:id:mabonki0725:20170723224605p:plain