DeepMindの行動選択の論文を纏める

テニス２時間　英語30分 Toeic

(1) DeepMindの行動選択に模擬の選択を入れた論文「learning model-based plannning from scratch」を一応読了する。

この模擬モデルは既にAlpha碁のRLモデルで早碁モデルとして採用されていたので、今さらと思えるが、不確定な状況によって行動するか模擬するかの選択をする所は新しい。人間が状況によって本能的に動くか、考えてから動くかのモデルと看做すと分り易い。

このモデルは明示的なロス（燃料、母船からの距離）と暗示的なロス（模擬の連続回数）の合計を最小にする学習を各々RLとMLPとINとLSTMで行っている。

行動か模擬かの選択：RL

行動模擬ツリー評価：IN(Interaction network)

次の行動選択：MLP(Multi-layer perceptron)

行動模擬の記憶のエンコード：LSTM

このモデルには３モデルがあり、１ステップの行動模擬、ｎステップの行動模擬、行動模擬選択の総合評価ツリーがある。SpaceShipの実験から深く総合的に模擬した方がロスは少ない結果となっている。

f:id:mabonki0725:20170724105024p:plain

また行動選択ツリーも複雑な分岐の方がロスが少ないことも示されている。

f:id:mabonki0725:20170724105426p:plain

SpaceShipと簡単な迷路で実験をしており、論文の指摘通りもう少し複雑な状況設定での実験が望まれる。この後続のModel-Freeの論文「Imagination-Augment Agents for Deep Reinforcement Learning」が楽しみである。