深層学習で将来予測して最適行動する強化学習の論文を読む

深層学習で将来予測（Nステップ先）を予測して報酬を獲得する強化学習の論文を読む。

　この論文はDQNの一手先のモデルを数手先を読むモデルに拡張したもので、かつ非常に洗練された構造をもつ強化学習である。

倉庫番問題等の数手先の将来予測を必要とする課題はDQNでは解けないものとして有名である。DeepMindでは下記の様なモデルを提案していたがモデルの考え方は非常に複雑で明瞭ではなかった。

　この点本論文の将来予測モデルの構造がDQNのTree展開になっており、直感的て明瞭で発展の可能性がある。

f:id:mabonki0725:20180213062040p:plain

ここで $x$ は観測される状態で $o$ は行動オプションである

左の箱がコアとよばれこの中の近似関数は実際の報酬によってCNNやNNで学習される。

f:id:mabonki0725:20180213062410p:plain

このコアは次のアルゴリズムで再帰的にTree構造で展開される。 f:id:mabonki0725:20180213062646p:plain

この学習はDQNと同じTD法を多段階に拡張したものと見做せる。

損失関数は報酬 $r_t$ と割引率 $\gamma_t$ の $L2$ ノルムとなっている。

　　 $\mathcal{L}_t=\sum^k_i (R_t-v^i_t)^2 + (r_t - r^i_t)^2+(\log_\gamma \gamma_t - log_\gamma \gamma^i_t)^2$

　この論文で重要な知見として、このモデルは課題に依存するモデルベースではなく、DQNと同じモデルフリーとして汎用性があるとしている。

実験：

　次の様な20回移動で最大の報酬（水色）を得る課題でDQNと比較している。下図ではDQNでは５個だが、本論のVPNでは６個報酬を獲得している。

　　 f:id:mabonki0725:20180213063617p:plain

　下記にこの実装プログラムがある。