深層学習で将来予測して最適行動する強化学習の論文を読む

深層学習で将来予測(Nステップ先)を予測して報酬を獲得する強化学習の論文を読む。

[1707.03497] Value Prediction Network

 この論文はDQNの一手先のモデルを数手先を読むモデルに拡張したもので、かつ非常に洗練された構造をもつ強化学習である。

倉庫番問題等の数手先の将来予測を必要とする課題はDQNでは解けないものとして有名である。DeepMindでは下記の様なモデルを提案していたがモデルの考え方は非常に複雑で明瞭ではなかった。

DeepMindのI2Aモデルの倉庫番ゲームの論文を読む - mabonki0725の日記

 この点本論文の将来予測モデルの構造がDQNのTree展開になっており、直感的て明瞭で発展の可能性がある。

f:id:mabonki0725:20180213062040p:plain

   ここでxは観測される状態でoは行動オプションである

左の箱がコアとよばれこの中の近似関数は実際の報酬によってCNNやNNで学習される。

f:id:mabonki0725:20180213062410p:plain

このコアは次のアルゴリズム再帰的にTree構造で展開される。f:id:mabonki0725:20180213062646p:plain

この学習はDQNと同じTD法を多段階に拡張したものと見做せる。

損失関数は報酬r_tと割引率\gamma_tL2ノルムとなっている。

  \mathcal{L}_t=\sum^k_i (R_t-v^i_t)^2 + (r_t - r^i_t)^2+(\log_\gamma \gamma_t - log_\gamma \gamma^i_t)^2

 この論文で重要な知見として、このモデルは課題に依存するモデルベースではなく、DQNと同じモデルフリーとして汎用性があるとしている。

 

実験:

 次の様な20回移動で最大の報酬(水色)を得る課題でDQNと比較している。下図ではDQNでは5個だが、本論のVPNでは6個報酬を獲得している。

  f:id:mabonki0725:20180213063617p:plain

 

 下記にこの実装プログラムがある。

https://github.com/junhyukoh/value-prediction-network