深層学習で将来予測(Nステップ先)を予測して報酬を獲得する強化学習の論文を読む。 [1707.03497] Value Prediction Network この論文はDQNの一手先のモデルを数手先を読むモデルに拡張したもので、かつ非常に洗練された構造をもつ強化学習である。 倉庫番…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。