深層強化学習のサーベイ論文を読む

ランニングできず 英語できず

深層強化学習のサーベイ論文を読む

「DeepLearning for Video Game Playing」https://arxiv.org/abs/1708.07902

最近までのPCゲームやテレビゲームを深層学習で解くAI技術について網羅的に解説した論文である。従って深層学習を使っても碁や将棋の様なボードゲームは対象外となっている。

下図の様な殆ど全ての深層強化学習を系統別かつ目的別に解説してあり大変な労作である。もし注目するモデルがあれば、この論文で検索すると以下のことが分る様になっている。

・モデルの概要

・モデルを発表した論文

・考案した動機や対象としたゲーム

・モデル開発が可能なプラットホーム

・継承したモデルと発展先のモデル

下図の様に深層学習としては2013年の偉大なDQNから全てが始まっている。しかしこのDQN前にはSuttonのSarsaモデルやこれを1段のニューロで解いた強化学習があったから出現できたのである。

 

f:id:mabonki0725:20170901200747p:plain

上図の重要な点は色分けの区分である。これはDQNが解けなかった分野を示しており、DQNに様々な工夫を加えた系統図になっている。(同心円は年代を示す)

 

色分け分野の説明を以下に記す(中括弧は開発プラットホーム名)

・茶色:Atariゲーム(報酬が直ぐ得られるゲーム) {ALE}

・橙色:Montezuma's Revenge (報酬が得にくいゲーム)

・黄色:Racingゲーム(運転ゲーム) {TORCS}

・青色:Doom(シューテイングゲーム) {VizDoom}

・緑色:MineCraft  (探検・探索ゲーム){Minecraft}

・紫色:StarCraft(集団対戦型ゲーム){StarCraftⅡ}

・膿灰:2DBillard (物理シュミレーションモデル)

・薄灰:Tex-baseGame(自然言語で指示を与えるゲーム)

f:id:mabonki0725:20170901214713p:plain

下表では上記の分野毎に対象ゲームとその解法モデル名とそのネットワーク構成及び価値関数の算出方法が示されている。(緑枠は本論文での論文参照番号)

f:id:mabonki0725:20170901220319p:plain

自分なりの印象を下記に示す。

・敵対的(Adversarial)モデルが存在しないことが不思議

 Agentが知識を獲得していくには、対戦相手との競争の中で互いを上まわる戦略を

 練ることで知識を拡大していくのが合理的と考えられるが、これだけのサーベイ論文でも

 存在しないのは奇異である。

・最近発表されたEvolutional Approachが、かなり有望視されている。

 これは確率勾配法ではなくノイズを分析して学習する方法の様である。

    「Evolution Strategies as a Scalable Alternative to Reinforcement Learning

      https://arxiv.org/abs/1703.03864

・特徴量選択の検討が少ない

 やはりこの中で最も優秀なモデルはUNREALとしている様である。

 確かにこのモデルには次の様々な深層学習が統合されている。

 ・並列処理(A3C)

 ・仮想出現回数(Pseud Count)

 ・経験メモリー (Reuse Memory)

 ・外部記憶 (External Memory)

 しかし状態を端的に表す特徴量の把握手法がもっと研究されてもよいと考えられる。

・倉庫問題の様な長期計画問題に対するモデル記述が殆どない。

 これはこの問題が直近になって発表される様になったためと考える。