Atariゲームのマルチタスクをネットワークの選別と重ね合わせで実現する論文を読んでみる

David HaのWorldModelsをマルチタスク化できないかと思ってゼミで相談したところ、転移学習の記事の中に下記のネットワークの重ね合わせでマルチタスクを実現した論文を紹介された。

arxiv.org

この論文にはDavid Haも共著として入っているので先進的な強化学習の論文と考えてよさそうである。

この論文の紹介サイトに転移学習とマルチタスクの区別が説明されているが、共に

　既存の知識を使って後継の問題を効率的に解く

は同じである。

転移学習の本来の定義は

　既存の知識の構造を理解し、異なるドメインに適応する手法

しかし最近ではドメインに関わらず後継の問題を効率化する意味に拡大されて混乱する状態になっている。例えば画像診断の事前学習も転移学習とする事に意義を唱えても反論されてしまう。

一方マルチタスクは

　ソースとターゲットを区別せずに、複数のタスクを同時に学習

即ち転移学習は既存知識の援用、マルチタスクはタスク間の共通知識の援用で効率化する違いがあると考えてよさそうである。

・モデル

本論文は２つのゲームを２段階で学習させ、後段ゲームは前段ゲームの知識を利用するのでソースとターゲットが明確な転移学習と考えられる。

本論分は下図の様に深層学習のユニットを連結したもので、即ち深層ネットをさらにネットワーク化したもので、これをPathNetと称している。

本論文では画像識別と強化学習の転移学習の２つの転移学習の実験を行っていいる。下図は強化学習用のPathNetである。画像識別用のPathNetはOutPutが識別ラベルとなる。

f:id:mabonki0725:20201014053501p:plain

PathNetは深層学習のユニットを４層（下流３層はCNN 最上流は密結合)に配置し、１層は10個の深層学習ユニット(8Kernel)で構成されている。層の中間のユニット(水色)は総和ユニットである。

深層学習のConv2Dユニットは複雑なネットワークと思ったが、下記のGitHubで実装した人のプログラムを見る限り(8,4,3)の単純なCNNであった。

github.com

入力はゲーム画面で出力は汎用型強化学習のA3C(並列型ActorCritic）の方策πと価値Vである。上図ではSourceゲームとTargetゲームが上下に配置されるが、順序としてまずSourceゲームがPathNetで学習され、後にTargetゲームが学習される。

強化学習の初期では64人のエージェントが並列にPathNet上をランダムに走り、64人が異なる状態の画面を遷移しながら各CNNも画面の学習を行う。そしてよい報酬が得られたのCNNのルートが残るトーナメント形式になっている。

SourceゲームについてPathNetはゲームの10回エピソードについて最大の報酬が得られるルートを選別し、既存の選別されたルートに重ねあわす事を繰返す。この過程を繰返すことで有意なルートが徐々に収束される。次にTargetゲームが同様な手続きでルート選別され、ルートが重ね合わされる、この場合最初のSourceゲームで収束したルートは常に選別された状態になっている。即ち忘却できない様になっている。この過程を示したのが下図である。

・実験

下図では最初にPongゲームが64人のエージェントでランダムに探索するので、最初の図１では最初はランダムなルートが形成されるが、徐々に図４の水色のルートに収束する。次にTargetのAlienゲームが学習され図9ではルートが収束している。重要な事は最初のゲームのルートは常に選別ルートに残っており、この事がTargetのAlienゲームの初期の学習を容易にしていると思われる。

f:id:mabonki0725:20201007200912p:plain

・考察

　このPathNetの特異な点は、64人のエージェントが独立に走り回ることで、効率のよい画面推移の探索とこの画面認識のCNNの学習が報酬によってトーナメントで評価されながら選別されることである。また一見複雑な仕掛けだが、上記の実装プログラムを見る限り簡潔なプログラムで実装されており優位なモデルと評価できる。転移学習の面でも２番目のゲームの初期効率がいいのは１番目のルートが残っているからと考えられる。しかしこのモデルには忘却がないので、デメリットとして２番目のゲームの学習の障害になっている可能性があり、これが評価できていない。しかし人間のマルチな学習として遺伝的な選択手法で成果を出した点では評価できる。