計画と目的を分離して協調する強化学習の論文を読む

暫く発表が続いたので論文が読めず、浦島状態になっている。慌てて論文を読み始める。

マルチエージェント関係の論文が相当優秀なものが紹介される様になり感動すら覚える。その一つとして強化学習の早期学習にカリキュラム開発と目的遂行を分離して学習する論文を読む。

[1703.05407] Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

DQNでは「Montezuma's Revenge」が最も解きにくいとされている。これは様々な課題が順番に課せられ、到達すると報酬が得られるものである。

f:id:mabonki0725:20180730181233p:plain

この様なモデルの対策として次の様なものがある。

1) ビデオ録画からゲーム攻略の軌跡を多く集め、軌跡に合うと擬似報酬を与える方式

[1805.11592] Playing hard exploration games by watching YouTube

2) なるべく異なった状況を好む好奇心に擬似報酬を与える方式

https://pathak22.github.io/noreward-rl/resources/icml17.pdf

 

3) 画面の解像度を低くして画面の遷移が多い方に報酬を与える方法

[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation

 

この論文は多くの人が解説を書いているが、課題の順番を探査してカリキュラムを探索する担当と実際に報酬を得る担当とに分けるモデルである。

この論文の理屈は、論文の図が一番わかりやすい。

f:id:mabonki0725:20180730180758p:plain

論文には単一エージェントに2つの心があり、これをAliceとBobとしている。

1) 左図 Aliceは課題を順番に探索して様々なカリキュラム(手順)を作成する (self-play episode)

2)中図BobはAliceの手順を最後から逆に行動してゆき最初に戻る (Reverse)

3)右図Bobは逆順に様々なカリキュラムを覚えているので、最適なカリキュラムを使って報酬(旗)を得る探索をする

擬似報酬は以下としている

   R_A \leftarrow \gamma max(0,t_B - t_A)  Aliceの擬似報酬

   R_B \leftarrow  - r t_A Bobの擬似報酬

   t_A:AliceのStep数

   t_B:BobのStep数

  Aliceの擬似報酬はBobのStep数に近い方がよく、  Bobの擬似報酬はStep数が近い方がよく設定されている。両方の報酬設定でStep数が少なく AliceとBobの軌跡が似る様にしている。

 

この1)と2)のアルゴリズムは次で示してある。

f:id:mabonki0725:20180730183116p:plain

3)のアルゴリズム

f:id:mabonki0725:20180730183437p:plain

これによる効果は下図の緑線で示されている。

f:id:mabonki0725:20180730184822p:plain