計画と目的を分離して協調する強化学習の論文を読む

暫く発表が続いたので論文が読めず、浦島状態になっている。慌てて論文を読み始める。

マルチエージェント関係の論文が相当優秀なものが紹介される様になり感動すら覚える。その一つとして強化学習の早期学習にカリキュラム開発と目的遂行を分離して学習する論文を読む。

DQNでは「Montezuma's Revenge」が最も解きにくいとされている。これは様々な課題が順番に課せられ、到達すると報酬が得られるものである。

f:id:mabonki0725:20180730181233p:plain

この様なモデルの対策として次の様なものがある。

1) ビデオ録画からゲーム攻略の軌跡を多く集め、軌跡に合うと擬似報酬を与える方式

2) なるべく異なった状況を好む好奇心に擬似報酬を与える方式

3) 画面の解像度を低くして画面の遷移が多い方に報酬を与える方法

この論文は多くの人が解説を書いているが、課題の順番を探査してカリキュラムを探索する担当と実際に報酬を得る担当とに分けるモデルである。

この論文の理屈は、論文の図が一番わかりやすい。

f:id:mabonki0725:20180730180758p:plain

論文には単一エージェントに２つの心があり、これをAliceとBobとしている。

1) 左図 Aliceは課題を順番に探索して様々なカリキュラム(手順)を作成する　(self-play episode)

2)中図BobはAliceの手順を最後から逆に行動してゆき最初に戻る (Reverse)

3)右図Bobは逆順に様々なカリキュラムを覚えているので、最適なカリキュラムを使って報酬(旗)を得る探索をする

擬似報酬は以下としている

$R_A \leftarrow \gamma max(0,t_B - t_A)$ Aliceの擬似報酬

$R_B \leftarrow - r t_A$ Bobの擬似報酬

$t_A$ ：AliceのStep数

$t_B$ ：BobのStep数

Aliceの擬似報酬はBobのStep数に近い方がよく、 Bobの擬似報酬はStep数が近い方がよく設定されている。両方の報酬設定でStep数が少なく AliceとBobの軌跡が似る様にしている。

この1)と2)のアルゴリズムは次で示してある。

f:id:mabonki0725:20180730183116p:plain

f:id:mabonki0725:20180730183437p:plain

これによる効果は下図の緑線で示されている。

f:id:mabonki0725:20180730184822p:plain