Berkeley学派のメタ学習の論文を読む

強化学習でのメタ学習の概念が理解できず、OpenAIサイトのリストにあったAbbeel率いるBerkeley学派の論文(以下 $RL^2$ )を読んでみる。

[1611.02779] RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning

(1) $RL^2$ モデル

この論文は下図の様にAgentに系列を保持する隠れ構造 $h_0 \sim h_n$ を想定して、エピソード間での学習スピードの改善を評価した論文である。ここでいうエピソードとはゴールに達するまでの行動で、複数のエピソードの繰返しを試行(trial)とし、trial毎に隠れ構造はリセットされる。Agentには学習した系列が残っているので、下図の様に次のエピソードを繰返すと当然学習が早くなってくる。それ故こ論文のタイトルは「 $RL^2$ :Fast Reinforcemnt Larning via Slow Reinforcemnet Learning」としてある。系列を保持する隠れ構造はGPU(Gated Processing Unit)を使っている。

f:id:mabonki0725:20190103120628p:plain — エージェントに内部構造を仮定したモデル

しかし一般にメタ学習とは、人間の様に同様だが異なるTask(課題)にも素早く適用できる様な学習を意味するが、この論文のメタ学習では同じ課題での漸次的(asymptonic)な改善を意味している。

上図では分らないがデータの流れは以下となっている。

　　 $s_t$ 状態→embeding(特徴ベクトル)→系列の隠れ変数 $h_t$ →TRPO→ $a_t$ 行動→ $s_{t+1}$ 次の状態

強化学習を解くモデルはTRPO(Trast Region Policy Optimizetion)を使っている。ゲームで一般的なActor-Criticを使わず実ロボット用のTRPOを使うのは、TRPOがBerkeley学派のオリジナルだからと考えられる。

(2) $RL^2$ の実験

　実験では多腕Bandit問題で学習の効率を示し、高次元での課題として3D迷路を解いている。

　実験①多腕Bandit問題

　　ここでは多腕Bandit問題を解く有名な次のモデルと比較している。

　　　　Gitten:ベイズによる最適化

　　　　TS：Thomsonサンプリング

　　　　UCB１：Upper-Confident Boundモデル

　　　　Greedy：経験的に一番当たるスロットマシンを引き続ける。

　　　 $\epsilon$ -Greedy：Greedy戦略だが確率 $\epsilon$ でランダムに引く

　　下表で $k$ はスロットマシンの数　 $n$ はエピソードの数　　

f:id:mabonki0725:20190103134633p:plain — 多腕Banditの報酬比較

上表では $RL^2$ モデルがGittensと殆ど同じ高い性能を示していることがわかるが、下図では最もエピソードが多い場合でも、Gittenとの差が明瞭に示され $RL^2$ モデルの限界が示されている。

f:id:mabonki0725:20190103135258p:plain — エピソードが最大時の学習曲線

　　実験②３D迷路探索
　　高次元の３D画像迷路での探索問題を解いている。この３D迷路は有名なFirst-Person-ShootingゲームのViZoomでの強化学習用のプラットホームを使って迷路を生成している。論文では下図の様に２種類（SmallとLarge)の迷路での宝の獲得を課題として、各々ランダムに1000個の迷路を生成して $RL^2$ を訓練したとある。

f:id:mabonki0725:20190103140637p:plain

　　以下は２つの迷路での上位５つでの結果である。左は探索経路長、中央は宝の獲得率、左はエピソードの１番目と２番目の探査経路の短縮率である。

f:id:mabonki0725:20190103141325p:plain

　　上表ではエピソード毎に性能が改善され一見妥当な結果が得られているが、論文では次の２つの問題が報告されている。

　　下図は $RL^2$ の学習曲線であるが、初期値によっては全く学習ができていないことが分る。

　　　　　　 f:id:mabonki0725:20190103141855p:plain

これは強化学習ではよく散見される課題で、下記の記事の様に初期パラメータの設定には辛抱強く取り組む事が必要なことを示している。

Googleロボットチームの強化学習のサーベイ記事を読む - mabonki0725の日記

　　次の問題は $RL^2$ はGPUによる系列の記憶によって連続するエピソードでは改善を示すことであったが、以下の様に左の２つの連続エピソードでは記憶を使って近道をしているが、左の２つは遠回りしている現象が見られるとのことである。論文では $RL^2$ にこの様な現象を回避する特有のロジックが必要としている。

f:id:mabonki0725:20190103142938p:plain

(3) 感想

　1)最近は曖昧になったがBerkeley学派は実世界でのロボットでの開発を目指していて、DeepMindでは碁を含むゲームを通じての仮想世界でのシンギュラリティを目指していている。そのためかBerkeley学派の論文は非常に数理的に明解で実直に述べられている場合が多く信頼感がある。

　2) 現在は強化学習の入力に系列を反映した隠れ変数を適用するのが当然になっていているが、2016年に発表された $RL^2$ は系列記憶の有効性を示した初期の論文と思われる。しかしLSTMやGPUは系列的な教師データに対してのゲート開閉の重みを調整するものなので、メタ知識として人間が類似するが異なる課題に適用し早期に学習するには簡便すぎると思われる。その点DeepMindのUNREALでは系列記憶以外に様々な記憶を有効に組合わせて複雑な３D迷路を解くことには成功しているが、メタ知識としてのモデル化までは意識されていなく残念である。UNREALの様なモデルで $RL^2$ のフレームで同じTASKでなく少しつづ異なったTASKで学習速度の改善が実現できればメタ学習として評価できるかもしれない。

DeepMindのUNREALでの暗黙の特徴量 - mabonki0725の日記