Berkeley学派のメタ学習の論文を読む

強化学習でのメタ学習の概念が理解できず、OpenAIサイトのリストにあったAbbeel率いるBerkeley学派の論文(以下RL^2)を読んでみる。

[1611.02779] RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning

(1) RL^2モデル

この論文は下図の様にAgentに系列を保持する隠れ構造h_0 \sim h_nを想定して、エピソード間での学習スピードの改善を評価した論文である。ここでいうエピソードとはゴールに達するまでの行動で、複数のエピソードの繰返しを試行(trial)とし、trial毎に隠れ構造はリセットされる。Agentには学習した系列が残っているので、下図の様に次のエピソードを繰返すと当然学習が早くなってくる。それ故こ論文のタイトルは「RL^2:Fast Reinforcemnt Larning via Slow Reinforcemnet Learning」としてある。系列を保持する隠れ構造はGPU(Gated Processing Unit)を使っている。

f:id:mabonki0725:20190103120628p:plain

エージェントに内部構造を仮定したモデル

しかし一般にメタ学習とは、人間の様に同様だが異なるTask(課題)にも素早く適用できる様な学習を意味するが、この論文のメタ学習では同じ課題での漸次的(asymptonic)な改善を意味している。

上図では分らないがデータの流れは以下となっている。

  s_t状態→embeding(特徴ベクトル)→系列の隠れ変数h_t→TRPO→a_t行動→s_{t+1}次の状態

強化学習を解くモデルはTRPO(Trast Region Policy Optimizetion)を使っている。ゲームで一般的なActor-Criticを使わず実ロボット用のTRPOを使うのは、TRPOがBerkeley学派のオリジナルだからと考えられる。

 

(2)RL^2の実験

 実験では多腕Bandit問題で学習の効率を示し、高次元での課題として3D迷路を解いている。

 実験①多腕Bandit問題

  ここでは多腕Bandit問題を解く有名な次のモデルと比較している。

    Gitten:ベイズによる最適化

    TS:Thomsonサンプリング

    UCB1 :Upper-Confident Boundモデル

    Greedy:経験的に一番当たるスロットマシンを引き続ける。

      \epsilon-Greedy:Greedy戦略だが確率\epsilonでランダムに引く

  下表でkはスロットマシンの数 nはエピソードの数  

f:id:mabonki0725:20190103134633p:plain

多腕Banditの報酬比較

 上表では RL^2モデルがGittensと殆ど同じ高い性能を示していることがわかるが、下図では最もエピソードが多い場合でも、Gittenとの差が明瞭に示されRL^2モデルの限界が示されている。 

f:id:mabonki0725:20190103135258p:plain

エピソードが最大時の学習曲線

  実験②3D迷路探索
       高次元の3D画像迷路での探索問題を解いている。この3D迷路は有名なFirst-Person-ShootingゲームのViZoomでの強化学習用のプラットホームを使って迷路を生成している。論文では下図の様に2種類(SmallとLarge)の迷路での宝の獲得を課題として、各々ランダムに1000個の迷路を生成してRL^2を訓練したとある。

f:id:mabonki0725:20190103140637p:plain

  以下は2つの迷路での上位5つでの結果である。左は探索経路長、中央は宝の獲得率、左はエピソードの1番目と2番目の探査経路の短縮率である。

f:id:mabonki0725:20190103141325p:plain

   上表ではエピソード毎に性能が改善され一見妥当な結果が得られているが、論文では次の2つの問題が報告されている。

  下図はRL^2の学習曲線であるが、初期値によっては全く学習ができていないことが分る。

      f:id:mabonki0725:20190103141855p:plain

これは強化学習ではよく散見される課題で、下記の記事の様に初期パラメータの設定には辛抱強く取り組む事が必要なことを示している。

Googleロボットチームの強化学習のサーベイ記事を読む - mabonki0725の日記

 

  次の問題はRL^2GPUによる系列の記憶によって連続するエピソードでは改善を示すことであったが、以下の様に左の2つの連続エピソードでは記憶を使って近道をしているが、左の2つは遠回りしている現象が見られるとのことである。論文ではRL^2にこの様な現象を回避する特有のロジックが必要としている。

f:id:mabonki0725:20190103142938p:plain

(3) 感想

 1)最近は曖昧になったがBerkeley学派は実世界でのロボットでの開発を目指していて、DeepMindでは碁を含むゲームを通じての仮想世界でのシンギュラリティを目指していている。そのためかBerkeley学派の論文は非常に数理的に明解で実直に述べられている場合が多く信頼感がある。

 2) 現在は強化学習の入力に系列を反映した隠れ変数を適用するのが当然になっていているが、2016年に発表されたRL^2は系列記憶の有効性を示した初期の論文と思われる。しかしLSTMやGPUは系列的な教師データに対してのゲート開閉の重みを調整するものなので、メタ知識として人間が類似するが異なる課題に適用し早期に学習するには簡便すぎると思われる。その点DeepMindUNREALでは系列記憶以外に様々な記憶を有効に組合わせて複雑な3D迷路を解くことには成功しているが、メタ知識としてのモデル化までは意識されていなく残念である。UNREALの様なモデルでRL^2のフレームで同じTASKでなく少しつづ異なったTASKで学習速度の改善が実現できればメタ学習として評価できるかもしれない。

DeepMindのUNREALでの暗黙の特徴量 - mabonki0725の日記