深層時系列を使った強化学習での汎用化の論文を読む

OpenAIのサイトで深層強化学習の主要論文(Keyword Papers)のリストが下記にある。

Key Papers in Deep RL — Spinning Up documentation

この中で転移学習とメタ学習は学習効率に関して人間の高度な学習能力からアイデアを得ることが多いのでどうしても関心が沸く。最近ではメタ学習の論文が注目されている様な気がするので。そこで下記の論文を読んでみた。

arxiv.org

この論文は一昨年のNIPSで有名になったLSTMによる汎用的な漸次的最適化の論文「Learning to Learn using Gradient descent」を強化学習に拡張したものである。この論文については以下の記事がある。

深層時系列を使った汎用的な最適化の論文を読む - mabonki0725の日記

本題のLearing to RL learning(以下Meta-RL)は上記の論文を読んでいないと殆ど理解できないと思われる。何故ならMeta-RLの中核ロジックは殆どLSTMによる最適解の汎用化(以下Learning to Learn)を前提にしているからである。

Meta-RLはMeta学習と標榜しているが、記述を見る限り「全く異なった課題でも同じ考え方で解けるという」意味で使っていて殆ど汎用化の意味に近い。Learning to Learnの論文でも殆どMeta学習とは言っておらずむしろ転移学習に近いと言っている。

 

(2) Meta-RLのモデル

 まずLearng to Learnからの拡張の対応関係を示す

       Learning to Learn                                    Meta-RL

   ・目的 関数の最適化のパラメータ探索  報酬最大化するパラメータ探索

   ・利点 最適化対象の関数に依存しない  Model-BaseでなくModel-Free

 ・過程 パラメータの勾配の収束過程      MDP過程

 ・方法 パラメータの勾配改善      A3Cでの方策とQ関数のパラメータ改善

 ・次元 パラメータ次元 一万次元    画像によるゲームでは高次元

この様に関数の最適化の探索がMeta-RLでは報酬最大化に該当し、パラメータの改善がMeta-RLでは方策と価値関数の両方のパラメータの改善に対応しているだけで殆ど同じ構造をしていることが分る。従って下図の様にMeta-RLは強化学習の改善過程でLearning to Learnを組み込んで使っている。

・Learning to Learnのモデル図 

f:id:mabonki0725:20190101104434p:plain

 ・Meta-RL

 何れも図中の回転マークは上図のLearning to LearnのOptimizerとOptimizeeの改善過程を表し、最適化対象関数fはここでは  \pi方策(actor)とV関数(clitic)の両方に対応しパラメータを改善している。 

f:id:mabonki0725:20190102091443p:plain

Meta-RL実験で使用するモデル構造

  (a) 実験にあるバンディット問題の構造図

  (b)画像認識による報酬ゲームの構造図 ここでencは画像のエンコードを示す。

  (c)簡単な迷路探索で課題で構造図ではLearning to Learnを2段にしている。

 

 (2) Meta-RLの実験

 Learning to Learnの汎用最適化の記事にも述べたが、これはパラメータの変更過程をLSTMするだけで高次元の問題でも良い性能が得られる。しかしその根拠が不明なため実験を豊富に示していた。同様の理由でMeta-RLも実験を7種類で行い、何れも良い性能を示しているが根拠を示せてはいない。

実験①独立 Bandit問題 

 各々独立して異なる確率で当たるスロットマシンを引いて、最小の後悔Regretで済む(逆にいうと最大の成果を得る)学習を行う。ここでは学習結果の指標を次のRegretで得る。

  R_T(b) = \sum_{t=1}^T \mu^*(b) - \mu_{a_t}(b)

     ここで

  \mu^*(b)は環境bでの最も当たるスロットマシンでの報酬

       \mu_{a_t}(b)は試行回数t回目でスロットマシンaを引いた場合の報酬

  R_T(b)T回の試行で理想報酬との差で「後悔」を表す量

 この問題は一般には試行毎の結果からベイズよる事後分布を改善するモデルで解かれる場合が多いが、Meta-RLの学習では試行を繰返しても後悔が(Regret)が増えず一定になる傾向(即ちコンスタントな報酬を獲得)を示している。比較モデルとして以下と比較しておりGittinsモデルと同等な性能が得られMeta-RLの性能が高いことが分る。

      Gittins:ベイズによるモデル

   Thompson:非同期最適化モデル

   UCB:後悔最小化モデル

f:id:mabonki0725:20190101174125p:plain

独立Bandit問題の結果

実験② 当たる確率が相互に依存し合うBandit問題

  2台のスロットマシンがあり一方が確率p_1で当たればもう一方はp_2=1-p_1とする。

 ここでは2種類の実験をしている。

 ②-1実験  一方の確率p_1が一様乱数の場合の実験

  ここでは一方の当たる確率が低ければ、一方は高い確率なので異なるスロットマシンを引くことを学習することになる。Meta-RLでは次の結果が得られ、①の独立Bandit問題より少ないRegretを達成していることが分る。

   

f:id:mabonki0725:20190101175932p:plain

相互に依存したBandit問題(一方が一様乱数)

   ②-2実験  訓練時と試行時で当たる確率の一様分布が異なる場合

   訓練時の一方の当たる確率p_1の一様分布が[0.1~0.9]の範囲だが、試行時のp_1の一様分布が[0.4 ~ 0.6]の場合。この場合は試行時のp_1の確率が狭くなっているので学習が難しくなりRegretは大きい(図e)。また反対に訓練時のp_1の一様分布が[0.25 ~ 0.75]で試行時が[0.1 ~ 0.9]の場合は確率が広がるので学習が簡単になりRegretは小さくなっている(図d)。Meta-RLでは適切に相互依存のBandit問題を解いていることが分る。

f:id:mabonki0725:20190101182336p:plain

訓練時と試行時の条件が異なる場合

 実験③ 一台だけが最適スロットマシンの番号を与える問題

 11台のスロットマシンがあり何れかの1台だけが情報提供マシンであり、残り10台の中で最適なスロットマシンの番号を与える場合を考える。Meta-RLは試行を繰返し、どのマシンが情報提供マシンか理解し、次に最適マシンを引き続ける様に学習する。下図はMeta-RLは繰返し学習の結果で、1回目に情報提供マシンを引いて報酬(最適番号に0.1を掛けた値)得て次に報酬の10倍のマシンを引き続け報酬5点を得ている。

 

f:id:mabonki0725:20190101184139p:plain

情報学習Bandit問題

  実験④高い報酬が確率的に変動する場合にその変動速度に追随する学習

  2台のスロットマシンがあり一方の報酬の高い確率がp_1で変動し、もう一方は確率p_2=1-p_1で変動する。その変動は遅いモードlow-vol と早いhi-volがあり、エージェントは報酬の高い方の選択と変動モードも学習する必要がある。論文の記述はよく理解できないが、変動が早い場合は3種類の学習率のパラメータを大きくする必要があり、これも学習する対象になっている。

 下図はモードがlow-volとhi-volについてMeta-RLと比較用のR-W(Rescorla-Wagner)モデルを示している。low-volモードでは試行を繰返すと報酬が低い側(下側)では殆どバーを引いておらずp_2の高い報酬を見て学習している事が分かる。

しかしhi-volになると殆ど両モデルに差が見られない。

 

f:id:mabonki0725:20190101200957p:plain

報酬の変化の速さに対する行動の追従

 また学習率の比較でもR-WのBIC(ベイズ情報基準)(図cとd)でも大きな差が出ている。学習率alphaについてもMeta-RLはモードによって異なった値(図f)を持っている。

f:id:mabonki0725:20190101201436p:plain

学習率の相違

 実験⑤2段階課題(The two-step task)

  下図の(a)様に報酬が得られる2ノードS_2S_3がありランダムに一方が高い報酬を出す。ノードS_1で行動a_1a_2を選択して前に報酬が高い方のノードに行きたいが、その道が確率的に75%(Common)と25%(Rare)で方向が入れ替わる。この課題は報酬を得るために確率が高い道を選ぶかの学習である。即ち下Meta-RLは繰返しの中で下図の様な構造を学習(理解)するかの課題である。

        結果(図c)に示す様に、Meta-RLは前に報酬が得られたノードに行くためには確率の高い道に行く様に行動を選択しており、報酬が得られないノードには確率の低い道に行く様に行動を選択しいる。Meta-RLは試行を繰返す事によって図aの構造を学習しているのが分る。

f:id:mabonki0725:20190101205933p:plain

課題構造図と結果

 実験⑥画像を認識をする課題

  これは猿の知能レベルの試験に使われたもので、2枚の画像を映す板があり、どちらかは意味があり、これを選ぶと餌が与えられる。2枚の画像の左右はランダムに入れ替わる。実験では猿は餌が出る画像の意味を理解する様になったとの報告であるが、Meta-RLも同様に学習を達成している。

f:id:mabonki0725:20190101212345p:plain

画像の意味の理解

 実験⑦記憶を使った簡単な迷路問題

  下図(a)の様な物体のあるゴールの画像を記憶(Ohe-hot Memory)させて、下図(b)の様な簡単な迷路での画像推移からゴールに辿り付く様に学習する課題である。下図(c)の様にMeta-RL(Nev A3c)はOne-hotの画像から迷路を探索の試行を繰返してゴールに辿り付ける様に学習する。しかし下図(c)の試行回数の単位は1億でる事に注意すると、かなりの試行回数を要していることが分る。難しい課題なので2段のLSTMを使ったモデルだが、数百万という試行回数を要することからMeta-RLという汎用的なモデルには限界があると論文には述べている。

f:id:mabonki0725:20190101214549p:plain

一時記憶による迷路探索問題

(3) 感想

 Meta-RLは高次元の最適化に適しているLearning to Learnを素直に強化学習に拡張したモデルといえるので、一般的に強化学習は高次元のパラメータを扱うので一応筋が通っている。しかし次の課題が見えてくる。

   1)LSTMを使うことによって最適化過程で隠れ変数を膨大に使えるのは分るが、高次元の最適化が何故うまく行くのか数理的に解明されていないので、強化学習でも同じ課題が残ってしまっている。

 2)実験⑦の結果で示されている様に高度な問題になると数百万回の試行が必要となっており、汎用的なモデルで解けることは分ったにせよModel-baseに適わないと論文では正直に述べている。Meta-RLの持つ高次元かつ汎用性の能力が本当に有効な課題はどの辺なのかが判然としない。