深層時系列を使った強化学習での汎用化の論文を読む

OpenAIのサイトで深層強化学習の主要論文(Keyword Papers)のリストが下記にある。

Key Papers in Deep RL — Spinning Up documentation

この中で転移学習とメタ学習は学習効率に関して人間の高度な学習能力からアイデアを得ることが多いのでどうしても関心が沸く。最近ではメタ学習の論文が注目されている様な気がするので。そこで下記の論文を読んでみた。

この論文は一昨年のNIPSで有名になったLSTMによる汎用的な漸次的最適化の論文「Learning to Learn using Gradient descent」を強化学習に拡張したものである。この論文については以下の記事がある。

本題のLearing to RL learning（以下Meta-RL）は上記の論文を読んでいないと殆ど理解できないと思われる。何故ならMeta-RLの中核ロジックは殆どLSTMによる最適解の汎用化(以下Learning to Learn)を前提にしているからである。

Meta-RLはMeta学習と標榜しているが、記述を見る限り「全く異なった課題でも同じ考え方で解けるという」意味で使っていて殆ど汎用化の意味に近い。Learning to Learnの論文でも殆どMeta学習とは言っておらずむしろ転移学習に近いと言っている。

(2) Meta-RLのモデル

　まずLearng to Learnからの拡張の対応関係を示す

　　　　　　　Learning to Learn 　　Meta-RL

・目的　関数の最適化のパラメータ探索　　報酬最大化するパラメータ探索

・利点　最適化対象の関数に依存しない　　Model-BaseでなくModel-Free

　・過程　パラメータの勾配の収束過程　　　　　　MDP過程

　・方法　パラメータの勾配改善　　　　　　A3Cでの方策とQ関数のパラメータ改善

　・次元　パラメータ次元　一万次元　　　　画像によるゲームでは高次元

この様に関数の最適化の探索がMeta-RLでは報酬最大化に該当し、パラメータの改善がMeta-RLでは方策と価値関数の両方のパラメータの改善に対応しているだけで殆ど同じ構造をしていることが分る。従って下図の様にMeta-RLは強化学習の改善過程でLearning to Learnを組み込んで使っている。

・Learning to Learnのモデル図　

f:id:mabonki0725:20190101104434p:plain

・Meta-RL

　何れも図中の回転マークは上図のLearning to LearnのOptimizerとOptimizeeの改善過程を表し、最適化対象関数 $f$ はここでは $\pi$ 方策(actor)と $V$ 関数(clitic)の両方に対応しパラメータを改善している。

f:id:mabonki0725:20190102091443p:plain — Meta-RL実験で使用するモデル構造

　　(a) 実験にあるバンディット問題の構造図

　　(b)画像認識による報酬ゲームの構造図ここで $enc$ は画像のエンコードを示す。

　　(c)簡単な迷路探索で課題で構造図ではLearning to Learnを２段にしている。

(2) Meta-RLの実験

　Learning to Learnの汎用最適化の記事にも述べたが、これはパラメータの変更過程をLSTMするだけで高次元の問題でも良い性能が得られる。しかしその根拠が不明なため実験を豊富に示していた。同様の理由でMeta-RLも実験を７種類で行い、何れも良い性能を示しているが根拠を示せてはいない。

実験①独立 Bandit問題　

　各々独立して異なる確率で当たるスロットマシンを引いて、最小の後悔Regretで済む（逆にいうと最大の成果を得る）学習を行う。ここでは学習結果の指標を次のRegretで得る。

　 $R_T(b) = \sum_{t=1}^T \mu^*(b) - \mu_{a_t}(b)$

ここで

　　 $\mu^*(b)$ は環境 $b$ での最も当たるスロットマシンでの報酬

$\mu_{a_t}(b)$ は試行回数 $t$ 回目でスロットマシン $a$ を引いた場合の報酬

　　 $R_T(b)$ は $T$ 回の試行で理想報酬との差で「後悔」を表す量

　この問題は一般には試行毎の結果からベイズよる事後分布を改善するモデルで解かれる場合が多いが、Meta-RLの学習では試行を繰返しても後悔が(Regret)が増えず一定になる傾向（即ちコンスタントな報酬を獲得）を示している。比較モデルとして以下と比較しておりGittinsモデルと同等な性能が得られMeta-RLの性能が高いことが分る。

Gittins：ベイズによるモデル

　 Thompson：非同期最適化モデル

　 UCB：後悔最小化モデル

f:id:mabonki0725:20190101174125p:plain — 独立Bandit問題の結果

実験② 当たる確率が相互に依存し合うBandit問題

　　２台のスロットマシンがあり一方が確率 $p_1$ で当たればもう一方は $p_2=1-p_1$ とする。

　ここでは２種類の実験をしている。

　②-1実験　一方の確率 $p_1$ が一様乱数の場合の実験

　　ここでは一方の当たる確率が低ければ、一方は高い確率なので異なるスロットマシンを引くことを学習することになる。Meta-RLでは次の結果が得られ、①の独立Bandit問題より少ないRegretを達成していることが分る。

f:id:mabonki0725:20190101175932p:plain — 相互に依存したBandit問題（一方が一様乱数）

　②-2実験訓練時と試行時で当たる確率の一様分布が異なる場合

　　　訓練時の一方の当たる確率 $p_1$ の一様分布が[0.1～0.9]の範囲だが、試行時の $p_1$ の一様分布が[0.4 ～ 0.6]の場合。この場合は試行時の $p_1$ の確率が狭くなっているので学習が難しくなりRegretは大きい（図e)。また反対に訓練時の $p_1$ の一様分布が[0.25 ～ 0.75]で試行時が[0.1 ～ 0.9]の場合は確率が広がるので学習が簡単になりRegretは小さくなっている(図d)。Meta-RLでは適切に相互依存のBandit問題を解いていることが分る。

f:id:mabonki0725:20190101182336p:plain — 訓練時と試行時の条件が異なる場合

実験③ 一台だけが最適スロットマシンの番号を与える問題

　11台のスロットマシンがあり何れかの１台だけが情報提供マシンであり、残り10台の中で最適なスロットマシンの番号を与える場合を考える。Meta-RLは試行を繰返し、どのマシンが情報提供マシンか理解し、次に最適マシンを引き続ける様に学習する。下図はMeta-RLは繰返し学習の結果で、１回目に情報提供マシンを引いて報酬（最適番号に0.1を掛けた値）得て次に報酬の10倍のマシンを引き続け報酬５点を得ている。

f:id:mabonki0725:20190101184139p:plain — 情報学習Bandit問題

　実験④高い報酬が確率的に変動する場合にその変動速度に追随する学習

　　2台のスロットマシンがあり一方の報酬の高い確率が $p_1$ で変動し、もう一方は確率 $p_2=1-p_1$ で変動する。その変動は遅いモードlow-vol と早いhi-volがあり、エージェントは報酬の高い方の選択と変動モードも学習する必要がある。論文の記述はよく理解できないが、変動が早い場合は３種類の学習率のパラメータを大きくする必要があり、これも学習する対象になっている。

　下図はモードがlow-volとhi-volについてMeta-RLと比較用のR-W(Rescorla-Wagner)モデルを示している。low-volモードでは試行を繰返すと報酬が低い側（下側）では殆どバーを引いておらず $p_2$ の高い報酬を見て学習している事が分かる。

しかしhi-volになると殆ど両モデルに差が見られない。

f:id:mabonki0725:20190101200957p:plain — 報酬の変化の速さに対する行動の追従

　また学習率の比較でもR-WのBIC(ベイズ情報基準）（図ｃとｄ）でも大きな差が出ている。学習率alphaについてもMeta-RLはモードによって異なった値（図f)を持っている。

f:id:mabonki0725:20190101201436p:plain — 学習率の相違

　実験⑤２段階課題（The two-step task)

　　下図の(a)様に報酬が得られる２ノード $S_2$ と $S_3$ がありランダムに一方が高い報酬を出す。ノード $S_1$ で行動 $a_1$ か $a_2$ を選択して前に報酬が高い方のノードに行きたいが、その道が確率的に75%(Common)と25％(Rare)で方向が入れ替わる。この課題は報酬を得るために確率が高い道を選ぶかの学習である。即ち下Meta-RLは繰返しの中で下図の様な構造を学習（理解）するかの課題である。

結果（図ｃ）に示す様に、Meta-RLは前に報酬が得られたノードに行くためには確率の高い道に行く様に行動を選択しており、報酬が得られないノードには確率の低い道に行く様に行動を選択しいる。Meta-RLは試行を繰返す事によって図aの構造を学習しているのが分る。

f:id:mabonki0725:20190101205933p:plain — 課題構造図と結果

　実験⑥画像を認識をする課題

　　これは猿の知能レベルの試験に使われたもので、２枚の画像を映す板があり、どちらかは意味があり、これを選ぶと餌が与えられる。２枚の画像の左右はランダムに入れ替わる。実験では猿は餌が出る画像の意味を理解する様になったとの報告であるが、Meta-RLも同様に学習を達成している。

f:id:mabonki0725:20190101212345p:plain — 画像の意味の理解

　実験⑦記憶を使った簡単な迷路問題

　　下図(a)の様な物体のあるゴールの画像を記憶（Ohe-hot Memory)させて、下図(b)の様な簡単な迷路での画像推移からゴールに辿り付く様に学習する課題である。下図(c)の様にMeta-RL(Nev A3c)はOne-hotの画像から迷路を探索の試行を繰返してゴールに辿り付ける様に学習する。しかし下図(c)の試行回数の単位は１億でる事に注意すると、かなりの試行回数を要していることが分る。難しい課題なので２段のLSTMを使ったモデルだが、数百万という試行回数を要することからMeta-RLという汎用的なモデルには限界があると論文には述べている。