相互情報量を使ったOptionを認識する論文を読んでみる
Open-AIの強化学習のリスト[1]でVariational(変分)のカテゴリィにあった論文だが、環境から得られる相互情報量を変分を使っての最大化し、Optionを認識しようとするものである。
[1611.07507] Variational Intrinsic Control
この論文はoptionの始点と終点(サブゴール)との相互情報量(mutial information)の最大化によってOptionを環境から認識しようとする論文[2]をLSTMを使って拡張したものである。
この論文はサブゴールを認識対象としているオプションのモデル[3]と異なり、サブゴールが明示されているもので、多数のサブゴールがあるオプションの中から有意なものを相互情報量で認識するモデルである。
相互情報量を使ってOptionを認識する方法は数理的に完成されたものなので醍醐味があり、この方法について説明する。
(LSTM版はこの相互情報量の最大化と同じであるが、この強化学習による動作をLSTMで過去の情報を利用しただけなので割愛する。しかしこの方法によってより高次元の問題を解ける様になったと述べている)
(1)モデル
現在点を条件としてオプションとその終点との条件確率と相互情報量を考える。
条件確率
この相互情報量を最大化することは現時点と様々なOptionのサブゴールについての分布に差が大きくなることである。この方法で同様なOptionを排除して相異なるOptionを認識しょうとするアイデアである。
また同時確率はベイズを使って次に変形できる。
ここで と記述するのは違いを明示しているだけである。
相互情報量はエントロフィの同時確率なので次の定理がある。
これを使うと相互情報量は次式で展開できる。
ところでエントロフィの定義から
なので論文の記述が得られた。
この相互情報量を最大化するため変分を導入する。
またoptionのサンプリング確率にをパラメータとして与えると、変分相互情報量は以下で表現できる。
Appendex2に従って変分相互情報量を最大化するためで微分してみる。
ここで次の式を使うと論文の記述が得られる。
ここで 擬似報酬を考え、以下と置く
と置くと
よって 相互情報量を大きく改善するには擬似報酬を大きく得る方策を採ればよいことが分る。
但し はベースラインでAppendix2では任意の値を設定しても0値になることが示してあり、実装上では回帰で算出される。
擬似報酬は次式なので、option が稀にサンプリングされるが、始点とサブゴールとでそのoptionの発生確率が高ければ擬似報酬は大きい値をもつ。(注):言語解析で稀に出る単語で結び付きの高い単語があれば有意な関連を持つのと同じである。
ここでサブゴールで報酬を得る方策を考える。この方策は報酬の多寡によってサブゴールへの効率が異なる。またサブゴールに至る確率は観測できるものである。
(2) アルゴリズム
Agent の初期位置とする
以下をM回繰返す
optionをサンプリングする
で設定されたサブゴールにの方策で向かう。
(注)方策の訓練が十分でない場合は効率が悪く(迂回して)点に至ることになる。
観測されたでoptionを回帰してのパレメータを改善する。
擬似報酬を得る
で設定したサブゴールで擬似報酬を得る方策を強化学習モデルで訓練する
擬似報酬が高いと方策がよく訓練され効率がよくなる。
で更新する
を更新する
上記の様な繰返で、選択されたopitonに従って移動しながら次の3つの確率を精緻化して相互情報量を最大化している。その結果、相互に有意なoptionを識別していることが分る。
方策
optionの優先選択
変分
(3) 実験結果
実験①30点のoptionで互いに離れている位置への到達の学習
グリッド上は20%の確率でランダムに移動する。 左図の中央から30点が互いに離れている位置への移動の学習で右図の20画面の明るい所がサブゴールを示す。
実験②間違った方向を採ると左上隅に落ちるグリッド
グリッドワードの青色は壁で、チェックの上下の領域では、赤字で示す様に上側は左右、下側は上下に動くとペナルティとして左上隅に落込んで暫く動けない。またある確率でランダムに移動するので、少し動くとどの領域にいるか分らなくなる。
最下段は領域の区別をしない学習で、左上隅に落ち込まない様に真ん中を避けてサブゴールを設定する様子を表している。
1段目と2段目は自分がどの領域に居るか識別できている学習で、次のサブゴールを示している。
(4) 感想
サブゴールが明示的なOptionの場合は、相互情報量を使わず全オプションを評価した方が簡単で効率的でないかと思えるが、実験②の様に2つの領域が突然変化する場合は、環境からの相互情報量を使うモデルが有効である事が分る。なお著者が述べている様に、このモデルには課題が低次元で近似関数も線形が使われている。高次元でも学習するにはLSTMを使った拡張版が必要なのかもしれない。
[1]Key Papers in Deep RL — Spinning Up documentation
[2] C.Salge et al. 2014 [1611.07507] Variational Intrinsic Control
[3] P.Barcon et al. 2016 [1609.05140] The Option-Critic Architecture