好奇心による強化学習の改善の理論化とその実証の論文を読む
人間本来が持つ好奇心は未知なものへのリスクやストレスに勝つていたので様々な発展と開拓があったのは間違いはない。強化学習の分野でも好奇心による改善はいくつか示されている。
Abbeel達は次の論文で、好奇心を情報量の改善と見做し、情報理論より報酬関数の改善を理論化して、これをVIMEとして変分法で実装し実証して見せた。
[1605.09674] VIME: Variational Information Maximizing Exploration
(1) 好奇心の定式化
この論文では好奇心を以下の情報量のGainの改善と捉える。
即ち探索行動後の新局面より遷移確率のパラメータを精緻化できた量を好奇心と定式化している。
ここで
は遷移確率 パラメータで定義
は情報量(エントロフィ)
はまでの経路
それゆえ好奇心は遷移確率のの改善量としてカルバック情報量の増分で表せられる。
[2]
この行動によって遷移確率が改善されるなら、報酬と見做せるので改善された報酬は次となる。ここではハイパーパラメータ
[3]
この記述によって本論文は逆強化学習であることがわかる。
(3) 近似関数の導入
問題は事後分布を解くことであるが、これは容易に解けないので、近似関数を導入する。
但しは次式のは最小化するものとする。
近似関数は具体的にはガウス分布の重ね合わせたものを想定している。
上式は変分の公式(PRML 10.2~10.3) を使うと下限の最大化で実現できる。
但し である。
近似関数を使うと逆強化学習は次式の様に簡単になる。
[7]
(3) 目的関数
目的関数は次としている。
[10]
目的関数は第1項と第2項を変分の定理を使って変形すると次式となる。
この目的関数が正しいかは、近似が正しいく なる場合、
となるので
目的関数(10)式は
となり、目的関数の最大は好奇心を表す情報量の差分[2]式の最大になることで分る。
但し、近似は成立とした。
(4) 実装
実装のため近似関数を正規分布の重ね合わせで定義して、目的関数[10]を最大化する各平均と標準偏差を深層学習BNN(Bayesian Neural Network)で算出する。
ここで目的関数[10]の2項は以下で近似する。
変分の下限の定義は公式より次式である。
[6]
ここで、とすると次式で近似できる。
[12]
また[6]が最小値の場合、と見做せる。
よって[6]と[12]を最小化すると最適なが求めることになる。
但し右辺の第2項はサンプリングで求める。
近似関数を正規分布の重ね合わせにしたのでダイバージェンスは次式で計算できる。
上式は凸2次式なので、1階微分と2階微分を計算すれば最大値が計算できる。
まず2階微分
但し
次に1階微分
ここで
は のヘッセ行列
は の微分
一階微分と2階微分を投入して目的関数[10]を最大とするBNNで最適なパラメータを計算しての近似解を算出する
(5)実験
このVIEMは報酬を好奇心で改善する強化学習なのでTRPO(Trust Region Policy Optimization)にVIME追加して下記の古典的な3つの課題に関して比較している。
右の2例ではVIEMが無いと殆ど学習できていない。
TRPOは利益関数をを改善するパラメータが大きく逸脱しない様に最適化する手法です。この論文では明記していないがTRPO+VIEMは利益関数を算出する場合にVIMEで好奇心を反映した報酬を使っていると考えられる。