大脳基底核の躊躇機能を模擬した強化学習の論文を読む
アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。
今回読んだ論文は、参加できなかったが或るセミナーで紹介されていたもので、大脳基底核で観察される躊躇機能を強化学習に取り込んで成果を上げた報告である。表題には躊躇機能として「Better Safe than Sorry」とある。
[1809.09147] Better Safe than Sorry: Evidence Accumulation Allows for Safe Reinforcement Learning
一般に強化学習では報酬が得られる様に常に行動するが、確信が深まるまで行動を抑制する機能がない。しかし大脳基底核ではこの様な抑制機能が観察されている。これを使うとノイズ多い環境では情報の信頼度を評価できるので既存のA2C-RNN(Advantage Actor clitic)モデルより効率的になるとのアイデアである。
(1) 大脳基底核での躊躇モデル
論文では大脳基底核は下図の情報網としており、躊躇機能はSTR(Striatum)で行われている。
STRではDirectの励起信号(D)とIndirectの抑制信号(I)とのバランス(I-D)で下図のB図様に行動の速緩を起こす。(D)が多いと早く行動し、(I)が多くなると遅く行動する様になり、最終的には行動が抑制される。Hyperdirectは図Cの様に行動励起信号の強さに対して行動を抑制する閾値の役目をする。
上記の仕組みは簡単に表現されているが、複雑な認識を成し遂げる様に数百万個の細胞によって動作しており、高次元の処理をしている事は忘れてはならない。このモデルを模擬するには少なくとも大規模な隠れ変数を使う深層学習を使うべきと考える。やはり後述する様にBもCも最終的には深層学習で構築されている。
(2) モデル
論文では行動の確信度を以下にモデル化している。
t時点の観察を根拠ベクトルに変換したもの
は蓄積器に蓄えられ、その総計を根拠情報量とする
:行動の根拠情報量
:softmaxによる行動の確信度
上式ではノイズが多く根拠情報量が全て同じ様であれば、確信度は低くなることを示している。
ここでは観察の根拠変換関数で、後述するが深層学習で求められる。
躊躇のモデル化では制限時間内に環境から順次 根拠が蓄積器に蓄えられる。蓄積器に貯まった根拠から行動確信度が計算され閾値を超える場合に行動する。しかし制限時間内に閾値を超えないと行動されない。
ここで閾値も報酬より深層学習で推定される。
この躊躇行動と結果によって以下の報酬を設定している。
ここで は正しい結果では決断が早いほど報酬が高く は罰則である。行動が無い場合でもの報酬がある。
(3) 実験
・モードを推定する課題
10個の観察データ(例えば顔の写真)の内、ランダムに番目を選ぶが、乱数で間違いの観察データが得られる場合がある。間違いを含んでいる観察データを貯めて、躊躇機能によって信頼度が高まれば判断を下す方法で、正しく番目であることを見抜けば次の報酬が得られる。但しは30である。
下図はこの課題の状態遷移図で、行動はどの観察データ(モード)かを当てる行為となる。
この躊躇モデルの真の性能を知るため、次の(a)で示す様に単純に躊躇モデルを10000回繰返したモンテカルロ法を行い、次の(b)~(d)の3モデルで真の値にどの程度学習できるか比較している。
(a) モンテカルロ法
曖昧性をと変動させ、閾値もと変動させ10000回試行させてその躊躇モデルでの報酬の結果を観察する。真の性能は下表の1番目であった。
(b) A2C-RNN法
躊躇機能の代わりに行動に何もしないNoopを追加して、観察データよりA2C-RNNで強化学習を行う。
このモデルのパラメータの推定ではエントロフィの正則化の項を追加した勾配法で計算する。 はハイパーパラメータ
(c) 閾値のみの深層学習モデル
閾値を観察データと報酬より深層学習で推定したした方法
(d) 根拠関数と閾値の深層学習モデル
閾値に加え観察データから根拠関数も深層学習で学習する
上記のモデルの学習した結果の報酬は以下であった。A2C-RNNはノイズが多いと各段に劣化していることが分る。
(4) 評価
下図の上段は観察データの曖昧性での性能の改善カーブで、下段は曖昧性の結果である。(左図:正確度 中央:決断時間 右図:報酬)
観察データが正確な場合はA2Cや閾値や根拠関数 を加えた学習の性能は繰返しを重ねると学習することができる。しかし観察データの曖昧性が多い場合は、学習が難しい事をを示している。
また下段に示す様に観察データにノイズが多く曖昧性が高い場合、信頼度が高まるまで待つ様な躊躇機能を持つモデルの方が単純なA2C-RNNに比べ優れていることが分る。