大脳基底核の躊躇機能を模擬した強化学習の論文を読む

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。

globe.asahi.com

今回読んだ論文は、参加できなかったが或るセミナーで紹介されていたもので、大脳基底核で観察される躊躇機能を強化学習に取り込んで成果を上げた報告である。表題には躊躇機能として「Better Safe than Sorry」とある。

[1809.09147] Better Safe than Sorry: Evidence Accumulation Allows for Safe Reinforcement Learning

一般に強化学習では報酬が得られる様に常に行動するが、確信が深まるまで行動を抑制する機能がない。しかし大脳基底核ではこの様な抑制機能が観察されている。これを使うとノイズ多い環境では情報の信頼度を評価できるので既存のA2C-RNN(Advantage Actor clitic)モデルより効率的になるとのアイデアである。

 

(1) 大脳基底核での躊躇モデル

論文では大脳基底核は下図の情報網としており、躊躇機能はSTR(Striatum)で行われている。

f:id:mabonki0725:20181226170239p:plain

皮質大脳基底核視床の情報網

STRではDirectの励起信号(D)とIndirectの抑制信号(I)とのバランス(I-D)で下図のB図様に行動の速緩を起こす。(D)が多いと早く行動し、(I)が多くなると遅く行動する様になり、最終的には行動が抑制される。Hyperdirectは図Cの様に行動励起信号の強さに対して行動を抑制する閾値の役目をする。

f:id:mabonki0725:20181226171154p:plain

信号と行動の関連

上記の仕組みは簡単に表現されているが、複雑な認識を成し遂げる様に数百万個の細胞によって動作しており、高次元の処理をしている事は忘れてはならない。このモデルを模擬するには少なくとも大規模な隠れ変数を使う深層学習を使うべきと考える。やはり後述する様にBもCも最終的には深層学習で構築されている。

 

(2) モデル

論文では行動a_iの確信度\rho^iを以下にモデル化している。

  \kappa_t = f(o_t)  t時点の観察o_tを根拠ベクトルに変換したもの

\kappa_tは蓄積器に蓄えられ、その総計を根拠情報量とする

       \nu^i  = \sum_{t=0} \kappa_t^i:行動a_iの根拠情報量

       \rho^i = \frac{\exp(\nu^i)}{\sum_{i=1}^A \exp(\nu^i)}:softmaxによる行動a_iの確信度

  上式ではノイズが多く根拠情報量\nuが全て同じ様であれば、確信度\rhoは低くなることを示している。

      ここでf(o_t)は観察の根拠変換関数で、後述するが深層学習で求められる。

躊躇のモデル化では制限時間T_{max}内に環境から順次 根拠\kappa_tが蓄積器に蓄えられる。蓄積器に貯まった根拠から行動確信度\rhoが計算され閾値\tauを超える場合に行動する。しかし制限時間内に閾値\tauを超えないと行動されない。

ここで閾値\tauも報酬より深層学習で推定される。

この躊躇行動と結果によって以下の報酬を設定している。

f:id:mabonki0725:20181226200745p:plain

ここで R_1は正しい結果では決断が早いほど報酬が高く R_2は罰則である。行動が無い場合でもR_3の報酬がある。

 

(3) 実験

・モードを推定する課題

 10個の観察データ(例えば顔の写真)の内、ランダムにn_0番目を選ぶが、乱数\epsilonで間違いの観察データが得られる場合がある。間違いを含んでいる観察データを貯めて、躊躇機能によって信頼度が高まれば判断を下す方法で、正しくn_0番目であることを見抜けば次の報酬が得られる。但しT_{max}は30である。

    R_1 = 30  R_2 = -30 R_3 = -30 

下図はこの課題の状態遷移図で、行動はどの観察データ(モード)かを当てる行為となる。

f:id:mabonki0725:20181226200435p:plain

課題設定(モードの検出)

この躊躇モデルの真の性能を知るため、次の(a)で示す様に単純に躊躇モデルを10000回繰返したモンテカルロ法を行い、次の(b)~(d)の3モデルで真の値にどの程度学習できるか比較している。

 (a) モンテカルロ法

  曖昧性\epsilon[0,0.1,0.2,\dots,0.8]と変動させ、閾値\tau[0,0.1,0.2,\dots,0.9]と変動させ10000回試行させてその躊躇モデルでの報酬の結果を観察する。真の性能は下表の1番目であった。

 (b) A2C-RNN法

  躊躇機能の代わりに行動に何もしないNoopを追加して、観察データよりA2C-RNNで強化学習を行う。

  このモデルのパラメータ\thetaの推定ではエントロフィの正則化の項を追加した勾配法で計算する。 \eta \betaはハイパーパラメータ 

f:id:mabonki0725:20181226224248p:plain

 (c) 閾値\tauのみの深層学習モデル

  閾値\tauを観察データと報酬より深層学習で推定したした方法

 (d) 根拠関数f(o_t)閾値\tauの深層学習モデル 

  閾値\tauに加え観察データo_tから根拠関数f(o_t)も深層学習で学習する

 

 上記のモデルの学習した結果の報酬は以下であった。A2C-RNNはノイズが多いと各段に劣化していることが分る。

f:id:mabonki0725:20181226204309p:plain

躊躇モデルの実験比較結果

(4) 評価

 下図の上段は観察データの曖昧性\epsilon=0.2での性能の改善カーブで、下段は曖昧性\epsilon=0.8の結果である。(左図:正確度 中央:決断時間 右図:報酬)

 観察データが正確な場合はA2C閾値\tauや根拠関数 fを加えた学習の性能は繰返しを重ねると学習することができる。しかし観察データの曖昧性が多い場合は、学習が難しい事をを示している。

 また下段に示す様に観察データにノイズが多く曖昧性が高い場合、信頼度が高まるまで待つ様な躊躇機能を持つモデルの方が単純なA2C-RNNに比べ優れていることが分る。

f:id:mabonki0725:20181226231524p:plain

曖昧性と各モデルの性能比較