大脳基底核の躊躇機能を模擬した強化学習の論文を読む

アルファGoを作ったDeepMindのハザビスは脳科学者として有名であったが、OISTの銅谷先生等は既に2000年に大脳基底核で観察される信号の状態が強化学習のベルマン方程式で表現できるとを示して、生理的な意味でも脳と強化学習は関連が注目されて来た。

globe.asahi.com

今回読んだ論文は、参加できなかったが或るセミナーで紹介されていたもので、大脳基底核で観察される躊躇機能を強化学習に取り込んで成果を上げた報告である。表題には躊躇機能として「Better Safe than Sorry」とある。

[1809.09147] Better Safe than Sorry: Evidence Accumulation Allows for Safe Reinforcement Learning

一般に強化学習では報酬が得られる様に常に行動するが、確信が深まるまで行動を抑制する機能がない。しかし大脳基底核ではこの様な抑制機能が観察されている。これを使うとノイズ多い環境では情報の信頼度を評価できるので既存のA2C-RNN（Advantage Actor clitic)モデルより効率的になるとのアイデアである。

(1) 大脳基底核での躊躇モデル

論文では大脳基底核は下図の情報網としており、躊躇機能はSTR(Striatum)で行われている。

f:id:mabonki0725:20181226170239p:plain — 皮質大脳基底核視床の情報網

STRではDirectの励起信号(D)とIndirectの抑制信号(I)とのバランス(I-D)で下図のB図様に行動の速緩を起こす。(D)が多いと早く行動し、(I)が多くなると遅く行動する様になり、最終的には行動が抑制される。Hyperdirectは図Cの様に行動励起信号の強さに対して行動を抑制する閾値の役目をする。

f:id:mabonki0725:20181226171154p:plain — 信号と行動の関連

上記の仕組みは簡単に表現されているが、複雑な認識を成し遂げる様に数百万個の細胞によって動作しており、高次元の処理をしている事は忘れてはならない。このモデルを模擬するには少なくとも大規模な隠れ変数を使う深層学習を使うべきと考える。やはり後述する様にＢもＣも最終的には深層学習で構築されている。

(2) モデル

論文では行動 $a_i$ の確信度 $\rho^i$ を以下にモデル化している。

　　 $\kappa_t = f(o_t)$ t時点の観察 $o_t$ を根拠ベクトルに変換したもの

$\kappa_t$ は蓄積器に蓄えられ、その総計を根拠情報量とする

$\nu^i = \sum_{t=0} \kappa_t^i$ ：行動 $a_i$ の根拠情報量

$\rho^i = \frac{\exp(\nu^i)}{\sum_{i=1}^A \exp(\nu^i)}$ ：softmaxによる行動 $a_i$ の確信度

　　上式ではノイズが多く根拠情報量 $\nu$ が全て同じ様であれば、確信度 $\rho$ は低くなることを示している。

ここで $f(o_t)$ は観察の根拠変換関数で、後述するが深層学習で求められる。

躊躇のモデル化では制限時間 $T_{max}$ 内に環境から順次根拠 $\kappa_t$ が蓄積器に蓄えられる。蓄積器に貯まった根拠から行動確信度 $\rho$ が計算され閾値 $\tau$ を超える場合に行動する。しかし制限時間内に閾値 $\tau$ を超えないと行動されない。

ここで閾値 $\tau$ も報酬より深層学習で推定される。

この躊躇行動と結果によって以下の報酬を設定している。

f:id:mabonki0725:20181226200745p:plain

ここで $R_1$ は正しい結果では決断が早いほど報酬が高く $R_2$ は罰則である。行動が無い場合でも $R_3$ の報酬がある。

(3) 実験

・モードを推定する課題

　10個の観察データ（例えば顔の写真）の内、ランダムに $n_0$ 番目を選ぶが、乱数 $\epsilon$ で間違いの観察データが得られる場合がある。間違いを含んでいる観察データを貯めて、躊躇機能によって信頼度が高まれば判断を下す方法で、正しく $n_0$ 番目であることを見抜けば次の報酬が得られる。但し $T_{max}$ は30である。