mabonki0725の日記

強化学習方程式の不確実性を報酬に取込む論文を読む

ロボテックス AI論文

テニス２時間　英語できず

(1) 強化学習方程式の不確実性を報酬に取込む論文を読む

　「The Uncertaintry Bellman Equation and Exploration」

https://arxiv.org/abs/1709.05380

　この論文は強化学習を解くBellman方程式の近似解での不確実性を見積りより精緻に方程式を解き、既存のDQNを改善するものです。

　モデル名UBE(Uncertaintry Bellman Equaiton)

　一般に強化学習は将来の累計報酬の期待値が最大になる様に局面毎の行動を選択するモデルです。

　これはBellman方程式で行動価値関数として定式化されますが、将来への漸化式で解くので行動によって無限に分岐が続く場合、近似解で解くことが一般的です。

　 $Q^\pi(s,a) = \mathbb{E}\left(\sum_{t=0}^\infty \gamma^t r_t |s_0=s, a_0=a,\pi \right)$

ここで

$\pi$ は方策(policy)

　　　 $\gamma$ は割引率

$r$ は報酬

$s$ は局面

$a \sim \pi$ は行動で方策によって確率的に決定されます

また現報酬 $r(s,a)$ とそれ以降の行動価値関数 $Q^\pi(s',a')$ の和を行動価値関数 $T^\pi Q^\pi (s,a)$ であらわすと。

　　 $T^\pi Q^\pi(s,a) = \mathbb{E}_r r(s,a) + \gamma \mathbb{E}_{s',a'}Q^\pi(s',a')$

但し　 $s' \sim p(\cdot|s,a)$

(1.1) 手法

　一般に何らかなの霍乱要因 $d$ があると行動価値関数 $\hat{Q}(s,a)$ と推定された行動価値関数 $T^\pi Q^\pi (s,a)$ に差が出てきます。

　この差 $\epsilon(s,a)$ には認識できない報酬が存在しているからと考えられます。

　　 $\epsilon(s,a) = (\hat{Q}^\pi - T^\pi {Q}^\pi)(s,a)$

$= \hat{Q}^\pi(s,a) - \mathbb{E}_r r(s,a) - \gamma\mathbb{E}_{s',a'} Q^\pi(s',a')$

ここで $\delta(s,a) = \hat{Q}^\pi(s,a) - Q^\pi(s,a)$ を行動価値関数の差とすると

$\delta(s,a) = \epsilon(s,a) + \gamma \mathbb{E}_{s',a'} \delta(s',a')$

この二乗平均誤差は解析的に次式で表現できます

　 $m(s,a) = \mathbb{E}_d \left( (\hat{Q}^\pi(s,a) - Q^\pi(s,a))^2 \right)$

$= var \hat{Q}^\pi(s,a) + (biasQ^\pi(s,a))^2$

この霍乱要因 $d$ による行動価値関数の差はMarcovの不等式を使うと

　　 $Prob \left(|\hat{Q}^\pi(s,a) - Q^\pi(s,a)| \ge \alpha \cdot \sqrt{m(s,a)} \right) \le \frac{2}{\alpha^2}$

霍乱要因 $d$ の上式の下限を隠れた報酬 $u^*(s,a)$ として定理１を導入しています。

[定理1]

$u^*(s,a) = (T_u^\pi u^*)(s,a) = \beta^* var \epsilon(s,a) + \gamma^2 \mathbb{E}_{s',a'} u^*(s',a')$

この論文は隠れた報酬 $u^*(s,a)$ をDQNに与えてモデルを改善しています。

(1.2) 結果

　全ATARIゲームのDQNのスコアの中央値と不確定部分を隠された報酬とするUBEスコアの中央値との比較を示しています。

　ここで

instrinsic Motivation：擬似カウント

　　UBE n-step：隠れ報酬をn回刻みで計算する

f:id:mabonki0725:20171002234839p:plain

　「Montezumaの復習」は既存のDQNでは殆ど解けないモデルです。これには画面遷移を擬似カウントとして報酬とすると旨く行くことが知られています。UBEのスコアが上回っていますが、これは擬似カウントがUBEに反映されているからです。

　　 f:id:mabonki0725:20171002234918p:plain