強化学習方程式の不確実性を報酬に取込む論文を読む

テニス2時間 英語できず

(1) 強化学習方程式の不確実性を報酬に取込む論文を読む

 「The Uncertaintry Bellman Equation and Exploration」

https://arxiv.org/abs/1709.05380

 この論文は強化学習を解くBellman方程式の近似解での不確実性を見積りより精緻に方程式を解き、既存のDQNを改善するものです。

 モデル名UBE(Uncertaintry Bellman Equaiton)

 

 一般に強化学習は将来の累計報酬の期待値が最大になる様に局面毎の行動を選択するモデルです。

 これはBellman方程式で行動価値関数として定式化されますが、将来への漸化式で解くので行動によって無限に分岐が続く場合、近似解で解くことが一般的です。

     Q^\pi(s,a) = \mathbb{E}\left(\sum_{t=0}^\infty \gamma^t r_t |s_0=s, a_0=a,\pi \right)

        ここで

            \piは方策(policy)

   \gammaは割引率

            rは報酬

            sは局面

            a \sim \piは行動で方策によって確率的に決定されます

 また現報酬r(s,a)とそれ以降の行動価値関数Q^\pi(s',a')の和を行動価値関数T^\pi Q^\pi (s,a)であらわすと。

  T^\pi Q^\pi(s,a) = \mathbb{E}_r r(s,a) + \gamma \mathbb{E}_{s',a'}Q^\pi(s',a')

       但し s' \sim p(\cdot|s,a)

 (1.1) 手法

  一般に何らかなの霍乱要因dがあると行動価値関数\hat{Q}(s,a)と推定された行動価値関数T^\pi Q^\pi (s,a)に差が出てきます。

 この差\epsilon(s,a)には認識できない報酬が存在しているからと考えられます。

  \epsilon(s,a) = (\hat{Q}^\pi - T^\pi {Q}^\pi)(s,a)

                      = \hat{Q}^\pi(s,a) - \mathbb{E}_r r(s,a) - \gamma\mathbb{E}_{s',a'} Q^\pi(s',a')

  ここで \delta(s,a) = \hat{Q}^\pi(s,a) - Q^\pi(s,a)を行動価値関数の差とすると

       \delta(s,a) = \epsilon(s,a) + \gamma \mathbb{E}_{s',a'} \delta(s',a')

  この二乗平均誤差は解析的に次式で表現できます

     m(s,a) = \mathbb{E}_d \left( (\hat{Q}^\pi(s,a) - Q^\pi(s,a))^2 \right)

                   = var \hat{Q}^\pi(s,a) + (biasQ^\pi(s,a))^2

  この霍乱要因dによる行動価値関数の差はMarcovの不等式を使うと

   Prob \left(|\hat{Q}^\pi(s,a) - Q^\pi(s,a)| \ge \alpha \cdot \sqrt{m(s,a)} \right) \le \frac{2}{\alpha^2}

 

霍乱要因dの上式の下限を隠れた報酬u^*(s,a)として定理1を導入しています。

  [定理1]

       u^*(s,a) = (T_u^\pi u^*)(s,a) = \beta^* var \epsilon(s,a) + \gamma^2 \mathbb{E}_{s',a'} u^*(s',a')

この論文は隠れた報酬u^*(s,a)DQNに与えてモデルを改善しています。 

 

(1.2) 結果

  全ATARIゲームのDQNのスコアの中央値と不確定部分を隠された報酬とするUBEスコアの中央値との比較を示しています。

 ここで 

        instrinsic Motivation:擬似カウント

  UBE n-step:隠れ報酬をn回刻みで計算する

f:id:mabonki0725:20171002234839p:plain

  「Montezumaの復習」は既存のDQNでは殆ど解けないモデルです。これには画面遷移を擬似カウントとして報酬とすると旨く行くことが知られています。UBEのスコアが上回っていますが、これは擬似カウントがUBEに反映されているからです。

  f:id:mabonki0725:20171002234918p:plain