mabonki0725の日記

部分観測型の強化学習の文献を読む

ロボテックス確率・統計

ランニング30分英語:Toeic

(1) 部分観測型の強化学習の文献を読む

　「確率ロボット　16章 POMDPの近似手法」※POMDP(Partially Observable Marcov Decision Process)

　この文献は下記のThrunの「Probabilistic Robotic」を千葉工大の上田隆一先生が訳したもので非常に名訳です。先生は[RaspPai Mouse]の製作者としても有名です。

https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwix2orZx4fWAhUBk5QKHdOzB84QFgg3MAE&url=https%3A%2F%2Fdocs.ufpr.br%2F~danielsantos%2FProbabilisticRobotics.pdf&usg=AFQjCNGyMwb645fqeJ0EKKwcfscTuGp0Bw

f:id:mabonki0725:20170428075234p:plain

(1.1) 手法

　現実のロボットは環境より部分的にしか観測できません。この部分観測データを拠所にして目的を達成する強化学習のモデルの説明です。

　ここでは拡張MDP(Augmented Marcov Decision)の近似モデルで説明しています。

一般に強化学習のBellman方程式は次式になりますが、

$v_t (x) = \gamma \ max_u [r(x,u) + \int v_{t-1}(x') p(x'|u,x) dx' ]$

　部分観察される場合のBellman方程式は次に変更となります。

　　 $v_t(b) = \gamma \ max_u [r(b,u) + \int v_{t-1}(b') p(b'|a,b)db']$

ここで

　　 $x$ は状態

$v_t$ は $t$ 時点の価値関数

$b$ は信念

$u$ は行動

　　 $r$ は報酬

　　 $\gamma$ は割引率

　部分観測しかできないのでロボットには信念(belief) $b(x)$ という確率分布を与えます。部分観測によってこの信念を精緻化するのが目的です。

近似モデルなので、ここでは信念の確率分布を次の２変数の十分統計量で表現できると仮定します。（正規分布の場合は平均と分散が十分統計量です）

　 $\bar{b} = f(b) = (argmax_x b(x) , H_b(x))$

$H_b(x)$ はエントロピー $H_b(x) = - \int b(x) \log b(x) dx$

問題によってはもっと多数の変数で十分統計量を表す必要があります。

信念確率の十分統計量を区分表 $\mathcal{\hat{P}}$ にします。部分観察から得た情報で縦と横の区分内に入る個数で、信念の十分統計量の表を更新で精緻化しています。

また信念と行動 $u$ の報酬の区分表 $\mathcal{\hat{R}}$ も得られた報酬で更新しています。

f:id:mabonki0725:20170903113657p:plain

この様な区分表はルックアップ・テーブルと云いSuttonは各セルの値を特徴量の重みとして強化学習を解いています。DQNでは深層学習で特徴量を抽出して、その重みをQ-Learningで解いていることになります。

(1.2) 結果

　左図の(a) (c) は普通のロボットの移動で、右図の(b)(c)は本手法AMDPによるロボットの移動です。右図では自分の位置をロストしない様に物体に沿って移動しています。

f:id:mabonki0725:20170903085055p:plain

(1.3) 感想

　下図もAMDPの結果です。これは監視ロボット(○）が進入者（●）の居る場所の信念を濃く表現しています。この場合は信念の十分統計量は6変数使っています。

侵入者がロボットとすると、監視ロボットと侵入ロボットとが敵対的に互いを出し抜く様な環境が考えられます。これを繰返すと両ロボットは知見を更新し能力を高める可能性があります。

敵対的なモデルは早期に自己能力を高める手法であることが分かります。

f:id:mabonki0725:20170903090807p:plain