ガウス過程による逆強化学習の論文を読む

最大エントロフィの逆強化学習の性能はベイズより優れていることは実装してみて判明したが、下記の論文によるとガウス過程(Gaussian Process)を使った逆強化学習が傑出してよい性能を出している。　

papers.nips.cc

この論文の高速道路の実験例をみるとパトカーやパトバイクに近い所は人間がスピード抑制をしている事が観測されている。

f:id:mabonki0725:20180129072437p:plain

左上が人間のスピード抑制データ(濃い色）で、GPIRL（ガウス過程逆強化学習）が殆ど等しいことが示されている。ここでの比較先は

　MaxEntIRL(最大エントリフィIRL）

FIRL(Feature Construction IRL)

この手法のプログラムを読むと、ガウス過程の逆強化学習は以下の手順で行っています。

　① 局面を表す特徴量 $X_u$ を選定します。

　②熟練者の操作過程 $\mathcal{D}$ の特徴量を記録します。

　⑥の尤度(IRL term)が最大になるまで③から⑥を繰返します。

　　③特徴量の記録から、ガウスカーネル $K_{u,u}$ のパラメータ $\theta$ を最大尤度(GP probability) で計算します

　　 $P(\theta|X_u) = - \frac{1}{2} tr(K^{-2}_{u,u}) - \sum_i \log(\lambda+1)$

この $\theta$ は特徴量 $X_u$ の正則化項のパラメータです $\theta$ は乱数を振って上式が最大(最尤度)となる値を採用しています。

　　④式(3)に従って特徴量 $X_u$ と観測された報酬 $u$ でカーネル過程回帰します

f:id:mabonki0725:20180129073958p:plain

　　これはカーネル $K_{u,u}$ を分散とする対数分布ですが、最後に $\log P(\theta)$ が追加されています。

　　⑤擬似報酬 $u$ の事後分布で真の報酬 $r$ を逆算します

　　　この事後分布(GP posterior)は尤度分布と事前分布ともガウス分布なので

　　　理論解で計算できます

　　　 $r = K^T_{r,u} \cdot k^{-1}_{u,u} \cdot u$

　　　報酬 $r$ と特徴量 $X_u$ のカーネル $K_{r,u}$ を使っています。問題は報酬 $r$ の算出にこれが未定なのに使っています。よってこの式は仮置きの報酬 $r$ を使って、SGDの繰返しで精緻化する方針としています。

　⑥式(2)の $P(\mathcal{D}|r$ は仮置きの報酬 $r$ よりBellman方程式を解いてこの式(2)尤度(IRL term)を計算します。

f:id:mabonki0725:20180129073901p:plain

　　　ここで

　　　　 $D$ は熟練者のデータ

　　 $Xu$ は特徴量

　　 $u$ はガウス過程

$r$ は報酬

　　　　 $\theta$ は $X_u$ の正則化項

　　　　IRL termはBellman方程式の解

　　GP posterior はガウス分布の事後分布

　　GP probabilityはガウス過程回帰

⑦仮置きの報酬 $r$ をSGDで精緻化するため、本論文ではL-BFGSを使ったと記述があります。この微分式については下記のSupprementに詳細に記述され、Python版ではこの通り実装されています。　　　

Nonlinear Inverse Reinforcement Learning with Gaussian Processes f:id:mabonki0725:20180311155547p:plain

　　SGDの為に以下の微分項を計算する

$\frac{\partial}{\partial \theta} \log P(\mathcal{D},u,\theta|Xu) = \frac{\partial \mathcal{L}_D}{\partial r} \frac{\partial r}{\partial \theta} + \frac{\mathcal{L}_G}{\partial \theta} + \frac{\partial \mathcal{L}_H}{\partial \theta}$

$\frac{\partial}{\partial u} \log P(\mathcal{D},u,\theta|Xu) = \frac{\partial \mathcal{L}_D}{\partial r} \frac{\partial r}{\partial u} + \frac{\partial \mathcal{L}_G}{\partial u}$

ここで諸値は以下で与えられる

　　　 $\frac{\partial\mathcal{L}_D}{\partial r} = \hat{u} - \mathbb{E}(u)$ エネルギーベースの逆強化学習

$\frac{\partial\mathcal{L}_G}{\partial \theta_i} = \frac{1}{2} \mathrm{tr} [\alpha \alpha^T - K_{u,u}^{-1} \frac{\partial K_{u,u}}{\partial \theta_i} ]$ ここで $\alpha = K_{u,u}^{-1} u$

$\frac{\partial\mathcal{L}_G}{\partial \theta_i} = - K_{u,u}^{-1} u$

　　 $\frac{\partial r}{\partial u} = K_{r,u}^T K_{u,u}^{-1}$

$\frac{\partial r}{\partial \theta} = \frac{\partial[r=K_{r,u}^T K_{u,u}^{-1} u]}{\partial \theta_i}$

ここで $\theta = \{\beta,\lambda\}$ なので $\frac{\partial \mathcal{L}_H}{\partial \theta}$ は

　　　 $\frac{\partial \mathcal{L}_H}{\partial \beta} = \mathrm{tr} [K_{u,u}^{-3} \frac{\partial K_{u,u}}{\partial \beta}]$

$\frac{\partial \mathcal{L}_H}{\partial \lambda} = \mathrm{tr} [K_{u,u}^{-3} \frac{\partial K_{u,u}}{\partial \beta} ] - \frac{1}{\sum_i \Lambda_{ii} +1}$