一般化報酬による高次元の強化学習の論文を読む

ランニングできず　英語できず

(1) 一般化報酬による高次元の強化学習の論文を読む

「High - Dimensional Continuous Control using Generated Advantage Estimation」

　ゲームの強化学習ではQ-learningが一般的ですが、人間型のヒユーマロイド型ロボットでは複雑で高次元の制御が必要なため、この強化学習では方策 $\pi$ が適正拘束条件下の最適化で行うことが多いです。

f:id:mabonki0725:20171014000943p:plain

　このモデルとしてはUC BerkelyのAbbeel率いるロボット研究グループのShulmanが編み出したTRPO(Trust Region Policy Optimization)が多く使われ実績を残しています。

　この論文は一般化報酬(GAE：Generated Advantage Estimation)を使ったTRPOモデルのアルゴリズムについて述べています。しかしこのGAE自体はSuttonのTD法で既にモデル化されているもので新しいものではありません。

　Suttonの偉大な面は数多くありますが、強化学習のBellman方程式が将来への無限の漸化式で本来は解けないものを、非常に簡単な式で表現して繰返し学習によって精緻化できることを示した事が最大の功績です。これが深層学習と合体して今のAlpha碁になっています。

方策 $\pi_\theta$ は将来の報酬 $r(s_t)$ の累計の期待値の最大化で最適化されます。

　　 $-\mathcal{L}(\theta,s_0) = \mathbb{E}_{\pi_\theta} [\sum_{t=0}^\infty \gamma r(s_t) ]$

　よってこれを微分してSGDで最適化することが一般的です。

$\frac{\partial \mathcal{L}(\theta,s_0)}{\partial \theta} = \sum_s \mu_{\pi_\theta}(s|s_0) \sum_a \frac{\partial \pi_\theta(a|s)}{\partial \theta} A_{\pi_\theta}(s,a)$

但し、 $\mu_{\pi_\theta} = \sum_{t=0}^\infty \gamma^t P(s_t = s|s_0)$

ここで $A_{\pi_\theta}(s,a)$ はGAEにあたります。

　このARGはSuttonの有名なTD(λ)によって次式となります。

$A^{ARG(\gamma,\lambda)} = \sum_{i=0}^\infty (\gamma \lambda)^i \delta_{t+i}$

　　ここで

　　　 $\gamma \ \lambda$ は割引係数とλ係数です

　　　 $\delta_t$ は価値関数 $V$ の増分 $\gamma V(s_{t+1}) + r_t - V(s_t)$

ARGは価値関数の増分 $\delta_t$ の累計なので、これは動作経路（観察データ）から得られます。

　これを使って最適な $\pi_\theta$ を求めるアルゴリズムが以下となります。　

f:id:mabonki0725:20171014004714p:plain