mabonki0725の日記

プレイヤーと環境とが敵対的に学習する論文を読む

AI論文ロボテックス

ランニングできず　英語できず

(1) プレイヤーと環境とが敵対的に学習する論文を読む

　「Learning to Design Games: Strategic Environments　in Reinforcement Learning」

https://arxiv.org/abs/1707.01310v2

　この論文は強化学習でプレイヤーと活動する環境とが敵対的に競争し合ってプレイヤーの能力を高めるものです。

この論文のコンセプトとして下図を示しています。

f:id:mabonki0725:20170923191740p:plain

　一般道の自動運転では様々な連続的に生起する事象を回避する必要があり、その模擬は大変難しいことが知られています。この論文は運転者とその走行環境を互いに複雑にして運転能力を高める方法を開くものと考えられます。

　この論文では下図の様にプレイヤーと迷路を敵対的に進化させて同時に学習をすることができています。

f:id:mabonki0725:20170923182455p:plain

(1.1) 手法

　強化学習のBellman方程式に敵対的学習を達成するminmaxが定式化されています。

　 $(\theta^*,\phi) = argmin_\theta \ max_\phi \mathbb{E}\left( G|\pi_\phi,M_\theta= \lt S,A,P_\theta,R,\gamma \gt \right)$

ここで

　　 $\theta$ は遷移確率 $P$ のパラメータで報酬を最小化します

$\phi$ はプレイヤーの方策 $/pi$ パラメータで報酬を最大化します

$G$ は累計報酬

$S \ A \ R \ \gamma$ は状態、行動(前後左右移動)、報酬、割引率です

　　 $P_\theta$ は遷移確率

$\pi_\phi$ は方策

　 $\theta$ と $\phi$ は微分して計算して最大傾斜となる値に修正します。

$\theta_{i+1} = \theta_i + \eta \cdot \nabla \theta \cdot \mathbb{E}$

$\phi_{i+1} = \phi_i + \eta \cdot \nabla \phi \cdot \mathbb{E}$

但し、 $\phi$ は上式で求めてますが、迷路を複雑にする $\theta$ は報酬 $G$ を最小にする2重の期待値を取る式となっていて相当困難な式が展開されています。結局擬似プログラムをAppendixに添付しています。

$\theta \sim p(\mu_w)$

　　 $w^* = argmin_w \mathbb{E}_{\theta \sim \mu_w} \left ( \mathbb{E} (G|\pi_{\phi^*}; M_\theta^A = \lt S^A,A^A,P_\theta^A,R^A,\gamma^A \gt )\right)$

　

(1.2) 結果

　複数のモデルについてプレイヤーと迷路を同時に高度化しています。

　ここで

　　Roundは計算の繰返回数　Returnは迷路での折返し回数です。

　　OPTはプレイヤーが学習しないモデル

　　DFSは判断木を生成して深さ優先で最適判断するモデル

　　RHSは判断木を生成して右方向優先で最適判断するモデル

　　DQNはDeep Q-learningです

　この結果ではDQNのプレイヤーが最適な学習をするので早期に複雑な迷路を生成しています。

f:id:mabonki0725:20170923185215p:plain