プレイヤーと環境とが敵対的に学習する論文を読む

ランニングできず 英語できず

(1) プレイヤーと環境とが敵対的に学習する論文を読む

 「Learning to Design Games: Strategic Environments in Reinforcement Learning

https://arxiv.org/abs/1707.01310v2

 この論文は強化学習でプレイヤーと活動する環境とが敵対的に競争し合ってプレイヤーの能力を高めるものです。

    この論文のコンセプトとして下図を示しています。

f:id:mabonki0725:20170923191740p:plain

 一般道の自動運転では様々な連続的に生起する事象を回避する必要があり、その模擬は大変難しいことが知られています。この論文は運転者とその走行環境を互いに複雑にして運転能力を高める方法を開くものと考えられます。

 この論文では下図の様にプレイヤーと迷路を敵対的に進化させて同時に学習をすることができています。

f:id:mabonki0725:20170923182455p:plain

 (1.1) 手法

 強化学習のBellman方程式に敵対的学習を達成するminmaxが定式化されています。

    (\theta^*,\phi) = argmin_\theta \  max_\phi \mathbb{E}\left( G|\pi_\phi,M_\theta= \lt S,A,P_\theta,R,\gamma \gt \right)

    ここで

  \thetaは遷移確率Pのパラメータで報酬を最小化します

       \phiはプレイヤーの方策/piパラメータで報酬を最大化します

       Gは累計報酬

       S \ A \ R \ \gammaは状態、行動(前後左右移動)、報酬、割引率です

  P_\thetaは遷移確率

       \pi_\phiは方策

 \theta\phi微分して計算して最大傾斜となる値に修正します。

       \theta_{i+1} = \theta_i + \eta \cdot \nabla \theta \cdot \mathbb{E}

       \phi_{i+1} = \phi_i + \eta \cdot \nabla \phi \cdot \mathbb{E}

  但し、\phiは上式で求めてますが、迷路を複雑にする\thetaは報酬Gを最小にする2重の期待値を取る式となっていて相当困難な式が展開されています。 結局擬似プログラムをAppendixに添付しています。

       \theta \sim p(\mu_w)

  w^* = argmin_w \mathbb{E}_{\theta \sim \mu_w} \left ( \mathbb{E} (G|\pi_{\phi^*}; M_\theta^A = \lt S^A,A^A,P_\theta^A,R^A,\gamma^A \gt )\right)

 

 (1.2) 結果

 複数のモデルについてプレイヤーと迷路を同時に高度化しています。

 ここで

  Roundは計算の繰返回数 Returnは迷路での折返し回数です。

  OPTはプレイヤーが学習しないモデル

  DFSは判断木を生成して深さ優先で最適判断するモデル

  RHSは判断木を生成して右方向優先で最適判断するモデル

  DQNはDeep Q-learningです

 この結果ではDQNのプレイヤーが最適な学習をするので早期に複雑な迷路を生成しています。

f:id:mabonki0725:20170923185215p:plain