DeepMindの多様な環境で順番学習の有用性の論文

ランニング30分 英語できず

(1) DeepMindの論文「多様な環境での身体特性の出現」を読む。

 表題:Emagency of Locomotion Beheviors in Rich Enviroments  

https://arxiv.org/abs/1707.02286

    動画:

www.youtube.com

これは、GANによる強化学習「Learning human behaviors from motion capture by adversarial imitation」の続編である。

GANによるデータ生成では旨く行かない場合があったので、この論文になっていると思われる。即ち一般に強化学習は様々な状況で正しい報酬を与えるのが難しいので、GANでデータを多数生成をして最適な報酬を計算したが、旨く行かず、逆に様々な状況を作ってやって順番に適応学習する方が効率がいい事を示したものである。

ここでは以下の3の主な考え方を導入している。

 1) カリキュラムの導入

  UNREAL自然言語と同様に簡単な問題から高難易度の課題で学習させる 

 2) A3cの導入

  UNREALと同様に並列型ブースティングを採用、即ち複数人の挙動をブースティングする

 3) Trust Rigion Policyの改良版のDPPO(Distributed Proximal Policy Optimization)アルゴリズムの採用

  ・PPOアルゴリズムの開発

   Trust Region Policyは方策関数の微分による改善で下記の制限を入れた

          Trust Region Policyでの制限{KL \left( \frac{\pi_{\theta_{old}}} { \pi_\theta} \right) \lt \delta}を以下に改良

   if {KL \left( \frac{\pi_{\theta_{old}}} { \pi_\theta} \right) \gt \beta_{high}KL_{target}} then

     {\lambda \leftarrow \alpha \cdot \lambda}

   if {KL \left( \frac{\pi_{\theta_{old}}} { \pi_\theta} \right) \lt \beta_{low}KL_{target}} then

     {\lambda \leftarrow \alpha / \lambda}

   {\mathcal{J}_{pro}(\theta) = \sum_{t=1}^{T} \frac{\pi_\theta(a_t|s_t)}{\pi_{old}(a_t|s_t)} A_t  - \lambda \cdot KL\left(\frac{\pi_{old}}{\pi}\right)}

  ・PPOのバッチ化でRNNを採用したDPPOの開発

   一般に分散か並列に計算すると精度向上を期待できるので、

   強化学習の過程でK回目毎にPPOをRNNで連結してバッチ学習する

   詳細は右記  https://arxiv.org/abs/1602.01783