複雑な最終状態を認識して行動する強化学習の論文を読む

論文の図1にある様な複雑な最終状態(goal)を認識してロボットがそれに到達するモデルである。著者はバークレイ学派の重鎮 Sergey Levine等である。

[1807.04742] Visual Reinforcement Learning with Imagined Goals

f:id:mabonki0725:20180803180614p:plain

実際の動作の動画は下記。下が最終状態 上がそれまでの動作を表示している。

https://docs.google.com/file/d/1VfANRmj7iMW-w4RofbqU4CSdTJSL8j3B/view

 

このバークレイ学派は2年前に画期的なロボット制御にGPS(Guided Policy Search)を提唱していて、この時は環境の認識をConvolution DNNを使っていた。

[1504.00702] End-to-End Training of Deep Visuomotor Policies

f:id:mabonki0725:20180803181342p:plain

最終状態やそれに至る経過を認識するには、かなり高次元の認識になるのでこれをConv-DNN から VAE に変更して 混合ガウス分布 で情報量を軽減してモデル化したものである。

残念ながら価値行動関数はデジタル制御のQ-Learningとなっていて実機モデルでは達成されていないと思われる。

アルゴリズムは次で記述されている

      \epsilon(w) = \frac{1}{2} [ Q_w(s,a,g) - (r + \gamma max_a Q_w(s',a',g')]^2 [1]

      r(s,g) = - || z' - z_g||  \propto \sqrt{\log e_\phi(z_g | s)}

      s VAE での状態

      g VAEでの最終状態

      a 行動

      \pi(e(s),e(g)) は 3期のTD学習としている

   e(s)はVAEのコード化

 

f:id:mabonki0725:20180803184156p:plain