複雑な最終状態を認識して行動する強化学習の論文を読む
論文の図1にある様な複雑な最終状態(goal)を認識してロボットがそれに到達するモデルである。著者はバークレイ学派の重鎮 Sergey Levine等である。
[1807.04742] Visual Reinforcement Learning with Imagined Goals
実際の動作の動画は下記。下が最終状態 上がそれまでの動作を表示している。
https://docs.google.com/file/d/1VfANRmj7iMW-w4RofbqU4CSdTJSL8j3B/view
このバークレイ学派は2年前に画期的なロボット制御にGPS(Guided Policy Search)を提唱していて、この時は環境の認識をConvolution DNNを使っていた。
[1504.00702] End-to-End Training of Deep Visuomotor Policies
最終状態やそれに至る経過を認識するには、かなり高次元の認識になるのでこれをConv-DNN から VAE に変更して 混合ガウス分布 で情報量を軽減してモデル化したものである。
残念ながら価値行動関数はデジタル制御のQ-Learningとなっていて実機モデルでは達成されていないと思われる。
アルゴリズムは次で記述されている
[1]
VAE での状態
VAEでの最終状態
行動
は 3期のTD学習としている
はVAEのコード化