Abbeelの論文アルゴリズムは報酬が得やすい初期状態の探索になっている
テニス4時間 英語:できず
(1)AbbeelのGoalからの強化学習の論文の下記のアルゴリズムがGoalからStartへ明示的に逆に辿る手続きになっていなく、理解が難しい。
このAlgorithm1の4、5行目のをStartsに入れているのは間違に見えるが、Goal近辺から摂動を与え繰返し毎に徐々に状態を増加させているが、その状態は報酬を得やすい場合に限っている。
Procedure2のSampleNearbyは初期状態を乱数アクションを加えて変えていて
乱数的な初期状態を作っている。Train_polはトラストリージョン(TRPO)の方策改善である。多分Selectがこの論文の最大の寄与で、報酬が得られる初期状態を選んでいる。このアルゴリズムの意味はGoalから報酬が得られやすい初期状態の探索アルゴリズムになっている。
上記の理解だとすると、この論文の適応範囲は行動の摂動のみで状態が変更できる簡単な操作モデルに限定されると思われる。