2017-07-31から1日間の記事一覧

Abbeelの論文アルゴリズムは報酬が得やすい初期状態の探索になっている

テニス4時間 英語:できず (1)AbbeelのGoalからの強化学習の論文の下記のアルゴリズムがGoalからStartへ明示的に逆に辿る手続きになっていなく、理解が難しい。 このAlgorithm1の4、5行目のをStartsに入れているのは間違に見えるが、Goal近辺から摂動を与…