2017-10-14から1日間の記事一覧

2017-10-14

安定的な動作を保持するTRPOの論文を読む

ランニングできず英語:Toiec 30分 (1) 安定的な動作を保持するTRPOの論文を読む「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477 この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shul…