安定的な動作を保持するTRPOの論文を読む
ランニングできず 英語:Toiec 30分
(1) 安定的な動作を保持するTRPOの論文を読む
「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477
この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shulmanが2015年にICMLで発表しました。
ロボットの制御で必ずコストが低くなる(報酬が高くなる)信頼範囲(Trust Region)で方策を改善していくアイデアです。
当然このTrust Region内で維持していくには、細かい行動する制限が加わることになりますが、これによって複雑な機械がスムーズに動作できることを実現しました。
(1.1) 手法
ここでは報酬の代わりにコストで考えます。
一般化利益関数(Generalized Advantage Estimation)は行動によって受ける利益(ここではコスト削減)を示します。
ここで
は状況
は状況の価値
は状況で行動を採った後の価値
そこで、異なる方策を採った場合の改善度は次のとなります。
但し、
この式よりなら必ずコスト削減になって改善することができます。
それではコスト削減ができる範囲で最大のを探っていけば、安定した制御ができる事になります。
この用件をTRPOでは次の制約付最適問題で更新規則を実現しています。
ここでは信頼境界への制限を示していますが。模擬にて適切な値が決定されます。