安定的な動作を保持するTRPOの論文を読む

ランニングできず 英語:Toiec 30分

(1) 安定的な動作を保持するTRPOの論文を読む

 「Trust Region Policy Optimization」https://arxiv.org/abs/1502.05477

  この論文はロボットの強化学習で革新的な貢献をしたモデルです。UC Berkeleyのロボットチームの Shulmanが2015年にICMLで発表しました。

 ロボットの制御で必ずコストが低くなる(報酬が高くなる)信頼範囲(Trust Region)で方策\pi_\thetaを改善していくアイデアです。

          f:id:mabonki0725:20171014234339p:plain

   当然このTrust Region内で維持していくには、細かい行動する制限が加わることになりますが、これによって複雑な機械がスムーズに動作できることを実現しました。

(1.1) 手法

 ここでは報酬rの代わりにコストc=-rで考えます。

 一般化利益関数A(s,a)(Generalized Advantage Estimation)は行動aによって受ける利益(ここではコスト削減)を示します。

   A_{\pi_\theta}(s,a) = Q_{\pi_\theta}(s,a) - V_{\pi_\theta}(s)

           ここで

    sは状況

    V_\pi(s)は状況sの価値

    Q_\pi(s,a)は状況sで行動aを採った後の価値

 そこで、異なる方策\tilde{\pi}を採った場合の改善度\etaは次のとなります。

   \eta(\tilde{\pi}) = \eta(\pi) + \sum_s \rho_{\tilde{\pi}}(s) \sum_a \tilde{\pi}(a|s) A_\pi(s,a)

          但し、\rho_{\tilde{\pi}}(s)=P(s_0 = s) + \gamma P(s_1=s) + \dots + \gamma^t P(s_t = s)

     この式より\sum_a \tilde{\pi}(a|s) A_\pi(s,a) \lt 0なら必ずコスト削減になって改善することができます。

 それではコスト削減ができる範囲で最大のaを探っていけば、安定した制御ができる事になります。

この用件をTRPOでは次の制約付最適問題で更新規則を実現しています。

   \mathcal{L}(\pi_\theta) = \theta_{new} = argmin_\theta [ \eta(\pi_{\theta_{old}}) + \sum_s \rho_{\pi_\theta}(s) \sum_a \pi_\theta(a|s) A_{\pi_{\theta_{old}}}(s,a)]

            s.t. \ \  \mathcal{D}_{KL} (\theta_{new} || \theta_{old}) \lt \epsilon  

   ここで\epsilonは信頼境界への制限を示していますが。模擬にて適切な値が決定されます。