敵対的理論より学習環境に依存しない逆強化学習の論文を読む

このバークレイ学派の論文の寄与は次の2点である

[1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

  ① 逆強化学習(IRL)はGANと同じ理論とする論文により

  IRLをGANの識別(Discriminator)関数の最適化で解く

  ②このモデルを状況s依存に変形して、

 学習した軌跡と異なった環境でも適用できるIRLモデルにした。

 具体的にはこの手法のIRLが多少環境を変えても適用できる事が示されている。

       f:id:mabonki0725:20180809071828p:plain

 左図は障害壁の向きが逆になった場合、右図は蟻の前足が短くなった場合でも元の行動軌跡からのIRLで解いた報酬関数を使っても適用できる事が示されている。

 

 ①につては次の難しい論文があるが、本文中の付録に解説がある。  

[1611.03852] A Connection between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models

  要はエネルギーベースのIRLはGDL(Guided Cost Learning)で解くが、GANと同じ定式化ができるので、次式の識別関数D_\theta\mathcal{L}(\theta)のネットワークで解けばよいとのことである。

       \mathcal{D}_{\theta}(s,a) = \frac{\exp \{ r_{\theta}(s,a) \}} {\exp \{r_{\theta}(s,a) \} + \pi(a|s)}

         \mathcal{L}(\theta) = -\mathbb{E}_{\tau \sim D} [ \sum_{t=0}^{T} \log D_\theta (s_t,s_a) ] - \mathbb{E}_{\tau \sim \pi} [ \sum_{t=0}^{T} \log (1 - D_\theta(s_t,a_t)) ]

   最適な識別関数Dを使うと報酬関数は次式で求まる。

         \hat{r}(s,a) = \log(D_\theta(s,a)) - \log(1 - D_\theta(s,a))

   上記の証明は

   本論文のAppendex A にエネルギーベースのIRLの解法GDL(Guided Cost Learning)

   本論文のAppendex B にGDLがGANと同じ事が示されている。

 

 

 ②を達成するには、変化した環境s'に依存するモデルではなく、現状の状態sのみに依存する様に変形する必要がある。

 一般的には次のとおりであるが

     \mathcal{D}_{\theta}(s,a,s') = \frac{\exp \{ f_{\theta}(s,a,s') \}} {\exp \{f_{\theta}(s,a,s') \} + \pi(a|s)}

       f_{\theta}(s,a,s')  = r_\theta(s,a) + \gamma V(s') - V(s)

 

 状況sに依存する様にパラメータ\theta\phiを導入して識別関数\mathcal{D}_{\theta,\phi}を最適化することで算出する式に変形している。

     \mathcal{D}_{\theta,\phi}(s,a,s') = \frac{\exp \{ f_{\theta,\phi}(s,a,s') \}} {\exp \{f_{\theta,\phi}(s,a,s') \} + \pi(a|s)}

        f_{\theta,\phi}(s,a,s')  = g_\theta(s,a) + \gamma h_\phi (s') - h_\phi(s)

        g_\theta(s) = r(s) + constant

        f_\phi(s) = V(s) + constant

         f_\phi(s') = constant \cdot  f_\phi(s)

 

注記)

 逆強化学習とGANが同様に定式化される事についての詳説したものに下記の資料がある。

www.slideshare.net