UC.Berkeleyの敵対的逆強化学習の論文を読む

Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文(Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。 

[1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

GAN-GCL(Genarative Adversarial Network-Guided Cost Learning)では経路を使った識別関数でしたが、この手法は安定しないため、局面(s,a)での識別関数に変更して性能を向上させました。

この識別関数はGANの定義通りで以下となります。

 D_\theta(s,a) = \frac{\exp(f_\theta(s,a))}{\exp(f_\theta(s,a)) + \pi(a|s)}

 ここで

  \exp(f_\theta(s,a))は熟練者の局面s 行動aでの選択率を与える擬似関数(\thetaが特徴量)

  \pi(a|s)はIRLで生成された擬似方策

 このモデルは熟練者の選択とIRLで生成された擬似方策を識別関数D_\theta(s,a)で識別し、これを改善することによって熟練者の選択・擬似関数を改善します。

論文では以下の①~③を繰返す敵対的アルゴリズムとなっていて、繰返し毎に熟練者と擬似IRLの生成結果を近似していきます。

 ①局面s 行動aでのデータが熟練者によるものか、IRLで生成されたデータか判断し識別関数D_\theta(s,a)を改善します。

      D_{\theta,\phi}(s,a) = \frac{\exp(f_{\theta,\phi}(s,a))}{\exp(f_{\theta,\phi}(s,a)) + \pi(a|s)}

 ②報酬r_{\theta,\phi}上記の識別関数を次式に投入すると、IRLの公式となるので計算できます。

  r_{\theta,\phi} \gets  \log D_{\theta,\phi}(s,a,s') - \log(1-D_{\theta,\phi}(s,a,s'))

       f_{\theta,\phi}(s,a,s') = g_\theta(s,a) + \gamma h_\phi(s') - h_\phi(s)

      ここでは報酬擬似関数g_{\theta}(s,a)と価値擬似関数h_\phi(s)に分離して近似解を解いています。

    ③得られた報酬r_{\theta,\phi}より擬似方策\piを計算します。

 

 実験では以下の2つの訓練時と試験時では異なる強化学習の精度を比較しています。

 

f:id:mabonki0725:20180108174238p:plain

  Pointmass-Maze                                   Ant-Disabled

左図は訓練時は緑→青へ、試験時は青→緑へ移動する実験

右図は訓練時は4本同じ足で前進、試験時は前足が短くしています。

比較先としてTRPOによる経路を真値としています。

f:id:mabonki0725:20180108174812p:plain

ここで State-OnlyのYesは識別関数が(s,a)で判定しており、Noは経路(\tau)での識別判定です。特にAnt-DisabledではAIRLでないと全く試験時には前に動作しないと述べています。

 

流石にGANとIRLが同等である事を示したチームのモデルであるだけに敵対的なIRLモデルとなっています。

なお、GANとIRLが同等である説明資料を以下に添付します。

www.slideshare.net