mabonki0725の日記

UC.Berkeleyの敵対的逆強化学習の論文を読む

Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文（Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。

[1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

GAN-GCL(Genarative Adversarial Network-Guided Cost Learning)では経路を使った識別関数でしたが、この手法は安定しないため、局面( $s,a$ )での識別関数に変更して性能を向上させました。

この識別関数はGANの定義通りで以下となります。

　 $D_\theta(s,a) = \frac{\exp(f_\theta(s,a))}{\exp(f_\theta(s,a)) + \pi(a|s)}$

　ここで

　　 $\exp(f_\theta(s,a))$ は熟練者の局面 $s$ 行動 $a$ での選択率を与える擬似関数（ $\theta$ が特徴量）

　　 $\pi(a|s)$ はIRLで生成された擬似方策

このモデルは熟練者の選択とIRLで生成された擬似方策を識別関数 $D_\theta(s,a)$ で識別し、これを改善することによって熟練者の選択・擬似関数を改善します。

論文では以下の①~③を繰返す敵対的アルゴリズムとなっていて、繰返し毎に熟練者と擬似IRLの生成結果を近似していきます。

　①局面 $s$ 行動 $a$ でのデータが熟練者によるものか、IRLで生成されたデータか判断し識別関数 $D_\theta(s,a)$ を改善します。

$D_{\theta,\phi}(s,a) = \frac{\exp(f_{\theta,\phi}(s,a))}{\exp(f_{\theta,\phi}(s,a)) + \pi(a|s)}$

　②報酬 $r_{\theta,\phi}$ は上記の識別関数を次式に投入すると、IRLの公式となるので計算できます。

　　 $r_{\theta,\phi} \gets \log D_{\theta,\phi}(s,a,s') - \log(1-D_{\theta,\phi}(s,a,s'))$

$f_{\theta,\phi}(s,a,s') = g_\theta(s,a) + \gamma h_\phi(s') - h_\phi(s)$

ここでは報酬擬似関数 $g_{\theta}(s,a)$ と価値擬似関数 $h_\phi(s)$ に分離して近似解を解いています。

③得られた報酬 $r_{\theta,\phi}$ より擬似方策 $\pi$ を計算します。

　実験では以下の２つの訓練時と試験時では異なる強化学習の精度を比較しています。

　

f:id:mabonki0725:20180108174238p:plain

　　Pointmass-Maze Ant-Disabled

左図は訓練時は緑→青へ、試験時は青→緑へ移動する実験

右図は訓練時は４本同じ足で前進、試験時は前足が短くしています。

比較先としてTRPOによる経路を真値としています。

f:id:mabonki0725:20180108174812p:plain

ここで　State-OnlyのYesは識別関数が(s,a)で判定しており、Noは経路( $\tau$ )での識別判定です。特にAnt-DisabledではAIRLでないと全く試験時には前に動作しないと述べています。

流石にGANとIRLが同等である事を示したチームのモデルであるだけに敵対的なIRLモデルとなっています。

なお、GANとIRLが同等である説明資料を以下に添付します。

Irs gan doc from Masato Nakai

www.slideshare.net