UC.Berkeleyの敵対的逆強化学習の論文を読む
Abbeel率いるUC.Berkeleyのロボット学者達が昨年初「GANとIRL」は同義だとする画期的な論文を示しましたが、この一派がまたこの論文に述べられたGAN-GCLを発展させたGANによるIRLの論文(Adversarial Inverse Reinforcement Learning:AIRL)を発表しました。
[1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
GAN-GCL(Genarative Adversarial Network-Guided Cost Learning)では経路を使った識別関数でしたが、この手法は安定しないため、局面()での識別関数に変更して性能を向上させました。
この識別関数はGANの定義通りで以下となります。
ここで
は熟練者の局面 行動での選択率を与える擬似関数(が特徴量)
はIRLで生成された擬似方策
このモデルは熟練者の選択とIRLで生成された擬似方策を識別関数で識別し、これを改善することによって熟練者の選択・擬似関数を改善します。
論文では以下の①~③を繰返す敵対的アルゴリズムとなっていて、繰返し毎に熟練者と擬似IRLの生成結果を近似していきます。
①局面 行動でのデータが熟練者によるものか、IRLで生成されたデータか判断し識別関数を改善します。
②報酬は上記の識別関数を次式に投入すると、IRLの公式となるので計算できます。
ここでは報酬擬似関数と価値擬似関数に分離して近似解を解いています。
③得られた報酬より擬似方策を計算します。
実験では以下の2つの訓練時と試験時では異なる強化学習の精度を比較しています。
Pointmass-Maze Ant-Disabled
左図は訓練時は緑→青へ、試験時は青→緑へ移動する実験
右図は訓練時は4本同じ足で前進、試験時は前足が短くしています。
比較先としてTRPOによる経路を真値としています。
ここで State-OnlyのYesは識別関数が(s,a)で判定しており、Noは経路()での識別判定です。特にAnt-DisabledではAIRLでないと全く試験時には前に動作しないと述べています。
流石にGANとIRLが同等である事を示したチームのモデルであるだけに敵対的なIRLモデルとなっています。
なお、GANとIRLが同等である説明資料を以下に添付します。