敵対的理論より学習環境に依存しない逆強化学習の論文を読む
このバークレイ学派の論文の寄与は次の2点である
[1710.11248] Learning Robust Rewards with Adversarial Inverse Reinforcement Learning
① 逆強化学習(IRL)はGANと同じ理論とする論文により
IRLをGANの識別(Discriminator)関数の最適化で解く
②このモデルを状況依存に変形して、
学習した軌跡と異なった環境でも適用できるIRLモデルにした。
具体的にはこの手法のIRLが多少環境を変えても適用できる事が示されている。
左図は障害壁の向きが逆になった場合、右図は蟻の前足が短くなった場合でも元の行動軌跡からのIRLで解いた報酬関数を使っても適用できる事が示されている。
①につては次の難しい論文があるが、本文中の付録に解説がある。
要はエネルギーベースのIRLはGDL(Guided Cost Learning)で解くが、GANと同じ定式化ができるので、次式の識別関数をのネットワークで解けばよいとのことである。
最適な識別関数を使うと報酬関数は次式で求まる。
上記の証明は
本論文のAppendex A にエネルギーベースのIRLの解法GDL(Guided Cost Learning)
本論文のAppendex B にGDLがGANと同じ事が示されている。
②を達成するには、変化した環境に依存するモデルではなく、現状の状態のみに依存する様に変形する必要がある。
一般的には次のとおりであるが
状況に依存する様にパラメータとを導入して識別関数を最適化することで算出する式に変形している。
注記)
逆強化学習とGANが同様に定式化される事についての詳説したものに下記の資料がある。