敵対的擬似逆強化学習の論文を読む
非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性能を示している。
[1606.03476] Generative Adversarial Imitation Learning
逆強化学習は熟練者のコスト関数の期待値を一致させる方法が一般的だが
ここでは逆強化学習を次式で定式化している。
ここで
は行動 と状況でのコスト関数
で方策関数のエントロフィ(正則化項)
は熟練者の方策
この逆強化学習の式を次の様に分解すると、式の意味は熟練者の方策のコストを最小にして、熟練者でない最良方策のコストは最大にすることを示している。
最後の項は熟練者の方策のコストは最小化
エントロフィ項は熟練者でない方策の最適化
最初の項は熟練者でない最良方策のコストは最大化
ここで擬似的な方策関数である占有尺度(occupancy measure)を定義している。
占有尺度は方策を採った場合、行動履歴上どれ位 状況が選択され、その場合行動が選択される確率である。
論文では以下が証明されているが、難しいため省略する。
結局この最適化には次式を解けばよいことになる。
subject to
ここでの最小問題を解くために非線形の関数を導入する。
これは熟練者の擬似方策関数と最適化したい方策関数を一致させればよいのでそこでGAN(Generative Adversarial Network)を使う。
本論分のアルゴリズムでは2段階でモデルを改善している。
①Discriminater の改善 → GAN アルゴリズム
②コスト関数c(s,a)の改善 → TRPO アルゴリズム
実験結果
水色が本論の手法だが全てのゲームで学習するデータ量に比例せず驚異的な性能を示している。
このモデルの詳しい解説は千葉大の中田さんの資料がある。