敵対的擬似逆強化学習の論文を読む

非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性能を示している。

[1606.03476] Generative Adversarial Imitation Learning

強化学習は熟練者のコスト関数の期待値を一致させる方法が一般的だが

   min_{\pi \in \Pi} \mathbb{E}_\pi [c(s,a)] - \mathbb{E}_{\pi_E} [c(s,a) ]

ここでは逆強化学習を次式で定式化している。

   IRL(c) = max_{c \in C}[min_{\pi \in \Pi} - \mathcal{H}(\pi) + \mathbb{E}_\pi [c(s,a) ] ] - \mathbb{E}_{\pi_{E}} [c(s,a)]

ここで

 c(s,a)は行動a と状況sでのコスト関数

 \mathcal{H}(\pi)=\mathbb{E}_\pi [-\log \pi(a|s) ]で方策関数のエントロフィ(正則化項)

 \pi_Eは熟練者の方策 

この逆強化学習の式を次の様に分解すると、式の意味は熟練者の方策のコストを最小にして、熟練者でない最良方策のコストは最大にすることを示している。

 最後の項\mathbb{E}_{\pi_{E}} [c(s,a)] は熟練者の方策のコストは最小化

 エントロフィ項\mathcal{H}(\pi)は熟練者でない方策の最適化

 最初の項 \mathbb{E}_\pi [c(s,a) ] は熟練者でない最良方策のコストは最大化

ここで擬似的な方策関数である占有尺度\rho_\pi(occupancy measure)を定義している。

   \rho_\pi(a|s) = \pi(a|s) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi)

占有尺度は方策\piを採った場合、行動履歴上どれ位 状況sが選択され、その場合行動aが選択される確率である。

論文では以下が証明されているが、難しいため省略する。

   \pi(a|s) \approx \rho_\pi(a|s)

   \mathcal{H}(\pi) \approx \mathcal{H}(\rho_\pi)

結局この最適化には次式を解けばよいことになる。

 min_{\rho \in \mathcal{D}} \mathcal{H}(\rho) subject to \rho(s,a) = \rho_E(s,a)

ここでの最小問題を解くために非線形\phi_{GA}*関数を導入する。

 \phi_{GA}*(\rho - \rho_E)

これは熟練者の擬似方策関数\rho_Eと最適化したい方策関数\rhoを一致させればよいのでそこでGAN(Generative Adversarial Network)を使う。

 \phi_{GA}* (\rho - \rho_E) = max \mathbb{E}_\pi[\log D(s,a)] + \mathbb{E}_{\pi_E}[\log(1-D) ]

 

本論分のアルゴリズムでは2段階でモデルを改善している。

 ①Discriminater \mathcal{D}の改善  →   GAN アルゴリズム

 ②コスト関数c(s,a)の改善 →  TRPO アルゴリズム

 

実験結果

 水色が本論の手法だが全てのゲームで学習するデータ量に比例せず驚異的な性能を示している。

f:id:mabonki0725:20180925085440p:plain

 このモデルの詳しい解説は千葉大の中田さんの資料がある。

www.slideshare.net