mabonki0725の日記

敵対的擬似逆強化学習の論文を読む

AI論文ロボテックス

非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性能を示している。

[1606.03476] Generative Adversarial Imitation Learning

逆強化学習は熟練者のコスト関数の期待値を一致させる方法が一般的だが

$min_{\pi \in \Pi} \mathbb{E}_\pi [c(s,a)] - \mathbb{E}_{\pi_E} [c(s,a) ]$

ここでは逆強化学習を次式で定式化している。

$IRL(c) = max_{c \in C}[min_{\pi \in \Pi} - \mathcal{H}(\pi) + \mathbb{E}_\pi [c(s,a) ] ] - \mathbb{E}_{\pi_{E}} [c(s,a)]$

ここで

　 $c(s,a)$ は行動 $a$ と状況 $s$ でのコスト関数

　 $\mathcal{H}(\pi)=\mathbb{E}_\pi [-\log \pi(a|s) ]$ で方策関数のエントロフィ(正則化項)

　 $\pi_E$ は熟練者の方策　

この逆強化学習の式を次の様に分解すると、式の意味は熟練者の方策のコストを最小にして、熟練者でない最良方策のコストは最大にすることを示している。

　最後の項 $\mathbb{E}_{\pi_{E}} [c(s,a)]$ は熟練者の方策のコストは最小化

　エントロフィ項 $\mathcal{H}(\pi)$ は熟練者でない方策の最適化

　最初の項 $\mathbb{E}_\pi [c(s,a) ]$ は熟練者でない最良方策のコストは最大化

ここで擬似的な方策関数である占有尺度 $\rho_\pi$ (occupancy measure)を定義している。

$\rho_\pi(a|s) = \pi(a|s) \sum_{t=0}^{\infty} \gamma^t P(s_t = s | \pi)$

占有尺度は方策 $\pi$ を採った場合、行動履歴上どれ位状況 $s$ が選択され、その場合行動 $a$ が選択される確率である。

論文では以下が証明されているが、難しいため省略する。

$\pi(a|s) \approx \rho_\pi(a|s)$

$\mathcal{H}(\pi) \approx \mathcal{H}(\rho_\pi)$

結局この最適化には次式を解けばよいことになる。

　 $min_{\rho \in \mathcal{D}} \mathcal{H}(\rho)$ subject to $\rho(s,a) = \rho_E(s,a)$

ここでの最小問題を解くために非線形の $\phi_{GA}*$ 関数を導入する。

　 $\phi_{GA}*(\rho - \rho_E)$

これは熟練者の擬似方策関数 $\rho_E$ と最適化したい方策関数 $\rho$ を一致させればよいのでそこでGAN(Generative Adversarial Network)を使う。

　 $\phi_{GA}* (\rho - \rho_E) = max \mathbb{E}_\pi[\log D(s,a)] + \mathbb{E}_{\pi_E}[\log(1-D) ]$

本論分のアルゴリズムでは２段階でモデルを改善している。

　①Discriminater $\mathcal{D}$ の改善 → GAN アルゴリズム

　②コスト関数c(s,a)の改善　→ TRPO アルゴリズム

実験結果

　水色が本論の手法だが全てのゲームで学習するデータ量に比例せず驚異的な性能を示している。

f:id:mabonki0725:20180925085440p:plain

このモデルの詳しい解説は千葉大の中田さんの資料がある。

Generative Adversarial Imitation Learningの紹介（RLアーキテクチャ勉強会） from Yusuke Nakata

www.slideshare.net