mabonki0725の日記

複数人が競争する環境での強化学習の論文を読む

確率・統計ロボテックス AI論文

ランニングできず　英語できず

(1) 複数人が競争する環境での強化学習の論文を読む

「Emergent Complexity via Multi-Agent Competition」https://arxiv.org/abs/1710.03748

　複数の学習者が競争する環境は設定し易い環境ですが、強化学習にとっては最も複雑な環境となります。この論文では競争者が巧手であれば学習者が最も効果的に学習できる場としています。

　下記はOpenAIの３Ｄで実装できた競争の強化学習です。

f:id:mabonki0725:20171012225945p:plain

https://sites.google.com/view/multi-agent-competition

　このモデルの特徴は初期時には設計された動作をする様にカリキュラムを導入していて、除々に勝負に関わる学習に移行できる様にしています。

(1.1) 手法

　1) 学習モデル

　　競争モデルのはずですが、学習モデルは一般の方策 $\pi_\theta$ のパラメータ $\theta$ を最適化するPPO(Proximal Policy Optimization)モデルとなっています。

　　PPOは次の最適化問題

　　　 $max_\theta \ \ \mathbb{E}_t [\frac{\pi_{\theta_{old}}(a_t|s_t)} {\pi_\theta(a_t|s_t)} \cdot A_t ]$

　　　 $s.t.$

　　　 $\mathcal{L}(\theta) =\mathbb{E}_t [ \mathcal{KL} \{ \pi_{\theta_{old}} (a_t|s_t) || \pi_\theta(a_t,s_t) \}] \lt \delta$

　ここで $A_t$ は一般評価利益(GAE)です

　　　　 $A_t = Q_{\pi_\theta}(a_t,s_t) - V_{\pi_\theta}(s_t)$

　この最適化問題は次の深層学習で解いています(詳細不明)

　　MLP:価値に関する方策 $\pi_\theta$ と価値関数 $Q_{\pi_\theta}(a_t,s_t)$

LSTM:時間に関する方策 $\pi_\theta$

　2) カリキュラムの導入

　初期の動作訓練のためカリキュラムを導入しています。これは時間が経過するとに消滅する人工的な報酬で実現しています。

　　即ち、初期はカリキュラムに沿った動きをしますが、時間の経過と共に本来の勝負の報酬で学習する様になっています。

　　時間の経過する報酬は次のもので、焼き鈍し係数 $\alpha$ が零になると本来の勝負の報酬 $R$ のみなります。

　　詳細はAppendix Aにある様に課題毎に設定します。

　　　　 $r_t = \alpha_t s_t + (1-\alpha_t) \mathbb{I} [ t == T]R$

ここで

$\alpha$ は時間の経過で消滅する焼き鈍し係数

$R$ は勝負が尽いた場合の報酬

$s_t$ は状況で下記を対象としています。

　　　　・ゴールまでの距離

　　　　・x方向の速度

　　　　・制御のコスト

　　　　・衝撃コスト

　　　　・不倒の報酬

(1.2) 結果

　最初はカリキュラムに沿って動くので、カリキュラムでの学習度で差がでる場合があります。

　(a)の人間型の相撲では最初は同じレベルでしたが、差が除々に拡大しています。しかし(b)の蟻型の相撲ではカリキュラム時の差から反対に叙々に縮まっています。

　サーカーでは２パターンの様子があり、このモデルは安定していない事がわかります。

f:id:mabonki0725:20171013061729p:plain