複数人が競争する環境での強化学習の論文を読む

ランニングできず 英語できず

(1) 複数人が競争する環境での強化学習の論文を読む

  「Emergent Complexity via Multi-Agent  Competition」https://arxiv.org/abs/1710.03748

 複数の学習者が競争する環境は設定し易い環境ですが、強化学習にとっては最も複雑な環境となります。この論文では競争者が巧手であれば学習者が最も効果的に学習できる場としています。

 下記はOpenAIの3Dで実装できた競争の強化学習です。

f:id:mabonki0725:20171012225945p:plain

https://sites.google.com/view/multi-agent-competition

 このモデルの特徴は初期時には設計された動作をする様にカリキュラムを導入していて、除々に勝負に関わる学習に移行できる様にしています。

 

(1.1) 手法

 1) 学習モデル

  競争モデルのはずですが、学習モデルは一般の方策\pi_\thetaのパラメータ\thetaを最適化するPPO(Proximal Policy Optimization)モデルとなっています。

      PPOは次の最適化問題

       max_\theta \ \  \mathbb{E}_t [\frac{\pi_{\theta_{old}}(a_t|s_t)} {\pi_\theta(a_t|s_t)} \cdot  A_t ]

       s.t.

           \mathcal{L}(\theta) =\mathbb{E}_t [ \mathcal{KL} \{ \pi_{\theta_{old}} (a_t|s_t) || \pi_\theta(a_t,s_t) \}]  \lt \delta  

        ここで A_tは一般評価利益(GAE)です

    A_t = Q_{\pi_\theta}(a_t,s_t) - V_{\pi_\theta}(s_t)

 この最適化問題は次の深層学習で解いています(詳細不明)

  MLP:価値に関する方策\pi_\thetaと価値関数Q_{\pi_\theta}(a_t,s_t)

        LSTM:時間に関する方策\pi_\theta

 

 2) カリキュラムの導入

      初期の動作訓練のためカリキュラムを導入しています。これは時間が経過するとに消滅する人工的な報酬で実現しています。

  即ち、初期はカリキュラムに沿った動きをしますが、時間の経過と共に本来の勝負の報酬で学習する様になっています。

  時間の経過する報酬は次のもので、焼き鈍し係数\alphaが零になると本来の勝負の報酬Rのみなります。

  詳細はAppendix Aにある様に課題毎に設定します。

    r_t = \alpha_t s_t + (1-\alpha_t) \mathbb{I} [ t == T]R

        ここで

            \alphaは時間の経過で消滅する焼き鈍し係数

            Rは勝負が尽いた場合の報酬

            s_tは状況で下記を対象としています。

    ・ゴールまでの距離

    ・x方向の速度

    ・制御のコスト

    ・衝撃コスト

    ・不倒の報酬

 (1.2) 結果

 最初はカリキュラムに沿って動くので、カリキュラムでの学習度で差がでる場合があります。

 (a)の人間型の相撲では最初は同じレベルでしたが、差が除々に拡大しています。しかし(b)の蟻型の相撲ではカリキュラム時の差から反対に叙々に縮まっています。

 サーカーでは2パターンの様子があり、このモデルは安定していない事がわかります。

f:id:mabonki0725:20171013061729p:plain