Abbeelの対等な敵対的ロボットの論文を読む

ランニング30分 英語できず

(1) Abbeelの対等な敵対的ロボットの論文を読む

 「Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments」https://arxiv.org/abs/1710.03641

 対等な敵対的モデルはOpen-AIの手作りのカリキュラムを利用するモデルhttps://arxiv.org/abs/1710.03748が先日投稿されましたが、この論文は正攻法で対等な敵対モデルに取り組んだものです。モデル名はRobosumoです。

   f:id:mabonki0725:20171015222544p:plain

 強化学習のモデルはDeepMind(Google)対UC Barkeley(OpenAI)の両巨頭に絞られてきた感があります。DeepMindはQ-Learnig BarkeleyはTRPOをベースにしており、どちらが「強いAI」に至るか固唾を飲んで見守っている感じがします。

(1.1) 手法

 この論文の敵対的なモデルはタスクという概念を使い2階層モデルでできています。タスクは敵対的な相手に対する戦略の様なものです。

 ・1階層目 (メタ学習)前のタスクT_{i-1}\to T_iの方策\pi_\phiの改善

 ・2階層目 (強化学習)動作\tauの方策\pi_\thetaの改善

f:id:mabonki0725:20171015221913p:plain

最適化問題は次で定式化しています。

 min_\theta \mathbb{E}_{T \sim D(T)} \mathcal{R}_\tau(\theta)

    \mathcal{R}_\tau(\theta) = \mathbb{E}_{\tau_\theta^{1:K} \sim P(\tau|\theta)} [\mathbb{E}_{\tau_\phi \sim P(\tau|\phi)} \{\mathcal{L}_T(\tau_\phi) | \tau_\theta^{1:K} ,\theta \} ]

  上式は2階層の期待値で出来ていることがわかります。

  第1階層目 \mathbb{E}_{\tau_\phi \sim P(\tau|\phi)} \{\mathcal{L}_T(\tau_\phi) | \tau_\theta^{1:K} ,\theta \} 

  第2階層目  \mathbb{E}_{\tau_\theta^{1:K} \sim P(\tau|\theta)}

    ここで

       T \sim D(T)はタスクの分布

  \mathcal{R}_\tau(\theta)は動作\tauでの報酬

  \tau_\theta^{1:K}は経路\tau_\theta^1 \sim \tau_\theta^K

  \mathcal{L}_T(\tau_\phi)は損失関数

 

 上式の最適化問題の動作\tauをタスク間の動作に置き換えます。\tau \to T_i,T_{i+1}

 min_\theta \mathbb{E}_{T \sim D(T)} \mathcal{R}_{T_i,T_{i+1}} (\theta)

    \mathcal{R}_{T_i,T_{i+1}}(\theta) = \mathbb{E}_{\tau_\theta^{1:K} \sim P(\tau|\theta)} [\mathbb{E}_{\tau_{i+1,\phi} \sim P_{T_{i+1}}(\tau|\phi)} \{\mathcal{L}_{T+1}(\tau_{i+1},\phi) | \tau_\theta^{1:K} ,\theta \} ]

 

(1.2) 結果

 試合の回数に対する足の位置での報酬の低減です。提案モデルはMLP+meta-update LSTM+meta-update が該当します。提案モデルでは報酬の低減が緩やかになっています。

f:id:mabonki0725:20171015222837p:plain