Abbeelの対等な敵対的ロボットの論文を読む
ランニング30分 英語できず
(1) Abbeelの対等な敵対的ロボットの論文を読む
「Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments」https://arxiv.org/abs/1710.03641
対等な敵対的モデルはOpen-AIの手作りのカリキュラムを利用するモデルhttps://arxiv.org/abs/1710.03748が先日投稿されましたが、この論文は正攻法で対等な敵対モデルに取り組んだものです。モデル名はRobosumoです。
強化学習のモデルはDeepMind(Google)対UC Barkeley(OpenAI)の両巨頭に絞られてきた感があります。DeepMindはQ-Learnig BarkeleyはTRPOをベースにしており、どちらが「強いAI」に至るか固唾を飲んで見守っている感じがします。
(1.1) 手法
この論文の敵対的なモデルはタスクという概念を使い2階層モデルでできています。タスクは敵対的な相手に対する戦略の様なものです。
・1階層目 (メタ学習)前のタスクの方策の改善
・2階層目 (強化学習)動作の方策の改善
最適化問題は次で定式化しています。
上式は2階層の期待値で出来ていることがわかります。
第1階層目
第2階層目
ここで
はタスクの分布
は動作での報酬
は経路
は損失関数
上式の最適化問題の動作をタスク間の動作に置き換えます。
(1.2) 結果
試合の回数に対する足の位置での報酬の低減です。提案モデルはMLP+meta-update LSTM+meta-update が該当します。提案モデルでは報酬の低減が緩やかになっています。