DeepMindのチーム対戦の強化学習の論文を読む

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。

[1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

チームでの勝敗とは自己と敵対チームで互いに相手の陣地の旗を奪い合いするCTF(Capture the flag)ゲームである。ゲーム環境は下図(a)と(b)の様な3D一人視覚(first-person)だが自己チームの一人として学習した行動が見れる様になっている。このゲームには得点が表示されるので、この得点を指針としてチームとしての強化学習を行っている。

f:id:mabonki0725:20181021065229p:plain

この動画は以下で見れる。 (b)の迷路版だと的の陣地に入って旗を奪取して途中で交戦する様子が見れる。

Human-level in first-person multiplayer games with population-based deep RL - YouTube

複数エージェントのモデルとしては、同じチーム内の協調をどの様に理論化することが最大の問題でモデルの特徴になっている。

DeepMindは自己の方策(inner)とチーム全体(outer)との方策とに分けて、次の2式で訓練している。 この方式をPBT(Population Based Training)として、各エージェントをFTW(For the Win)と称している。

f:id:mabonki0725:20181021070945p:plain

f:id:mabonki0725:20181021070737p:plain

(1) 式は2チームN人で\pi_0側が勝つように自己チームの方策を決定することを示している概念的な式である。この式は(2)式の\mathcal{J}_{outer}で使われている。この詳しい理論は論文に添付してあるSupplementary Materialsを読むしかない。

(2)式の\mathcal{J}_{inner}は普通の強化学習の式であるが報酬rがチームとしての報酬W_p(\rho_{p,t})となっていいる。このチーム報酬は(2)式の\mathcal{J}_{outer}で算出されるものになっていて複数エージェントの協調化をしている。

チーム報酬W(\rho_t)は画面の3D一人視覚の得点\rho_tからチーム全体の報酬を計算する関数で\Phiをパラメータとしている。

ここで

 \iota \sim m_p(\pi)pエージェントの共同対象をサンプルする関数

    \omega \sim \Omegaはゲーム画面のサンプリング

 \gammaは割引係数

 

(1)式のモデルの概念図

f:id:mabonki0725:20181021074830p:plain

人間との比較は下図に示している。

f:id:mabonki0725:20181021075058p:plain

さらにこの論文では詳細にFTWエージェントが次の様に3期に分けて高度な知識を獲得する過程を詳細に観察している。

 1. 自己の陣地の防御(Home Base Defence)

 2. 相手の陣地の待ち伏せ(Opponent Base Camping)

 3. チームの助力(Teammate Follow)

f:id:mabonki0725:20181021075847p:plain

下段の図は3期の学習段階での迷路の状態(左)と自己位置の記憶(右)の状態を示しており、学習段階に従って自己と相手の陣地を往復しており、自己位置は自己と相手の陣地の近くに偏在していく様子を示している。

最後にこの論文の今後の課題としては、エージェントは30人が精一杯でまた各エージェントの異なる特性による協調が与えられてないこととしている。