DeepMindのチーム対戦の強化学習の論文を読む

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。

[1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

チームでの勝敗とは自己と敵対チームで互いに相手の陣地の旗を奪い合いするCTF(Capture the flag)ゲームである。ゲーム環境は下図(a)と(b)の様な3D一人視覚(first-person)だが自己チームの一人として学習した行動が見れる様になっている。このゲームには得点が表示されるので、この得点を指針としてチームとしての強化学習を行っている。

f:id:mabonki0725:20181021065229p:plain

この動画は以下で見れる。 (b)の迷路版だと的の陣地に入って旗を奪取して途中で交戦する様子が見れる。

Human-level in first-person multiplayer games with population-based deep RL - YouTube

複数エージェントのモデルとしては、同じチーム内の協調をどの様に理論化することが最大の問題でモデルの特徴になっている。

DeepMindは自己の方策(inner)とチーム全体(outer)との方策とに分けて、次の２式で訓練している。この方式をPBT(Population Based Training)として、各エージェントをFTW(For the Win)と称している。

f:id:mabonki0725:20181021070945p:plain

f:id:mabonki0725:20181021070737p:plain

(1) 式は２チームN人で $\pi_0$ 側が勝つように自己チームの方策を決定することを示している概念的な式である。この式は(2)式の $\mathcal{J}_{outer}$ で使われている。この詳しい理論は論文に添付してあるSupplementary Materialsを読むしかない。

(2)式の $\mathcal{J}_{inner}$ は普通の強化学習の式であるが報酬 $r$ がチームとしての報酬 $W_p(\rho_{p,t})$ となっていいる。このチーム報酬は(2)式の $\mathcal{J}_{outer}$ で算出されるものになっていて複数エージェントの協調化をしている。