DeepMindのグループ対戦型ゲームの強化学習の論文を読む

ランニングできず　英語できず

(1) DeepMindのグループ対戦型ゲームの強化学習の論文を読む

「StarCraft II: A New Challenge for Reinforcement Learning」

StarCraft II: A New Challenge for Reinforcement Learning | DeepMind

StarCraftゲームはグループ対戦型ゲームの強化学習の学習データとしてよく使われている。過去にはアリババの下記の論文の記事がある。（この論文はグループ対戦型の複数のモデルと自分達のRNNモデルとを比較している）

協調型の強化学習の論文を読む - mabonki0725の日記

1) この論文の意図

グループ対戦型という類を見ない強化学習の実験用の環境SC2LEの公開である。この実験環境は以下のことが提供されている

・１対１だけでなくグループ対戦型の２対２、３対３、４対４の対戦が可能

・各Agentが部分的に観測した情報を連絡によりグループで共有できる

・複雑な陣地や行動（300種類）の複雑な組合わせ（百万以上）が実験できる

・模擬して報酬やデータを取得できる環境になっている

・対戦用にA3Cによる複数の強化学習モデルの提供している

・パラメータ調整や特徴選択の組合わせでAgentを強化できる

f:id:mabonki0725:20170818085136p:plain

このグループ対戦型の実験環境はPythonで構築され以下に既に公開されている。

GitHub - deepmind/pysc2: StarCraft II Learning Environment

2) ゲームの状況の観測画面

ゲームとしては、フルゲームと簡単なミニゲームが用意されている。簡単なミニゲームを用意してあるのは、取得できるデータの解釈が容易だからである。

フルゲーム中の観測データとして、下図の様に左端の数値データと様々な地図情報や位置情報が取得できる。

f:id:mabonki0725:20170818091154p:plain

3) 強化学習モデル

強化学習モデルは方策 $\pi_\theta$ の $\theta$ を改善するモデルである。A3Cで構築され、この解法には３種類の深層強化学習で最適化している。しかし何れも熟達した人間相手では勝つことができないので、ベースラインとしての提供である。何れのモデルでも対戦用に弱いAgentと相当強いAgentの２種類が用意されている。