DeepMindのグループ対戦型ゲームの強化学習の論文を読む

ランニングできず 英語できず

(1) DeepMindのグループ対戦型ゲームの強化学習の論文を読む

StarCraft II: A New Challenge for Reinforcement Learning

StarCraft II: A New Challenge for Reinforcement Learning | DeepMind

StarCraftゲームはグループ対戦型ゲームの強化学習の学習データとしてよく使われている。過去にはアリババの下記の論文の記事がある。(この論文はグループ対戦型の複数のモデルと自分達のRNNモデルとを比較している)

協調型の強化学習の論文を読む - mabonki0725の日記

 

1) この論文の意図

グループ対戦型という類を見ない強化学習の実験用の環境SC2LEの公開である。この実験環境は以下のことが提供されている

・1対1だけでなくグループ対戦型の2対2、3対3、4対4の対戦が可能

・各Agentが部分的に観測した情報を連絡によりグループで共有できる

・複雑な陣地や行動(300種類)の複雑な組合わせ(百万以上)が実験できる

・模擬して報酬やデータを取得できる環境になっている

・対戦用にA3Cによる複数の強化学習モデルの提供している

・パラメータ調整や特徴選択の組合わせでAgentを強化できる

f:id:mabonki0725:20170818085136p:plain

 

このグループ対戦型の実験環境はPythonで構築され以下に既に公開されている。

GitHub - deepmind/pysc2: StarCraft II Learning Environment

 

2) ゲームの状況の観測画面

ゲームとしては、フルゲームと簡単なミニゲームが用意されている。簡単なミニゲームを用意してあるのは、取得できるデータの解釈が容易だからである。

フルゲーム中の観測データとして、下図の様に左端の数値データと様々な地図情報や位置情報が取得できる。

f:id:mabonki0725:20170818091154p:plain

3) 強化学習モデル

強化学習モデルは方策\pi_\theta\thetaを改善するモデルである。A3Cで構築され、この解法には3種類の深層強化学習で最適化している。しかし何れも熟達した人間相手では勝つことができないので、ベースラインとしての提供である。何れのモデルでも対戦用に弱いAgentと相当強いAgentの2種類が用意されている。

 

f:id:mabonki0725:20170818090958p:plain

 DeepMindはこの様な本格的な野戦型のグループ対戦環境を提供して、新しいグループ協調型の強化学習モデルのアイデアを募ろうとしている。