DeepMindのグループ対戦型ゲームの強化学習の論文を読む
ランニングできず 英語できず
(1) DeepMindのグループ対戦型ゲームの強化学習の論文を読む
「StarCraft II: A New Challenge for Reinforcement Learning」
StarCraft II: A New Challenge for Reinforcement Learning | DeepMind
StarCraftゲームはグループ対戦型ゲームの強化学習の学習データとしてよく使われている。過去にはアリババの下記の論文の記事がある。(この論文はグループ対戦型の複数のモデルと自分達のRNNモデルとを比較している)
協調型の強化学習の論文を読む - mabonki0725の日記
1) この論文の意図
グループ対戦型という類を見ない強化学習の実験用の環境SC2LEの公開である。この実験環境は以下のことが提供されている
・1対1だけでなくグループ対戦型の2対2、3対3、4対4の対戦が可能
・各Agentが部分的に観測した情報を連絡によりグループで共有できる
・複雑な陣地や行動(300種類)の複雑な組合わせ(百万以上)が実験できる
・模擬して報酬やデータを取得できる環境になっている
・対戦用にA3Cによる複数の強化学習モデルの提供している
・パラメータ調整や特徴選択の組合わせでAgentを強化できる
このグループ対戦型の実験環境はPythonで構築され以下に既に公開されている。
GitHub - deepmind/pysc2: StarCraft II Learning Environment
2) ゲームの状況の観測画面
ゲームとしては、フルゲームと簡単なミニゲームが用意されている。簡単なミニゲームを用意してあるのは、取得できるデータの解釈が容易だからである。
フルゲーム中の観測データとして、下図の様に左端の数値データと様々な地図情報や位置情報が取得できる。
3) 強化学習モデル
強化学習モデルは方策のを改善するモデルである。A3Cで構築され、この解法には3種類の深層強化学習で最適化している。しかし何れも熟達した人間相手では勝つことができないので、ベースラインとしての提供である。何れのモデルでも対戦用に弱いAgentと相当強いAgentの2種類が用意されている。
DeepMindはこの様な本格的な野戦型のグループ対戦環境を提供して、新しいグループ協調型の強化学習モデルのアイデアを募ろうとしている。