協調型の強化学習の論文を読む

ランニングできず 英語できず

(1) マルチエージェントの強化学習モデルの論文を読む。この動画はこのモデルでの対戦模様である。

https://arxiv.org/abs/1703.10069

Alpha碁の成功によって単独の強化学習は目処がたったとして、社会型のAIとして協調型の強化学習が大事な課題としている。

この論文の寄与としては、過去の協調型のモデルを丁寧に紹介して、全体が俯瞰できて便利である。

また協調型の強化学習は普通の強化学習と同じBellman方程式や下図にある様に2モデル構成のポリシィ学習(左図)とQ学習(右図)できることを示している。

協調型として相互通信はするのだが、協調動作するため各メンバーが双方向RNN(BiCN:BiDirectionally Coordinated Network)で連結され学習が伝播できる仕掛けになっている。敵を倒す学習は同じだが各メンバーの視野や位置や設定した個性が違うので、自然な協調型の動作が実現できている。

しかし各Agentがどの様な特徴量で学習しているかは記述が無いのが残念。

GitHubはこちら

GitHub - eishub/Starcraft: This project creates a bridge between BWAPI for StarCraft: Brood War and EIS-enabled Multi-Agent Systems like GOAL.

ww

f:id:mabonki0725:20170617074333p:plain

w.youtube.com