協調型の強化学習の論文を読む
ランニングできず 英語できず
(1) マルチエージェントの強化学習モデルの論文を読む。この動画はこのモデルでの対戦模様である。
https://arxiv.org/abs/1703.10069
Alpha碁の成功によって単独の強化学習は目処がたったとして、社会型のAIとして協調型の強化学習が大事な課題としている。
この論文の寄与としては、過去の協調型のモデルを丁寧に紹介して、全体が俯瞰できて便利である。
また協調型の強化学習は普通の強化学習と同じBellman方程式や下図にある様に2モデル構成のポリシィ学習(左図)とQ学習(右図)できることを示している。
協調型として相互通信はするのだが、協調動作するため各メンバーが双方向RNN(BiCN:BiDirectionally Coordinated Network)で連結され学習が伝播できる仕掛けになっている。敵を倒す学習は同じだが各メンバーの視野や位置や設定した個性が違うので、自然な協調型の動作が実現できている。
しかし各Agentがどの様な特徴量で学習しているかは記述が無いのが残念。
GitHubはこちら