共有知識での複数エージェントの強化学習の論文を読む

国際学会での発表の準備で忙しかったが、ようやく複数エージェントでの共通知識による強化学習(MACKRL)の論文を読んだ。

これは下図の様に相手が見えるＡとＢは、互いに密接に連絡し合う事を前提に共通の視野を持ち協調行動をする強化学習である。この場合ＣはＡとＢが見えるがＡやＢはＣが見えないので共同行動できない。

また互いに見える範囲では一体として動けるので中央制御型(Centlise)の方策を学習することができる。

f:id:mabonki0725:20181113110236p:plain

本論文の式定義が複雑で解りにくいが、凡そ次の事を述べている。

このモデルには階層型の方策学習を採用しており次の３段階の順に学習し行動する。

(1) 最適な相手を選ぶ方策学習　

(2) グループ内での中央制御型最適方策

(3) 各エージェント毎での最適方策

f:id:mabonki0725:20181115123100p:plain

上図では左端が最適な相手を探す学習、中央が共同行動の学習、右端が個別行動の学習

文献にはこの３段階の学習はActor-Criticで学習しているとある。

本論文の特徴は各エージェントが中央制御型と非中央制御型の方策を両方をActor-Criticで学習することにある。結果で述べている様に各エージェントの特性が異なる場合には有効な方法かもしれない。

・結果

実験ではStarCraftⅡを使っている。

結果では完全中央制御型モデル(Cental-V)とで勝率での比較を示している。

左図は３人の海兵隊が同じ地図を持ち協調している結果で本論のMACKRLと殆ど差が無い。

右図は２人(Stalkers)と３人(Zealos)が異なるタイプで５人で協調している結果で、この共通知識型での協調学習が良い事を示している。

f:id:mabonki0725:20181115123616p:plain

Stalkers や Zealotsはネットで調べると次の様だ。

f:id:mabonki0725:20181115124658p:plain

stalkers

f:id:mabonki0725:20181115124512p:plain

zealots