他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む
この論文は他のエージェント間での協調特徴ベクトルでを深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。
[1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning
次の画期的な性能を示す中央監視(centralized)による複数エージェントの協業モデル(MADDPG)が出現しており、この論文は非現実的な中央監視を解消するため各エージェントが他のエージェントとの関係を深層学習のAttentionで代替するモデルとなっている。
mabonki0725.hatenablog.comこの他のエージェントの協調特徴(Attention)は次の図で説明されている。
左端図:
①各エージェントの観察と行動を深層モデル(MLP)で埋込みベクトル化する。
②中央図で求めたAttentionより協調特徴を得て再度MLPで行動価値で算出する
式で記述すると
全エージェントの観察
全エージェントの行動
これにより行動価値関数は全エージェントの観察と行動と協調特徴でMLPで求めていることが分かる。
左端図
①エージェントとエージェントとの相互間の関係の重みをSoftMaxで求める
②特徴行動を次の2つのMLPで算出する
中央図
①左端図を全エージェント分実行して協調特徴ベクトルを得る
但しこの機構は全エージェントで共有する
行動価値関数の勾配は報酬に近似させる一般的な方法を採用
方策関数の勾配ははエントロフィ最大化の一般的な方法で計算
但しはベースラインで、これは全エージェントに対して計算する必要があるので計算負荷が大きいとしている。
実験
実験は2つの協調学習で行っている。
①多数の灰色の小丸が協調して色がついた点を獲得し、この色と合う大丸に貯蓄する。
② 大きい灰色の丸と色付き丸は互いにランダムにペアを組み協調して点を獲得する。一方は回りが観察できないが獲得行動する。もう一方は回りが見えるだけである。双方は連絡し合って点を獲得する。
結果
左は①の実験 右は②の実験で本論分の手法はMAAC(水色)と(橙色) 橙色はとして単純化したモデル。 中央監視型(MADDPG)は緑色
SACとはSoft Actor Criticによる最適化
本論文の手法は①に対しては良いが、②に関しては中央監視型に負けているが最終的には追いついている。また実験①で単純化した橙色と水色が同じ性能というのは単純な実験であることを示し。②ではかなり差があるので複雑な実験である事を示している。
またエージェントが増える場合の報酬の超過度を中央監視型MADDPGと比較して、本手法が優れているとしている。
他のモデルとの比較
本論文のMAACは他と比べて非中央監視型だということを強調している。ここでMAAC(Uniform)とは上図の橙色のモデル
感想
エイジェント間の関係を深層学習(MLP)を使ったAttentionで構成しているが、中央監視型の理論と比べてブラックボックスになっていることは否めない。実験②の様により複雑な協調や敵対モデルでは良い結果出せるか判断できない。