他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む

 この論文は他のエージェント間での協調特徴ベクトルでx_{1 \dots N}を深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。

[1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning

次の画期的な性能を示す中央監視(centralized)による複数エージェントの協業モデル(MADDPG)が出現しており、この論文は非現実的な中央監視を解消するため各エージェントが他のエージェントとの関係を深層学習のAttentionで代替するモデルとなっている。

mabonki0725.hatenablog.comこの他のエージェントの協調特徴(Attention)は次の図で説明されている。

f:id:mabonki0725:20181015081102p:plain

左端図:

 ①各エージェントの観察o_iと行動a_iを深層モデル(MLP)で埋込みベクトル化e_iする。

 ②中央図で求めたAttentionより協調特徴x_iを得て再度MLPで行動価値Q_i(o,a)で算出する

 式で記述すると 

     Q_i^\phi(o,a) = f_i(g_i(o_i,a_i),x_i) 

     o = o_1 \dots o_N  全エージェントの観察

      a = a_i \dots a_N 全エージェントの行動

 これにより行動価値関数Q_iは全エージェントの観察と行動と協調特徴でMLPで求めていることが分かる。

 左端図

 ①エージェントiとエージェントjとの相互間の関係\alpha_jの重みW_i W_jをSoftMaxで求める

   \alpha_j \propto \exp(e_j^T W_j^T W_i e_i)

 ②特徴行動x_iを次の2つのMLPV hで算出する

      x_i = \sum_{j \notin i} \alpha_j h(V g_j(o_j,a_j))

中央図

 ①左端図を全エージェント分実行して協調特徴x_1 \dots x_Nベクトルを得る

 但しこの機構は全エージェントで共有する

 

行動価値関数Q_iの勾配は報酬に近似させる一般的な方法を採用

 f:id:mabonki0725:20181015104534p:plain

方策関数の勾配は\pi_{\theta_i}はエントロフィ最大化の一般的な方法で計算  

  f:id:mabonki0725:20181015104817p:plain

  但しb(o,a_{j \notin i})はベースラインで、これは全エージェントに対して計算する必要があるので計算負荷が大きいとしている。

 

実験

 実験は2つの協調学習で行っている。

 ①多数の灰色の小丸が協調して色がついた点を獲得し、この色と合う大丸に貯蓄する。

   f:id:mabonki0725:20181015105908p:plain

 ② 大きい灰色の丸と色付き丸は互いにランダムにペアを組み協調して点を獲得する。一方は回りが観察できないが獲得行動する。もう一方は回りが見えるだけである。双方は連絡し合って点を獲得する。

   f:id:mabonki0725:20181015110242p:plain

結果

 左は①の実験 右は②の実験で本論分の手法はMAAC(水色)と(橙色) 橙色は\alpha_j=\frac{1}{N}として単純化したモデル。 中央監視型(MADDPG)は緑色

SACとはSoft Actor Criticによる最適化

 本論文の手法は①に対しては良いが、②に関しては中央監視型に負けているが最終的には追いついている。また実験①で単純化した橙色と水色が同じ性能というのは単純な実験であることを示し。②ではかなり差があるので複雑な実験である事を示している。

f:id:mabonki0725:20181015113504p:plain

  またエージェントが増える場合の報酬の超過度を中央監視型MADDPGと比較して、本手法が優れているとしている。

 

  f:id:mabonki0725:20181015114951p:plain

他のモデルとの比較

 本論文のMAACは他と比べて非中央監視型だということを強調している。ここでMAAC(Uniform)とは上図の橙色のモデル

f:id:mabonki0725:20181015122537p:plain

 

感想

 エイジェント間の関係を深層学習(MLP)を使ったAttentionで構成しているが、中央監視型の理論と比べてブラックボックスになっていることは否めない。実験②の様により複雑な協調や敵対モデルでは良い結果出せるか判断できない。