mabonki0725の日記

他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む

この論文は他のエージェント間での協調特徴ベクトルで $x_{1 \dots N}$ を深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。

[1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning

次の画期的な性能を示す中央監視(centralized)による複数エージェントの協業モデル(MADDPG)が出現しており、この論文は非現実的な中央監視を解消するため各エージェントが他のエージェントとの関係を深層学習のAttentionで代替するモデルとなっている。

mabonki0725.hatenablog.comこの他のエージェントの協調特徴(Attention)は次の図で説明されている。

f:id:mabonki0725:20181015081102p:plain

左端図:

　①各エージェントの観察 $o_i$ と行動 $a_i$ を深層モデル(MLP)で埋込みベクトル化 $e_i$ する。

　②中央図で求めたAttentionより協調特徴 $x_i$ を得て再度MLPで行動価値 $Q_i(o,a)$ で算出する

　式で記述すると

　 $Q_i^\phi(o,a) = f_i(g_i(o_i,a_i),x_i)$

　 $o = o_1 \dots o_N$ 全エージェントの観察

　 $a = a_i \dots a_N$ 全エージェントの行動

　これにより行動価値関数 $Q_i$ は全エージェントの観察と行動と協調特徴でMLPで求めていることが分かる。

左端図

　①エージェント $i$ とエージェント $j$ との相互間の関係 $\alpha_j$ の重み $W_i W_j$ をSoftMaxで求める

　　 $\alpha_j \propto \exp(e_j^T W_j^T W_i e_i)$

　②特徴行動 $x_i$ を次の2つのMLP $V h$ で算出する

　 $x_i = \sum_{j \notin i} \alpha_j h(V g_j(o_j,a_j))$

中央図

　①左端図を全エージェント分実行して協調特徴 $x_1 \dots x_N$ ベクトルを得る

　但しこの機構は全エージェントで共有する

行動価値関数 $Q_i$ の勾配は報酬に近似させる一般的な方法を採用

　 f:id:mabonki0725:20181015104534p:plain

方策関数の勾配は $\pi_{\theta_i}$ はエントロフィ最大化の一般的な方法で計算　　

　　 f:id:mabonki0725:20181015104817p:plain

　　但し $b(o,a_{j \notin i})$ はベースラインで、これは全エージェントに対して計算する必要があるので計算負荷が大きいとしている。

実験

　実験は２つの協調学習で行っている。

　①多数の灰色の小丸が協調して色がついた点を獲得し、この色と合う大丸に貯蓄する。

　　　 f:id:mabonki0725:20181015105908p:plain

　② 大きい灰色の丸と色付き丸は互いにランダムにペアを組み協調して点を獲得する。一方は回りが観察できないが獲得行動する。もう一方は回りが見えるだけである。双方は連絡し合って点を獲得する。

　　　 f:id:mabonki0725:20181015110242p:plain

結果

　左は①の実験　右は②の実験で本論分の手法はMAAC（水色)と(橙色)　橙色は $\alpha_j=\frac{1}{N}$ として単純化したモデル。中央監視型(MADDPG)は緑色

SACとはSoft Actor Criticによる最適化

　本論文の手法は①に対しては良いが、②に関しては中央監視型に負けているが最終的には追いついている。また実験①で単純化した橙色と水色が同じ性能というのは単純な実験であることを示し。②ではかなり差があるので複雑な実験である事を示している。

f:id:mabonki0725:20181015113504p:plain

　またエージェントが増える場合の報酬の超過度を中央監視型MADDPGと比較して、本手法が優れているとしている。

　　 f:id:mabonki0725:20181015114951p:plain

他のモデルとの比較

　本論文のMAACは他と比べて非中央監視型だということを強調している。ここでMAAC(Uniform)とは上図の橙色のモデル

f:id:mabonki0725:20181015122537p:plain

感想

　エイジェント間の関係を深層学習(MLP)を使ったAttentionで構成しているが、中央監視型の理論と比べてブラックボックスになっていることは否めない。実験②の様により複雑な協調や敵対モデルでは良い結果出せるか判断できない。