複数エージェント間の均衡を図る強化学習の論文を読む

年初に発表された複数エージェントでの協調や敵対学習で画期的な性能を示したAbbeel達のモデル(MADDPG)があり、これには動画やGitHubにソースが公開されているので、様々な改良を加えた研究の成果がこれから発表されると思われる。

複数エージェントの協調学習に成功している論文を読む - mabonki0725の日記

この論文は上記のモデルにエージェント間の均衡を加えて、いち早く発表したものである。

[1810.09206] Multi-Agent Actor-Critic with Generative Cooperative Policy Network

この論文の著者は韓国人で、この様にすばやく発表できるのは韓国人の英語力が日本人より勝っている要因も大きいと思われる。

日本でもGMOの勝田さんのMADDPGを改変して集団行動を模擬した秀逸な実験があるが、まだ論文として発表されていないのが残念である。

深層強化学習でマルチエージェント学習(前篇)

深層強化学習でマルチエージェント学習(後篇)

 

・モデル

この論文の考え方は単純で、非中央制御型のモデルでは、自分のみ最適行動を採るため全体の均衡が崩れるので、同時に自分以外の他のエージェントの最適行動も組込み協調しようとするものである。これを複数エージェント間の均衡と称している。下図の左が従来のMADDPGで右が提案手法で、互いに相手の方策\mu^cを改善している様子が示されている。

f:id:mabonki0725:20181124200148p:plain

MADDPGは決定論的方策DPG(Deteminisic Policy Gradient)の改善を以下の様にサンプリングしてバッチDの平均で行うが

  \nabla_{\theta_i}  \mathcal{J}(\theta_i)  \approx  \mathbb{E}_{\vec{o},a \sim D}  [\nabla_{\theta_i} \mu_i(o_i) \nabla_{a_i} Q(\vec{o},a_1 \dots a_N;\phi_i) | a_i = \mu_i(o_i;\theta_i) ]
本論文の均衡側の方策\mu^cは自分以外\{-i\}を以下で改善している。上記と比較してMADDPGと殆ど同じなので実装も簡単と思われる。

  \nabla_{\theta_i^c}  \mathcal{J}(\theta_i^c)  \approx  \mathbb{E}_{\vec{o},a^c \sim D^c}  [\nabla_{\theta_i^c} \mu_i^c(o_i) \nabla_{a_i^c} \color{red}{Q_{-i}}(\vec{o},a_1^c \dots a_N^c;\phi_i) | a_i^c = \mu_i^c(o_i;\theta_i^c) ]

ここで

 \phi_iは自分のCriticで求められた最適パラメータ

 \theta_iは自分の決定的方策\mu_iのパラメータ

    \theta_i^cは相手の決定的方策\mu_i^cのパラメータ

    o_iは自分の観察状態

 \vec{o} = \{o_1 \dots o_n\}

    D^cは相手方策のサンプリングのバッチデータ

 

・実験結果

 ここでは2つの実験をしている。

1番目はMADDPGの動画で迫力があった、障害物がある環境で素早い動きをする獲物(うさぎ)を2匹の捕食者(猟犬)が協力して追い詰める実験である。

            f:id:mabonki0725:20181125084129p:plain

結果は猟犬が報酬を共有する場合(a)と共有しない場合(b)で示されている。報酬を共有する場合はMADDPGと本論文の結果(MADDPG-GCPN1,2)と殆ど変わらない。しかし報酬を共有しない場合は、互いの方策を改良し合うことで有効協調をできることを示している。

ここで

 MADDPG-GCPN1:相手の方策をサンプルからランダムに採用

 MADDPG-GCPN2 :相手の方策をサンプル全体で均等化

f:id:mabonki0725:20181125084351p:plain

2番目の実験は、エネルギー蓄積システムESSの効率化である。

日本では馴染みがないが、広大な国土では送伝網が伸びると送伝損失があり無視できないらしく、そこで分散された貯蓄設備を作って需要や風力発電の状態に従って効率的に利用しようとするものである。

  B^iはESS L^iは供給先  W^i風力発電  Gは供給会社     f:id:mabonki0725:20181125090146p:plain

本論文のモデルは互いに相手の方策を最適化することなので、他のESSの充足状態を監視して蓄積することができる。左はコストの比較 右は供給量のグラフで効率よくESSに供給していることがわかる。ここではMADDPGとの比較が無く不自然である。QPは2次計画法を示す。

f:id:mabonki0725:20181125090609p:plain

 この論文の方法が相手の方策を改良することの効果を入れているが、相手の価値関数Q_{-1}も知っていることが前提であり、MADDPGの非中央制御型の改善になっているか判断が難しい。

 

 

位置関係を畳込で抽象化した複数エージェントの論文を読む

IBMの恐神先生の複数エージェントの講演で出会った知人から、この講演の様にマルチエージェントの動作を動画と捉えConvolutionして特徴抽出するモデルが注目されていると聞いたが、この論文も複数エージェントの動作を動態グラフと見做してConvolutionで特徴抽出して学習する強化学習となっている。

[1810.09202] Graph Convolutional Reinforcement Learning for Multi-Agent Cooperation

著者の所属は北京大学で、私の理解力不足もあるが、中国本土の論文は未だ成熟途中で漠然とした記述が多いので解釈が難しい場合がある。

 

最近の複数エージェントは各エージェント毎に内部モデルを保持しているので、エージェントは増やしても数十個が限界である。一方この論文の方式は近傍のエージェント間のみを取出してエージェント間の関係をグラフにしており、各エージェントはこの共通のグラフを用いているのでエージェントの増加に耐えられると(scalable)している。

 

・モデル

エージェント間の関係は下図の様に2回のConvolutionでエージェント間の関係の特徴抽出を行い、この結果をQネットワークに投入してQ関数を精緻化する強化学習を行っている。

f:id:mabonki0725:20181122101640p:plain

ここで最下段のO_i'は各エージェントの観察状態であり、明確な記述はないが

下図の様に近傍行列と各エージェントの特徴量行列の積と思われる。この図ではi番目のエージェントの近傍が3エージェントに限定されており特徴量行列が3行に縮約されている。

このモデルは上図のConvolutionネットワークは共有しているが、各エージェント毎に近傍行列が異なり、異なるQ関数を保持しているので、この意味では非中央制御型と見えるが、後述のQ関数のパラメータ\thetaの算出式を見ると中央制御型のモデルである。偶々高い報酬が得られた場合を有利な協調行動として学習するモデルとなっている。

 

f:id:mabonki0725:20181122102123p:plain

縮約された各エージェントの特徴量は一層目のネットワークで交差されて、上図の様の式の様に複数エージェントの特徴量が抽象化されてた特徴量h'として計算される。

 h_i' = \sigma ( \frac{1}{M} \sum_{m=1}^M \sum_{j \in \epsilon_i} \alpha_{ij}^m W_v^M h_j )

     \alpha_{ij} = \frac{\exp(\tau [W_q h_i \dot (W_k h_j)^T])} {\sum_{e \in \epsilon_i }\exp(\tau [W_q h_i \dot (W_k h_e)^T])}

 

 ここで

  \sigmaはreluを採用している

       Mは特徴量の数

  W_v^mは特徴量の重み

       h_j w_k w_qはネットワークの隠れ変数と重み

       \tauはスケールパラメータ

 

論文には記述が無いがQ関数は抽象化された特徴量h'とパラメータ\thetaよりQネットワークで最適化されており、この学習は報酬rの結果と各々のパラメータ\theta_i微分して最適解を算出しているはずである。W_v^mw_k微分可能な重みなので、Q関数はQネットワークとConvolutionネットワークの両方で最適に学習されていることになる。

これも記述が無いが、このモデルは多層構造で、層毎に同じ抽象化をしていてh' \to h''h''をQネットワークに投入している様だ。

 

Q関数のパラメータ\thetaは一般のTD式で改善される。実際にはQネットワークで計算される。

 \mathcal{L}(\theta) = \frac{1}{S} \sum_S \frac{1}{N} \sum_{i=1}^N (y_i - Q(O_i,a_i;\theta))^2

    y_i = r_i + \gamma max_{a'} Q(O_i',a_i';\theta')

    ここで

       Sはサンプル数

  Nはエージェントの数

  ダッシュは1step後の値

 この式を見る限り、Qネットワークは全エージェントの得点とQ関数を使っているので、中央制御型である。

 

この論文では2つの緩和をしている。一つ目は 緩和パラメータ\betaを入れている。

  \theta' = \beta \theta + (1 - \beta) \theta'

2つめは正則化パラメータの投入している。

     \mathcal{L}(\theta) = \frac{1}{S} \sum_S \frac{1}{N} \sum_{i=1}^N (y_i - Q(O_i,a_i;\theta))^2 + \lambda \mathcal{D}_{KL} (\mathcal{G}^k(O_i;\theta || z_i)  

    ここで

  \mathcal{G}^k(O_i,\theta)_jk層目の \alpha_{ij}

    z_i=\mathcal{G}^k(O_i',\theta)

    で1step後の状態Q_i Q_i'とで\alpha_{ij}に差が出ない様にしている。

 

・実験

 ここでは3つの実験をして性能を比較している。いずれも20エージェント 12特徴量で行っている。近傍の認識はK=3個となっている。

   (1) jungle :他のエージェントを攻撃すると+2点 食料を得ると+1 攻撃されると-1点

      (2) battle :敵を倒すと+5点  敵に倒されると -2点

      (3) packt通信 : 通信に成功すると+10点 接続するだけだと -0.2点

f:id:mabonki0725:20181122122017p:plain

・結果

 本論文の手法がDGN(Deep Graph Network?)と DGN-Mは平均カーネル付きとあるだけで記述なし。DGN-Rは正則化を入れたモデルである比較対象は以下である。

 MFQ:Mean Field Q-learning

   commNet:

   DQN:

f:id:mabonki0725:20181122122721p:plain

 何れもDQNやcommNetに比べDGN-MやDGN-Rが高い性能を示している。中央のBattleでDQNの性能が急激に劣化するのは、安易に倒す先が消化されると、それ以上学習ができないためとある。

 

 

 

 

 

 

 

 

 

 

共有知識での複数エージェントの強化学習の論文を読む

国際学会での発表の準備で忙しかったが、ようやく複数エージェントでの共通知識による強化学習(MACKRL)の論文を読んだ。

[1810.11702] Multi-Agent Common Knowledge Reinforcement Learning

これは下図の様に相手が見えるAとBは、互いに密接に連絡し合う事を前提に共通の視野を持ち協調行動をする強化学習である。この場合CはAとBが見えるがAやBはCが見えないので共同行動できない。

また互いに見える範囲では一体として動けるので中央制御型(Centlise)の方策を学習することができる。

f:id:mabonki0725:20181113110236p:plain

本論文の式定義が複雑で解りにくいが、凡そ次の事を述べている。

 

このモデルには階層型の方策学習を採用しており次の3段階の順に学習し行動する。

(1) 最適な相手を選ぶ方策学習 

(2) グループ内での中央制御型最適方策

(3) 各エージェント毎での最適方策

f:id:mabonki0725:20181115123100p:plain

上図では左端が最適な相手を探す学習、中央が共同行動の学習、右端が個別行動の学習

文献にはこの3段階の学習はActor-Criticで学習しているとある。

本論文の特徴は各エージェントが中央制御型と非中央制御型の方策を両方をActor-Criticで学習することにある。結果で述べている様に各エージェントの特性が異なる場合には有効な方法かもしれない。

 

・結果

実験ではStarCraftⅡを使っている。

DeepMindのグループ対戦型ゲームの強化学習の論文を読む - mabonki0725の日記

 

結果では完全中央制御型モデル(Cental-V)とで勝率での比較を示している。

左図は3人の海兵隊が同じ地図を持ち協調している結果で本論のMACKRLと殆ど差が無い。

右図は2人(Stalkers)と3人(Zealos)が異なるタイプで5人で協調している結果で、この共通知識型での協調学習が良い事を示している。

 

f:id:mabonki0725:20181115123616p:plain

Stalkers や Zealotsはネットで調べると次の様だ。

f:id:mabonki0725:20181115124658p:plain

              stalkers

f:id:mabonki0725:20181115124512p:plain

             zealots



相手への影響を報酬の一部とした協調強化学習の論文を読む

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。

[1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL

 相手の行動と自分の内部状態を因果として次の行動を決定することを因果的影響(causal influence)と云い、これを報酬の一部とすることで協調学習を達成しようとしている。

各エージェントの強化学習は一般のA3Cを採用しており、エージェントの内部状態はLSTMの隠れ変数としており、内部状態はLSTMで遷移する。

要するに複数エージェント間の因果的影響の量を計り、これを報酬とした場合、偶々うまく行けば(得点が多く入る等)この方策を採用する様にA3Cで学習しようとするものである。外から見ればこのエージェント間の因果的影響による行動は協調して働いて(得点を稼いで)いると見える。

 

・手法 

k番目のエージェントの報酬R^kを以下のパラメータ\alpha,\betaで分離している。

 R^k = \alpha E^ + \beta I^k

 ここで E^kは実際の報酬 I^kは因果的影響の報酬

下図の様な2つのAとBエージェントの場合で説明すると

f:id:mabonki0725:20181101180349p:plain

エージェントAの因果的報酬I^AはエージェントAによる行動a^Aの有無でエージェントBによる行動のa^Bが採る確率分布の距離\mathcal{D}_{KL}を使っている。

 I_t^A =\mathcal{D}_{KL} [ p(a_t^B | a_t^A,z_t) || \sum_{a_t^A} p(a_t^B | z_t,a_t^A) p(a_t^A | z_t) ] = \mathcal{D}_{KL} [p(a_t^B | a_t^A,z_t) || p(a_t^B | z_t) ]

    ここで z_t =\ll u_t^B, s_t^B \gg はエージェントBの内部と外部の状態である。

 この式の数理的な正しさはエージェント間の相互情報量からも証明できる。即ちエージェントAの全行動a^Aと因果的影響I^Aの積和は相互情報量に一致している。

    I(A^B;B^A|z) = \sum_{a^A,a^B} p(a^B,a^A|z) \log \frac{p(a^B,a^A|z}{p(a^B|z) \cdot p(a^A|z)} = \sum_{a^A} p(a^A|z) \mathcal{D}_{KL} [p(a^B|a^A,z) || p(a^B|z) ]

この論文では因果的影響I^Aは実際のエージェント間の行動履歴のサンプリングから計算するとしている。多分A3Cで得点から学習するにつれて有意な因果的影響の量が増えると思われる。

実際の2エージェントの実験例として2つ(CleanupとHarvest)掲げている。

f:id:mabonki0725:20181102080835p:plain

 左図は上部にある川の泥さらいをするとリンゴが生まれ、泥さらいとリンゴの収穫を協調学習をしている。右図はリンゴを植える側と収穫側が協調して学習するものである。何れのゲームも紫の点がエージェントで緑がリンゴである。

両方とも協調しなければ囚人のジレンマの様に両方でリンゴを食いつぶすことになる。

 

早くて見難いがCleanupの動画としては以下が示されている。

Social influence reward leads to emergent communication in Cleanup game - YouTube

 

・実験方法

 驚くべきことに実験としては因果的影響を使って以下の3方法の比較をしている。

 1) 協調学習として伝統的な中央制御型(神の視点で全エージェントを協調させる)

    2) 因果的影響をメッセージとして他のエージェントに伝える方法

  Reinfocemented Inter-Agent Learning(RIAL)法による方法との比較

 3) 各エージェントが複数のエージェントの因果的影響を反映した内部状態を持ち、行動を予測する方法

  Model of Other Agent(MOA)として下図の様にモデル化している

f:id:mabonki0725:20181102103225p:plain

 ・実験結果

 (a)ではA3Cと中央制御型と因果的影響による比較

 (b)ではA3CとRIALとメッセージに因果的影響を使った比較 

 (c)ではA3CとMOAと因果的影響を反映したMOAとの比較

何れも因果的影響を使った方法が改善されているが、左上のCleanupの中央制御型では学習の立ち上がりが遅い。これは神の視点を入れた手法が優れていることを示しており、やはり協調するには監督の差配が必要だとも言える。

f:id:mabonki0725:20181102104041p:plain

 

 

 

人間のコントロールで早期に学習する強化学習の論文を読む

強化学習は学習に相当時間がかかる事が知られているが、人間が要所々にコントロールして教えれば学習が効果的にきるとの考えを実現した論文である。

[1709.10163] Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

本論文の手法はDeep TAMERと云い概念図は以下である。この論文の特徴は人間のコントロールを深層学習を使って高次元の関数に近似して、これを方策として強化学習に組み込むことである。

f:id:mabonki0725:20181028205726p:plain

この論文を読む動機は下記の記事を見て学習の改善度合いが凄いためであった。

ぼくがかんがえた世界最強のAIをつくるために、アメリカに行ってきた : 情熱のミーム 清水亮 - Engadget 日本版

この人間が計算機に教える学習対象はATARIの古典的なボーリングゲームである。

f:id:mabonki0725:20181029085016p:plain 

この論文の着想は簡単で、人間のコントロールhを最適な方策\pi(s)にすることである。 しかし最適方策は次の人間の方策理解を示す関数 \hat{H}(s,a)となるものを導入してこれを深層学習で近似する。

    \pi(s) = \hat{H}(s,a)

この論文での巧妙な現実的な方法は、ゲーム画面と人間のコントロールに遅延があることを許容する遅延関数wを組込み、方策理解\hat{H}を次の損失関数で求めていることである。

  Loss(\hat{H};x,y) = w(t^s,t^e,t^f) [\hat{H}(s,a) - h ]^2 式(1)

ここで

 xは画面の状態

 yはコントロールhを行った後の観察結果 

 w(t^s,t^e,t^f)は遅延関数でt^st^eは状態sの最初と最後の時間

    t^fはコントロールしてから結果を見るまでの期間

 

・遅延関数w

この独特の遅延関数は分布関数f_{delay}(t)を使って次で定義している。

 w(t^s,t^e,t^f) = \int_{t^f-t^e}^{t^f-t^s} f_{delay}(t) dt

分布関数f_{delay}(t)はここでは0.25~4の一様関数を採用している。人間の遅延はこの間が多いそうである。

 

・損失関数Loss(\hat{H})

式(1) の損失関数を解くためにこの論文では次の2種類の最適化を使っている。

 (a) 画面状態x,yの情報集約

 (b)人間のコントロールのバッチ学習

 

 (a) 情報集約

この\hat{H}(s,a)の損失関数は式(1)から分る様にx,y教師あり学習になっている。これは深層学習で解いている。しかし画面の状態はかなり数万の高次元なのでAutoEncoderf(s;\theta_f)で次元圧縮して数百次元にして、再度Decodeg(f;\theta_g)して画面に戻している。このEncoder Decoderのパラメータは次の関数で最適化している。

   (\theta_f,\theta_g) = arg min_{\theta_f,\theta_g} \frac{1}{M} \sum_{i=1}^M ||s_i - g(f(s_i;\theta_f);\theta_g)||_2^2

 

(b)バッファーによる バッチ学習

これも深層学習で以下の人間方策関数\hat{H}を改善している。

 \hat{H}_{k+1} = \hat{H}_k - \eta_k \nabla_{H} Loss(\hat{H}_k; x_{i,k},y_{i,k})

ここでは画像xと結果観察yと人間のコントロールhの1000組程度(ゲームにすると15分程度)をバッファに入れてランダムに取り出して上式を訓練して更新している。

上式のx_{i,k},y_{i,k}は人間のコントロールh_iに対応したランダムに取り出した画面と観察結果である。

但し遅延関数wが存在しない人間のコントロールは無視している。

 

・結果

 このゲームに限っては驚異的な学習効率を示している。

勉強不足だったが低次元での人間のコントロールを反映するモデルとしてTAMER(Training an Agent Manually via Evaluation Reinforcement)2009があったそうである。TAMER

しかし本論文での高次元モデルは特徴量を多く取り入れることができ微妙なコントロールも反映でき、低次元での似たコントロールの衝突も回避できる可能性がある。是非ロボットの分野でも使ってもらいたいものである。

f:id:mabonki0725:20181028205502p:plain

 

 

 

 

 

 

 

DeepMindのチーム対戦の強化学習の論文を読む

DeepMindの複数エージェントのチームでの勝敗による強化学習が人間のレベルを超えており、この理論と実験の詳細な報告になっている。

[1807.01281v1] Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

チームでの勝敗とは自己と敵対チームで互いに相手の陣地の旗を奪い合いするCTF(Capture the flag)ゲームである。ゲーム環境は下図(a)と(b)の様な3D一人視覚(first-person)だが自己チームの一人として学習した行動が見れる様になっている。このゲームには得点が表示されるので、この得点を指針としてチームとしての強化学習を行っている。

f:id:mabonki0725:20181021065229p:plain

この動画は以下で見れる。 (b)の迷路版だと的の陣地に入って旗を奪取して途中で交戦する様子が見れる。

Human-level in first-person multiplayer games with population-based deep RL - YouTube

複数エージェントのモデルとしては、同じチーム内の協調をどの様に理論化することが最大の問題でモデルの特徴になっている。

DeepMindは自己の方策(inner)とチーム全体(outer)との方策とに分けて、次の2式で訓練している。 この方式をPBT(Population Based Training)として、各エージェントをFTW(For the Win)と称している。

f:id:mabonki0725:20181021070945p:plain

f:id:mabonki0725:20181021070737p:plain

(1) 式は2チームN人で\pi_0側が勝つように自己チームの方策を決定することを示している概念的な式である。この式は(2)式の\mathcal{J}_{outer}で使われている。この詳しい理論は論文に添付してあるSupplementary Materialsを読むしかない。

(2)式の\mathcal{J}_{inner}は普通の強化学習の式であるが報酬rがチームとしての報酬W_p(\rho_{p,t})となっていいる。このチーム報酬は(2)式の\mathcal{J}_{outer}で算出されるものになっていて複数エージェントの協調化をしている。

チーム報酬W(\rho_t)は画面の3D一人視覚の得点\rho_tからチーム全体の報酬を計算する関数で\Phiをパラメータとしている。

ここで

 \iota \sim m_p(\pi)pエージェントの共同対象をサンプルする関数

    \omega \sim \Omegaはゲーム画面のサンプリング

 \gammaは割引係数

 

(1)式のモデルの概念図

f:id:mabonki0725:20181021074830p:plain

人間との比較は下図に示している。

f:id:mabonki0725:20181021075058p:plain

さらにこの論文では詳細にFTWエージェントが次の様に3期に分けて高度な知識を獲得する過程を詳細に観察している。

 1. 自己の陣地の防御(Home Base Defence)

 2. 相手の陣地の待ち伏せ(Opponent Base Camping)

 3. チームの助力(Teammate Follow)

f:id:mabonki0725:20181021075847p:plain

下段の図は3期の学習段階での迷路の状態(左)と自己位置の記憶(右)の状態を示しており、学習段階に従って自己と相手の陣地を往復しており、自己位置は自己と相手の陣地の近くに偏在していく様子を示している。

最後にこの論文の今後の課題としては、エージェントは30人が精一杯でまた各エージェントの異なる特性による協調が与えられてないこととしている。

 

他のエージェントとの協調特徴より複数エージェントの強化学習の論文を読む

 この論文は他のエージェント間での協調特徴ベクトルでx_{1 \dots N}を深層学習のAttentionで摘出して、最適な協業をする複数エージェントの強化学習モデルである。

[1810.02912] Actor-Attention-Critic for Multi-Agent Reinforcement Learning

次の画期的な性能を示す中央監視(centralized)による複数エージェントの協業モデル(MADDPG)が出現しており、この論文は非現実的な中央監視を解消するため各エージェントが他のエージェントとの関係を深層学習のAttentionで代替するモデルとなっている。

mabonki0725.hatenablog.comこの他のエージェントの協調特徴(Attention)は次の図で説明されている。

f:id:mabonki0725:20181015081102p:plain

左端図:

 ①各エージェントの観察o_iと行動a_iを深層モデル(MLP)で埋込みベクトル化e_iする。

 ②中央図で求めたAttentionより協調特徴x_iを得て再度MLPで行動価値Q_i(o,a)で算出する

 式で記述すると 

     Q_i^\phi(o,a) = f_i(g_i(o_i,a_i),x_i) 

     o = o_1 \dots o_N  全エージェントの観察

      a = a_i \dots a_N 全エージェントの行動

 これにより行動価値関数Q_iは全エージェントの観察と行動と協調特徴でMLPで求めていることが分かる。

 左端図

 ①エージェントiとエージェントjとの相互間の関係\alpha_jの重みW_i W_jをSoftMaxで求める

   \alpha_j \propto \exp(e_j^T W_j^T W_i e_i)

 ②特徴行動x_iを次の2つのMLPV hで算出する

      x_i = \sum_{j \notin i} \alpha_j h(V g_j(o_j,a_j))

中央図

 ①左端図を全エージェント分実行して協調特徴x_1 \dots x_Nベクトルを得る

 但しこの機構は全エージェントで共有する

 

行動価値関数Q_iの勾配は報酬に近似させる一般的な方法を採用

 f:id:mabonki0725:20181015104534p:plain

方策関数の勾配は\pi_{\theta_i}はエントロフィ最大化の一般的な方法で計算  

  f:id:mabonki0725:20181015104817p:plain

  但しb(o,a_{j \notin i})はベースラインで、これは全エージェントに対して計算する必要があるので計算負荷が大きいとしている。

 

実験

 実験は2つの協調学習で行っている。

 ①多数の灰色の小丸が協調して色がついた点を獲得し、この色と合う大丸に貯蓄する。

   f:id:mabonki0725:20181015105908p:plain

 ② 大きい灰色の丸と色付き丸は互いにランダムにペアを組み協調して点を獲得する。一方は回りが観察できないが獲得行動する。もう一方は回りが見えるだけである。双方は連絡し合って点を獲得する。

   f:id:mabonki0725:20181015110242p:plain

結果

 左は①の実験 右は②の実験で本論分の手法はMAAC(水色)と(橙色) 橙色は\alpha_j=\frac{1}{N}として単純化したモデル。 中央監視型(MADDPG)は緑色

SACとはSoft Actor Criticによる最適化

 本論文の手法は①に対しては良いが、②に関しては中央監視型に負けているが最終的には追いついている。また実験①で単純化した橙色と水色が同じ性能というのは単純な実験であることを示し。②ではかなり差があるので複雑な実験である事を示している。

f:id:mabonki0725:20181015113504p:plain

  またエージェントが増える場合の報酬の超過度を中央監視型MADDPGと比較して、本手法が優れているとしている。

 

  f:id:mabonki0725:20181015114951p:plain

他のモデルとの比較

 本論文のMAACは他と比べて非中央監視型だということを強調している。ここでMAAC(Uniform)とは上図の橙色のモデル

f:id:mabonki0725:20181015122537p:plain

 

感想

 エイジェント間の関係を深層学習(MLP)を使ったAttentionで構成しているが、中央監視型の理論と比べてブラックボックスになっていることは否めない。実験②の様により複雑な協調や敵対モデルでは良い結果出せるか判断できない。