複数エージェント間の均衡を図る強化学習の論文を読む

年初に発表された複数エージェントでの協調や敵対学習で画期的な性能を示したAbbeel達のモデル(MADDPG)があり、これには動画やGitHubにソースが公開されているので、様々な改良を加えた研究の成果がこれから発表されると思われる。

複数エージェントの協調学習に成功している論文を読む - mabonki0725の日記

この論文は上記のモデルにエージェント間の均衡を加えて、いち早く発表したものである。

[1810.09206] Multi-Agent Actor-Critic with Generative Cooperative Policy Network

この論文の著者は韓国人で、この様にすばやく発表できるのは韓国人の英語力が日本人より勝っている要因も大きいと思われる。

日本でもGMOの勝田さんのMADDPGを改変して集団行動を模擬した秀逸な実験があるが、まだ論文として発表されていないのが残念である。

深層強化学習でマルチエージェント学習(前篇)

深層強化学習でマルチエージェント学習(後篇)

 

・モデル

この論文の考え方は単純で、非中央制御型のモデルでは、自分のみ最適行動を採るため全体の均衡が崩れるので、同時に自分以外の他のエージェントの最適行動も組込み協調しようとするものである。これを複数エージェント間の均衡と称している。下図の左が従来のMADDPGで右が提案手法で、互いに相手の方策\mu^cを改善している様子が示されている。

f:id:mabonki0725:20181124200148p:plain

MADDPGは決定論的方策DPG(Deteminisic Policy Gradient)の改善を以下の様にサンプリングしてバッチDの平均で行うが

  \nabla_{\theta_i}  \mathcal{J}(\theta_i)  \approx  \mathbb{E}_{\vec{o},a \sim D}  [\nabla_{\theta_i} \mu_i(o_i) \nabla_{a_i} Q(\vec{o},a_1 \dots a_N;\phi_i) | a_i = \mu_i(o_i;\theta_i) ]
本論文の均衡側の方策\mu^cは自分以外\{-i\}を以下で改善している。上記と比較してMADDPGと殆ど同じなので実装も簡単と思われる。

  \nabla_{\theta_i^c}  \mathcal{J}(\theta_i^c)  \approx  \mathbb{E}_{\vec{o},a^c \sim D^c}  [\nabla_{\theta_i^c} \mu_i^c(o_i) \nabla_{a_i^c} \color{red}{Q_{-i}}(\vec{o},a_1^c \dots a_N^c;\phi_i) | a_i^c = \mu_i^c(o_i;\theta_i^c) ]

ここで

 \phi_iは自分のCriticで求められた最適パラメータ

 \theta_iは自分の決定的方策\mu_iのパラメータ

    \theta_i^cは相手の決定的方策\mu_i^cのパラメータ

    o_iは自分の観察状態

 \vec{o} = \{o_1 \dots o_n\}

    D^cは相手方策のサンプリングのバッチデータ

 

・実験結果

 ここでは2つの実験をしている。

1番目はMADDPGの動画で迫力があった、障害物がある環境で素早い動きをする獲物(うさぎ)を2匹の捕食者(猟犬)が協力して追い詰める実験である。

            f:id:mabonki0725:20181125084129p:plain

結果は猟犬が報酬を共有する場合(a)と共有しない場合(b)で示されている。報酬を共有する場合はMADDPGと本論文の結果(MADDPG-GCPN1,2)と殆ど変わらない。しかし報酬を共有しない場合は、互いの方策を改良し合うことで有効協調をできることを示している。

ここで

 MADDPG-GCPN1:相手の方策をサンプルからランダムに採用

 MADDPG-GCPN2 :相手の方策をサンプル全体で均等化

f:id:mabonki0725:20181125084351p:plain

2番目の実験は、エネルギー蓄積システムESSの効率化である。

日本では馴染みがないが、広大な国土では送伝網が伸びると送伝損失があり無視できないらしく、そこで分散された貯蓄設備を作って需要や風力発電の状態に従って効率的に利用しようとするものである。

  B^iはESS L^iは供給先  W^i風力発電  Gは供給会社     f:id:mabonki0725:20181125090146p:plain

本論文のモデルは互いに相手の方策を最適化することなので、他のESSの充足状態を監視して蓄積することができる。左はコストの比較 右は供給量のグラフで効率よくESSに供給していることがわかる。ここではMADDPGとの比較が無く不自然である。QPは2次計画法を示す。

f:id:mabonki0725:20181125090609p:plain

 この論文の方法が相手の方策を改良することの効果を入れているが、相手の価値関数Q_{-1}も知っていることが前提であり、MADDPGの非中央制御型の改善になっているか判断が難しい。