相手への影響を報酬の一部とした協調強化学習の論文を読む

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。

[1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL

 相手の行動と自分の内部状態を因果として次の行動を決定することを因果的影響(causal influence)と云い、これを報酬の一部とすることで協調学習を達成しようとしている。

各エージェントの強化学習は一般のA3Cを採用しており、エージェントの内部状態はLSTMの隠れ変数としており、内部状態はLSTMで遷移する。

要するに複数エージェント間の因果的影響の量を計り、これを報酬とした場合、偶々うまく行けば(得点が多く入る等)この方策を採用する様にA3Cで学習しようとするものである。外から見ればこのエージェント間の因果的影響による行動は協調して働いて(得点を稼いで)いると見える。

 

・手法 

k番目のエージェントの報酬R^kを以下のパラメータ\alpha,\betaで分離している。

 R^k = \alpha E^ + \beta I^k

 ここで E^kは実際の報酬 I^kは因果的影響の報酬

下図の様な2つのAとBエージェントの場合で説明すると

f:id:mabonki0725:20181101180349p:plain

エージェントAの因果的報酬I^AはエージェントAによる行動a^Aの有無でエージェントBによる行動のa^Bが採る確率分布の距離\mathcal{D}_{KL}を使っている。

 I_t^A =\mathcal{D}_{KL} [ p(a_t^B | a_t^A,z_t) || \sum_{a_t^A} p(a_t^B | z_t,a_t^A) p(a_t^A | z_t) ] = \mathcal{D}_{KL} [p(a_t^B | a_t^A,z_t) || p(a_t^B | z_t) ]

    ここで z_t =\ll u_t^B, s_t^B \gg はエージェントBの内部と外部の状態である。

 この式の数理的な正しさはエージェント間の相互情報量からも証明できる。即ちエージェントAの全行動a^Aと因果的影響I^Aの積和は相互情報量に一致している。

    I(A^B;B^A|z) = \sum_{a^A,a^B} p(a^B,a^A|z) \log \frac{p(a^B,a^A|z}{p(a^B|z) \cdot p(a^A|z)} = \sum_{a^A} p(a^A|z) \mathcal{D}_{KL} [p(a^B|a^A,z) || p(a^B|z) ]

この論文では因果的影響I^Aは実際のエージェント間の行動履歴のサンプリングから計算するとしている。多分A3Cで得点から学習するにつれて有意な因果的影響の量が増えると思われる。

実際の2エージェントの実験例として2つ(CleanupとHarvest)掲げている。

f:id:mabonki0725:20181102080835p:plain

 左図は上部にある川の泥さらいをするとリンゴが生まれ、泥さらいとリンゴの収穫を協調学習をしている。右図はリンゴを植える側と収穫側が協調して学習するものである。何れのゲームも紫の点がエージェントで緑がリンゴである。

両方とも協調しなければ囚人のジレンマの様に両方でリンゴを食いつぶすことになる。

 

早くて見難いがCleanupの動画としては以下が示されている。

Social influence reward leads to emergent communication in Cleanup game - YouTube

 

・実験方法

 驚くべきことに実験としては因果的影響を使って以下の3方法の比較をしている。

 1) 協調学習として伝統的な中央制御型(神の視点で全エージェントを協調させる)

    2) 因果的影響をメッセージとして他のエージェントに伝える方法

  Reinfocemented Inter-Agent Learning(RIAL)法による方法との比較

 3) 各エージェントが複数のエージェントの因果的影響を反映した内部状態を持ち、行動を予測する方法

  Model of Other Agent(MOA)として下図の様にモデル化している

f:id:mabonki0725:20181102103225p:plain

 ・実験結果

 (a)ではA3Cと中央制御型と因果的影響による比較

 (b)ではA3CとRIALとメッセージに因果的影響を使った比較 

 (c)ではA3CとMOAと因果的影響を反映したMOAとの比較

何れも因果的影響を使った方法が改善されているが、左上のCleanupの中央制御型では学習の立ち上がりが遅い。これは神の視点を入れた手法が優れていることを示しており、やはり協調するには監督の差配が必要だとも言える。

f:id:mabonki0725:20181102104041p:plain