相手への影響を報酬の一部とした協調強化学習の論文を読む

エージェントの相互の影響を反映した社会的動機による協調強化学習と訳せばいいのか、次のタイトルの論文を読む。

[1810.08647v1] Intrinsic Social Motivation via Causal Influence in Multi-Agent RL

相手の行動と自分の内部状態を因果として次の行動を決定することを因果的影響(causal influence)と云い、これを報酬の一部とすることで協調学習を達成しようとしている。

各エージェントの強化学習は一般のA3Cを採用しており、エージェントの内部状態はLSTMの隠れ変数としており、内部状態はLSTMで遷移する。

要するに複数エージェント間の因果的影響の量を計り、これを報酬とした場合、偶々うまく行けば（得点が多く入る等）この方策を採用する様にA3Cで学習しようとするものである。外から見ればこのエージェント間の因果的影響による行動は協調して働いて(得点を稼いで)いると見える。

・手法

k番目のエージェントの報酬 $R^k$ を以下のパラメータ $\alpha,\beta$ で分離している。

　 $R^k = \alpha E^ + \beta I^k$

　ここで $E^k$ は実際の報酬　 $I^k$ は因果的影響の報酬

下図の様な２つのAとＢエージェントの場合で説明すると

f:id:mabonki0725:20181101180349p:plain

エージェントAの因果的報酬 $I^A$ はエージェントAによる行動 $a^A$ の有無でエージェントBによる行動の $a^B$ が採る確率分布の距離 $\mathcal{D}_{KL}$ を使っている。

　 $I_t^A =\mathcal{D}_{KL} [ p(a_t^B | a_t^A,z_t) || \sum_{a_t^A} p(a_t^B | z_t,a_t^A) p(a_t^A | z_t) ] = \mathcal{D}_{KL} [p(a_t^B | a_t^A,z_t) || p(a_t^B | z_t) ]$

ここで $z_t =\ll u_t^B, s_t^B \gg$ はエージェントＢの内部と外部の状態である。

この式の数理的な正しさはエージェント間の相互情報量からも証明できる。即ちエージェントＡの全行動 $a^A$ と因果的影響 $I^A$ の積和は相互情報量に一致している。

$I(A^B;B^A|z) = \sum_{a^A,a^B} p(a^B,a^A|z) \log \frac{p(a^B,a^A|z}{p(a^B|z) \cdot p(a^A|z)} = \sum_{a^A} p(a^A|z) \mathcal{D}_{KL} [p(a^B|a^A,z) || p(a^B|z) ]$