ベイズによる複数エージェントの強化学習の論文を読んでみる

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参加者が秘匿する情報をベイズで推定しようする不完全情報下の最適化モデルと考えられる。論文はベイズモデルなので難解で自分が理解した範囲での記述となってしまった。

[1811.01458] Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning

ポーカゲームやビジネスの様に秘匿による不完全情報下ではナッシュ均衡状態が最適な状態と考えられ、このナッシュ均衡からの僅かなズレを相手の癖として見破り勝率を上げるモデルが主流である。現在のポーカゲームでは計算機が人間を相手にして凌駕する様になっているが、相当数のゲームを経て計算機がやっと最終的に勝っている状態である（相当数ゲームを行うことで人間が疲れてしまうから勝つとの説がある）。

triblive.com

この論文では、下図の様にゲームで開示されている情報 $s$ の特徴量 $f^{pub}$ と自分だけが知っている(相手には秘匿されている）情報の特徴量 $f^{pri}$ とに区別しており、エージェントが知っている情報の特徴量を $f^a$ としている。行動 $u$ は方策 $\pi$ およびエージェントの特徴量 $f^a$ で $u^a \sim \pi(f^a)$ としてサンプリングされる。

f:id:mabonki0725:20181222112904p:plain

公開情報をモデルに組み込むため、上図を修正して全員で見れる情報での公的信念 $\mathcal{B}$ と、これによる公正な方策 $\pi_{BAD}$ を導入したPubB-MDPモデルを提案している。下図の様に公正な方策からサンプリングされた方策 $\pi^\Delta$ を使ってベイズ推定されたエージェントの特徴量 $f^a$ での行動は $u^a \sim \pi^\Delta(f^a)$ でサンプリングされる。この行動の結果で状態が次に進み $\mathcal{B}'$ と $f'^{pub}$ に更新される。

f:id:mabonki0725:20181222113638p:plain — BAD(Bayesian Action Decoder)モデル

この論文の趣旨は行動 $u^a$ は観察できるので、これから行為者の意図 $f^a$ をベイズの事後分布として推定しようとするものである。即ち不完全情報を推定するモデルとなっている。

$P(\color{red}{f_t^a | u_t^a},\mathcal{B}_t,f_t^{pub},\pi^\Delta) = \frac{P(\color{red}{u_t^a | f_t^a},\pi^\Delta) P(f_t^a | \mathcal{B}_t,f_t^{pub})} {P(u_t^a|B_t,f_t^{pub},\pi^\Delta)}$ (1)

式(1)の赤字部分は $f_t^a$ を $x$ に $u_t^a$ を $y$ にした次のベイズの公式を使っていることがわかる。

　 $P(x | y) = \frac{P(y | x) P(x)}{P(y)}$

ここで

　　 $P(x|y)$ は事後分布

　　 $P(x)$ は事前分布

　　 $P(y|x)$ は尤度

公的方策 $\pi_{BAD}$ は次式で近似される。

　 $\pi_{BAD}(\pi^\Delta \mathcal{B}_t,f^{pub}) \approx \Pi_{f^a} \pi_{BAD} (\pi^\Delta(f^a) | \mathcal{B}_t, f^{pub} ,f^a)$

　右辺の $\pi^\theta_{BAD} (\pi^\Delta(f^a)=u^a | \mathcal{B}_t, f^{pub} ,f^a)$ は $u^a$ を教師データとして深層強化学習で学習される。

　式(1)の事前分布 $P(f_t^a | \mathcal{B}_t,f_t^{pub})$ と尤度関数 $P(u_t^a | f_t^a,\pi^\Delta)$ の推定は自分には理解不能のため省略する。

・実験

BADモデルは公開情報が多い場合が有利なので、ポーカーゲームと間逆のHanabiゲームを使って本論文のBADモデルの有意性を示している。Hanabiゲームはカードの裏が花火の模様で日本語の名称を使っている。このゲームでは各自５枚の札（色と数字が異なる）を持ち、札を出す度に1枚札を引く。およそ次の様なゲームである。

(1)ポーカと反対に、相手の５枚の手札は見えるが、自分の手札は見えない(下図)

(2)ポーカと反対に、全員で協調して手札を７並べの様に色別に数字を順番に場に並べる

(3)自分の札を推定し、場にある同じ色で場の最大数字より大きい札を出さないといけない。できそうとないと判断した場合は札を捨てる事ができる。

　失敗すると罰コインを与えられる。罰コインが３個貯まるとゲーム終了となる。

　成功すると報酬コインを貰える。

(4)相手にヒントを与えて、ヒントコインを出し自分の手札を推定させることができる

(5)全ての色と数字が順番に揃えば終了である。