ベイズによる複数エージェントの強化学習の論文を読んでみる

最近は複数エージェントによる協調学習の理論や実験が著しい進展を遂げており、この方向で様々な研究成果が出現してくると思われる。しかし今回読んでみたベイズによる複数エージェントの強化学習の論文(BADモデル)はこの方向ではなく、カードゲームの様に参加者が秘匿する情報をベイズで推定しようする不完全情報下の最適化モデルと考えられる。論文はベイズモデルなので難解で自分が理解した範囲での記述となってしまった。

[1811.01458] Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning

ポーカゲームやビジネスの様に秘匿による不完全情報下ではナッシュ均衡状態が最適な状態と考えられ、このナッシュ均衡からの僅かなズレを相手の癖として見破り勝率を上げるモデルが主流である。現在のポーカゲームでは計算機が人間を相手にして凌駕する様になっているが、相当数のゲームを経て計算機がやっと最終的に勝っている状態である(相当数ゲームを行うことで人間が疲れてしまうから勝つとの説がある)。

triblive.com

この論文では、下図の様にゲームで開示されている情報sの特徴量f^{pub}と自分だけが知っている(相手には秘匿されている)情報の特徴量f^{pri}とに区別しており、エージェントが知っている情報の特徴量をf^aとしている。行動uは方策\piおよびエージェントの特徴量f^au^a \sim \pi(f^a)としてサンプリングされる。

f:id:mabonki0725:20181222112904p:plain


公開情報をモデルに組み込むため、上図を修正して全員で見れる情報での公的信念\mathcal{B}と、これによる公正な方策\pi_{BAD}を導入したPubB-MDPモデルを提案している。下図の様に公正な方策からサンプリングされた方策\pi^\Deltaを使ってベイズ推定されたエージェントの特徴量f^aでの行動はu^a \sim \pi^\Delta(f^a)でサンプリングされる。この行動の結果で状態が次に進み\mathcal{B}'f'^{pub}に更新される。

f:id:mabonki0725:20181222113638p:plain

BAD(Bayesian Action Decoder)モデル

 この論文の趣旨は行動u^aは観察できるので、これから行為者の意図f^aベイズの事後分布として推定しようとするものである。即ち不完全情報を推定するモデルとなっている。

 P(\color{red}{f_t^a | u_t^a},\mathcal{B}_t,f_t^{pub},\pi^\Delta) = \frac{P(\color{red}{u_t^a | f_t^a},\pi^\Delta) P(f_t^a | \mathcal{B}_t,f_t^{pub})} {P(u_t^a|B_t,f_t^{pub},\pi^\Delta)}       (1)

式(1)の赤字部分はf_t^axu_t^ayにした次のベイズの公式を使っていることがわかる。

 P(x | y) = \frac{P(y | x) P(x)}{P(y)} 

   ここで

  P(x|y)は事後分布

  P(x)は事前分布

  P(y|x)は尤度

 公的方策\pi_{BAD}は次式で近似される。

 \pi_{BAD}(\pi^\Delta \mathcal{B}_t,f^{pub}) \approx \Pi_{f^a} \pi_{BAD} (\pi^\Delta(f^a) | \mathcal{B}_t, f^{pub} ,f^a)

 右辺の\pi^\theta_{BAD} (\pi^\Delta(f^a)=u^a | \mathcal{B}_t, f^{pub} ,f^a)u^aを教師データとして深層強化学習で学習される。

 

 式(1)の事前分布P(f_t^a | \mathcal{B}_t,f_t^{pub})と尤度関数P(u_t^a | f_t^a,\pi^\Delta)の推定は自分には理解不能のため省略する。

 

   

 

・実験

BADモデルは公開情報が多い場合が有利なので、ポーカーゲームと間逆のHanabiゲームを使って本論文のBADモデルの有意性を示している。Hanabiゲームはカードの裏が花火の模様で日本語の名称を使っている。このゲームでは各自5枚の札(色と数字が異なる)を持ち、札を出す度に1枚札を引く。およそ次の様なゲームである。

(1)ポーカと反対に、相手の5枚の手札は見えるが、自分の手札は見えない(下図)

(2)ポーカと反対に、全員で協調して手札を7並べの様に色別に数字を順番に場に並べる

(3)自分の札を推定し、場にある同じ色で場の最大数字より大きい札を出さないといけない。できそうとないと判断した場合は札を捨てる事ができる。

 失敗すると罰コインを与えられる。罰コインが3個貯まるとゲーム終了となる。

 成功すると報酬コインを貰える。

(4)相手にヒントを与えて、ヒントコインを出し自分の手札を推定させることができる

(5)全ての色と数字が順番に揃えば終了である。

f:id:mabonki0725:20181222185033p:plain

Each player observes hands of other player,but not their own.


 ・実験結果

     モデルの比較対象としてLSTMを使っている。これはカードゲームの手順での時系列的な特性を反映するためである。

     V0-LSTM:ヒントと見えているカードのみで自分のカード推定したLSTMモデル

     V1-LSTM:V0-LSTMを繰返し適用して収束させたLSTMモデル

     BAD:本論文のモデル

 

f:id:mabonki0725:20181222220415p:plain

performance in Hanabi game

  上図はBADの優位性を示しているが、LSTMを使った簡便な推定モデルV0-LSTMと相違が少ない。実験に選んだHANABIゲームが複雑なため、ベイズ手法によるモデル化が難しくBADモデルの特性を生かせなかったと推察される。