UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。

https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl.

「Efficent Cooperative Inverse Reinforcement Learning

問題設定はChefWorldと云い人間とロボットが協同で料理の材料を用意して、なるべく多くの料理を作るゲームです。

このモデルはAdaptive-CIRLとして以下の実験結果が報告されています。横軸は材料数、縦軸は成功した料理数です。材料数が増えた場合、論文のモデルが傑出して高い精度を出しています。  f:id:mabonki0725:20180113115628p:plain

この問題はロボットは人間の意図や好みを推測して材料を提供する必要があるので、ロボット側から見ると人間の好みを観察して合わせる必要があります。それでCIRL(Cooperative Inverse Reinforcement)として人間の行動をデータとする逆強化学習としてモデル化できますが、人間の好みが見えないPOMDP(部分観察マルコフ決定過程)として捉える事ができます。

POMDPでは一般に観察データOから状況sを推察する確信度bを導入します。一般には観察データから正解の状況sで回帰で求めらることが多いです。

 s_k = \theta_{k,1}O_1 + \dots + \theta_{k,n} O_n

この論文では価値関数\alpha_\sigma(s)はBellman方程式に類推確率P(s,z | s,a)を考慮して以下に改変して計算しています。

 \alpha_\sigma(s) = R(s) + \gamma \sum_{s' \in S} \sum_{z \in Z} P(s',z | s,a) \alpha_{v(z)} (s')

 ここで

  z:観察データ

  \alpha_{v(z)}(s')は観察zでの状況s'の価値

大きな問題は協業なので、人間の意図に沿わない材料をロボットが用意した場合でも料理にする必要があります。

この論文では、人間の類推確率P(s,a^H|s,a^R)を以下で更新しています。

 P(s',a^H | s,a^R) = P((x',\theta'),a^H | (x,\theta),a^R)))

    =T(x,a^H,a^R,x')\cdot\mathcal{1}(\theta' = \theta) \cdot P(a^H|x,a^R,\theta)

   ここで

       T:推移確率

  状態sは(観察x,パラメータ\theta)で定義

  a^Hは人間の行動

  a^Rはロボットの行動

 

複数の自律体の強化学習は、逆強化学習よりも互いの意図を確信度で代替するPOMDPでも実現できること示した意義があると考えられます。