mabonki0725の日記

UC.Berklayの協業強化学習の論文を読む

複数の自律体での強化学習は敵対的なモデルが一般的ですが、この論文は複数の自律体が協同で問題を達成するモデルの論文で、DeepMindと双璧を成すUC.Berklayの発表です。

https://people.eecs.berkeley.edu/~russell/papers/icml17ws-cirl.

「Efficent Cooperative Inverse Reinforcement Learning」

問題設定はＣhefWorldと云い人間とロボットが協同で料理の材料を用意して、なるべく多くの料理を作るゲームです。

このモデルはAdaptive-CIRLとして以下の実験結果が報告されています。横軸は材料数、縦軸は成功した料理数です。材料数が増えた場合、論文のモデルが傑出して高い精度を出しています。　　 f:id:mabonki0725:20180113115628p:plain

この問題はロボットは人間の意図や好みを推測して材料を提供する必要があるので、ロボット側から見ると人間の好みを観察して合わせる必要があります。それでCIRL(Cooperative Inverse Reinforcement)として人間の行動をデータとする逆強化学習としてモデル化できますが、人間の好みが見えないPOMDP(部分観察マルコフ決定過程）として捉える事ができます。

POMDPでは一般に観察データ $O$ から状況 $s$ を推察する確信度 $b$ を導入します。一般には観察データから正解の状況 $s$ で回帰で求めらることが多いです。

　 $s_k = \theta_{k,1}O_1 + \dots + \theta_{k,n} O_n$

この論文では価値関数 $\alpha_\sigma(s)$ はBellman方程式に類推確率 $P(s,z | s,a)$ を考慮して以下に改変して計算しています。

　 $\alpha_\sigma(s) = R(s) + \gamma \sum_{s' \in S} \sum_{z \in Z} P(s',z | s,a) \alpha_{v(z)} (s')$

　ここで

　　 $z$ ：観察データ

　　 $\alpha_{v(z)}(s')$ は観察zでの状況s'の価値

大きな問題は協業なので、人間の意図に沿わない材料をロボットが用意した場合でも料理にする必要があります。

この論文では、人間の類推確率 $P(s,a^H|s,a^R)$ を以下で更新しています。

　 $P(s',a^H | s,a^R) = P((x',\theta'),a^H | (x,\theta),a^R)))$

$=T(x,a^H,a^R,x')\cdot\mathcal{1}(\theta' = \theta) \cdot P(a^H|x,a^R,\theta)$

ここで

T:推移確率

　　状態 $s$ は(観察 $x$ ,パラメータ $\theta$ )で定義

　　 $a^H$ は人間の行動

　　 $a^R$ はロボットの行動

複数の自律体の強化学習は、逆強化学習よりも互いの意図を確信度で代替するPOMDPでも実現できること示した意義があると考えられます。