因果情報量最大化による逆強化学習の論文を読む

CMUの因果を取りいれた逆強化学習の発表でかなり古い論文である（2010ICML)。強化学習は時間経過に従って学習するモデルなのでタイムステップ間は完全に因果関係が成立する。熟練者の経路データから因果関係を情報量の最大化で求め次の行動を予測しようとするモデルである。

www.semanticscholar.org

一般にデータからコスト関数を推定するモデルをIOC（Inverse Optimal Control)と云い、統計的な解釈で推定するモデルをIOSC(Inverse Optimal Stochastic Control)と云うらしい。

このモデルが逆強化学習と云わないのはMDF(マルコフ決定過程）だけでなくLQR（linear-quadratic regulators)も解けるからである。LQRは一般にモータで駆動するロボットの最適制御に使われる。

このモデルは下記のグラフィカルモデルで記述されるが、理論としては逐次的に過去の成果 $U_t$ を引継いて状況 $S$ から次の最適行動 $A_t$ を予測するものである。

理論式としては、 $P(A||S)$ の情報量を最大化して算出する

　 $H(A|S) \approx \mathbb{E}_{A,S} [-\log P(A||S)] = \sum_{t=1}^T H(A_t|S_{1:t},A_{1:t})$

　 $P(A|S) \approx \Pi_{t=1}^{T} P(A_t|S_{1:t},A_{1:t_1})$

ここで確率 $P(A|S)$ は次式の様に特徴量 $\mathcal{F}(S,A)$ とパラメータ $\theta$ の内積と熟練者の経路 $\mathbb{E}_{ex}$ の差について、これが指数に比例すると云う伝統な考えを導入する。

　 $P_\theta(A|S) \approx \exp\{ \theta^T \mathbb{E}_{S,A} [ \mathcal{F}(S,A) ] - 　\sum_{\tau \gt t} \mathbb{E}_{S,A} [\log P_\theta(A_\tau | B_\tau) ] \}$

　 $\mathbb{E}_{ex} [ \mathcal{F}(S,A) ] \approx \sum_{\tau \gt t} \mathbb{E}_{S,A} [\log P_\theta(A_\tau | B_\tau) ]$

この特徴量とパラメータの線形な関係により $P(A|S)$ の対数勾配を採る $\theta$ は以下となる。

　 $\frac{\partial \log P_\theta(A|S)}{\partial \theta}= \mathbb{E}_{S,A} [ \mathcal{F}(S,A) ] - \mathbb{E}_{ex} [ \mathcal{F}(S,A) ]$

また $P(A|S)$ の対数期待値（情報量）を最大化するためMDF（マルコフ決定過程）と同じ様に報酬を内積（第１項）と事前の遷移確率（第２項）の和で、これが最大になる様に行動選択の確率 $P(A_t|S_t)$ を算出する

　 $\log Z_{A_t|S_t,\theta} = \theta ^ T F(S_t,A_t) + \sum_{S_{t+1}} P(S_{t+1} | S_t,A_t) \log Z_{S_{t+1},\theta}$

$\log Z_{S_t,\theta} = \log \sum_{A_t} Z_{A_t|S_t,\theta}$

$P(A_t|S_t) = \frac{Z_{A_t|S_t,\theta}} {Z_{S_t,\theta}}$

実験結果

(1) 前述した様にに本論文のモデル(MaxCausal)はLQRにも適用できるのでヘリコプター静止操作の軌跡もモデル化できる。その結果は熟練者のDemoと同じ推定が可能になっている。ここでInvOptとは単に特徴量一致で解く方式である。

f:id:mabonki0725:20180924191435p:plain

(2) 追いかけっこ(Pursuit-Evasion)の結果

　一般にネットワーク形式の推論では教師あり推論はCRF(Conditional Random Field)で非教師あり推論ではMRF(Markov Random Field)が使われる。CRFは機械翻訳でLSTMが導入される前は、言葉の羅列から次の言葉を推定するモデルに最も使われていた。

この実験ではMaxCausalとCRFの結果が２次元プロット図で比較してあり何れも45度線より低い所にありMaxCausalの精度が高い事が示されている。

f:id:mabonki0725:20180924192604p:plain

　(3) ベイジアンネットワークでの結果

　MaxCausalはネットワークの因果関係でも推定できるので、ここでは部分観察での自動車の故障について原因追求テストでも比較している。ここでは様々なテストで原因を追究しているベイジアンネット上のデータを使って原因を特定しているが本モデルが普通の推論より早く収束している。

f:id:mabonki0725:20180924192922p:plain