mabonki0725の日記

FIRLの論文を読むが難しい

AI論文ロボテックス

ベイズによる逆強化学習が、杉山先生の密度比による逆強化学習と同じ手法になったので、残る有名な手法はFIRL(Feature Construction IRL)のみになった。

この手法は下記のAbbeel率いるBarkleyチームのLevineによる論文がある。

https://homes.cs.washington.edu/~zoran/firl.pdf

この手法はこれまでの報酬を固定の特徴量の近似関数で表す手法と全く異なっていて、特徴量を回帰木で分解して有意な特徴量を選択しながら、２次計画法で最適な報酬関数を求める方法となっている。

f:id:mabonki0725:20180207104749p:plain

　　　ここで

　　 $\mathcal{D}$ は熟練者の行動データ

　　　　 $T_{R \to \Phi}$ は回帰木で選択した特徴量

　　　　 $R_{\Phi}$ は改善対象の報酬関数

$||NR_{\Phi}||$ は同じ状態をもつグループを繋ぐ正則化項

　拘束条件では熟練者の行動範囲 $s \in \mathcal{D}$ であれば、正しい価値関数 $V(s)$ が計算され、それを逸脱すると、劣化した価値関数 $V(s)$ が計算される。逸脱した行動 $a$ は観測できないので $\varepsilon$ の罰則を与えている。

　回帰木は、次式で定義され、枝に含まれる状態 $s$ を報酬の寄与で分割して、最適な回帰木は上記の２次計画法で算出している。

　　 $t_j = \{\delta_j,\phi_j,t_{j-},t_{j+}\}$

ここで

　　　 $t_{j-}$ は木の枝でこのノードに含まれる状態 $s$ で報酬に寄与しない側

$t_{j+}$ は木の枝でこのノードに含まれる状態 $s$ で報酬に寄与する側

$\delta(s)$ は状態 $s$ が報酬に寄与するか判断する関数

　　　 $\phi(s)$ は状態 $s$ がこのノードに含まれるかの指標

　 $t_{j-}$ と $t_{j+}$ はさらに回帰木を生成していくが、経験的に浅い分岐でよいとしている。

　この論文は式記号も難しく、本当に妥当な回帰木が得られるか判断が付かない。詳しいロジックを追求するには下記のMatlabのサイトがある。　

　逆強化学習に詳しい千葉大の荒井研究室ではこのFIRLを昨年稼動して発表している。しかしFIRLの優位性を示せてなく記述も簡単すぎて詳しい事がわからない。　

https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=162700&item_no=1&attribute_id=1&file_no=1