回避機能をもつ逆強化学習の論文を読む
NIPS2017で発表されたAbbeel達の回避機能をもつ逆強化学習の下記の論文を読む。
「Inverse Reward Design」https://arxiv.org/abs/1711.02827
この論文は予想外の事象に衝き当った場合の報酬を如何に修正するかの話なので、報酬設定→行動経路→逆強化学習→報酬関数の修正なので逆強化学習の一種として考えられる。
予想外の事象に突き当った場合のロボットが、部分観察MDPの確信度で対処する行動決定とそっくりである。POMDPは確信度が低い場合には、近づいたり、スピードを落としたりして観察がよく出来る様に行動させる場合が多い。
この論文は、ロボットに目的の動作が出来る様に設定する報酬のデザインが誤ったり配慮が抜けてた場合でも、ロボットが当初の目的通りに動作できる様にするものである。
論文の下図の様な例では、デザイナーは報酬を目標=1 砂漠=0.1 草原=-1として、溶岩を思いつかなかった場合が示されている。
現実の世界(本論ではReal World)を相手にすると設計者の意図以外の事象に遭遇する場合が普通であって、この場合溶岩にはまって失敗する。
この論文の意図はDeepMindの様な理想とする環境での知的動作ではなく、Abbeel達は現実の世界の知的ロボットに関心があるので、この様なアイデアを考えたと思われる。
デザイナーが与えた報酬で訓練したロボットの経路を逆強化学習して、報酬関数の重みを以下で計算した場合でも、想定外の事象では重みの信頼度を下げて、回避しょうとするのがこの論文のアイデアである。
ここで
は動作経路
は特徴量
重みの信頼度はエネルギー関数を採用してた次式の事後分布としている。
ここで
は現実世界に対応した真の重み
はMDP過程
は感応度(ハイパーパラメータ)
は特徴量の期待値
は分配関数
分配関数は算出すべき重みが不明であるので一般には計算不能であるが、経路を多くサンプリングして近似する場合が多い。
ここではランダムなサンプリング法(sample-Z)と最大エントフィ法で解いた(Maxent-Z)を使って上記の重み信頼度を計算している。
センサーが未知物体を感知した場合、一つの案として自己位置の認識に下図の様に特徴量に多次元のガウスう分布を使って重みの信頼度を計算している。
想定外の場合では特徴量が変化するので、重みの信頼度が低下し、低い重みで報酬を計算すると、報酬が低くなるので、回避することができる。
実験では分配関数をMaxEnt-ZやSample-Zを用いて重みの信頼度を計算した方が、この手当てをしない場合 Proxyより、遥かに溶岩を回避できている。
右図は未知物体では重みの信頼度の事後分布で計算した実験
左図は未知物体に統計モデルを使用した実験
Negative Side Effects センサーの想定外検知
Reward Hacking センサー情報の相互矛盾検知
Raw Ovservation ガウス分布を使って判定する
Classifyer Feature 識別器を使って判定する