エネルギーベースの逆強化学習の論文を再読する
ランニングできず 英語できず
(1) エネルギーベースの逆強化学習の論文を再読する
「Maximum Entropy Deep Inverse Reinforcement Learning」
https://arxiv.org/abs/1507.04888
T研のMゼミでかなり以前に解説した論文でしたが、敵対的な逆強化学習の提案で読み返してみると殆ど理解できていない事が分りかなり迷惑を掛けた自覚ともに落ち込んでいます。
この逆強化学習の手法はかなり有名でかなりのHPで散見されますが、記述が追えない箇所があるのにそのまま記載されています。
この逆強化学習では、行動選択の確率はエネルギー関数で与えられるので、熟練者の辿ったデータで逆に報酬を求め様とするものです。
この対数尤度を負の損失関数とすると
これをで微分すると
ここで
なので
またここで
とと特徴量の内積すると
よって微分は 経路での特徴量のデータ平均と真の平均との差となる
プログラムの反映で以下となる 2行目のループ内ので8,9行目でを改善している。
このプログラムでは