2018-09-24から1日間の記事一覧

因果情報量最大化による逆強化学習の論文を読む

CMUの因果を取りいれた逆強化学習の発表でかなり古い論文である（2010ICML)。強化学習は時間経過に従って学習するモデルなのでタイムステップ間は完全に因果関係が成立する。熟練者の経路データから因果関係を情報量の最大化で求め次の行動を予測しようとす…