非線形な逆強化学習の最適解を効率的に図るため、擬似的な関数を定義してこれを使って最大最小値問題として、さらに非線形解を解くためGANを導入したモデルである。単なる逆強化学習をここまで複雑にしている論文は見たことがないが、実験結果では驚異的な性…
CMUの因果を取りいれた逆強化学習の発表でかなり古い論文である(2010ICML)。強化学習は時間経過に従って学習するモデルなのでタイムステップ間は完全に因果関係が成立する。熟練者の経路データから因果関係を情報量の最大化で求め次の行動を予測しようとす…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。