Open-AIの強化学習のリスト[1]でVariational(変分)のカテゴリィにあった論文だが、環境から得られる相互情報量を変分を使っての最大化し、Optionを認識しようとするものである。 [1611.07507] Variational Intrinsic Control この論文はoptionの始点と終点(…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。