強化学習を定式化したR.Suttonが2000年にOptionという重要な概念を提供しており[1]これを知らなかったとは相当な勉強不足と認識せざる得ない。 強化学習では長い迷路を経てゴールに達する場合や非常に稀に得点が入る場合には、相当の試行を重ねる必要がある…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。