ランニングできず 英語できず (1) 一般化報酬による高次元の強化学習の論文を読む 「High - Dimensional Continuous Control using Generated Advantage Estimation」 https://arxiv.org/abs/1506.02438 ゲームの強化学習ではQ-learningが一般的ですが、人間…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。