NIPS2017で発表されたAbbeel達の回避機能をもつ逆強化学習の下記の論文を読む。 「Inverse Reward Design」https://arxiv.org/abs/1711.02827 この論文は予想外の事象に衝き当った場合の報酬を如何に修正するかの話なので、報酬設定→行動経路→逆強化学習→報…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。