2017-08-31から1日間の記事一覧

2017-08-31

DeepMindの強化学習での歪んだ報酬の対処の論文を読む

テニススクール90分英語できず DeepMindの強化学習での歪んだ報酬の対処の論文を読む [1705.08417] Reinforcement Learning with a Corrupted Reward Channel この論文は報酬が誤解釈や観測失敗やノイズがある場合の対処を論じたもので、かなり長文で数学よ…