好奇心を本能的な報酬として解く論文

ランニングできず 英語:Toeic

(1) 好奇心による強化学習の論文を読む。

「Curiosity-driven Exploaration by Self-Supervised Prediction」

明示的な報酬を外生的報酬(extrinsic reward)とし、好奇心を本能的な報酬(instrinsic reward)として区別して、明示的な報酬の期待が少ない場合や定かで無い場合は好奇心を指針にすれば問題が解けるとの論文である。この実験では報酬が見えない場合のゲームでも良好な成績が示されている。

好奇心はには2つあり、「新規差」と「予測との相違」である。前者の新規差はDeepMindのUNREALに場面変異量として既に馴染みがあるが、後者の予測との相違はDeepMindのどのモデルにもない。この論文では後者を採っている、即ち

 好奇心=予想と実際が違うのは何故?

下記の結果からは明示的な報酬が殆ど獲得できない状況でもICM(Instrinsic Curiosty Model)本能的な好奇心があると多く明示的報酬が獲得できていることがわかる。

f:id:mabonki0725:20170804155907p:plain