好奇心を報酬とする理論

ランニング30分 英語できず

(1) 好奇心を報酬とする論文を読了する

「Curiosity-driven Exploaration by Self-Supervised Prediction」

  下図の様な迷路ゲーム(Viza-Doom)の場合、迷路の端に報酬があり(右端の図)、各場面では殆ど報酬を見ることができない。現在の最先端の強化学習でも報酬が見つけ難いと殆ど学習ができない。その代替としてこの論文では「好奇心」を報酬としてゲームを解いている。代替報酬としては、「新規差」か「予想の外れ」となるが、本論文では後者を採用している。

 好奇心の報酬{r_i^t}を「予想との相違」を採用しているが、本当の報酬{r_t^e}との合計をA3C(並列のQ_learning)で方策{\pi(s_t,\theta_P)}の最適化を行っている。

 予想との相違である好奇心の報酬{r_i^t}は下記で定義

   {r_i^t = \frac{\eta}{2}||\hat{\phi}(s_{t+1}) - \phi(s_{t+1})||_2^2}

           ここで

               {\hat{\phi}(s_{t+1})}:予想した次の状態のencode特徴

               {\phi(s_{t+1})}:実際の次の状態のencode特徴

   予想した次の状態の特徴は深層ネットワークfで算出する(順モデル)

            {\hat{\phi}(s_{t+1})= f(\phi(s_t),\hat{a_t};\theta_F)} 

            次の行動予測も別の深層ネットワークgで算出する(逆モデル)

   {\hat{a_t} = g(s_t,s_{t+1};\theta_I)}

ここで各{\theta_p,\theta_I,\theta_F}は学習パラメータである。

この好奇心ではDoomでの動作は自然な動作を実現していると記述されている。

 この論文の残念な所は、予測した場面と実際の場面の比較で、実際のゲームでの施行データを使っており、数万回の施行ができないので、敵がいる様な複雑な場面では予測と施行データとの比較が困難となると考えられる。この理論では本当のDoomの様なゲームは採用が難しいと考えられる。

 

ゲームDoomの実際の場面と迷路

f:id:mabonki0725:20170805072931p:plain