好奇心を報酬とする理論 - mabonki0725の日記

ランニング30分　英語できず

(1) 好奇心を報酬とする論文を読了する

[1705.05363] Curiosity-driven Exploration by Self-supervised Prediction

下図の様な迷路ゲーム（Viza-Doom)の場合、迷路の端に報酬があり（右端の図）、各場面では殆ど報酬を見ることができない。現在の最先端の強化学習でも報酬が見つけ難いと殆ど学習ができない。その代替としてこの論文では「好奇心」を報酬としてゲームを解いている。代替報酬としては、「新規差」か「予想の外れ」となるが、本論文では後者を採用している。

　好奇心の報酬 ${r_i^t}$ を「予想との相違」を採用しているが、本当の報酬 ${r_t^e}$ との合計をA3C(並列のQ_learning)で方策 ${\pi(s_t,\theta_P)}$ の最適化を行っている。

　予想との相違である好奇心の報酬 ${r_i^t}$ は下記で定義

　　　 ${r_i^t = \frac{\eta}{2}||\hat{\phi}(s_{t+1}) - \phi(s_{t+1})||_2^2}$

ここで

${\hat{\phi}(s_{t+1})}$ ：予想した次の状態のencode特徴

${\phi(s_{t+1})}$ ：実際の次の状態のencode特徴

　　　予想した次の状態の特徴は深層ネットワーク $f$ で算出する（順モデル）

${\hat{\phi}(s_{t+1})= f(\phi(s_t),\hat{a_t};\theta_F)}$

次の行動予測も別の深層ネットワーク $g$ で算出する（逆モデル）

　　　 ${\hat{a_t} = g(s_t,s_{t+1};\theta_I)}$

ここで各 ${\theta_p,\theta_I,\theta_F}$ は学習パラメータである。

この好奇心ではDoom迷路での動作は自然な動作を実現していると記述されている。

Doom迷路のデモは以下のGitHubでの実装され人工知能合同研究会でデモが発表された。

github.com

この論文の残念な所は、予測した場面と実際の場面の比較に頼っており、実際の場面はゲームでの施行データを使っている。これでは数万回の施行がきず、ランダムに敵が出現する様な複雑な場面では予測と施行データとの比較が困難となると考えられる。残念ながらこの理論では迷路は解けるかもしれないが、シューテイングゲーム版のDoomムは難しいと考えられる。

ゲームDoomの実際の場面と迷路

f:id:mabonki0725:20170805072931p:plain