強化学習に敵対する学習の論文を読む

ランニングできず　英語できず

(1) 強化学習に敵対する学習の論文を読む https://arxiv.org/abs/1703.06748kore

これはAttariゲームの強化学習（Q-learning A3C)を効果的に敵対(妨害)するモデルの論文です。

　敵対的な戦略として次の方法を採っています。

　・効果的な時点での攻撃(strategically timed attack)

　・ミスを誘う状況への誘導(enchainging attack)

(1.1) 方法

　1) 効果的な時点での攻撃

　　強化学習過程で最大の報酬と最低の報酬を得られる差が一番大きい時点を効果的な時点としています。下図では最も報酬の差が高くなる時点でノイズを与えています。

f:id:mabonki0725:20171008225820p:plain

2)ミスを誘う状況への誘導

　　・効果的にミスを誘う状況 $s_g$ (target state)を予め設定します。

　　・動画の履歴より、現状 $s_t$ から $s_g$ に至る最も近い行動 $a^*_{t} \sim a^*_{t+H}$ を予測します。

　　・ $s_g$ に至る行動 $a^*_{t} \sim a^*_{t+H}$ 前の状態 $s_{g-Ｈ}$ を推定します

　　・この状態 $s_{g-H}$ になる様に画面を変更する攻撃 $\delta$ を仕掛けます

f:id:mabonki0725:20171008230047p:plain

(1.2) 結果

　Attariゲーム5種類での敵対的攻撃による報酬の劣化を以下に示します。

f:id:mabonki0725:20171009091335p:plain

　強化学習のモデルDQNとA3Cとの比較をしています。

f:id:mabonki0725:20171009091124p:plain