強化学習に敵対する学習の論文を読む
ランニングできず 英語できず
(1) 強化学習に敵対する学習の論文を読む https://arxiv.org/abs/1703.06748kore
これはAttariゲームの強化学習(Q-learning A3C)を効果的に敵対(妨害)するモデルの論文です。
敵対的な戦略として次の方法を採っています。
・効果的な時点での攻撃(strategically timed attack)
・ミスを誘う状況への誘導(enchainging attack)
(1.1) 方法
1) 効果的な時点での攻撃
強化学習過程で最大の報酬と最低の報酬を得られる差が一番大きい時点を効果的な時点としています。下図では最も報酬の差が高くなる時点でノイズを与えています。
2)ミスを誘う状況への誘導
・効果的にミスを誘う状況(target state)を予め設定します。
・動画の履歴より、現状からに至る最も近い行動 を予測します。
・に至る行動前の状態を推定します
・この状態になる様に画面を変更する攻撃を仕掛けます
(1.2) 結果
Attariゲーム5種類での敵対的攻撃による報酬の劣化を以下に示します。
強化学習のモデルDQNとA3Cとの比較をしています。