プレイヤーと環境とが敵対的に学習する論文を読む
ランニングできず 英語できず
(1) プレイヤーと環境とが敵対的に学習する論文を読む
「Learning to Design Games: Strategic Environments in Reinforcement Learning」
https://arxiv.org/abs/1707.01310v2
この論文は強化学習でプレイヤーと活動する環境とが敵対的に競争し合ってプレイヤーの能力を高めるものです。
この論文のコンセプトとして下図を示しています。
一般道の自動運転では様々な連続的に生起する事象を回避する必要があり、その模擬は大変難しいことが知られています。この論文は運転者とその走行環境を互いに複雑にして運転能力を高める方法を開くものと考えられます。
この論文では下図の様にプレイヤーと迷路を敵対的に進化させて同時に学習をすることができています。
(1.1) 手法
強化学習のBellman方程式に敵対的学習を達成するminmaxが定式化されています。
ここで
は遷移確率のパラメータで報酬を最小化します
はプレイヤーの方策パラメータで報酬を最大化します
は累計報酬
は状態、行動(前後左右移動)、報酬、割引率です
は遷移確率
は方策
とは微分して計算して最大傾斜となる値に修正します。
但し、は上式で求めてますが、迷路を複雑にするは報酬を最小にする2重の期待値を取る式となっていて相当困難な式が展開されています。 結局擬似プログラムをAppendixに添付しています。
(1.2) 結果
複数のモデルについてプレイヤーと迷路を同時に高度化しています。
ここで
Roundは計算の繰返回数 Returnは迷路での折返し回数です。
OPTはプレイヤーが学習しないモデル
DFSは判断木を生成して深さ優先で最適判断するモデル
RHSは判断木を生成して右方向優先で最適判断するモデル
DQNはDeep Q-learningです
この結果ではDQNのプレイヤーが最適な学習をするので早期に複雑な迷路を生成しています。