敵対的強化学習による耐久性向上の論文を読む

ランニング30分英語できず

(1) 敵対的強化学習による耐久性向上の論文を読む

　この論文は強化学習に敵対者を入れる事によって、より安定した強化学習を達成するものです。　モデル名はRARL(Robust Adversarial Reinforcement Learning)です。

(1.1) 手法

　本来なら学習者と敵対者は同等な扱いで、相手の弱点を相互に見破りながら、互いが強化されるモデルが理想ですが、このモデルを解くのは容易でないので、次のモデルにしています。

　・学習者と敵対者の学習モデルは、最大の累計報酬を得る行動を決める方策分布 $\pi_\theta$ の $\theta$ を最適化するモデル

　　 $\pi_\theta=\mathbb{E}_\mathcal{P} \left( \mathbb{E} \left( \sum_{t=0}^T \eta r(s_t,a_t)| s_0,\mathcal{P} \right) \right)$

ここで

　　　 $\mathcal{P}$ は遷移確率

$r$ は報酬

　　 $s_t$ は状態

$a_t \sim \pi_\theta$ は方策からサンプリングされる行動

・状況と学習の経路よりTRPOより $\pi_\theta$ を学習しています

　　※TRPO:Trust Region Policy Optimization

　・学習者の報酬は敵対者のマイナスの報酬とする

　　　よって学習者の大きい報酬の契機ほど敵対者は攻撃する

　・敵対者の攻撃は定められた方法によって攻撃する（Hard-Exampleを採用)

下図参照

　・学習者は敵対者の行動を障害とみなす

　・学習者と敵対者は互いに短時間で攻守を交代して方策を学習する

　　　学習者が学習する間は、敵対者の行動は固定

　　　敵対者が学習する間は、学習者の行動は固定

(1.2) 結果

　実験対象はOpen-AIが用意している次の強化学習ゲームになります。

　実験では敵対者は下図の様な力を加え、学習者を不安定にしています。

　左端は車体に乗った逆倒立棒で棒が倒れない様に車体を制御します

f:id:mabonki0725:20171009204058p:plain

　比較対照はの方策 $\pi_\theta$ 学習モデルで定評のあるTRPOモデルです

1) 敵対者の介在によって早期に高い報酬を得られています。横軸：訓練回数

　　 f:id:mabonki0725:20171009202902p:plain

　学習対象の質量や摩擦を変化させた場合の学習効果です。

　2) RARLの方が質量の変化に強い事が分ります。横軸：質量の変化

　　　　 f:id:mabonki0725:20171009204441p:plain （

　3) RARLの方が摩擦の変化に強い事が分ります。横軸：摩擦の変化

f:id:mabonki0725:20171009204955p:plain

実際の実験では敵対者は以下の攻撃をしていることが観察されています

　　逆倒立棒：倒立棒がより不安定になる方向に力を加えている

　　　　 f:id:mabonki0725:20171009205346p:plain

　　ホッピング：空中にある場合は横に力、着地の場合上に力を加えています

　　　　　　 f:id:mabonki0725:20171009205625p:plain

(1.2) 感想

　・敵対的な妨害を入れる事によって耐久性だけでなく、早期に学習できるる事が示されたことは評価できます

　・学習者と敵対者が対等でない擬似的な敵対モデルなのは残念です

　・対等な学習モデルの構築が何故困難なぜか記述が欲しかった