非深層型の進化戦略の強化学習の論文を読む

ランニング30分 英語できず

(1) 非深層強化学習の進化戦略の論文を読む

「Evolution Strategies as a Scalable Alternative to Reinforcement Learning

https://arxiv.org/abs/1703.03864

 公開ソース https://github.com/MorvanZhou/Evolutionary-Algorithm

この論文は昨日記事にした深層強化学習のサーベイ論文で著者が高く評価したモデルである。

最近の強化学習や逆強化学習が全て深層モデルで構築されているが、本論の手法は深層学習を使わず、パラメータに摂動を入れ、大規模な並列処理で高速化とロバストな強化学習を達成するものである。

(1.1)方法

方策\pi(\theta)はパラメータ\thetaの関数とする。また確率p\psiで決まるとする時

  \theta \sim p_\psiでサンプリングされとする。

方策\pi(\theta)で行動した場合の得られた報酬をF(\theta)とすると、

\psiに関して以下の期待値を最大にする最適化モデルが定義できる。

 \eta(\psi) = E_{\theta \sim p_\psi}(F(\theta))

この最適な\psiを見つけるため以下の微分を考える。

 \nabla_\psi \eta(\psi) = E_{\theta \sim p_\psi}(F(\theta) \nabla_\psi \log p_\psi(\theta))

ここでp_\psiは偏差が\sigma正規分布であるとの仮定を置くと上式は次の簡単な式となる。

 \nabla_\psi \eta(\psi) = E_{\epsilon \sim N(0,I)} (F(\theta+\sigma \epsilon) \epsilon)

 この最適化モデルの\psi微分が得られたのでSDGにより

報酬F(\theta)を最大にする\psiは以下アルゴリズムで求めることができる。

f:id:mabonki0725:20170902194706p:plain

進化戦略モデルは多数並列化することで局所解の解消や高速化を図っている。

このアルゴリズムは以下となる。

f:id:mabonki0725:20170902201509p:plain

さらに以下の工夫をしている。

p_\psi正規分布する仮定は安直過ぎないか→しかし旨くいく

・方策\pi(\theta)による報酬は実際にはm期先(パラメータ化)迄としている

・方策\pi(\theta)によって選択される行動aは選択子なので\thetaの近傍で微分できない。

 →\theta+\epsilonとして摂動\epsilonを与え分布として微分可能にしている。

(1.2) 結果

 強化学習のベンチマークとして有名なMuJoCoでの深層強化学習のTRPOとの計算時間の比較である。大体半分程度で達成しているが、複雑の動きをするHopperやWalkerは6~8倍近くかかっている。

 ES(Evolutional Strategie)の並列化は1440 

 下表のEnviromentは強化学習の達成率

 TRPOの100%達成は500万ステップで学習

f:id:mabonki0725:20170902203313p:plain

f:id:mabonki0725:20170819120717p:plain

(1.1) 評価

 この大胆な方法は深層学習に比べ、かなり簡単なロジックと多数の並列処理によりロバストと高速化を達成しており、簡単な課題であれば早期に学習している。今後はこのモデルの採用が増えると考えられる。