非深層型の進化戦略の強化学習の論文を読む
ランニング30分 英語できず
(1) 非深層強化学習の進化戦略の論文を読む
「Evolution Strategies as a Scalable Alternative to Reinforcement Learning」
https://arxiv.org/abs/1703.03864
公開ソース https://github.com/MorvanZhou/Evolutionary-Algorithm
この論文は昨日記事にした深層強化学習のサーベイ論文で著者が高く評価したモデルである。
最近の強化学習や逆強化学習が全て深層モデルで構築されているが、本論の手法は深層学習を使わず、パラメータに摂動を入れ、大規模な並列処理で高速化とロバストな強化学習を達成するものである。
(1.1)方法
方策はパラメータの関数とする。また確率はで決まるとする時
でサンプリングされとする。
方策で行動した場合の得られた報酬をとすると、
に関して以下の期待値を最大にする最適化モデルが定義できる。
この最適なを見つけるため以下の微分を考える。
ここでは偏差がの正規分布であるとの仮定を置くと上式は次の簡単な式となる。
この最適化モデルのの微分が得られたのでSDGにより
報酬を最大にするは以下アルゴリズムで求めることができる。
進化戦略モデルは多数並列化することで局所解の解消や高速化を図っている。
このアルゴリズムは以下となる。
さらに以下の工夫をしている。
・が正規分布する仮定は安直過ぎないか→しかし旨くいく
・方策による報酬は実際にはm期先(パラメータ化)迄としている
・方策によって選択される行動は選択子なのでの近傍で微分できない。
→として摂動を与え分布として微分可能にしている。
(1.2) 結果
強化学習のベンチマークとして有名なMuJoCoでの深層強化学習のTRPOとの計算時間の比較である。大体半分程度で達成しているが、複雑の動きをするHopperやWalkerは6~8倍近くかかっている。
ES(Evolutional Strategie)の並列化は1440
下表のEnviromentは強化学習の達成率
TRPOの100%達成は500万ステップで学習
(1.1) 評価
この大胆な方法は深層学習に比べ、かなり簡単なロジックと多数の並列処理によりロバストと高速化を達成しており、簡単な課題であれば早期に学習している。今後はこのモデルの採用が増えると考えられる。