有名な階層型強化学習の論文を読む

強化学習で階層型がよく話題になっているが、東大修士1年が勉強会で発表していたので興味を持ち読んでみた。

[1804.02808] Latent Space Policies for Hierarchical Reinforcement Learning

バークレイの連中の論文で強化学習での階層間を深層学習と同様に逆微分を使っている所が期待を持たせる。

即ち、下層では機械的な報酬で動作し上層では戦略的な方策で動作をするが、その動作の整合性を隠れ変数として調整するものである。

モデルとしては次の様な構造をしている。      

             f:id:mabonki0725:20180828175623p:plain

各層での強化学習の最適化は最適な経路確率p(・)と近似方策\pi(・|s_t)と乖離を最小にする最大エントロフィ法を使って改善している。

   f:id:mabonki0725:20180828194037p:plain

層間に隠れ変数を追加して方策\pi(a_t|s_t)を次の合成関数の微分と同じ様な方法で繋いでいる

  f:id:mabonki0725:20180828175930p:plain

実際には隠れ変数の密度関数の補正式(NPV:real-valued non-volume preserving)を使っている。

[1605.08803] Density estimation using Real NVP

この考え方は深層学習の逆伝播と同様な考え方で方策\pi(a_t|s_t)を最適化している。

アルゴリズムとしては各層に報酬設定が必要としており、この手動設定がこの手法の問題点と考えられる。

f:id:mabonki0725:20180828190937p:plain

上図の階層図やアルゴリズムを見ると上段から最下段へ伝播し結果が最適化\mathcal{O}'されているか最大エントロフィ法で評価して逆順に隠れ変数や行動を決めているので深層学習に近い様に見える。

 

実験結果

 (1) 2層(青)モデル 4層(緑)モデル及び訓練途中から1層→2層(橙)の比較

      1層での訓練を経てから2層にした方が高い報酬を得られていることが判明する

       これは1層での訓練成果を2層目で改善することを示す。また(b)では4層が劣化している

    f:id:mabonki0725:20180828191523p:plain

 (2) 他の手法との比較 

  (a)図は蟻が緑の3隅に早く移動する強化学習の環境

  下層は早く蟻が動くことを報酬とし、上層は蟻の方向を報酬としている

        (b)図は訓練回数にたいするゴールまでの距離

   本手法(青)  : 学習効率が優れている

            SQL(最大エントロフィー法によるQ-learning)(橙)

            fine tune task+motion(調整済みで目的と動きを報酬とする) (桃)

   scratch task+motion(調整なし目的と動きを報酬とする)(紫) 

   f:id:mabonki0725:20180828192250p:plain