CNN最適化の制御式を生成するRNNの論文を読む

ランニングできず 英語できず

(1) CNN最適化の制御式を生成するRNNの論文を読む

 「Neural Optimizer Search  with Reinforcement Learning

https://arxiv.org/abs/1709.07417

 CNNの最適化の制御式をRNNが強化学習で学習するモデルでかなり画期的なモデルです。

    例えばCNNの最適化の仕様は次の様な重み調整の制御式で示す事ができます。

  \Delta w = \hat{m} \ast (1+\epsilon) \ast sigmoid(10^{-4}w)

        \Delta w = sign(m) \ast \sqrt{|g|}

        \Delta w = sign(g) \ast sign(m) \ast \hat{m}

        \Delta w = (1+sign(g) \ast sign(m)) * RMSProp

        ここで

          gは勾配  \hat{m}移動平均  \epsilonガウス

 RNNが数式の構文を生成する性能に注目し、CNNが最適な精度を出せる様に制御式を強化学習するモデルとなります。

  概念図は次となります。

f:id:mabonki0725:20170929000229p:plain

 (1.1) 手法

 1) 制御式DSL(Domain Specific Language)の仕様

 深層学習の重み調整の制御式(DSL)は下記の単位\Delta w_iが繋がる形式で学習します。

  \Delta w = \Delta w_1 \ast  \Delta w_2 \ast \dots \Delta w_n

         \Delta w_i = \lambda^i \ast b^i (u_1^i (op_1^i),u_2^i(op_2^i)) 

        ここで

     op_1 \ op_2はオペレータ

     u_1 \ u_2は関数(1引数)

           bはバイナリィ関数

          \lambdaは学習率

  制御式は図示すると次の様な構成となります

    f:id:mabonki0725:20170929122538p:plain

 以下に各種類の要素があります   

  f:id:mabonki0725:20170929122222p:plain

      f:id:mabonki0725:20170929125027p:plain

 2) RNNの構成

  制御式は5つの要素が1単位として連結した構成になります。

           \Delta w_i = \lambda^i \ast b^i (u_1^i (op_1^i),u_2^i(op_2^i)) 

    RNNでは上式は計算順序(逆ポーランド法)になっています。

f:id:mabonki0725:20170929123017p:plain

 3)強化学習によるRNNの学習

  RNNの強化学習の記述は次式のみです。

  J(\theta) = \mathbb{E}_{\Delta \sim p_\theta(\cdot)}\left( R(\Delta) \right)

        ここで

            J(\theta)は最大化する目的関数です

   Rは制御式を投入した場合のCNN精度の改善幅を示しています

            \Delta \sim p_\theta(\cdot)は制御式の投入確率で\thetaでパラメータ化されています

  但しこの強化学習は相当時間がかかるので様々な工夫をしています。

   ・強化学習モデルはPPO(Proximal Policy Optimization)を採用

   ・CNNは簡便な学習で済ます(2層、5回繰返)

          ・組合わせの数は10^6 \sim 10^{11}あるので無駄な組合わせを排除

  それでも1日費やすとのことです。

 

(1.2) 結果

 下図が強化学習を繰返しと簡便CNNによる精度の改善状態です。

 10000回で収束しています。   データはCIFAR-10  CNN     

f:id:mabonki0725:20170929124519p:plain

  下表の様な重み調整の制御式と精度が達成されています。

  識別モデルはwide-ResNet  データはCIFAR-10

f:id:mabonki0725:20170929125847p:plain

(1.3) 感想

 この論文では各制御式での重みの収束軌跡も添付しています。黒点が収束位置です。

   f:id:mabonki0725:20170929131429p:plain

 素晴らしい成果と思います。この様な重み調整の制御式の試行が深層学習の解明に大きく寄与すると思えます。