交配効果による深層学習の効率化の論文を読む

ランニングできず 英語:Toeic

(1)交配効果による深層学習の効率化の論文を読む

[1709.02043] The Mating Rituals of Deep Neural Networks: Learning Compact Feature Representations through Sexual Evolutionary Synthesis

  月間2000本もAI論文でるので中吊り広告みたいに読んでもらうのは刺激的なタイトルが必要となっている様です。残念ながら私もこの性的(sexual)に惹かれて読んでしまいました。

 これはダーウィンの進化論を参考にした下記の記事に生殖的な観点を入れたものです。

mabonki0725.hatenablog.com

 この両論文の図を比較してみると一目瞭然で今度は両親の交配による進化となっています。この前掲論文を読んだ筆者達は本能的にこの交配モデルを思い付いたとあります。

 本論文の進化論

f:id:mabonki0725:20170911064654p:plain

 前掲論文の進化論

f:id:mabonki0725:20170910172106p:plain

(1.1) 手法

 最初に2つの深層モデルを用意して、各々を下記の方法で世代交代を進めます。

 前掲論文と少し相違があって、カテゴリィCと交配概念を入れています。

  P(\mathcal{H}_g) = \Pi_{c \in C} \left (P(s_{g,c} | \mathcal{M}_c(W_{H_A},W_{H_B}) \cdot \Pi_{j \in c} P(s_{g,j}| \mathcal{M}_s(w_{H_{A,j}},w_{H_{B,j}}) \right)

      ここで前世代のモデルAとBとを交配しています。

       \mathcal{M}_c (W_{H_A},W_{H_B}) = \alpha_c W_{H_A} + \beta_c W_{H_B}

    \mathcal{M}_s (W_{H_{A,j}},W_{H_{B,j}}) = \alpha_s w_{H_{A,j}} + \beta_s w_{H_{B,j}}

      ここで 

   P(\mathcal{H}_g)は現世代のネットワークの生成確率

   W_{H_A} W_{H_B}は前世代の両親AとBのネットワークの結合の重みを示します

   s_{g,c}はカテゴリcの連結を示します

      

(1.2) 結果

 手書きのMNISTとCIFAR-10の画像について前掲論文との比較をしています。

 MNISTは手書きの認識 CIFAR-10は画像の内容の認識となります。

f:id:mabonki0725:20170911065854p:plain

 結果は世代毎の上段が精度の劣化で下段がネットワークの連結の削減効果になります。左図がMNISTと右図がCIFAR-10となります。

横軸は世代数を示します。青線が本論文 赤線が前掲論文です。

f:id:mabonki0725:20170911070256p:plain

 世代交代を経ると精度の劣化(前段図)は起きますが、劣化程度が同じなのに、ネットワークの削減効果(下段図)が本論文の方が著しいとわかります。この論文では両親の交配が効果的と結論付けています。

   MNISTではネットワークの削減効果は258倍でCIFAR-10では36倍となっています。

 

(1.3) 感想

 深層学習の画像認識については何でもありの様相を呈してきたと思われますが、精度は格段に向上しているのが悩ましいです。

   2000年にJ.Friedmanが複数のモデルを組合わせると精度が上がる事を理論的に証明しました。これは現在Xgboostとして結実し皆安心してモデルを使っています。また数学的天才が深層学習について同様な成果を達成しないと、何時までも驚くべき実験結果が出そうな気がします。

(補足)

 後にM先生から世代交代の進化は粒子フィルターで説明できるとのコメントを頂ました。粒子フィルターは乱数の粒子を振って反応を観測する事を繰返します。繰返し毎にベイズで解くと物体の実態が叙々に把握できるモデルです。ここでは交配が乱数を振ることに当りノードの削減がベイズ解にあたるという認識です。