mabonki0725の日記

CNN最適化の制御式を生成するRNNの論文を読む

AI論文自然言語解析

ランニングできず　英語できず

(1) CNN最適化の制御式を生成するRNNの論文を読む

　「Neural Optimizer Search with Reinforcement Learning」

https://arxiv.org/abs/1709.07417

　CNNの最適化の制御式をRNNが強化学習で学習するモデルでかなり画期的なモデルです。

例えばCNNの最適化の仕様は次の様な重み調整の制御式で示す事ができます。

　　 $\Delta w = \hat{m} \ast (1+\epsilon) \ast sigmoid(10^{-4}w)$

$\Delta w = sign(m) \ast \sqrt{|g|}$

$\Delta w = sign(g) \ast sign(m) \ast \hat{m}$

$\Delta w = (1+sign(g) \ast sign(m)) * RMSProp$

ここで

$g$ は勾配 $\hat{m}$ は移動平均 $\epsilon$ はガウス

RNNが数式の構文を生成する性能に注目し、CNNが最適な精度を出せる様に制御式を強化学習するモデルとなります。

　　概念図は次となります。

f:id:mabonki0725:20170929000229p:plain

(1.1) 手法

　1) 制御式DSL(Domain Specific Language)の仕様

　深層学習の重み調整の制御式(DSL)は下記の単位 $\Delta w_i$ が繋がる形式で学習します。

　　 $\Delta w = \Delta w_1 \ast \Delta w_2 \ast \dots \Delta w_n$

$\Delta w_i = \lambda^i \ast b^i (u_1^i (op_1^i),u_2^i(op_2^i))$

ここで

　　　 $op_1 \ op_2$ はオペレータ

　　　 $u_1 \ u_2$ は関数(1引数)

　 $b$ はバイナリィ関数

　 $\lambda$ は学習率

　　制御式は図示すると次の様な構成となります

　　　　 f:id:mabonki0725:20170929122538p:plain

　以下に各種類の要素があります　　　

　　 f:id:mabonki0725:20170929122222p:plain

　 f:id:mabonki0725:20170929125027p:plain

　2) RNNの構成

　　制御式は5つの要素が１単位として連結した構成になります。

　　　 $\Delta w_i = \lambda^i \ast b^i (u_1^i (op_1^i),u_2^i(op_2^i))$

　 RNNでは上式は計算順序（逆ポーランド法)になっています。

f:id:mabonki0725:20170929123017p:plain

　3)強化学習によるRNNの学習

　　RNNの強化学習の記述は次式のみです。

　　 $J(\theta) = \mathbb{E}_{\Delta \sim p_\theta(\cdot)}\left( R(\Delta) \right)$

ここで

$J(\theta)$ は最大化する目的関数です

　　　 $R$ は制御式を投入した場合のCNN精度の改善幅を示しています

$\Delta \sim p_\theta(\cdot)$ は制御式の投入確率で $\theta$ でパラメータ化されています

　　但しこの強化学習は相当時間がかかるので様々な工夫をしています。

　　　・強化学習モデルはPPO(Proximal Policy Optimization)を採用

　　　・ＣＮＮは簡便な学習で済ます(2層、5回繰返)

　・組合わせの数は $10^6 \sim 10^{11}$ あるので無駄な組合わせを排除

　　それでも1日費やすとのことです。

(1.2) 結果

　下図が強化学習を繰返しと簡便ＣＮＮによる精度の改善状態です。

　10000回で収束しています。データはCIFAR-10 CNN 　　　

f:id:mabonki0725:20170929124519p:plain

　　下表の様な重み調整の制御式と精度が達成されています。

　　識別モデルはwide-ResNet データはCIFAR-10

f:id:mabonki0725:20170929125847p:plain

(1.3) 感想

　この論文では各制御式での重みの収束軌跡も添付しています。黒点が収束位置です。

　　　 f:id:mabonki0725:20170929131429p:plain

　素晴らしい成果と思います。この様な重み調整の制御式の試行が深層学習の解明に大きく寄与すると思えます。