mabonki0725の日記

画像の転移学習を繰返し訓練する論文を読む

AI論文画像認識

ランニングできず　英語できず

(1) 画像の転移学習を繰返し訓練する論文を読む

　「Unpaired Image-to-Image Translation using Cycle-Consistent Adversalial Networks」https://arxiv.org/abs/1703.10593

　この論文は本年初頭に発表され、かなり綺麗な画像が生成できるので有名でした。CVPR2017の論文読会でこの論文の話題が上がっていたので読んでみました。このモデルは例えば或る場所の夏の風景と冬の風景を共に学習させると、この対比から別の場所の夏の風景から冬の風景を生成する機能があります。即ち画像の転移学習が可能になります。

f:id:mabonki0725:20170914105029p:plain

よく見ると左側の森の色（灰→緑）地面（白→茶色）空の色（青→青：不変）が学習され、これが右側の生成画像にも適用されている事がわかります。

上記の場合、学習用にペアな画像を使っていますが、表題のUnpairedとある様に全く別画像も適用できます。

f:id:mabonki0725:20170914115221p:plain

　　この場合はXとYとの写像関係が学習されますので、この学習結果を使って生成した画像には、この写像関係が反映されます。この場合明確な対比関係がないので分かり難い生成画像になる可能性があります。

(1.1) 手法

　この画像の転移学習は２つのロジックを合成しています。

　・GAN（Generative　Adversarial Network)敵対的生成モデル

　　 $G: X \to Y$ の写像で生成と識別を繰返して精度を向上させます

　　　生成モデル $G(x)$

　　　識別モデル $Dy$ が $G(x)$ と $Y$ とを比較して識別

　　　　誤と識別→生成モデルを再作成

　　　　正と認識→生成モデルを維持

このGANのロスを $\mathcal{L}_{GAN}(G,D_y,X,Y)$ とします

　　同様に $F: X \gets Y$ も同様にGANで精度を向上させます。

　　　またこのGANのロスを $\mathcal{L}_{GAN}(F,D_x,Y,X)$ とします

・Cycle Consistency

　　　画像を写像と逆写像を繰返して精度を高める

　　　 $F(G(x)) \approx x$

　 $G(F(y)) \approx y$

　　　このロスを $\mathcal{L}_{cyc}(G,F)$ とします

f:id:mabonki0725:20170914121825p:plain

・全体のロス $\mathcal{L}$ を最小にする様に学習します。

　　　 $\mathcal{L}(G,F,D_x,D_y) = \mathcal{L}_{GAN}(G,D_y,X,Y) + \mathcal{L}_{GAN}(F,D_x,Y,X) + \lambda \mathcal{L}_{cyc}(G,F)$

このモデルはAdversarial Autoencoderの特別なネットワークモデルとなります。

　

f:id:mabonki0725:20170915075641p:plain

　なおこの論文のプログラムは下記に公開されています。

GitHub - junyanz/CycleGAN: Software that can generate photos from paintings, turn horses into zebras, perform style transfer, and more.

　

(1.3) 実験結果

　Cyclicな学習結果が掲示されています。

f:id:mabonki0725:20170914123156p:plain

f:id:mabonki0725:20170914123307p:plain

f:id:mabonki0725:20170914123411p:plain

なおcycleGANの評価として、FCN画像から現画像を復元して本当の写真にどれぐらい近いか実験しています。

f:id:mabonki0725:20170915064036p:plain

(1.3) 感想

　２つのGANとCycle Consistencyの組合せは上図のAdeversarial Autoencoderモデルとして説得力がありますが、 $X \to G(x) \to Y \to F(y) \to X$ のAutoencoderの損失関数だけでは、うまく動作するか確かめられません。

　結果の学習の画像がペアである場合は、生成画像の質は評価可能ですが、ペアでない画像での学習から画像が生成されても評価が困難です。　

GANとCycle Consistencyの組合せモデルは実際かなり時間がかかります。また収束の基準が無く計算打ち切りの判断が難しいと思われます。