2017-09-18

RNNで巡回問題を解く論文を読む

AI論文自然言語解析

ランニング30分英語できず

(1) RNNで巡回問題を解く論文を読む

　「Pointer Network」https://arxiv.org/abs/1506.03134

　この論文は深層学習による自然言語処理でよく参照されるが、グラフィカルモデルの最適解も行えるので興味を持ち読んでみました。

　まず有名なseq2seq https://arxiv.org/abs/1409.3215は下図の様な翻訳モデルです。

　RNNで学習するにはencoder-decoderでRNNの重みを学習します。

　入力文字をEncodeしてその結果と出力文字で学習します。

f:id:mabonki0725:20170918195227p:plain

　同様にしてseq2seqを使うと下図の様なグラフィカルな凸被覆問題に適用することができます。

$\lt P_1,P_2,P_3,P_4 \gt \to \lt P_1,P_2,P_4\gt$

但し

　　 $P_1=(x_1,y_1) \ P_2=(x_2,y_2) \ P_3=(x_3,y_3) \ P_4 = (x_4,y_4)$

モデルとしては下図の様になります。

f:id:mabonki0725:20170918195532p:plain

　この論文のPointer Networkではseq2seqが入力項目数(頂点数）に依存するので下図の構造で解いています。

　上図の場合seq2seqは入力項目数と同じencodeの結果 $e_1 \sim e_4$ を初期値にして解いています。そのため入力の項目数(頂点）が増減すれば異なるモデルが必要となります。

　そこで入力の項目数に依存した $e_1 \sim e_n$ を全て使わない様にPointer $u_i$ というAttentionを計算して、次に取出す確率を求めています。

$u_i^j = v^T tanh(W_1 e_j + W_2 d_i)$

$p(c_i | c_1,c_2,\dots,c_{i-1}) = softmax(u_i)$

ここで

$v \ W_1 \ W_2$ は学習パラメータ

$e_j$ は $j$ 番目のencode

　　 $d_i$ は $i$ 番目のdecode

　　　 $c_i$ は次に取出す座標

　下図では最初の座標 $(x_1,y_1)$ が見つかり、この結果をEncoder側に入れています。

　　　　 f:id:mabonki0725:20170918200646p:plain

(1.2) 結果

　Pointer-NetworkではRNNの順序学習機能を使って以下の３つの問題を解いています。

頂点数が50以下であれば殆ど解けています。

　　・凸被覆問題(a) (d)

・ドロネー図問題(b) (e)

　　・セールスマン巡回問題 (c) (f)

　　　※セールスマン巡回問題はNP困難で近似解しか存在しない

f:id:mabonki0725:20170918201202p:plain

2017-09-17

領域識別による写真の色調転移の論文を読む

AI論文画像認識

ランニングできず　英語できず

(1) 領域識別による写真の色調転移の論文を読む

　「Deep Photo Style Transfer」https://arxiv.org/abs/1703.07511

　この論文も大変綺麗な写真が多数表示されていて有名なものです。この論文は情景が異なる入力と参照の２写真があり、写真の構図は入力写真を反映し、写真の色彩は参照写真を反映するモデルです。

　合成写真は本物らしく見せる必要があります。即ち空中にビルが浮んだり、あり得ない色彩にならない様な工夫が必要です。

　下図では朝の写真の構図に夜の情景が転移されています。　　

f:id:mabonki0725:20170917171439p:plain

(1.1) 手法

入力写真の構図で色調は参照写真にするには、以下２つの工夫をしています。

　・入力写真と転移写真には画素の線形変換(Affin TransForm)を使う

　・色調の転移には入力と参照写真の各々について深層学習で領域を識別して

　　同じ識別領域内で色調の転移をしています。

　 1) 入力写真の構図の転移

　　出力写真は入力写真の構図と同じ必要があるので、次式の損失関数で深層学習の各層を訓練させています。

　　 $\mathcal{L}_c^l = \frac{1}{2N_lD_l} \sum_{i,j} \left( F_l(O) - F_l(I) \right)^2$

　　ここで

　　　 $l$ は深層学習の $l$ 番目の層

　　　 $i,j$ は層の座標 $(i,j)$

$F_l(O)$ と $F_l(I)$ は出力層と入力写真の層の特徴量

　　記述にはありませんが下図の様なネットワーク構成と考えられます。　

f:id:mabonki0725:20170917193246p:plain

　 2)領域内の識別転移の方法

　この論文ではCNNとCRF（Conditional Random Field)で領域に識別した有名な論文を使っています。https://arxiv.org/pdf/1412.7062

　　　 f:id:mabonki0725:20170917182716p:plain

　　入力と参照写真双方の領域認識をさせて一致している領域には参照写真の色調を転移させています。

　　ここから分る様に入力写真と参照写真は同じ識別領域が必要な事がわかります。

　　即ち全く内容が異なる写真どうしでは精緻な転移ができません。

　　識別領域どうしの損失関数は次になります。

　　 $\mathcal{L}_{s+}^l = \sum_{c=1}^C \frac{1}{2N_{l,c}} \sum_{i,j} \left( G_{l,c}(O) - G_{l,c}(S) \right)^2$

　　ここで

$c$ は領域のカテゴリを現します

　　　 $l$ は深層学習の $l$ 番目の層

　　　 $i,j$ は層の座標 $(i,j)$

$G_l(O)$ と $G_l(S)$ は出力層と参照写真の層のグラム行列

　　　グラム行列 $G(S) = F(S) \cdot F(S)^T$ は特徴量どうしの関係を表します

　3) 損失関数の合成　　

　　構図転移の損失関数 $\mathcal{L}_c$ と意味領域転移 $\mathcal{L}_{s+}$ を次式で合成します。

　　 $\mathcal{L}_{total} = \sum_l^L \alpha_l \mathcal{L}_c^l + \Gamma \sum_l^L \beta_l \mathcal{L}_{s+}^l + \lambda \mathcal{L}_m$

ここで

　　　　 $\mathcal{L}_m$ は入力画像の $L_2$ ノルムの正則化項です。

　　　　 $\alpha_l, \beta_l ,\lambda$ は各損失関数の重みです。

　　正則化項の重み $\lambda$ を大きくすると入力画像に近づきます。　

f:id:mabonki0725:20170917185404p:plain

(1.2) 結果

　比較対象としてはNural StyleとCNNMRFと本論文とで比較しています。

　大量に載っていますが一部を添付します。　

f:id:mabonki0725:20170917191650p:plain

2017-09-16

人工生命環境で生存競争定理の再現の論文を読む

AI論文ロボテックス

ランニング30分　英語できず

(1) 人工生命環境で生存競争定理の再現の論文を読む

[1709.04511] An Empirical Study of AI Population Dynamics with Million-agent Reinforcement Learning

　自然界と同じ様に狩をする捕食動物（Predator)と獲物（prey)が存在して、これらは集団行動する知識があり、捕食を学習をする人工生命の環境を作った場合、どの様な挙動を示すか観察したモデルです。

　既に自然界の捕食動物と獲物の関係は下記のLatka-Volterra定理があるこが知られています。

　1)獲物は捕食動物によって減少していく

　2)獲物が減少すると捕食動物も飢えで減少する

　3)捕食動物が減少すると獲物は増加する→1)に戻る

　Wikipediaのページロトカ・ヴォルテラの方程式 - Wikipedia　には下図があって上記のサイクルを示しています。

f:id:mabonki0725:20170916205550p:plain

　今回の人工生命環境では下記のモデルを作った場合、このLatka-Volterra定理が再現でき、自然と同じ人工生命環境が構築できたとしています。

(1.1)手法

　人工生命環境の仕様

　・１万個の捕食動物と5000個の獲物の人工生命の環境を作る

　・1000×1000のセルの環境内を人工生命は動く

　・各人工生命はQ-Learningで報酬として最大に食料を得る様に学習する

　　　捕食者：共同や単独で狩で学習する（共同が大きい方が有利）

　　　獲物：森を見つけて食料を得る

　　但し

$\epsilon-greedy$ 率は0.1とする

　　　人工生命の行動「移動（左右上下）・群れに入る・群れから離れる・留まる」

人工生命の視野のセルは限定的

　・各人工生命の学習成果は速やかに下記の方法で伝達できる。

　　システム的には学習成果を外部Bufferにを貯め、各人工生命は

　　ランダムにこの学習成果を取り入れる

　・各人工生命には $0 \sim 1$ の生命バロメータがあり0.001毎に衰える

　・人工生命は繁殖率は0.006 または 0.01とする

　・自然環境の７公理を示して、上記の仕様で７公理を達成しているか検討しています。

　　（前向反応、後向反応、個人特性、冗長性、閾値限界、共同特性、利己主義)

下図は上記の人工生命の環境を表したものです。

　　黒線：各捕食動物は観察 $Obs$ と固有パラメータ $ID)$ をQ学習に入れます

　　桃線：Q学習は予想される報酬を各捕食動物に返し、最適な行動を取ります

　　水色：行動した結果は外部メモリーにある経験Bufferに蓄積されます

　　　　　この情報でQ学習のパラメータを更新します

f:id:mabonki0725:20170916212106p:plain

(1.2) 結果

　下図の様にLatka-Volterra定理が再現できています。

青色：捕食動物黄色：獲物の推移（上段：時系列　下段：Latka-Volterra定理の解）

左図は生殖率を0.006の場合、右図は生殖率を0.01とした場合です。　 f:id:mabonki0725:20170916212429p:plain

(1.3) 感想　

　・強化学習で初めて群れ内の真似で学習するモデルになっています。

　　これは共同体の学習効率化を実現したものです。

　・Latka-Volterra定理を再現できたのは、一万固体以上の人工生命を強化学習できる環境を構築できたからで、深層学習と計算機の性能向上の寄与が大きいです。

　・この環境では協業の知識を組み込んでいますが、単独行動のモデルでもLatka-Volterra定理は再現できたと思います。

　・この模擬で集団は大きい方が生存しやすいとの結果は精緻なモデルを示していると思われます。

　・捕食動物の協業知識の獲得のロジックが強化学習任せになっていて明瞭でないのは残念です。

2017-09-15

敵対的VAEの論文を読む

AI論文確率・統計画像認識

ランニングできず　英語できず

(1)敵対的VAEの論文を読む

　「Adversarial Autoencodes」https://arxiv.org/abs/1511.05644

　前のCyclicに画像を学習するモデルでは敵対的VAEを使っていたので、その論文を読みました。

様々な癖がある手書き文字が数種類ある場合（例えば手書きの０～9）、その種類毎に手書きの癖が存在します。そこで判明している種類の文字の画像とVAEが生成した画像をGANで与え、類似しているかGANに判断させVAEの隠れ変数の精度を向上させ様とするものです。

　構造としてはVAEにGANが結合する構成となっています。

　・VAEは隠れ変数 $z$ の推定

　・GANは隠れ変数の分布 $q(z)$ を正しい分布 $p(z)$ に近づける（正則化)

　 f:id:mabonki0725:20170915232825p:plain

(1.1) 手法

　この構成では以下の変分式で隠れ変数の分布 $q(z)$ をVAEとGANで解くことができます。

$\mathbb{E}_{x \sim p_\delta}(x) \left(-\log p(x) \right) \le \mathbb{E}_x \left( \mathbb{E}_{q(z|x)} ( - \log p(x|z))\right) + \mathbb{E}_x \left( \mathcal{KL}(q(z|x) || p(z)) \right)$

$= \mathbb{E}_x \left( \mathbb{E}_{q(z|x)} ( - \log p(x|z))\right) - \mathbb{E}_x \left(\sum_i \log \delta_i(x)) \right) + \mathbb{E}_{q(z)} \left ( - \log p(z) \right) + const$

上式は第１項は一般のVAE　第２項はエントロヒ　第３項はGANとなります。

$\mathbb{E}_{x \sim p_\delta}(x) \left(-\log p(x) \right) \le VAE - Entoropy + CrossEntropy(q(z),p(z))$

この論文では半教師学習（ラベルが一部分る）や非教師学習（ラベルが無い）では下図の３層モデルを提案しています。

　・ラベルGANではラベルが何であるかVAEに与えています。

　　（VAEのSoftmaxのベクトルの正例を与えています）

　・ガウス分布GANでは手書き癖がガウス分布と一致する様にしています。

f:id:mabonki0725:20170916075210p:plain

(1.2) 結果

　正解の分布を使うので隠れ変数の分布 $q(z)$ は当然クリアになります。

　図Eは入力画像例　図Aは敵対的VAE　図Aは一般のVAEとなります

f:id:mabonki0725:20170916002519p:plain

　非教師学習の敵対的VAEでは下図の結果が得られています。非教師学習なので16個種類のラベルがVAEで生成されています。　

f:id:mabonki0725:20170916080253p:plain

(1.3) 感想

　現状のVAEではガウス混合分布の半教師学習は解けないので、このGANを用いる方法は実用的です。しかしKingmaの半教師学習VAEは普遍的で素晴らしい数学でできているだけに、GANという正例の質に依存するモデルになってしまうのは残念と思います。

Semi vae memo (1)

2017-09-14

画像の転移学習を繰返し訓練する論文を読む

AI論文画像認識

ランニングできず　英語できず

(1) 画像の転移学習を繰返し訓練する論文を読む

　「Unpaired Image-to-Image Translation using Cycle-Consistent Adversalial Networks」https://arxiv.org/abs/1703.10593

　この論文は本年初頭に発表され、かなり綺麗な画像が生成できるので有名でした。CVPR2017の論文読会でこの論文の話題が上がっていたので読んでみました。このモデルは例えば或る場所の夏の風景と冬の風景を共に学習させると、この対比から別の場所の夏の風景から冬の風景を生成する機能があります。即ち画像の転移学習が可能になります。

f:id:mabonki0725:20170914105029p:plain

よく見ると左側の森の色（灰→緑）地面（白→茶色）空の色（青→青：不変）が学習され、これが右側の生成画像にも適用されている事がわかります。

上記の場合、学習用にペアな画像を使っていますが、表題のUnpairedとある様に全く別画像も適用できます。

f:id:mabonki0725:20170914115221p:plain

　　この場合はXとYとの写像関係が学習されますので、この学習結果を使って生成した画像には、この写像関係が反映されます。この場合明確な対比関係がないので分かり難い生成画像になる可能性があります。

(1.1) 手法

　この画像の転移学習は２つのロジックを合成しています。

　・GAN（Generative　Adversarial Network)敵対的生成モデル

　　 $G: X \to Y$ の写像で生成と識別を繰返して精度を向上させます

　　　生成モデル $G(x)$

　　　識別モデル $Dy$ が $G(x)$ と $Y$ とを比較して識別

　　　　誤と識別→生成モデルを再作成

　　　　正と認識→生成モデルを維持

このGANのロスを $\mathcal{L}_{GAN}(G,D_y,X,Y)$ とします

　　同様に $F: X \gets Y$ も同様にGANで精度を向上させます。

　　　またこのGANのロスを $\mathcal{L}_{GAN}(F,D_x,Y,X)$ とします

・Cycle Consistency

　　　画像を写像と逆写像を繰返して精度を高める

　　　 $F(G(x)) \approx x$

　 $G(F(y)) \approx y$

　　　このロスを $\mathcal{L}_{cyc}(G,F)$ とします

f:id:mabonki0725:20170914121825p:plain

・全体のロス $\mathcal{L}$ を最小にする様に学習します。

　　　 $\mathcal{L}(G,F,D_x,D_y) = \mathcal{L}_{GAN}(G,D_y,X,Y) + \mathcal{L}_{GAN}(F,D_x,Y,X) + \lambda \mathcal{L}_{cyc}(G,F)$

このモデルはAdversarial Autoencoderの特別なネットワークモデルとなります。

f:id:mabonki0725:20170915075641p:plain

　なおこの論文のプログラムは下記に公開されています。

GitHub - junyanz/CycleGAN: Software that can generate photos from paintings, turn horses into zebras, perform style transfer, and more.

(1.3) 実験結果

　Cyclicな学習結果が掲示されています。

f:id:mabonki0725:20170914123156p:plain

f:id:mabonki0725:20170914123307p:plain

f:id:mabonki0725:20170914123411p:plain

なおcycleGANの評価として、FCN画像から現画像を復元して本当の写真にどれぐらい近いか実験しています。

f:id:mabonki0725:20170915064036p:plain

(1.3) 感想

　２つのGANとCycle Consistencyの組合せは上図のAdeversarial Autoencoderモデルとして説得力がありますが、 $X \to G(x) \to Y \to F(y) \to X$ のAutoencoderの損失関数だけでは、うまく動作するか確かめられません。

　結果の学習の画像がペアである場合は、生成画像の質は評価可能ですが、ペアでない画像での学習から画像が生成されても評価が困難です。　

GANとCycle Consistencyの組合せモデルは実際かなり時間がかかります。また収束の基準が無く計算打ち切りの判断が難しいと思われます。

2017-09-13

道路交通標識を誤判別させるモデルの論文を読む

AI論文確率・統計

ランニング30分　英語できず

(1) 道路交通標識を誤判別させるモデルの論文を読む

　「Robust Physical-World Attacks on Machine Learning Models」https://arxiv.org/abs/1707.08945v3

　本年４月ころに日産の自動運転の技術者の講演では人命に関わる問題なので、あらゆる事象の組合せを考える事に疲労しているとの話がありました。この問題の解決には計算機が現実的な範囲で可能性のある組合せを自動生成するしかないと考えています。本論文はこの範疇を扱った論文として読み初めしましたが生成モデルとは関係なく、DNNに誤判別をさせる現実的なデータを如何に作るかの話でした。

　SNSでは殆どDNNを騙せる画像を作れることで話題になっています。

　ここで誤判別の対象となる道路標識は停止(STOP)と右折(Right Turn)となります。誤認識させる要因として以下を揚げています。

　・全体に霞がかかっている

　・標識が汚れている

　・落書きがある

　・背景と紛わらしい

　・距離が遠い、斜めの視角

　下図に計算機で生成した傷んだ画像の例を示します。

　各写真の下部の(a)～(e)は標識までの距離と視角となります。

　(a) 5m 角度0度(b)5m 角度15度 (c)10m 角度0度 (d)10m 角度30度 (e)40m 角度0度

　図3 靄がかかっている場合

f:id:mabonki0725:20170913135828p:plain

　図4 背景が紛わらしい場合

f:id:mabonki0725:20170913135912p:plain

　図5 LOVE HATEという落書きがある場合 f:id:mabonki0725:20170913143029p:plain

　図6 抽象的な絵が張ってある場合　

f:id:mabonki0725:20170913195607p:plain

　本論文の目的は票識をDNNに誤認識させる生成器 $\mathcal{RP}_2$ (Robust Physical Pertubations)を構築することです。

　具体的に述べると $\mathcal{RP}_2$ は次の課題について精度を向上させることです。

　91%の標識識性能を持っているDNNについて

　　停止（STOP）の標識を制限速度45(Speed Limit 45)に誤認識させる

　　右折（Right Turn)の標識を制限速度45(Speed Limit 45)にご認識させる

　下図の様に停止(STOP)と制限速度45の標識は全く異なっていて誤認識は困難な課題だと分ります。

f:id:mabonki0725:20170913201036p:plain

(1.1) 手法

　例えばスピード制限45の標識に霞をかけた画像を $y'$ とすると、これに近い画像にするには、次の様なノイズ $\delta$ を入れるモデルで標識画像を生成します。

　　 $argmin_\delta \lambda ||\delta||_p - J(f_\theta(x+\delta),y')$

ここで

　　　 $||\delta||_p = \left( \sum_{i,j} |\delta_{i,j}|^p \right)^{1/p}$

　　　 $x$ は元画像の特徴量

$f_\theta(x)$ は画像の特徴量 $x$ の識別関数

$J(x,y)$ は画像 $x$ の識別と画像 $y$ との損失関数

$i,j$ は画像のPixel位置

　　また標識に文字や絵画を入れるにはNPS(non-printability score)項を追加して作成します。

　　 $argmin_\delta \lambda ||\delta \cdot M_x||_p + NPS(M_x \cdot \delta) - J(f_\theta(x+\delta),y')$

ここで $M_x$ は文字や絵画の画像です。

(1.2) 結果

　不思議なことに上図の図3～図6は人間には識別できますが、殆どはDNNを騙せた画像です。

下表は停止標識(STOP)を制限速度45(Seed Limit45)に誤認識する様に画像を生成させて、これをDNNで識別させた上位２位の識別結果です。（　）内は信頼度です。

　霞掛けと抽象画の生成画像では100%（上位１位）制限速度45と認識させることが出来ています。　

※ SL45:制限速度45 STP:停止 LE:出口 ADL:追加路 SA:前方信号 YLD =Yield

f:id:mabonki0725:20170913223949p:plain

(1.3) 感想

　この論文ではDNNを騙す画像生成の仕組み $\mathcal{RP}_2$ のロジックとその精度を論じていて、かなりの精度でDNNを騙すことに成功しています。

　画像識別のDNNは精度は良いが、データのノイズに弱いとされていて、今回これが確認できました。

　本論文の意味はこの様な敵対的画像を作成して、ノイズに強いDNNを構築できる様にすることです。しかしDNNを強化してもこれを誤認識させる $\mathcal{RP}_2$ が出てきてしまうので「いたちごっこ」の連鎖は続くと思います。結局[ $\mathcal{RP}_2　\Longleftrightarrow \ \ DNN$ ]のGANが必要になるかもしれません。

2017-09-12

混合分布を隠れ変数とするVAEの論文を読む

確率・統計画像認識

ランニングできず　英語できず

(1) 混合分布を隠れ変数とするVAEの論文を読む

「VAE with a VampPrior」[1705.07120v3] VAE with a VampPrior

　KingmaのVAE(Variational Auto encoder)は深層学習に始めて生成モデルを導入した画期的な業績となっています。従来の深層学習は教師付学習しかできませんでしたがVAEによって初めて非教師学習や半教師学習ができる様になりました。即ちデータから隠れた変数や因子を推定することができる様になりました。

　VAEの特徴はデータから隠れ変数として多次元のガウス分布を推定していました。

下図はデータより多次元ガウス分布の $z$ の平均と分散を推定してます。

f:id:mabonki0725:20170912111732p:plain