深層型EMモデルの論文を読む

ランニング30分 英語:toeic

深層型EMモデルの論文を読む

「Neural Expection Maximization」https://arxiv.org/abs/1708.03498

最近はやりの深層学習型の生成モデルである。スイスのAI研究所IDSIAが投稿したものである。

基本的に生成モデルはデータ\mathcal{D}から隠れ変数\thetaを補足するもので以下があると思っている。

ベイズの定理 p(\theta|\mathcal{D}) = \frac{p(\mathcal{D}| \theta)  p(\theta)}{p(\mathcal{D})}

・EM (Expectation Maximization)

VB(Variatinal Bayes)

MCMC 

一般的には事後分布p(\theta|\mathcal{D})ベイズ式からは陽に解けないので、EM VB MCMCの何れかの繰返し演算を使うことになる。

EMは左図の米国イエローストーンの間欠泉の混合分布の区分が有名であるが、この論文は点でなく図柄を識別しようとするものである。

f:id:mabonki0725:20170826090539p:plain

 区分問題に限ればEMの問題点は区分数が予め決められていることである。VBの場合は区分数が不明でも最適な区分で仕分けることができる。

なおk-means法でも解けるが各点の所属確率までは表現できない。

普通のEMは次式で定式化できるが  zは所属確率  xはデータ

 \mathcal{Q}(\theta,\theta^{old}) = \sum_z p(z|x,\theta^{old}) \log p(x,z|\theta)

画像なので深層モデルで画像のアイテム毎に対応付けている。 

  \psi_{i,k} = f_\phi(\theta_k)_i     kは画像のアイテム番号  iはpixel番号

  \mathcal{Q}(\theta,\theta^{old}) = \sum_z p(z|x,\psi^{old}) \log p(x,z|\psi)

この論文で正直に告白しているが\psi_{i,k} = f_\phi(\theta_k)_i はVAEと同じである。

モデル構成図は下図となってEMがK個が連続している。ここも正直に言っているがこの連続関係を学習するとVAE+RNNモデルと同じになる。 

f:id:mabonki0725:20170826084750p:plain

そこで深層EMが連続したモデルN-EMとRNN-EMモデルとを実験で比較していて、位置関係を学習できるRNN-EMモデルの方がよい結果となっている。 

f:id:mabonki0725:20170826091745p:plain

そうなれば下記の記事に書いたVAE+RNNの論文の方が個数が与えられなくても解けるので秀逸である。

mabonki0725.hatenablog.com

f:id:mabonki0725:20170823072412p:plain

 

 ここで注目すべきことは画像アイテムが所属を意味する前項と所属しない後項の和算で損失関数を作っておりこれは敵対的モデルGANと同じ構成になっている。

 \mathcal{L}(x) = - \sum_{i=1}^\mathcal{D} \sum_{k=1}^K \gamma_{i,k} log P(x_i,z_{i,k} | \psi_{i,k}) + (1 - \gamma_{i,k}) D_{KL} ( P(x_i) || P(x_i | \psi_{i,k},z_{i,k}))

この最近発表されたこのモデルは、図らずとも過去の様々なモデルを呼び起こす内容となっている。