mabonki0725の日記

深層型EMモデルの論文を読む

AI論文確率・統計

ランニング30分　英語:toeic

深層型EMモデルの論文を読む

「Neural Expection Maximization」https://arxiv.org/abs/1708.03498

最近はやりの深層学習型の生成モデルである。スイスのAI研究所IDSIAが投稿したものである。

基本的に生成モデルはデータ $\mathcal{D}$ から隠れ変数 $\theta$ を補足するもので以下があると思っている。

・ベイズの定理　 $p(\theta|\mathcal{D}) = \frac{p(\mathcal{D}| \theta) p(\theta)}{p(\mathcal{D})}$

・EM (Expectation Maximization)

・VB（Variatinal Bayes)

一般的には事後分布 $p(\theta|\mathcal{D})$ はベイズ式からは陽に解けないので、EM VB MCMCの何れかの繰返し演算を使うことになる。

EMは左図の米国イエローストーンの間欠泉の混合分布の区分が有名であるが、この論文は点でなく図柄を識別しようとするものである。

f:id:mabonki0725:20170826090539p:plain

区分問題に限ればEMの問題点は区分数が予め決められていることである。VBの場合は区分数が不明でも最適な区分で仕分けることができる。

なおk-means法でも解けるが各点の所属確率までは表現できない。

普通のEMは次式で定式化できるが　 $z$ は所属確率 $x$ はデータ

$\mathcal{Q}(\theta,\theta^{old}) = \sum_z p(z|x,\theta^{old}) \log p(x,z|\theta)$

画像なので深層モデルで画像のアイテム毎に対応付けている。

$\psi_{i,k} = f_\phi(\theta_k)_i$ $k$ は画像のアイテム番号 $i$ はpixel番号

$\mathcal{Q}(\theta,\theta^{old}) = \sum_z p(z|x,\psi^{old}) \log p(x,z|\psi)$

この論文で正直に告白しているが $\psi_{i,k} = f_\phi(\theta_k)_i$ はVAEと同じである。

モデル構成図は下図となってEMがK個が連続している。ここも正直に言っているがこの連続関係を学習するとVAE+RNNモデルと同じになる。

f:id:mabonki0725:20170826084750p:plain

そこで深層EMが連続したモデルN-EMとRNN-EMモデルとを実験で比較していて、位置関係を学習できるRNN-EMモデルの方がよい結果となっている。

f:id:mabonki0725:20170826091745p:plain

そうなれば下記の記事に書いたVAE+RNNの論文の方が個数が与えられなくても解けるので秀逸である。

mabonki0725.hatenablog.com

f:id:mabonki0725:20170823072412p:plain

ここで注目すべきことは画像アイテムが所属を意味する前項と所属しない後項の和算で損失関数を作っておりこれは敵対的モデルGANと同じ構成になっている。

$\mathcal{L}(x) = - \sum_{i=1}^\mathcal{D} \sum_{k=1}^K \gamma_{i,k} log P(x_i,z_{i,k} | \psi_{i,k}) + (1 - \gamma_{i,k}) D_{KL} ( P(x_i) || P(x_i | \psi_{i,k},z_{i,k}))$

この最近発表されたこのモデルは、図らずとも過去の様々なモデルを呼び起こす内容となっている。