DeepMindの外部メモリーによる生成モデルの論文を読む
ランニング30分 英語できず
(1) DeepMindの外部メモリーによる生成モデルの論文を読む
「Variational Memory Addressing in Generative Models」https://arxiv.org/pdf/1709.07116.pdf
この論文は深層学習の生成モデルVAEやGANで成果を出していることに対抗して、DeepMindが得意とする外部メモリを使ったより柔軟な生成モデルを提案したものです。
DeepMindはNTM(Neural Turing Machine)やDNC(Defferencial Neural Computer)で外部メモリーを組み込んだ推論を実現しており、この成果を生成モデルに応用しています。
VAEは生成データと実データの差をパラメータ化して深層学習で解消しますが、一方この論文の手法は外部メモリーに条件を設定し、この条件を満たすVAEを実現するものです。
しかも下図(左)の様に生成データと実データの差を条件とすれば既存のVAEと同じ事が出来、大変柔軟性に富んだ手法となっています。
(1.1) 手法
VAEなので条件Mを満たすを生成する隠れ変数を変分法で求めます。
変分の下界は次式の右辺で、これが最大になる様にとを深層学習で訓練します。
ここで
はMemoryの番地
とは独立と見做せるので上式のサンプリングの事後分布は次となります。
この論文はとの事後分布を各々解いています。
1) の事後分布
ここではNTMはDNCでの外部メモリーのキーの学習と同じ考え方を導入しています。
ここで
は外部メモリーの関数による番地の隠れ変数
は顕在データの関数による隠れ変数
即ちとの隠れ変数が近くなる様に関数とを訓練した結果を
として、これを事後分布としています。
2) の事後分布
この事後分布はが離散なので簡単に計算できません。
そこでVIMCOというモデルで離散の事後分布を次式の変分で求めています。
ここで は離散のインデックスです
右辺を各々とを微分して下界を最大化しています。
この辺までの記述になるとかなり式の展開が曖昧になっています。
(1.2) 結果
下図は学習された番地毎のメモリーの状態が示してあり、正解の図と推定された番地の画像が近いことが分ります。