DeepLearning系の生成モデルのツールEdwardの論文を読む

ランニングできず　英語できず

(1) DeepLearning系の生成モデルのツールEdwardの論文を読む。

「Deep Probabilistic Programming」

相当ハイレベルの人や知人から紹介されていたEdwardツールの論文である。

正直言って、DeepLearningが隆盛し始めた時の不愉快感を再び味わった。

ニューラルネットは２層までならPCAと同じモデルだし、多層生成モデルでは制限ボルツマンマシンとして統計モデルとして説明できるが、CNNやLSTMに見られる多層逆伝播の深層学習は統計モデルとしては説明できない。

しかし実績がある深層モデルは成果が大きいので半信半疑で恐々使っている現状である。「深層学習」の著者である岡谷先生は、実績のないオリジナルなモデルの成功率について、下記の様に述べ当たれば大きいギャンブルの様なものと述べている。

「この分野での成功モデルは100件に１件でチューニングが大変である」

統計モデルとして確立された生成モデルを、わざわざ理論的には不明確な深層学習で試みるというのは、本当の正しい解に至っているか不明で、あまりにも効率重視である。

一般に生成モデルはグラフィカル・モデルで記述すると理解しやすい。この論文では、計算手続きのパイプラインであるTensorFlowの計算グラフが、生成モデルのグラフィカルモデルに対応付けられる事を示している。

f:id:mabonki0725:20170811081425p:plain

TensorFlowではDeepLearning用にできているので、これを使ってVAE（Variation auto-encoder)はDecoder側で２層の深層学習を適用している。

f:id:mabonki0725:20170811082802p:plain

f:id:mabonki0725:20170811090040p:plain

Edwardはこの計算グラフを生成モデルの種類別に構築したライブラリィである。

しかし、生成モデルは一般にMCMCで解く努力がされていてStanなどのToolが良く利用されている。MCMCは20世紀に発明された10大モデルの１つといわれ、隠れ変数の検出経路について以下の理論が保証されている。

・既約性（全ての分布に行き渡る様に隠れ変数を探索する）

・定常性（探索空間は発散しない）

この探索空間の保障によって、局所解でない全域解が求まるのである。一方この保障によって下記の様な複雑な分布は計算時間がかかる場合がある。

この論文には陽には述べていないが、深層学習を使った解であればこの保障は無いと考えられる。この様に効率のみ優先して理論を軽視される風潮は当面続くと思われる。

f:id:mabonki0725:20170811084612p:plain