DeepMindの幼児の早期理解の論文を読む

ランニングできず　英語：Move Starwars

(1)DeepMindのハザビスが問題提起した、幼児が環境を急速に理解する謎についての論文を読む。

[1606.05579] Early Visual Concept Learning with Unsupervised Deep Learning

幼児は知識獲得前なので教師あり（ラベル付）モデルは使えず、非教師モデルとして生成モデルを扱っている。本論文では手書き文字の癖の認識で有名なKingmaのVAE（Varietional Auto Encoder)を使って実験している。

f:id:mabonki0725:20170806113750p:plain

　　　 VAEモデル

幼児にはガウス分布の隠れ変数 $z$ （位置、大きさ、回転）を成分別に獲得する能力があり、視覚的 $x$ な訓練によって、隠れ変数を学習するとする理論である。

　評価関数は以下でVAEモデルで解く。 $z$ は隠れ変数 $x$ は視覚データ

　 ${\mathcal{L}(\theta,\phi;x) = E_{q_\phi(z|x)}(\log p_\theta(x|z)) - \beta D_{KL}(q_\phi(z|x)||p(z))}$

　ここで

　　 $\beta$ は隠れ変数 $z$ がガウシアンである依存度で=4が最適

　　パラメータ ${\theta,\phi}$ はVAEのネットワークで最適化する

学習結果として、隠れ変数の分布を増減させた結果を視覚として再現した結果が下記の4～5段目の図である。１から3段目の隠れ変数 $z$ の増減である。最下段の隠れ変数の分散が小さいので、学習できていることを示している。AとBは視覚データの種別でAは変動要素が１つのもの、Bは複数の変動要素の場合である。Aの左端４つは視覚変動に対して隠れ変数 $z$ の分散が大きいので、学習できなかった事を示している。

f:id:mabonki0725:20170806095022p:plain