DeepMindの幼児の早期理解の論文を読む

ランニングできず 英語:Move Starwars

(1)大学院の学生の中間発表会があった。 内容を見ると、書いても空しいだけなのだが、20世紀の技術に固執して指導する教員があまりに多い。20世紀の後半は日本の技術が世界を席巻し、かれらの研究時期がその時期であったためなんだが、AIやベイズ統計の仕組みとか全く理解しようとせず否定しようとばかりしている。いまや完全に老害となっている。若手は老先生の意向に逆らえないので殆どの将来は絶望である。何故彼らは勉強しないのか不思議でならない。

(2)DeepMindのハザビスが問題提起した、幼児が環境を急速に理解する謎についての論文を読む。

[1606.05579] Early Visual Concept Learning with Unsupervised Deep Learning

幼児は知識獲得前なので教師あり(ラベル付)モデルは使えず、非教師モデルとして生成モデルを扱っている。本論文では手書き文字の癖の認識で有名なKingmaのVAE(Varietional Auto Encoder)を使って実験している。

f:id:mabonki0725:20170806113750p:plain

                                                              VAEモデル

 

幼児にはガウス分布の隠れ変数z(位置、大きさ、回転)を成分別に獲得する能力があり、視覚的xな訓練によって、隠れ変数を学習するとする理論である。

 評価関数は以下でVAEモデルで解く。zは隠れ変数 xは視覚データ

 {\mathcal{L}(\theta,\phi;x) = E_{q_\phi(z|x)}(\log p_\theta(x|z)) - \beta D_{KL}(q_\phi(z|x)||p(z))}

 ここで

  \betaは隠れ変数zがガウシアンである依存度で=4が最適

  パラメータ{\theta,\phi}はVAEのネットワークで最適化する

学習結果として、隠れ変数の分布を増減させた結果を視覚として再現した結果が下記の4~5段目の図である。1から3段目の隠れ変数zの増減である。最下段の隠れ変数の分散が小さいので、学習できていることを示している。AとBは視覚データの種別でAは変動要素が1つのもの、Bは複数の変動要素の場合である。Aの左端4つは視覚変動に対して隠れ変数zの分散が大きいので、学習できなかった事を示している。

f:id:mabonki0725:20170806095022p:plain