Jordanの深層とカーネルによる転移学習の論文を読む

ランニングできず　英語できず

(1) Micheal Jordanが参加している転移学習の論文を読む。

「Learning Transferable Features with Deep Adaptation Networks」https://arxiv.org/abs/1502.02791

この人は有名なバスケットのJordanと同じ姓名なので、文書分類問題でこの先生が正確に分類されているかよく話題になる。

この論文はT研の機械学習ゼミで紹介されたもので、特徴量の抽出で有名なので読んでみたいと思っていた。

ビックデータを取得できる時代になったが、このデータを認識するのは容易でない。例えば衛星写真は毎日数ギカも蓄積されているが、何が写っているか人間が判断しなければならない。そこで一部の写真で人間が何が写っているかラベル付けして、これを大多数を占める衛星写真に適応してラベル付ければ大変役に立つ。

一部のラベル付きのデータを、他のデータに適応してラベルを付けるモデルを転移学習と云う。問題なのはラベル付きのデータと未ラベルのデータの分布が異なっていることである。この分布が合う様に調整するのが本論文のDAN(Deep Adaptive Network)である。

この論文の特徴は深層学習の下位層の汎化性能と上位層でのカーネルのデータ調整を結合して、転移学習を実現しようとするところである。

f:id:mabonki0725:20170812083021p:plain

カーネルの特徴は以下である。

・データ行の相関を高次元へで写像する関数である

・この関数は内積で計算できる（カーネルトリック）ので微分が容易

・弱点としてデータ行を全て使うので、データ行が増えれば計算が遅くなる

・カーネル平均は全レコードを使って計算しているので、これには分散も反映されている

カーネルを以下の線形結合の関数として $\beta$ を微分して調整すれば、カーネル平均は一致できる。この手法をMK-MMD（Multi-kanel Maximum mean discrepancies)と云う

f:id:mabonki0725:20170812091034p:plain

各 $k_u$ に対する $\beta$ の重みがラベル有りと無しのデータ間の相違の程度を示している。

実験結果

f:id:mabonki0725:20170812091358p:plain

他の方法に比べDANのTarget（ラベル無し)の方が重なりが少なく纏まって表示されている