mabonki0725の日記

DeepMindの多重課題による劣化防止の論文を読む

AI論文

ランニング30分　英語：Toiec

(1)DeepMindのDeepLearningでの忘却抑止の論文を読む

「Overcoming catastrophic forgetting in neural networks」

　ハザビスのサーベイ論文「Neuroscience Inspired AI」でDeepMindの成果として揚げられていたもの。人間は多数の課題に取り組んでいても、直前の課題の成果を忘れることはない。一方ニューラルネットは新しい課題に沿ってパラメータを最適化されると、前の課題にはこのパラメータは適用できない。この問題を解決しょうとしたのが本論文である。

このモデルとしては可塑性加重結合EWC(Elastic Weigtht Consolitation)を提案している。

f:id:mabonki0725:20170808070627p:plain

上図はハザビスの論文のEWCの図であるが、赤矢印の意味は下図の赤矢印の意味である。

イメージとしては、TaskAとTaskBがあり、TaskAの最適化後TaskBへのパラメータの調整を赤色に沿って調整していくものである。即ち最適方向である青色のベクトルを赤と緑に分解して、赤ベクトルだけ採用しようとするものである。

f:id:mabonki0725:20170808063601p:plain

モデルとしては次の簡単な式での事後分布を考えているが、

　　 ${\log P(\theta|\mathcal{D}) = \log P(\mathcal{D_B}|\theta) + \log(\theta|\mathcal{D_A}) - \log P(\mathcal{D_B})}$

これは陽に解けないので、事後分布はラプラス近似に近いものを仮定している。

平均：TaskAの平均を使う

分散：フィッシャー情報行列 $F$

上記の仮定から、下記の損失関数の最小化を提案している。（ここでは詳細の記述は無い）

　　 ${\mathcal{L}(\theta) = \mathcal{L_B}(\theta) + \sum_{i=1}^{N} \left(F_i(\theta_i - \theta_i^A)\right)}$

　　ここで

　　　 ${\mathcal{L_B}(\theta)}$ は尤度を示す

　　　 ${\theta_i^A}$ はTaskAの学習後の $i$ 番目のパラメータを示す

実験としてMINSTの手書き文字の認識を続けて行った場合のEWCによる劣化の抑止が実現できていることを示している。普通のSGDではTask A→B→Cと重なる毎に劣化しているが、EWCでは精度が維持できている。

f:id:mabonki0725:20170808065607p:plain

(2) 言語とロボテックス（ランロボ）の２回目のセミナーに参加する

　NIIの稲邑先生が不思議な活動していたので、この発表のみ聞く。

　現在の研究はROSを使ったロボテックスの模擬環境の構築である。これは２重の意味でもったいない。

　・確かに人間モデルとロボットが３D環境に共存できるのは新しいが、この様な模擬環境はROSがかなりの機能で提供されており、この開発は研究としては弱い。

　・模擬環境で実現できた成果は実機では実現できない。これはモータや機器に摩擦があるから、機械学習上の最適化は制御機構の最適化と一致しない所に大きな課題がある。

DeepMindが実機でなく、模擬環境に拘ってモデル開発するのは、計算機が自分で考えるモデルの環境が必要だからであって所謂シンギュラリティを目指している。ロボット工学かシンギュラリティに向かうのか２兎を追うことができるのだろうか。