ImageNetの深層学習を24分間で達成した論文を読む

ランニングできず　英語：英語でOpenpose予測モデルを発表

(1) ImageNetの深層学習を24分間で達成した論文を読む

[1709.05011v1] ImageNet Training in 24 Minutes

　以前なら１ヶ月ぐらいかかったImageNetの深層学習が24分で済ませたという衝撃的なタイトルです。

　しかし詳細に読むと実現したのは144時間(6日) → 24分（360倍）でした。

　これらは次の工夫によって達成されています。

　　・LARS(Layer-wise Adaptive Rate Scaling)というロジックでバッチサイズを拡大

　　・Intelの高価な計算機の導入

　　・59%程度の識別精度で達成

　　　高い識別精度を追求すると今でも半月かかるそうです。

　AlexNetとResNet-50の２種類の深層学習モデルで成果報告されています。

f:id:mabonki0725:20170921211800p:plain

上表で明らかな様に繰返回数(epoch)と精度(Accuracy)は不変ですが、Batchサイズと

Hardwareの改善によって計算が速くなっています。しかし計算機は１億円しています。

　一般に深層学習は下図の様に並列に動作させます。各workerの深層学習の重みの修正毎にMasterは全workerの修正値を読取り再び調整済み重みを全workerに反映しています。そのためバッチサイズを大きくしてworkerを少なくできるとトラフィックが格段に少なくなるので高速化ができます。　　　

　　　　　 f:id:mabonki0725:20170921215733p:plain