物体の2Dイメージを階層的に3Dにする論文を読む
ランニング30分 英語できず
(1) 物体の2Dイメージを階層的に3Dにする論文を読む
「Hierarchical Surface Prediction for 3D Object Reconstruction」
https://arxiv.org/abs/1704.00710
この論文は2Dイメージに立方体を当てはめて境界をCNNで認識させて3D図を形成している。 下図の様に様々な形や方向の2Dイメージから3D図を作成することに成功している。
本モデルをHSP(Hierarchical Surface Prediction)と称している。
但し本論文は3D情報を作成するだけで、これを3D図にするには、Marchinng Cube法等を使っている。マーチングキューブ法 - Wikipedia
(1.1) 手法
このモデルでは概ね次の手続きで高い精度の3D図にしている。
・2D画像をCNNでEncodeしてこれをUP-CNNでDecodeしている。
・UP-CNNのDecodeの処理中では次の2つの工夫をしている。
2D画像より立体の境界をCNNで学習させて認識できる様にしている。
立体は画像に合わせて細かく細分化して境界の精度を向上させている。
下図は上記の手続きを示したものである。は128個のベクトル
下図(左)では細分度合いによって精度に異なることが示されている。(数字は細分数)
そこでUP-CNN処理では2つの判断を同時に行っている
・立体の状態の判断(物体中、物体外、境界)
これは教師ありモデルのCNNで学習させている
・右図の様にさらに細分化できるか判断する
立方体の充足度が閾値以下なら細分化を停止する
境界が滑らかになる様に境界は互いに重なった立方体で細分化する
(1.3) 結果
手動で立方体を区分(物体中、物体外、境界)したものとを対比させている。
手動で細かく区分したLRhardは、ほぼGrand Truthに近くHSPはこのレベルに近い。
※LRsoft の細分化で区分 LRhard の細分化で区分
(1.3) 感想
全体の構想(FrameWark)は良いが肝心のEncodeされたデータをCNNで立体の境界を認識させる記述が少なく、どの程度汎用的かつ頑健性があるか不明である。しかし部分的なイメージ図でも3D図を復元しているので汎用性は期待できる。
またUP-CNNの学習には細かく刻んだ立法体に区分を当てるデータが相当数必要であるはずである。この辺が開示されれば応用が広がると推察される。