3D動画よりDoll House画像を生成する論文を読む
ランニング30分 英語できず
(1) 3D動画よりDoll House画像を生成する論文を読む
「MatterPort3D: Learning from RGB-D Data in Indoor Environments」
https://arxiv.org/abs/1709.06158
この論文は屋内をMatterPort3Dと云う動画で撮ると、深層学習により屋内をDollhouseの様に見せることができるものです。
Mattterport3DカメラはMatterport社 https://matterport.com/ が販売するものです。
1) Matterport3Dデータの特性
このデータは次の様な優れた機能を有しています。
・RGB-D Panorama
1280x1024 Colorの解像度で奥行きのデータもあります。
360度のパノラマ動画を録画します。
・Precise Global Alignment
3D認識で1cm未満の精度があります。
ここで
奥行認識は観測点から大量の粒子を吹き付けた画像です
法面表示は観測点からの面の向きによって色調を変えた画像です
・Comprehensive Viewpoint Sampling
パノラマ動画用に2m置き程度にView Point(緑点)のデータを生成します。
・Entire Buildings
90件の家の全階・全部屋の3D動画が可能
2)Matterport3Dのデータを深層学習を使って様々な認識を可能にしています。
・フロアの識別
・物体の認識と種類の識別
3)深層学習による認識の方法
・教師用データの作成
この様な認識をするため実際の画像から教師用ラベルを作成する必要があります。
教師用のデータは「Amazon Mechanical Turk(AMT)」でツールと人力で構築しています。
50811物体から1659のラベル付けをしています。
言葉の意味階層モデルWordNetを使って最終的に40に絞っています。
・画像認識 KeyPoint Matching
異なるView Pointでの同じ物体の認識のため
下図の3画像(一致用と非一致用)の教師データで訓練しています。
特徴量は512個使用 ResNet-50での深層学習
・ View Overlap Prediction
動画で同じ場面である認識をSLAMの仕掛けを利用しています。
画像との同じ場面かの識別は次式で行っています。
ここで
は奥行きが確かなpixel数
は実際に5cm内の範囲でと重なっているpixelの数
写真の下段の数字は同じ場面の確率を示す
・法面認識
Matterport3Dデータは位置と奥行きのデータを持っているので容易に認識できます。
この認識にはCNNを使っています。
・局面の識別
この局面認識ではCrowd-sourcingで構築した教師データを使って訓練しています。
・立体の認識
Metterport3Dデータを1.5m x 1.5m x 3m の長方体で切り出して、
2cm刻みに小さくしていきます。これと教師データが70%以上一致すれば
教師データと同じとしています。教師データは418840個あり、ScanNetで
識別しています。