mabonki0725の日記

3D動画よりDoll House画像を生成する論文を読む

AI論文画像認識

ランニング30分　英語できず

(1) 3D動画よりDoll House画像を生成する論文を読む

「MatterPort3D: Learning from RGB-D Data in Indoor Environments」

https://arxiv.org/abs/1709.06158

　この論文は屋内をMatterPort3Dと云う動画で撮ると、深層学習により屋内をDollhouseの様に見せることができるものです。

f:id:mabonki0725:20171001002417p:plain

Mattterport3DカメラはMatterport社 https://matterport.com/ が販売するものです。

1) Matterport3Dデータの特性

　　このデータは次の様な優れた機能を有しています。

　・RGB-D Panorama

　　1280x1024 Colorの解像度で奥行きのデータもあります。

　　360度のパノラマ動画を録画します。　　　 f:id:mabonki0725:20171001000257p:plain

　・Precise Global Alignment

3D認識で1cm未満の精度があります。　　

　　　 f:id:mabonki0725:20170930231141p:plain

　　ここで

　　　奥行認識は観測点から大量の粒子を吹き付けた画像です

　　　法面表示は観測点からの面の向きによって色調を変えた画像です

　・Comprehensive Viewpoint Sampling

パノラマ動画用に2m置き程度にView Point(緑点)のデータを生成します。

　 f:id:mabonki0725:20170930231815p:plain

・Entire Buildings

90件の家の全階・全部屋の3D動画が可能

2)Matterport3Dのデータを深層学習を使って様々な認識を可能にしています。

　・フロアの識別

f:id:mabonki0725:20170930232442p:plain

　・物体の認識と種類の識別　　

　　　 f:id:mabonki0725:20170930232654p:plain

　3)深層学習による認識の方法

　　・教師用データの作成

　　　この様な認識をするため実際の画像から教師用ラベルを作成する必要があります。

　　　教師用のデータは「Amazon Mechanical Turk(AMT)」でツールと人力で構築しています。

　　　50811物体から1659のラベル付けをしています。

　　　言葉の意味階層モデルWordNetを使って最終的に40に絞っています。

f:id:mabonki0725:20171001095340p:plain

　　・画像認識　KeyPoint Matching

　　　異なるView Pointでの同じ物体の認識のため

　　　下図の３画像（一致用と非一致用）の教師データで訓練しています。

　　　特徴量は512個使用　ResNet-50での深層学習　　　

　　　 f:id:mabonki0725:20170930235055p:plain

　　・ View Overlap Prediction

　　　動画で同じ場面である認識をSLAMの仕掛けを利用しています。　

　　　画像 $A$ と $B$ の同じ場面かの識別は次式で行っています。

　　　　 $\mathcal{overlap}(A,B) = \frac{min(\hat{A},\hat{B})}{|A|+|B|-min(\hat{A},\hat{B})}$ 　

　　　　ここで

　　　　　 $|A|$ は奥行きが確かなpixel数

　　　　　 $\hat{A}$ は実際に5cm内の範囲で $B$ と重なっているpixelの数　

　　　 f:id:mabonki0725:20170930235424p:plain

　　　　　　　　写真の下段の数字は同じ場面の確率を示す

　　・法面認識　

　　　Matterport3Dデータは位置と奥行きのデータを持っているので容易に認識できます。

　　　この認識にはCNNを使っています。　　

　　　 f:id:mabonki0725:20170930235613p:plain

　　・局面の識別

　　　この局面認識ではCrowd-sourcingで構築した教師データを使って訓練しています。　　　

　　　 f:id:mabonki0725:20171001000006p:plain

　　・立体の認識

Metterport3Dデータを1.5m x 1.5m x 3m の長方体で切り出して、

　　　2cm刻みに小さくしていきます。これと教師データが70%以上一致すれば

　　　教師データと同じとしています。教師データは418840個あり、ScanNetで

　　　識別しています。

　　 f:id:mabonki0725:20170930235704p:plain