室内画面の生成する階層型VAEの論文を読む

系列環境での強化学習を考えるため、まず環境を生成するモデルとして下記を読んでみる。

この論文は室内画面を多数生成するモデルで階層型のVAEを使っている。

[1807.09193] GRAINS: Generative Recursive Autoencoders for INdoor Scenes

f:id:mabonki0725:20200206142128p:plain

階層型のVAEはSocherが自然言語で2011年に既に発表していてこの日記にも書いている

Socherの本格的な意味解析の論文 - mabonki0725の日記

Socherはこの階層型を画像の認識でも適用して3D物体の分解も試みている

https://papers.nips.cc/paper/4773-convolutional-recursive-deep-learning-for-3d-object-classification.pdf

 

この論文は多数の室内の写真について以下の手続きで階層を学習させている

①写真のラベル付け(これは画像識別のモデルを使っている

②壁の近い方から物体の位置関係を階層木で構成している。これは一種の構文解析となっている

 root  → 壁1→ソファ→クッション

          →植木

      壁2→ベッド→右ランプ

                                   →左ランプ

 

③この階層には位置関係と相対距離が入っている

f:id:mabonki0725:20200206145008p:plain

④階層のノードと相対位置および階層関係をベクトル化する

⑤上記のベクトルをVAEで潜在変数にエンコードする

 VAEの潜在変数は全て多変量正規分布とする

⑥潜在変数をデコードして階層を復元する

⑦ ⑤と⑥が一致する様に潜在変数を最適化する

f:id:mabonki0725:20200206150509p:plain


⑧最適化された潜在変数をランダムに抽出して様々な階層木を作成し

 階層ノード毎の画像により2Dの室内図を生成する

 

f:id:mabonki0725:20200206150638p:plain

⑨2Dの室内図より3Dの画像を生成する

f:id:mabonki0725:20200206152342p:plain


この論文の特徴としては

①階層ノードをベクトル化したこれをVAEで近似していて、画像をVAEで学習しているのではない

②階層木の各ノードの位置関係より室内図を再現している。