室内画面の生成する階層型VAEの論文を読む
系列環境での強化学習を考えるため、まず環境を生成するモデルとして下記を読んでみる。
この論文は室内画面を多数生成するモデルで階層型のVAEを使っている。
[1807.09193] GRAINS: Generative Recursive Autoencoders for INdoor Scenes
階層型のVAEはSocherが自然言語で2011年に既に発表していてこの日記にも書いている
Socherの本格的な意味解析の論文 - mabonki0725の日記
Socherはこの階層型を画像の認識でも適用して3D物体の分解も試みている
この論文は多数の室内の写真について以下の手続きで階層を学習させている
①写真のラベル付け(これは画像識別のモデルを使っている
②壁の近い方から物体の位置関係を階層木で構成している。これは一種の構文解析となっている
root → 壁1→ソファ→クッション
→植木
壁2→ベッド→右ランプ
→左ランプ
③この階層には位置関係と相対距離が入っている
④階層のノードと相対位置および階層関係をベクトル化する
⑤上記のベクトルをVAEで潜在変数にエンコードする
VAEの潜在変数は全て多変量正規分布とする
⑥潜在変数をデコードして階層を復元する
⑦ ⑤と⑥が一致する様に潜在変数を最適化する
⑧最適化された潜在変数をランダムに抽出して様々な階層木を作成し
階層ノード毎の画像により2Dの室内図を生成する
⑨2Dの室内図より3Dの画像を生成する
この論文の特徴としては
①階層ノードをベクトル化したこれをVAEで近似していて、画像をVAEで学習しているのではない
②階層木の各ノードの位置関係より室内図を再現している。