風景の要素の関係図から画像を生成する論文を読む
もう15年ぐらい聞いているFM市川の琴音さんのブログに新居の写真が張ってあり、謎の物体が座椅子に乗っているので、画像から文章生成モデルで認識させてみた。
左写真は流石に新居とあって文章生成モデルではバスルームと認識され、座椅子は便器として文章生成されている。そこで座椅子の近辺での右写真では、ベットや鞄上の猫と表現されている。座椅子が認識されないのは、米国製の学習データには日本独自の座椅子が無いからと推察される。この様に画像からの文章生成モデルは、適切な学習データと対象を絞ればそれなりに高い精度が期待できそうです。
表題の論文は逆に風景描写の文章から画像を生成したいのだが、下の左図にある様にかなり精度が低いので、文章の代わりに風景にある要素の関係図から画像生成すればリアルな画像を得られたとの報告である。
[1804.01622] Image Generation from Scene Graphs
このモデルは下記のパイプラインで生成している。
①関係図の各要素と関係をベクトル化する。
②ベクトル表現を空間上の関係にする(object feature)
③空間上の関係から写真位置を予測する(Layout prediction)
④予測位置を条件とするGANの generaterで画像を生成する
⑤生成した画像をGANのDiscrimaterで本物か識別する
⑥GANの繰返しでリアルな画像にする
④~⑥は普通のCondition GANで生成できる。
①~③については全く反対の画像から関係図を生成するモデルが存在するので学習データは豊富にあると考えられる。