Captionから画像を生成する論文を読む

ランニングできず 英語できず

 salakhutdinovの自然言語のcaptionから画像生成する論文を読む。

[1511.02793] Generating Images from Captions with Attention

これは、Kingmaの半教師VAEのEncode-DecodeをLSTM-LSTMに変更したもの。

損失関数(9)が殆ど同じ。CaptionをyとしてBI-LSTMでattensionで抽出し、画像をxとしてLSTM EncoderでZを求めている。

 最近は2日に1本のペースで論文を読めているが、偶然だろうと思う。

下記で実際に実行してみるが、動作方法がわからない。やはりソースを読むしかないか

github.com

 夕方A大学の女性のS教授の講演を聞く。古いAIの学位を持っているので興味があったが、古いエンジニアリングの話をするだけでガッカリした。対象が新しい空間工学であるだけである。確かに巨大なプロジェクトを統合するにはこの様な技術がいるが、学術的には様々な状況に柔軟に適応するモデルを開発すべきである。女性は対人的には細やかな配慮して雰囲気を良くするだけに、学術に関しては保守的で却って危険かもしれない。

防備:Tex表現

{ \displaystyle b_n = \sum_{m=0}^{N-1} a_m }

自動代替テキストはありません。

雨模様の空の飛行機の画像生成の例である。

画像に含まれている可能性があるもの:テキスト