Captionから画像を生成する論文を読む

ランニングできず　英語できず

　salakhutdinovの自然言語のcaptionから画像生成する論文を読む。

[1511.02793] Generating Images from Captions with Attention

これは、Kingmaの半教師VAEのEncode-DecodeをLSTM-LSTMに変更したもの。

損失関数(9)が殆ど同じ。CaptionをyとしてBI-LSTMでattensionで抽出し、画像をxとしてLSTM EncoderでZを求めている。

青空の飛行機、雨模様の飛行機、砂漠の像、草原の像の画像生成の例である。

f:id:mabonki0725:20180225082940p:plain

下記で実際に実行してみるが、動作方法がわからない。やはりソースを読むしかないか

github.com

最近は２日に１本のペースで論文を読めているが、偶然だろうと思う。

夕方A大学の女性のS教授の講演を聞く。古いAIの学位を持っているので興味があったが、古いエンジニアリングの話をするだけでガッカリした。対象が新しい空間工学であるだけである。確かに巨大なプロジェクトを統合するにはこの様な技術がいるが、学術的には様々な状況に柔軟に適応するモデルを開発すべきである。女性は対人的には細やかな配慮して雰囲気を良くするだけに、学術に関しては保守的で却って危険かもしれない。

防備:Tex表現

$b_n = \sum_{m=0}^{N-1} a_m$