脳は敵対的な反復で一般化していると想定

テニス２時間　英語できず

(1) Socherの文章要約論文を読む。これは長い文章を要約するもので、英語の記事では「タイトル」と「本文」の構成なので、タイトルを正解とし、本文を入力とするEncoder-Decorder型の教師付モデルである。文章をBI-LSTMのAttentionを特徴量とし、要約をRNNの特徴量て学習する。この様なDeepLearningの論文では正当性を示す理論的な数式がない。この論文の特徴は長い「本文」を学習させており、そのため最大尤度を報酬とする強化学習を使っている。残念なことに報酬の具体的な算出方法は明示されていおらず、この論文は査読が通っていない可能性が高い。

損失関数 $\displaystyle L_{rl} = (r(\hat{y}) - r(y^s)) \sum_{t-1}^{n} \log p(y_t|y_1,y_2,,,,y_{t-1},x)$