文体のパターンの繰返しで深層学習する論文を読む
ランニングできず 英語できず
(1) 文体のパターンの繰返しで深層学習する論文を読む
「Dynamic Evaluation of Neural Sequence Models」 https://arxiv.org/abs/1709.07432
一般に自然言語の深層学習では単語間の繋がりをLSTMで学習することが殆どですが、近年構文を学習するHocherのモデルや意味データベースを使って解析を強化するモデルも出現してきています。
この論文は長文の構造が似た文体が繰返し出現することに注目し、文体を表す隠れ変数で生成される文が連結して構成されるとして解釈するモデルです。
このモデルをdynamic evalと称しています。
文体を表す隠れ変数を仮定すると文章の尤度は次式となります。
ここで
:文章全体
:文 or 固定長の文字列
:文体を表す隠れ変数
:文章全体を表す隠れ変数
このモデルでは下図の様にRMSprop型を修正した深層モデルで
隠れ変数を解いています。
この論文では明記されていませんが下図のmodel(si,θi)はLSTMと解釈されます。
(1.1)手法
自然言語の深層学習にはRNNやLSTMを使うのが一般的ですが、文体間の生成モデルなので深層学習のパラメータ更新タイプのRMSpropの更新規則を改修し使っています。
このパラメータの調整は一般のニューロモデルと同じです。最終的に生成した文章と実際の文章の相違より逆伝播してパラメータを調整しています。
但しパラメータの更新規則はRMSpropの修正版を使っています。
RMSpropの更新規則は以下です。
このRMSpropを以下に置き換えしています。
また 文体の連鎖を計算するため以下を計算します。
:の生成規則で生成した文と実際の文との相違による損失量
ここからRMSpropの各項を計算します。
よって上記の置き換えを適用すると
各は文章全体の隠れ変数に収束する必要があるので、
上式のRMSpropの更新規則に正則化項としてこの制限を追加しています。
ここで
(1.2) 結果
Penn Treebank の文章でのPerplexityは以下の結果となっています。
Perplexityは文の複雑性を表し少ない程よいとされています。
ここで LSTM + dynamic evalとあるのは下図の構成になっているからです。
「Generating sequence withe recurrent neural networks」Graves (2013) より
(1.3) 感想
・の更新規則は記述に無い様です。この辺は読み落としかもしれません。
・簡単なロジックなので実装は容易かもしれませんが、LSTMの調整が難しそうです。