深層強化学習によるChatbotモデルの論文を読む

ランニング30分 英語:movie 2012

(1) 深層強化学習によるChatbotモデルの論文を読む

 「A Deep Reinforcement Learning Chatbot」https://arxiv.org/abs/1709.02349

 この論文はアマゾンの2017年の人工知能モデル競技会で開発された応答会話モデルMILABOTの詳細な報告です。

 このモデルはありとあらゆる自然言語モデルと自然言語特徴量の寄せ集めで百科事典的なモデルとなっています。

 概要としては以下となります。 

  ・アマゾンが提供する「Amazon Mechanical Turk」で人間による20万件の会話格付を教師データとして利用 Amazon Mechanical Turk – クラウドソーシング用のマーケットプレイス | AWS

 

  ・既存の22の会話モデルで応答の候補を生成します。

   この22の会話モデルには、次の様々なモデルが組込んであります

    用途別(映画/検索)

    手法別(テンプレート法/LSTM/機械学習

   また主要なモデルにはアルゴリズムとモデルインストールサイトが添付されています

  ・応答候補の中で最適な応答が無ければ、強化学習で最優良な応答を選択して返します

  ・候補応答毎について格付予測を深層学習モデルで行っています

   深層学習は自然言語の特徴を1458と14万件の格付の教師データで学習しています。 

   1458の特徴量の仕様が記述されています  

f:id:mabonki0725:20170926052518p:plain

  ・会話は互いの応答で成立するので、最終会話までの評価をする必要があります。

   予測格付を報酬として深層強化学習で最終会話までの累計報酬の価値関数を計算して、

   累計報酬の最大価値をもつ応答候補が選択されます

   深層強化学習は自然言語の特徴量23個と累計報酬とで価値関数を解いています

    \hat{\phi} = argmax_\phi \sum_d \sum_t \left( Q_\phi (h_t^d,a_t^d) - R^d \right)^2

                ここで 

                   \phiは深層強化学習のパラメータ

          dは会話(dialog)

                   Rは会話の予想格付

                   h_t^d  \ a_t^dは会話暦と選択した応答

                   Q_\phi = \phi_0 + \phi_1 \cdot feature_1 + \dots + \phi_{23} \cdot feature_{23}

 

 概念図としては以下となります。  

f:id:mabonki0725:20170925051653p:plain