機械学習での概念知識ベースのまとめ

(1)Machine Learning with Wold Knowledge:The Position and Survey のまとめ

Survey(調査)なる論文を初めて読んだが、課題図書の一覧リストを読む思いをした。

https://arxiv.org/abs/1705.02908

1 Introduction

NLPでの知識ベースの役割として、以下の2点に焦点を当てている。

・特徴量の抽出

・文章の要約(ラベリング)に焦点

文章理解には常識や概念があれば、理解し易い場合が多い例があり、文章理解でのworld knowledgeの必要性がわかる。

2 Domain Knowledg

  専門知識のラベリングではSemi-Supervised Learningが主な方法としている。

  専門知識の概念習得には転移学習が有力

https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf

  開発された知識ベース

   WordNet 

  Cyc project

   Wikipedia

   Freebase

   KnowAll

   TexRuner

   WikiTaxonormy

   Pobase

   DBpedia

   YAGO

   NELL

   Illinois-Profiler

   Knowledge Vault

3 機械学習での世界知識の特徴量抽出とラベル(要約化)のため、表現、推測、学習の観点での報告

 表現:Distributional Lexical feature    分散表現

    推測:ラベルの推測

    beam-Search Viterbi  A-star plolcy-base

               関係の推測

               semantic parsing

    学習:ラベルの推測 特徴量の重さの学習

               ドメイン学習 Transfer learning

4 World 知識の特徴量表現

 4.1 明示的類似特徴量

  ESAWikipedia のページとEntityとのTF-IDFを特徴量とする

    Naive Bayes Method :p(ei|ct)を特徴量とする

   4.2 明示的異質特徴量

  HIN (heterogeneout information Network) グラフィカルモデル

 4.3 暗示的特徴量

  LDA

  NHLMs  : Emmbedding LDA

       OHLDA : Wikipediaの分類を使った階層LDA

       KB-LDA : OHLDAにSVOの関係を反映

5 Wold知識の推測

  曖昧性と多義性を回避する技術が必要

  Entity Linking : key wordをwikipediaとの関係付 → wikification

     Semating Parsering :意味構造木CCGの生成による検索

6 パラダイムの学習

 自己学習:RBM DeepLearningの初期パラメータの設定

 Source-tree Transfer Learning:大規模知識のカテゴリの階層化 

 意味空間でのNearest neighborによる区分法

    Zero-shot Learning ; DeepLearningでの特徴量でラベル化する

 Distant Supervision : 明示的知識ベースの対応データでラベリングする

https://www.aclweb.org/anthology/P09-1113