機械学習での概念知識ベースのまとめ

(1)Machine Learning with Wold Knowledge:The Position and Survey のまとめ

Survey（調査）なる論文を初めて読んだが、課題図書の一覧リストを読む思いをした。

https://arxiv.org/abs/1705.02908

1 Introduction

NLPでの知識ベースの役割として、以下の２点に焦点を当てている。

・特徴量の抽出

・文章の要約（ラベリング）に焦点

文章理解には常識や概念があれば、理解し易い場合が多い例があり、文章理解でのworld knowledgeの必要性がわかる。

2 Domain Knowledg

専門知識のラベリングではSemi-Supervised Learningが主な方法としている。

専門知識の概念習得には転移学習が有力

https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf

開発された知識ベース

WordNet

Cyc project

Wikipedia

Freebase

KnowAll

TexRuner

WikiTaxonormy

Pobase

DBpedia

YAGO

NELL

Illinois-Profiler

Knowledge Vault

3 機械学習での世界知識の特徴量抽出とラベル（要約化)のため、表現、推測、学習の観点での報告

　表現：Distributional Lexical feature 分散表現

推測：ラベルの推測

　　　　beam-Search Viterbi A-star plolcy-base

関係の推測

semantic parsing

学習：ラベルの推測　特徴量の重さの学習

ドメイン学習　Transfer learning

4 World 知識の特徴量表現

　4.1 明示的類似特徴量

　　ESA：Wikipedia のページとEntityとのTF-IDFを特徴量とする

　Naive Bayes Method ：p(ei|ct)を特徴量とする

4.2 明示的異質特徴量

　　HIN (heterogeneout information Network) グラフィカルモデル

　4.3 暗示的特徴量

　　LDA

　　NHLMs : Emmbedding LDA

OHLDA : Wikipediaの分類を使った階層LDA

KB-LDA : OHLDAにSVOの関係を反映

5 Wold知識の推測

　　曖昧性と多義性を回避する技術が必要

　　Entity Linking : key wordをwikipediaとの関係付 → wikification

　 Semating Parsering ：意味構造木CCGの生成による検索

6 パラダイムの学習

　自己学習：RBM　DeepLearningの初期パラメータの設定

　Source-tree Transfer Learning：大規模知識のカテゴリの階層化

　意味空間でのNearest neighborによる区分法

Zero-shot Learning ; DeepLearningでの特徴量でラベル化する

　Distant Supervision : 明示的知識ベースの対応データでラベリングする

https://www.aclweb.org/anthology/P09-1113