機械学習での概念知識ベースのまとめ
(1)Machine Learning with Wold Knowledge:The Position and Survey のまとめ
Survey(調査)なる論文を初めて読んだが、課題図書の一覧リストを読む思いをした。
https://arxiv.org/abs/1705.02908
1 Introduction
NLPでの知識ベースの役割として、以下の2点に焦点を当てている。
・特徴量の抽出
・文章の要約(ラベリング)に焦点
文章理解には常識や概念があれば、理解し易い場合が多い例があり、文章理解でのworld knowledgeの必要性がわかる。
2 Domain Knowledg
専門知識のラベリングではSemi-Supervised Learningが主な方法としている。
専門知識の概念習得には転移学習が有力
https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf
開発された知識ベース
Cyc project
Freebase
KnowAll
TexRuner
WikiTaxonormy
Pobase
DBpedia
YAGO
NELL
Illinois-Profiler
Knowledge Vault
3 機械学習での世界知識の特徴量抽出とラベル(要約化)のため、表現、推測、学習の観点での報告
表現:Distributional Lexical feature 分散表現
推測:ラベルの推測
beam-Search Viterbi A-star plolcy-base
関係の推測
semantic parsing
学習:ラベルの推測 特徴量の重さの学習
ドメイン学習 Transfer learning
4 World 知識の特徴量表現
4.1 明示的類似特徴量
ESA:Wikipedia のページとEntityとのTF-IDFを特徴量とする
Naive Bayes Method :p(ei|ct)を特徴量とする
4.2 明示的異質特徴量
HIN (heterogeneout information Network) グラフィカルモデル
4.3 暗示的特徴量
LDA
NHLMs : Emmbedding LDA
OHLDA : Wikipediaの分類を使った階層LDA
KB-LDA : OHLDAにSVOの関係を反映
5 Wold知識の推測
曖昧性と多義性を回避する技術が必要
Entity Linking : key wordをwikipediaとの関係付 → wikification
Semating Parsering :意味構造木CCGの生成による検索
6 パラダイムの学習
自己学習:RBM DeepLearningの初期パラメータの設定
Source-tree Transfer Learning:大規模知識のカテゴリの階層化
意味空間でのNearest neighborによる区分法
Zero-shot Learning ; DeepLearningでの特徴量でラベル化する
Distant Supervision : 明示的知識ベースの対応データでラベリングする
https://www.aclweb.org/anthology/P09-1113