分散表現した言葉を連結した知識ベース論文を読む
ランニングできず 英語できず
(1) 言葉の分散表現と連結グラフの知識データベースの論文を読む。
「Thinking Fast, Thinking Slow! Combining Knowledge Graphs and Vector Spaces」https://arxiv.org/abs/1708.03310
これは言葉をword2vec等でベクトル化して、この近さを利用して大規模に言葉間を連結知識ベース(V-KG)を作成するものである。既に開発済みの大規模な知識ベースとしてRDF(Resource Description Framework)https://www.w3.org/RDF/がある。この各項目(Entitiy)にベクトル表現を使う事によって、知識追加や問合わを素早く実現できる様にしている。
V-KGの構築手順としては
・対象領域の文書内の言葉を普通のツールを使ってベクトル化する
・知識ベースの項目を名称データベース(Stanford NER)から抽出する
・知識ベースにある必要な3記述(主語、述語、目的語)をRDF形式の大規模な知識ベース(Stanford openIE )から問い合わせて収集する
・この3記述のベクトルの近さ(Top-k)に従って連結する
・参照元のRDFの知識ベースが変更を察知すれば(2週間毎)に連結を組み直す。
V-KG知識ベースはRDF形式の検索が可能なので、これを拡張して下記の3種類のコマンドで問合わせが可能になっている。
find 検索, list リストアップ, infer 推論
例えば
list vulnerabilities in products similar to Google Chrome
Find similar sites to Taj Mahal, infer their distance from New York