分散表現した言葉を連結した知識ベース論文を読む

ランニングできず 英語できず

(1) 言葉の分散表現と連結グラフの知識データベースの論文を読む。

「Thinking Fast, Thinking Slow! Combining Knowledge Graphs and Vector Spaces」https://arxiv.org/abs/1708.03310

これは言葉をword2vec等でベクトル化して、この近さを利用して大規模に言葉間を連結知識ベース(V-KG)を作成するものである。既に開発済みの大規模な知識ベースとしてRDF(Resource Description Framework)https://www.w3.org/RDF/がある。この各項目(Entitiy)にベクトル表現を使う事によって、知識追加や問合わを素早く実現できる様にしている。

f:id:mabonki0725:20170814094435p:plain

V-KGの構築手順としては

・対象領域の文書内の言葉を普通のツールを使ってベクトル化する

・知識ベースの項目を名称データベース(Stanford NER)から抽出する

・知識ベースにある必要な3記述(主語、述語、目的語)をRDF形式の大規模な知識ベース(Stanford openIE )から問い合わせて収集する

・この3記述のベクトルの近さ(Top-k)に従って連結する

参照元RDFの知識ベースが変更を察知すれば(2週間毎)に連結を組み直す。

 

V-KG知識ベースはRDF形式の検索が可能なので、これを拡張して下記の3種類のコマンド\mathcal{C}で問合わせが可能になっている。

  find 検索, list リストアップ, infer 推論

例えば

list vulnerabilities in products similar to Google Chrome

Find similar sites to Taj Mahal, infer their distance from New York