Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval

1.797 visualizaciones

Publicado el

ACL2018読み会で使用したスライドです。

URL: https://arxivtimes.connpass.com/event/90920/

Publicado en: Tecnología
  • Sé el primero en comentar

Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval

  1. 1. ■ 論文紹介 Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval [Liu+ ACL2018] 2018/07/08@ACL2018読み会 Presenter:駒井雅之 1
  2. 2. 情報検索の前提知識 2
  3. 3. 情報検索とは何か 学術世界での 情報検索の定義 「非構造データ」の集合から 必要な情報を含むデータを探すこと ・https://ja.wikipedia.org/wiki/情報検索 ・情報検索の基礎 1章 ※データは、文書や画像、音声、映像等 Wikipediaでの 情報検索の定義 コンピュータを用いて大量のデータ群から目的 に合致したものを取り出すこと 参考 3
  4. 4. 文書を対象とした検索システム - アドホック検索 アドホック 検索システム 文書集合とクエリが与えられた時 関連する文書を発見するシステム ・https://ils.unc.edu/courses/2013_spring/inls509_001/lectures/02-IntroductionToAdhocRetrieval.pdf ・情報検索の基礎 1章 用語 用語の説明 クエリ ユーザの情報要求が記述されたテキスト 情報要求 ユーザが知りたがっている話題 関連する文書 情報要求を満たしている文書 参考 4
  5. 5. アドホック検索のモデリング対象 設計する 順序付け関数 f ※ D: 文書集合、Q: クエリ集合 項目 関数の例 特徴 キーワード マッチング 全文検索、grep {0, +1}に写像 tfidf、BM25 用語頻度や文書長を利用 ランク学習 SVM、NNなど 学習用データが必要 ・An Unsupervised Learning Algorithm for Rank Aggregation [2007 Klementiev+]など参考 5
  6. 6. Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval [Liu+ ACL2018] 6
  7. 7. 手法が扱うターゲット - スコアリング関数 教師あり学習による 関数 f の獲得 順位 テキスト スコア 1位 The family of Barack Obama, the 44th President of the United States, and his wife Michelle Obama… 0.9 2位 Barack Hussein Obama is an American politician who served as the 44th … 0.8 クエリ-テキスト間 の関連度 図 検索システムの画面例 Obama family tree 7
  8. 8. 関連研究:K-NRM ベースの アルゴリズム End-to-End Neural Ad-hoc Ranking with Kernel Pooling [Xiong+ SIGIR2017] ①類似度行列の計算 ②Kernel Poolingの適用 ③スコアリング 8
  9. 9. K-NRM - ①類似度行列の計算 類似度行列の 計算 クエリqと文書dから|q|×|d|の行列Mを構築 ( は埋込ベクトル間のcos類似度) クエリ 文書 Obama family tree ・・・ この場合、  は   (Obama) と   (Hussein) の 単語埋込ベクトルの cos類似度 0.30 0.80 1.00 0.10 0.50 0.70 Barack Hussein Obama 類似度行列 9
  10. 10. K-NRM - ②Kernel Poolingの適用 Kernel Pooling K種の (RBF) カーネルを適用し、 類似度行列をK次元ベクトルに写像 Barack Hussein Obama 0.30 0.80 1.00 0.10 0.50 0.70 Obama family tree RBFカーネル 平均=1.0 分散=0.0001 RBFカーネル 平均=0.8 分散=0.1 0 1.00 0.14 0 0.01 0.61 0 0 1.00 0 0 0 1.00 1.76 ※本資料では総和計算のみだが、論文では総和→log関数適用を実施している 集 計 ※ 集 計 ※ K次元素性類似度行列 10
  11. 11. K-NRM - ③スコアリング スコア化 1.00 1.76 Kernel Pooling層による素性ベクトルと、 重みパラメタ w によるスコアリング ・・・ 0.5 K次元素性 11
  12. 12. K-NRM - 学習 ロス関数 ペアワイズ誤差によるランク学習 クエリ 文書d+ 文書d- 12
  13. 13. K-NRMの問題点 問題 既存のニューラルモデルは 固有表現などに対し汎化することは難しい 順位 テキスト スコア 1位 The family of Barack Obama, the 44th President of the United States, and his wife Michelle Obama… 12.0 2位 Barack Hussein Obama is an American politician who served as the 44th … 5.0 Obama family tree 13
  14. 14. ACL2018:EDRM-KNRM 解決策 クエリ-文書ペアに加え、知識ベースエントリを併用 したEDRM-KNRMを提案 14
  15. 15. EDRM-KNRMの従来法との差分 従来法 との差分 ①知識グラフ由来の単語埋込みベクトルの追加 ②類似度行列を1種→4種へと増加 従来の KNRM部 15
  16. 16. EDRM-KNRMの従来法との差分 従来法 との差分 ①知識グラフ由来の単語埋込みベクトルの追加 ②類似度行列を1種→4種へと増加 √ √ ①KB由来の 埋め込みベクトル 16
  17. 17. EDRM-KNRMの従来法との差分 従来法 との差分 ①知識グラフ由来の単語埋込みベクトルの追加 ②類似度行列を1種→4種へと増加 √ ②類似度行列  が1種→4種に 17
  18. 18. EDRM-KNRM: ①知識ベース由来のベクトル KB由来の ベクトル KB上の①Entity、②Description、③Typeを活用 可変のDescriptionやTypeをうまく扱いたい 項目名 例 特徴 Entity Barack Obama (略) Description Barack Hussein Obama II is an American politician who is the 44th... ・Entityの説明文 ・可変長テキスト Type Person、Politician、Leader... ・Entityのクラス ・可変の種類 18
  19. 19. CNNエンコーダ EDRM-KNRM: ①知識ベース由来のベクトル KB由来の ベクトル KB上の①Entity、②Description、③Typeを活用 可変のDescriptionやTypeをうまく扱いたい Entity埋込 Description埋込 Type埋込 e = “Barack Obama” Input Input 可変長テキスト Input 可変種のクラス アテンション 機構の適用 Entity埋込 ベクトルの適用 19
  20. 20. EDRM-KNRM: ①知識ベース由来のベクトル 畳込みレイヤ & Maxプーリングレイヤで 可変長テキストから固定長ベクトルを得る CNN エンコーダ 畳込み & Maxプール Description Barack Hussein Obama ... . 20
  21. 21. EDRM-KNRM: ①知識ベース由来のベクトル クエリor文書全体を用いてアテンション適用可変 のタイプのベクトルを単一ベクトルに アテンション 機構の適用 Person Politician Leader・・・ 埋込ベクトル の総和 内積 内積 内積 重み付き和 クエリ or 21
  22. 22. EDRM-KNRM: ①知識ベース由来のベクトル 得られた3つのベクトルの合成し 単一のベクトルを得る ベクトルの 合成 22
  23. 23. EDRM-KNRM: ②4種の類似度行列の構築 2種×2種の 類似度行列 表層の埋込間だけでなく、 表層、entity埋込の2種×2種で行列構築 √ ②entity埋込との  類似度行列 従来の KNRM部 23
  24. 24. EDRM-KNRM: モデルの備考 その他 素性ベクトルの大きさが4倍となるが スコア化や目的関数の枠組みは同じ スコア化 目的関数 24
  25. 25. 実験設定:評価データ 評価データ sogou.com sogou.comのクエリログによる実験 評価手法はnDCGやMRRを利用 項目名 名前 単語分割器 ICTCLAS Entity Linker CMNS KB CN-DBpedia 25
  26. 26. 実験設定:ハイパーパラメータ EDRM-KNRMの ハイパラ 埋め込みベクトルの次元は word、Entity、Desc、Typeは同じ次元 項目名 値 埋込ベクトル次元 300次元 DescのCNN 300フィルタ 学習率 0.0001 カーネル関数 (関連研究から引用) 分散10^-3、平均1.0が1種 分散0.1、 平均0.9, 0.7, ... , -0.9が計10種 26
  27. 27. 実験結果:精度評価 問題 実験結果 教師無し検索手法(BM25)や 他ニューラル系モデルよりも優れた結果に 27
  28. 28. 議論:素性に対する重み分布 どのカーネルが 重要か? ・(上段)soft matchのカーネルが重要 ・(中段)text onlyとentityは同程度 ・(下段)cross spaceの方が重要   28
  29. 29. 議論:Entity埋込のAbration Study どの埋込が 重要か? 単体利用の場合、Descの埋込が有効 Type埋込は他と組み合せると有効 29
  30. 30. 議論:Query長が異なる場合での実験 クエリ長によって 精度傾向は変るか? クエリが短い (≒情報が限定) 時、 EDRM-KNRMは優れている傾向 30
  31. 31. まとめ 発表概要 ACL2018のEDRM-KNRMの論文を紹介 SOTAであったランキングモデル:KNRMに知 識ベース由来の情報を導入 特徴 Sogou.comのデータを用いた実験では NDCGが3~4ポイント精度改善 31
  32. 32. 32

×