Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Information Retrieval

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 24 Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (19)

A los espectadores también les gustó (17)

Anuncio

Más de saireya _ (20)

Anuncio

Más reciente (20)

Information Retrieval

  1. 1. Information Retrieval March 22, 2014 1 / 23
  2. 2. Information Retrieval Information Retrieval 情報検索 (information retrieval) 文書集合 D と information need に基づく検索語句 (query) が与えられ たとき、need を満たす文書の集合 R(⊂ D) を出力 2 / 23
  3. 3. bag-of-words bag-of-words 文書集合を D = {𝒅i}、D の文書中に現れる語の集合を W = {𝒘j} とし たとき、文書を # W 次元のベクトル (bag-of-words) で表現 𝒅i = (wij), wij ∶= 󰃠 positive (𝒅i に 𝒘j が現れるとき) 0 (otherwise) 同様に、query も # W 次元のベクトル 𝒒 = (wqj) で表現 3 / 23
  4. 4. Vector space model tf・idf 語出現頻度 (term frequency) tfij 文書 i に語 j が現れる度合いで、i に j が現れる回数をそのまま用いた り、正規化したりする 文書頻度 (document frequency) dfij 語 j が文書集合 D に現れる頻度で、D の元のうち語 j を含むものの個 数を用いたりする term frequency・inverse document frequency(tf・idf) tf のみだと頻出語の wij が大きくなるので、語 j が文書に現れる割合 (dfij/# D) の逆数を掛ける wij ∶= tfij⏟ 文書に語が多く現れるほど大きく ⋅ log #D dfij⏟ 他の文書に現れない語ほど大きく 4 / 23
  5. 5. Vector space model 文書の類似度 文書の類似度 (similarity) sim(𝒙, 𝒚) 2 つのベクトル 𝒙, 𝒚(文書 𝒅i や query 𝒒) がどの程度類似しているかを 表す sim(𝒙, 𝒚) ∶= ⎧⎪ ⎨ ⎪⎩ 𝒙 ⋅ 𝒚(= ∑ xiyi) (内積) 𝒙⋅𝒚 ‖𝒙‖‖𝒚‖ (= ∑ xiyi √∑ x2 i √∑ y2 i ) (cosine 類似度) cosine 類似度は、 𝒙, 𝒚 のなす角を 𝜃 とすると、 sim(𝒙, 𝒚) = cos 𝜃 ≃ 󰃠 1 (𝒙, 𝒚 が似ている (𝜃 ≃ 0)) −1 (𝒙, 𝒚 が似ていない (𝜃 ≃ 𝜋)) ⇨ 入力された query 𝒒 に対し、sim(𝒒, 𝒅i) が 1 に近い文書の集合 {𝒅i} を 出力 5 / 23
  6. 6. query の修正 適合フィードバック 適合フィードバック (relevance feedback)[7] 検索結果の集合 R(⊂ D) を正例 R+ と負例 R− に分解 (R = R+ ⊔ R− ) し、query 𝒒 を修正 𝒒 ∶= 𝛼𝒒⏟ 元の query + 𝛽 1 #R+ ∑ 𝒅∈R+ 𝒅 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 正例 − 𝛾 1 #R− ∑ 𝒅∈R− 𝒅 ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ 負例 (𝛼, 𝛽, 𝛾 ∶ const.) R の分解は、R の文書が need に適合するかユーザに判断してもらうな どして行う 経験的には 2-3 回で十分な適合率になる。 𝛾 = 0(𝛼 + 𝛽 = 1) とすること も多い 6 / 23
  7. 7. 検索結果の評価 検索結果の評価 文書集合 D のうち、information need を満たす文書の集合を R、query に対 して返された結果の集合を ̂R とする 適合率 (precision) p 検索結果のうち need を満たす文書の割合 再現率 (recall) r need を満たす文書が結果として返された割合 p ∶= # R ∩ ̂R # ̂R , r ∶= # R ∩ ̂R #R 7 / 23
  8. 8. 検索結果の評価 precision vs. recall query を増やせば p → 1, r → 0 となり、R → D ⟹ p → 0, r → 1 となる F-値 (F-score) 適合率と再現率は trade-off の関係にあるので、これらの平均をとる 算術平均だとより大きい値の影響を強く受ける (p = 1, r = 0 の検索結 果と、p = r = 0.5 の検索結果が同じ評価になる) ので、(重み付き) 調和 平均をとる F ∶= (𝛼p−1 + (1 − 𝛼)q−1 )−1 (= 1 𝛼 1 p + (1 − 𝛼)1 r = pr 𝛼r + (1 − 𝛼)p ) 8 / 23
  9. 9. ランキング付き検索結果の評価 ランキング付き検索結果の評価 文書集合 D のうち、information need を満たす文書の集合を R、query に対 して返された結果 k 件の集合を ̂Rk とする k-適合率 (precision@k) p@k 検索結果の上位 k 件のうち need を満たす文書の割合 k-再現率 (recall@k) r@k need を満たす文書が結果の上位 k 件として返された割合 p@k ∶= # R ∩ ̂Rk # ̂Rk (= # R ∩ ̂Rk k ), r@k ∶= # R ∩ ̂Rk #R 9 / 23
  10. 10. ランキング付き検索結果の評価 MAP 平均適合率 (average precision) 1 位から、第 k 位にある i 番目の正解までの適合率 p@k(= i k ) を求め、 その平均をとる AP(𝒒) ∶= 1 #R ∑ k∶第 k 位は正解 p@k MAP(mean average precision) query 集合 Q に対する AP の平均 MAP ∶= 1 #Q ∑ 𝒒∈Q AP(𝒒) 10 / 23
  11. 11. ランキング付き検索結果の評価 nDCG 適合度を数値化した上で、適合度順にに正解が出てくる理想の場合とどの程 度離れているか比較 [4] gain vector G 検索結果の第 k 位にある文書がどの程度 need を満たすかを表した点数 (gain value) gk を並べたベクトル。G の先頭から i 個の要素からなるベ クトルを Gi で表わす 11 / 23
  12. 12. ランキング付き検索結果の評価 nDCG discount cumulative gain vector DCG Gi を累積させたベクトルで、ユーザにとって下位のページを見るのは負 担なので、下位の文書が正解でも評価への影響が小さくなるようにする DCGk ∶= k ∑ i=1 Gi log2(1 + i) normalized discount cumulative gain vector nDCG 理想的には、G は G′ ∶= (10, 10, 8, 8, 5, 3, 1, ⋯) のように、i について 降順で並んでいるべきであるので、G′ に基づいて求めた DCG′ と実際 の DCG を比較 nDCGk ∶= DCGk DCG′ k 12 / 23
  13. 13. 検索結果の多様化 MMR MMR(maximal marginal relevance)[1] 検索結果で既に現れた文書と似た文書を除外する指標 検索結果文書のベクトル R に次の MMR を満たす文書を順に加えて いく MMR ∶= arg max 𝒅∈D⧵R (𝜆sim(𝒒, 𝒅) − (1 − 𝜆) max ̃𝒅∈R sim( ̃𝒅, 𝒅)) 13 / 23
  14. 14. Link analysis Link analysis Web ネットワークを有向グラフ G = (V, E) で表し、i ∈ V を Web ページ、 ページ i から j へのリンクを i → j ∈ E(⊂ V2 ) と表す i へ向かうリンクを持つページの集合を E− i ∶= {j|j → i}、i からリンク した先にあるページの集合を E+ i ∶= {j|i → j} とする 推移確率行列 L = (lij) G の確率付き隣接行列で、lij は j の閲覧者が j → i のリンクを辿って i へ向かう確率 P(i|j) を表すa lij ∶= 󰃠 1 #E+ j (j ∈ E− i ) 0 (otherwise) a 通常の推移確率行列 P では、i, j-成分は i → j を辿る確率 (P = t L) 14 / 23
  15. 15. PageRank PageRank idea:「良いページからリンクされるページは良いページ」[6] ページ i の PageRank ri を次のように定める ri ∶= (1 − 𝜆) 1 #V + 𝜆 ∑ j∈E− i rj #E+ j (= (1 − 𝜆)P(i) + 𝜆 ∑ j∈E− i rjP(i|j)) 𝜆 は damping factor といい、ri の底上げに用いられる (通常は 𝜆 = 0.85) 𝒓 = (ri) とすると、 𝒓 ∶= (1 − 𝜆) 1 #V 𝒆 + 𝜆L𝒓 15 / 23
  16. 16. PageRank random surfer PageRank の更新式は、Web をブラウズする閲覧者の動きを表現したものと 解釈可能 閲覧者がページ i に辿り着くのは、次の二通りの場合 1 i にリンクしているページ j から、リンク j → i をクリックして i に移動 する場合 ページ j のリンクはどれも等確率でクリックされると考えられると、 P(i|j) = 1 #E+ j 2 ブラウザのブックマークや履歴からの参照、URL を手入力するなど、リ ンクをクリックする以外の方法で i に直接アクセスする場合 G 上の Web ページヘはどれも等確率で直接アクセスされると考えられ ると、P(i) = 1 #V damping factor は、この 2 つの参照がどのくらいの度合いで起こるかを 表わす比率 (85% はリンクで参照) 16 / 23
  17. 17. PageRank Topic-Sensitive PageRank PageRank は query に依らないので、このままでは情報検索に使えない ページには topic {Tk} が存在するとし、V = ⊔Tk と分解 次のように、ページが topic に一致するときにだけ、damping factor に よる底上げを適用 topic Tk に関する topic-sensitive PageRank[3] を 𝒓k = (rki) とすると、 𝒓k ∶= (1 − 𝜆) 1 #Tk 𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tk のとき oi = 1) 17 / 23
  18. 18. PageRank TrustRank idea:「良いページは悪いページ (SPAM) ヘはリンクしない」[2] V = Tgood ⊔ Tbad と分解し、ページが良いページのときにだけ、 damping factor による底上げを適用し TrustRank を求める 𝒓 ∶= (1 − 𝜆) 1 #Tgood 𝒐 + 𝜆L𝒓(𝒐 ∶ i ∈ Tgood のとき oi = 1) 分解には人手で seed を選んだ上で、 G′ ∶= (V, E′ )(E′ ∶= {j → i|i → j ∈ E}) における PageRank(Inverse PageRank) を求めておく G′ は G の枝を逆向きにしたグラフで、PageRank のアイデアとは逆の 着想「良いページからリンクしているページは良いページ」に基づき良 い seed ページを求められる 18 / 23
  19. 19. HITS HITS Web ページには「多くの情報をもつページ (authority)」と、「多くのリンク をもつページ (hub)」があると仮定し、相互再帰的に 2 つのスコアを計算 [5] idea:「良い authority は良い hub からリンクされ、良い hub は良い authority にリンクする」 ページ i の authority 度を ai、hub 度を hi とするとき、これらを次の式 で再帰的に定める ai ∶= 1 𝜆 ∑ j∈E− i hj, hi ∶= 1 𝜇 ∑ j∈E+ i aj 19 / 23
  20. 20. HITS HITS 𝒂 = (ai), 𝒉 = (hi) とすると、この式は次のようになる 𝒂 ∶= 1 𝜆 L𝒉, 𝒉 ∶= 1 𝜇 t L𝒂 ⟹ 𝜆𝜇𝒂 = Lt L𝒂, 𝜆𝜇𝒉 = t LL𝒉 𝒂, 𝒉 は固有値 𝜆𝜇 に属する Lt L, t LL の固有ベクトル 20 / 23
  21. 21. ファジィ集合 ファジィ集合 ある元が集合に属するか属しないかしかない通常の集合 (crisp 集合) に対し て、曖昧な所属を許す集合 メンバシップ関数 𝜇A ある元 x がファジィ集合 A に所属する度合いを表わす [0, 1]-値関数 (通常の集合では常に 𝜇A(x) ∈ {0, 1}) 包含関係 A ⊂ B ⟺ ∀ x, 𝜇A(x) ≤ 𝜇B(x) A = B ⟺ ∀ x, 𝜇A(x) = 𝜇B(x) 21 / 23
  22. 22. ファジィ集合 ファジィ集合の演算 補集合 Ac : 𝜇Ac(x) = 1 − 𝜇A(x) で定義 和集合 A ∪ B: 𝜇A∪B(x) = max{𝜇A(x), 𝜇B(x)} で定義 共通部分 A ∩ B: 𝜇A∩B(x) = min{𝜇A(x), 𝜇B(x)} で定義 全体集合を U としたとき、A がファジィ集合であれば A ∪ Ac = U と は限らない 22 / 23
  23. 23. Reference I Jaime Carbonell and Jade Goldstein. “The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries”. In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1998. doi: 10.1145/290941.291025. Zoltán Gyöngyi, Hector Garcia-Molina, and Jan Pedersen. “Combating Web Spam with Trustrank”. In: Proceedings of the Thirtieth International Conference on Very Large Data Bases - Volume 30. 2004. url: http://dl.acm.org/citation.cfm?id=1316689.1316740. Taher H. Haveliwala. “Topic-sensitive PageRank”. In: Proceedings of the 11th International Conference on World Wide Web. 2002. doi: 10.1145/511446.511513. Kalervo Järvelin and Jaana Kekäläinen. “Cumulated Gain-based Evaluation of IR Techniques”. In: ACM Trans. Inf. Syst. (2002). doi: 10.1145/582415.582418. Jon M. Kleinberg. “Authoritative Sources in a Hyperlinked Environment”. In: J. ACM (1999). doi: 10.1145/324133.324140. Lawrence Page et al. The PageRank Citation Ranking: Bringing Order to the Web. Tech. rep. Stanford InfoLab, 1999. 23 / 23
  24. 24. Reference II J. J. Rocchio. “Relevance Feedback in Information Retrieval”. In: Information Storage and Retrieval: Scientific Report ISR-9 (1965). url: http://www.sigir.org/museum/pdfs/pub-08/XXIII-1.pdf. 24 / 23

×