SlideShare una empresa de Scribd logo
1 de 36
Descargar para leer sin conexión
Introduction to Information Retrieval




             Introduction to
          Information Retrieval
                           Joongjin Bae(@bae_j)
              Chapter 8 : Evaluation in Information Retrieval
                      http://baepiff.blogspot.com/
Introduction to Information Retrieval




     Overview
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      2
Introduction to Information Retrieval




     Outline
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      3
Introduction to Information Retrieval    Sec. 8.1




     IR system evaluation
             検索結果の満足度は関連性で判断できる。
             関連性(relevance)のどうやって評価するの?
             具体的評価方法は後ろのスライドで説明する。
             関連性評価の3要素:
             1. document collection
             2. suite of queries(検索単語)
             3. 各クエリとドキュメントペアに対して関連か非関連か
                のbinary assessment判断集合



                                                    4
Introduction to Information Retrieval   Sec. 8.1




     IR system evaluation
      情報要求(information need) はクエリ(query)として
       検索される。
      関連性の評価は情報要求に対して行う。クエリでは
       ない。
      例) 情報要求: オフィス近くに安くて美味しいランチ
       が食べたい
      クエリ: 渋谷 and 安い and ランチ




                                                   5
Introduction to Information Retrieval




     Outline
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      6
Introduction to Information Retrieval       Sec. 8.2




     Standard test collections
      TREC - National Institute of Standards and
       Technology (NIST)は1992年からIR用テストベッドを運
       用している。
      Reutersとその他のtest collectionも利用されている。
      人力で各クエリと文書ペアの関連性判断が行われ
       る。




                                                       7
Introduction to Information Retrieval




     Outline
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      8
Introduction to Information Retrieval                              Sec. 8.3




     Precision and Recall
      Precision: 取得した文書の正解率(関連性) =
       P(relevant|retrieved)
      Recall: 関連がある全文書から取得した文書の比率
       = P(retrieved|relevant)
                                        Relevant     Nonrelevant
                  Retrieved             tp           fp
                  Not Retrieved         fn           tn


                                Precision P = tp/(tp + fp)
                                Recall R = tp/(tp + fn)                      9
Introduction to Information Retrieval   Sec. 8.3




     Accuracy
      accuracy:
         (tp + tn) / ( tp + fp + fn + tn)
      accuracyは機会学習では評価手段として利用される。
      IRの文書は99.9%がユーザの情報要求に対して非
       関連
      accuracyは全ての文書を非関連することで最大化で
       きる。



                                               10
Introduction to Information Retrieval   Sec. 8.3




     Precision/Recall trade off
         Recallは全ての文書を取得することで上げられる。
          ただPrecisionは低い。
         Precisionは取得する文書を減らせば上げられる。
         PrecisionとRecallはトレードオフ




                                               11
Introduction to Information Retrieval               Sec. 8.3




     F measure
         Precisionとrecallの重み付き調和平均:


                                      (   1) PR
                                        1   2
                  F                
                      1
                       (1   )
                                  1      PR
                                         2

                      P           R
         多くはbalanced F1 measureを利用
              i.e., with  = 1 or  = ½
          < 1はPrecision強調
          > 1はRecall強調
                                                           12
Introduction to Information Retrieval                                            Sec. 8.3




     F1 and other averages
                                        Combined Measures

                100

                 80                                                 Minimum
                                                                    Maximum
                 60
                                                                    Arithmetic
                 40                                                 Geometric
                                                                    Harmonic
                 20

                   0
                       0      20        40    60      80      100
                            Precision (Recall fixed at 70%)

                                                                                        13
Introduction to Information Retrieval




     Outline
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      14
Introduction to Information Retrieval           Sec. 8.4




     Evaluating ranked results
      Evaluation of ranked results:
            Precision, RecallとF measureは全ての文書集合に対する
             評価指標
            ランク付き検索結果は上位k件によってPrecisionとRecall
             が変わる。
            その集合に対してPrecisionとRecallの値を計算したのが
             precision-recall curve




                                                       15
Introduction to Information Retrieval                                 Sec. 8.4




     precision-recall curve

                                1.0

                                0.8
                    Precision




                                0.6

                                0.4

                                0.2

                                0.0
                                      0.0   0.2   0.4    0.6   0.8   1.0
                                                    Recall
                                                                             16
Introduction to Information Retrieval   Sec. 8.4




     Interpolated precision
      グラフからノコギリの歯型を取り除くために補間適合
       率(interpolated precision)を利用
      簡単に言えばPrecisionの最大値




                                               17
Introduction to Information Retrieval                        Sec. 8.4




     Evaluation
         グラフはいいけど要約したmeasureもほしい!
         11-point interpolated average precision
              The standard measure in the early TREC competitions:
               recallを0から1まで0.1刻む。各ポイントでは補間適合率
               測定する。




                                                                    18
Introduction to Information Retrieval                                                 Sec. 8.4




     Typical (good) 11 point precisions

                                        1



                                       0.8



                                       0.6
                           Precision




                                       0.4



                                       0.2



                                        0
                                             0   0.2   0.4            0.6   0.8   1
                                                             Recall
                                                                                             19
Introduction to Information Retrieval   Sec. 8.4




    Precision@K
     Set a rank threshold K

     上位K件の関連性の%計算

     K+1からは無視
                                   R
     Ex:
           Prec@3 of 2/3
           Prec@4 of 2/4
           Prec@5 of 3/5


                                               20
Introduction to Information Retrieval              Sec. 8.4



    Mean Average Precision
     各適合文書(relevant doc)のランクを付ける。
           K1, K2, … KR

     各適合文書のPrecision@Kを計算する。
     Average precision = average of Precision@K

     Ex:

     MAPは複数のクエリ/ランクをまたがるAverage
      Precisionである。


                                                          21
Introduction to Information Retrieval   Sec. 8.4




     Average Precision




                                               22
Introduction to Information Retrieval   Sec. 8.4




     MAP




                                               23
Introduction to Information Retrieval      Sec. 8.4




     Mean average precision
            適合文書がない場合MAP = 0
            MAPは算術平均である。
            最も一般的評価方法
            MAPはユーザが各クエリに対して適合文書を多く取得す
             るのを好むと想定する。
            MAPは text collectionの関連性判断を多く要求する。




                                                  24
Introduction to Information Retrieval                Sec. 8.4




     R-precision
      Rel = set of known relevant documents
      検索結果上位|Rel|件からr件の正解が得られたら
                         𝑟
         R-precision =
                       |𝑅𝑒𝑙|
      完璧なシステムなら = 1
              Doc = 100, Rel = 8, k = 20
              完璧なシステムではr = 8
              Precision@K = r / k = 8 / 20 = 0.4
              R-precision = r / |Rel| = 8 / 8 = 1


                                                            25
Introduction to Information Retrieval        Sec. 8.4




     ROC curve and NDCG
      ROC
            yを recall、yを false-positive 率
             ( fp / (fp + tn) )
            いいシステムは右の図のように
             なる。
      NDCG
            機械学習によるランク付ける際よく利用される。




                                                    26
Introduction to Information Retrieval




     Outline
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      27
Introduction to Information Retrieval       Sec. 8.5




     Assessing relevance
      Test queries
            文書に対して適切
            ドメイン専門家によるデザインがBest!
            Random queryはnot a good idea
      Relevance assessments
            人間の判断, コストがかかる。
            人間は完璧ではない。
      Kappa statistic
            関連性の判断にそれらがどれくらい一致するかを測定す
             る必要がある。

                                                   28
Introduction to Information Retrieval              Sec. 8.5




     Kappa statistic
         Kappa statistic
              判定の一致度
              カテゴリーの判定に対してデザイン
              偶然の一致の割合に基づいて単純な一致度の割合を補正
               Corrects for chance agreement
         Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
         P(A) – 判定が一致した回数の比率
          proportion of time judges agree
         P(E) – 偶然により一致すると期待される回数の比率
         Kappa = 0 = 偶然, 1 = 完全に合意よる一致.

                                                          29
Introduction to Information Retrieval                                Sec. 8.5




     Kappa Example
         Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]          Judge 2
                                                   Judg         Rele Non Tota
                                                   e1           van -Rel l
                                                                ce
                                                          Rele 300   20   320
                                                          van
                                                          ce
                                                          Non 10     70   80
                                                          -Rel
                                                          Tota 310   90   400
                                                          l




                                                                            30
Introduction to Information Retrieval                                Sec. 8.5




     Kappa Example
         Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]          Judge 2
                     300+70                        Judg         Rele Non Tota
         𝑃      𝐴 =        = 0.925                e1           van -Rel l
                       400
                                                                ce
                        10+20+70+70
         𝑃      𝑛𝑜𝑛 =              = 0.2125              Rele 300   20   320
                            800
                                                          van
                       10+20+300+300
         𝑃      𝑟𝑒𝑙 =               = 0.7878             ce
                            800
                                                          Non 10     70   80
                                                          -Rel
                                                          Tota 310   90   400
                                                          l




                                                                            31
Introduction to Information Retrieval                                        Sec. 8.5




     Kappa Example
         Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]                  Judge 2
                     300+70                                Judg         Rele Non Tota
         𝑃      𝐴 =        = 0.925                        e1           van -Rel l
                       400
                                                                        ce
                        10+20+70+70
         𝑃      𝑛𝑜𝑛 =              = 0.2125                      Rele 300   20   320
                            800
                                                                  van
                       10+20+300+300
         𝑃      𝑟𝑒𝑙 =               = 0.7878                     ce
                            800
                                                                  Non 10     70   80
         𝑃      𝐸 = 𝑃 𝑟𝑒𝑙 2 + 𝑃 𝑛𝑜𝑛 2 =                          -Rel
          0.21252 + 0.78782 = 0.665                               Tota 310   90   400
                     𝑃 𝐴 −𝑃(𝐸)          0.925 −0.665              l
            𝐾=                    =                   =
                      1−𝑃(𝐸)               1−0.665
            0.776


                                                                                    32
Introduction to Information Retrieval                Sec. 8.5




     Kappa statistic
         Interpretation of the kappa statistic k:
              k > 0.8 good agreement
              0.67 <= k < 0.8 fair agreement
              k < 0.67 bad agreement




                                                            33
Introduction to Information Retrieval




     Outline
     I.     Information retrieval system evaluation
     II.    Standard test collections
     III.   Evaluation for unranked retrieval
     IV.    Evaluation for ranked retrieval
     V.     Assessing relevance
     VI.    System quality and user utility



                                                      34
Introduction to Information Retrieval                Sec. 8.6




     System quality and user utility
      System issues
            How fast does it index?
            How fast does it search?
            How expressive is its query language?
             How fast is it on complex queries?
            How large is its document collection?
      User utility – ユーザの幸福度の測定
            www:ユーザが探す結果を得たのか、また利用するか
            エンタプライズ:必要情報を探すまでの時間
      Refining a deployed system
            A/B test
                                                            35
Introduction to Information Retrieval




     Reference
      IIR Chapter 8
      http://www.stanford.edu/class/cs276/handouts/lect
       ure8-evaluation.ppt
      http://bloghackers.net/~naoya/iir/ppt/
      http://www.stanford.edu/class/cs276/handouts/Eval
       uationNew.ppt




                                                       36

Más contenido relacionado

Último

世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラムKochi Eng Camp
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料Tokyo Institute of Technology
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~Kochi Eng Camp
 

Último (8)

世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
世界を変えるクレーンを生み出そう! 高知エンジニアリングキャンプ2024プログラム
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
次世代機の製品コンセプトを描く ~未来の機械を創造してみよう~
 

Destacado

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Destacado (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Chapter 8 : Evaluation in Information Retrieval

  • 1. Introduction to Information Retrieval Introduction to Information Retrieval Joongjin Bae(@bae_j) Chapter 8 : Evaluation in Information Retrieval http://baepiff.blogspot.com/
  • 2. Introduction to Information Retrieval Overview I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 2
  • 3. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 3
  • 4. Introduction to Information Retrieval Sec. 8.1 IR system evaluation  検索結果の満足度は関連性で判断できる。  関連性(relevance)のどうやって評価するの?  具体的評価方法は後ろのスライドで説明する。  関連性評価の3要素: 1. document collection 2. suite of queries(検索単語) 3. 各クエリとドキュメントペアに対して関連か非関連か のbinary assessment判断集合 4
  • 5. Introduction to Information Retrieval Sec. 8.1 IR system evaluation  情報要求(information need) はクエリ(query)として 検索される。  関連性の評価は情報要求に対して行う。クエリでは ない。  例) 情報要求: オフィス近くに安くて美味しいランチ が食べたい  クエリ: 渋谷 and 安い and ランチ 5
  • 6. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 6
  • 7. Introduction to Information Retrieval Sec. 8.2 Standard test collections  TREC - National Institute of Standards and Technology (NIST)は1992年からIR用テストベッドを運 用している。  Reutersとその他のtest collectionも利用されている。  人力で各クエリと文書ペアの関連性判断が行われ る。 7
  • 8. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 8
  • 9. Introduction to Information Retrieval Sec. 8.3 Precision and Recall  Precision: 取得した文書の正解率(関連性) = P(relevant|retrieved)  Recall: 関連がある全文書から取得した文書の比率 = P(retrieved|relevant) Relevant Nonrelevant Retrieved tp fp Not Retrieved fn tn  Precision P = tp/(tp + fp)  Recall R = tp/(tp + fn) 9
  • 10. Introduction to Information Retrieval Sec. 8.3 Accuracy  accuracy: (tp + tn) / ( tp + fp + fn + tn)  accuracyは機会学習では評価手段として利用される。  IRの文書は99.9%がユーザの情報要求に対して非 関連  accuracyは全ての文書を非関連することで最大化で きる。 10
  • 11. Introduction to Information Retrieval Sec. 8.3 Precision/Recall trade off  Recallは全ての文書を取得することで上げられる。 ただPrecisionは低い。  Precisionは取得する文書を減らせば上げられる。  PrecisionとRecallはトレードオフ 11
  • 12. Introduction to Information Retrieval Sec. 8.3 F measure  Precisionとrecallの重み付き調和平均: (   1) PR 1 2 F  1   (1   ) 1  PR 2 P R  多くはbalanced F1 measureを利用  i.e., with  = 1 or  = ½   < 1はPrecision強調   > 1はRecall強調 12
  • 13. Introduction to Information Retrieval Sec. 8.3 F1 and other averages Combined Measures 100 80 Minimum Maximum 60 Arithmetic 40 Geometric Harmonic 20 0 0 20 40 60 80 100 Precision (Recall fixed at 70%) 13
  • 14. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 14
  • 15. Introduction to Information Retrieval Sec. 8.4 Evaluating ranked results  Evaluation of ranked results:  Precision, RecallとF measureは全ての文書集合に対する 評価指標  ランク付き検索結果は上位k件によってPrecisionとRecall が変わる。  その集合に対してPrecisionとRecallの値を計算したのが precision-recall curve 15
  • 16. Introduction to Information Retrieval Sec. 8.4 precision-recall curve 1.0 0.8 Precision 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Recall 16
  • 17. Introduction to Information Retrieval Sec. 8.4 Interpolated precision  グラフからノコギリの歯型を取り除くために補間適合 率(interpolated precision)を利用  簡単に言えばPrecisionの最大値 17
  • 18. Introduction to Information Retrieval Sec. 8.4 Evaluation  グラフはいいけど要約したmeasureもほしい!  11-point interpolated average precision  The standard measure in the early TREC competitions: recallを0から1まで0.1刻む。各ポイントでは補間適合率 測定する。 18
  • 19. Introduction to Information Retrieval Sec. 8.4 Typical (good) 11 point precisions 1 0.8 0.6 Precision 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Recall 19
  • 20. Introduction to Information Retrieval Sec. 8.4 Precision@K  Set a rank threshold K  上位K件の関連性の%計算  K+1からは無視 R  Ex:  Prec@3 of 2/3  Prec@4 of 2/4  Prec@5 of 3/5 20
  • 21. Introduction to Information Retrieval Sec. 8.4 Mean Average Precision  各適合文書(relevant doc)のランクを付ける。  K1, K2, … KR  各適合文書のPrecision@Kを計算する。  Average precision = average of Precision@K  Ex:  MAPは複数のクエリ/ランクをまたがるAverage Precisionである。 21
  • 22. Introduction to Information Retrieval Sec. 8.4 Average Precision 22
  • 23. Introduction to Information Retrieval Sec. 8.4 MAP 23
  • 24. Introduction to Information Retrieval Sec. 8.4 Mean average precision  適合文書がない場合MAP = 0  MAPは算術平均である。  最も一般的評価方法  MAPはユーザが各クエリに対して適合文書を多く取得す るのを好むと想定する。  MAPは text collectionの関連性判断を多く要求する。 24
  • 25. Introduction to Information Retrieval Sec. 8.4 R-precision  Rel = set of known relevant documents  検索結果上位|Rel|件からr件の正解が得られたら 𝑟 R-precision = |𝑅𝑒𝑙|  完璧なシステムなら = 1  Doc = 100, Rel = 8, k = 20  完璧なシステムではr = 8  Precision@K = r / k = 8 / 20 = 0.4  R-precision = r / |Rel| = 8 / 8 = 1 25
  • 26. Introduction to Information Retrieval Sec. 8.4 ROC curve and NDCG  ROC  yを recall、yを false-positive 率 ( fp / (fp + tn) )  いいシステムは右の図のように なる。  NDCG  機械学習によるランク付ける際よく利用される。 26
  • 27. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 27
  • 28. Introduction to Information Retrieval Sec. 8.5 Assessing relevance  Test queries  文書に対して適切  ドメイン専門家によるデザインがBest!  Random queryはnot a good idea  Relevance assessments  人間の判断, コストがかかる。  人間は完璧ではない。  Kappa statistic  関連性の判断にそれらがどれくらい一致するかを測定す る必要がある。 28
  • 29. Introduction to Information Retrieval Sec. 8.5 Kappa statistic  Kappa statistic  判定の一致度  カテゴリーの判定に対してデザイン  偶然の一致の割合に基づいて単純な一致度の割合を補正 Corrects for chance agreement  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]  P(A) – 判定が一致した回数の比率 proportion of time judges agree  P(E) – 偶然により一致すると期待される回数の比率  Kappa = 0 = 偶然, 1 = 完全に合意よる一致. 29
  • 30. Introduction to Information Retrieval Sec. 8.5 Kappa Example  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2 Judg Rele Non Tota e1 van -Rel l ce Rele 300 20 320 van ce Non 10 70 80 -Rel Tota 310 90 400 l 30
  • 31. Introduction to Information Retrieval Sec. 8.5 Kappa Example  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2 300+70 Judg Rele Non Tota  𝑃 𝐴 = = 0.925 e1 van -Rel l 400 ce 10+20+70+70  𝑃 𝑛𝑜𝑛 = = 0.2125 Rele 300 20 320 800 van 10+20+300+300  𝑃 𝑟𝑒𝑙 = = 0.7878 ce 800 Non 10 70 80 -Rel Tota 310 90 400 l 31
  • 32. Introduction to Information Retrieval Sec. 8.5 Kappa Example  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2 300+70 Judg Rele Non Tota  𝑃 𝐴 = = 0.925 e1 van -Rel l 400 ce 10+20+70+70  𝑃 𝑛𝑜𝑛 = = 0.2125 Rele 300 20 320 800 van 10+20+300+300  𝑃 𝑟𝑒𝑙 = = 0.7878 ce 800 Non 10 70 80  𝑃 𝐸 = 𝑃 𝑟𝑒𝑙 2 + 𝑃 𝑛𝑜𝑛 2 = -Rel 0.21252 + 0.78782 = 0.665 Tota 310 90 400 𝑃 𝐴 −𝑃(𝐸) 0.925 −0.665 l  𝐾= = = 1−𝑃(𝐸) 1−0.665 0.776 32
  • 33. Introduction to Information Retrieval Sec. 8.5 Kappa statistic  Interpretation of the kappa statistic k:  k > 0.8 good agreement  0.67 <= k < 0.8 fair agreement  k < 0.67 bad agreement 33
  • 34. Introduction to Information Retrieval Outline I. Information retrieval system evaluation II. Standard test collections III. Evaluation for unranked retrieval IV. Evaluation for ranked retrieval V. Assessing relevance VI. System quality and user utility 34
  • 35. Introduction to Information Retrieval Sec. 8.6 System quality and user utility  System issues  How fast does it index?  How fast does it search?  How expressive is its query language? How fast is it on complex queries?  How large is its document collection?  User utility – ユーザの幸福度の測定  www:ユーザが探す結果を得たのか、また利用するか  エンタプライズ:必要情報を探すまでの時間  Refining a deployed system  A/B test 35
  • 36. Introduction to Information Retrieval Reference  IIR Chapter 8  http://www.stanford.edu/class/cs276/handouts/lect ure8-evaluation.ppt  http://bloghackers.net/~naoya/iir/ppt/  http://www.stanford.edu/class/cs276/handouts/Eval uationNew.ppt 36