Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Chapter 8 : Evaluation in Information Retrieval
1. Introduction to Information Retrieval
Introduction to
Information Retrieval
Joongjin Bae(@bae_j)
Chapter 8 : Evaluation in Information Retrieval
http://baepiff.blogspot.com/
2. Introduction to Information Retrieval
Overview
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
2
3. Introduction to Information Retrieval
Outline
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
3
4. Introduction to Information Retrieval Sec. 8.1
IR system evaluation
検索結果の満足度は関連性で判断できる。
関連性(relevance)のどうやって評価するの?
具体的評価方法は後ろのスライドで説明する。
関連性評価の3要素:
1. document collection
2. suite of queries(検索単語)
3. 各クエリとドキュメントペアに対して関連か非関連か
のbinary assessment判断集合
4
5. Introduction to Information Retrieval Sec. 8.1
IR system evaluation
情報要求(information need) はクエリ(query)として
検索される。
関連性の評価は情報要求に対して行う。クエリでは
ない。
例) 情報要求: オフィス近くに安くて美味しいランチ
が食べたい
クエリ: 渋谷 and 安い and ランチ
5
6. Introduction to Information Retrieval
Outline
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
6
7. Introduction to Information Retrieval Sec. 8.2
Standard test collections
TREC - National Institute of Standards and
Technology (NIST)は1992年からIR用テストベッドを運
用している。
Reutersとその他のtest collectionも利用されている。
人力で各クエリと文書ペアの関連性判断が行われ
る。
7
8. Introduction to Information Retrieval
Outline
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
8
9. Introduction to Information Retrieval Sec. 8.3
Precision and Recall
Precision: 取得した文書の正解率(関連性) =
P(relevant|retrieved)
Recall: 関連がある全文書から取得した文書の比率
= P(retrieved|relevant)
Relevant Nonrelevant
Retrieved tp fp
Not Retrieved fn tn
Precision P = tp/(tp + fp)
Recall R = tp/(tp + fn) 9
11. Introduction to Information Retrieval Sec. 8.3
Precision/Recall trade off
Recallは全ての文書を取得することで上げられる。
ただPrecisionは低い。
Precisionは取得する文書を減らせば上げられる。
PrecisionとRecallはトレードオフ
11
12. Introduction to Information Retrieval Sec. 8.3
F measure
Precisionとrecallの重み付き調和平均:
( 1) PR
1 2
F
1
(1 )
1 PR
2
P R
多くはbalanced F1 measureを利用
i.e., with = 1 or = ½
< 1はPrecision強調
> 1はRecall強調
12
13. Introduction to Information Retrieval Sec. 8.3
F1 and other averages
Combined Measures
100
80 Minimum
Maximum
60
Arithmetic
40 Geometric
Harmonic
20
0
0 20 40 60 80 100
Precision (Recall fixed at 70%)
13
14. Introduction to Information Retrieval
Outline
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
14
15. Introduction to Information Retrieval Sec. 8.4
Evaluating ranked results
Evaluation of ranked results:
Precision, RecallとF measureは全ての文書集合に対する
評価指標
ランク付き検索結果は上位k件によってPrecisionとRecall
が変わる。
その集合に対してPrecisionとRecallの値を計算したのが
precision-recall curve
15
16. Introduction to Information Retrieval Sec. 8.4
precision-recall curve
1.0
0.8
Precision
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Recall
16
17. Introduction to Information Retrieval Sec. 8.4
Interpolated precision
グラフからノコギリの歯型を取り除くために補間適合
率(interpolated precision)を利用
簡単に言えばPrecisionの最大値
17
18. Introduction to Information Retrieval Sec. 8.4
Evaluation
グラフはいいけど要約したmeasureもほしい!
11-point interpolated average precision
The standard measure in the early TREC competitions:
recallを0から1まで0.1刻む。各ポイントでは補間適合率
測定する。
18
19. Introduction to Information Retrieval Sec. 8.4
Typical (good) 11 point precisions
1
0.8
0.6
Precision
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
Recall
19
20. Introduction to Information Retrieval Sec. 8.4
Precision@K
Set a rank threshold K
上位K件の関連性の%計算
K+1からは無視
R
Ex:
Prec@3 of 2/3
Prec@4 of 2/4
Prec@5 of 3/5
20
21. Introduction to Information Retrieval Sec. 8.4
Mean Average Precision
各適合文書(relevant doc)のランクを付ける。
K1, K2, … KR
各適合文書のPrecision@Kを計算する。
Average precision = average of Precision@K
Ex:
MAPは複数のクエリ/ランクをまたがるAverage
Precisionである。
21
24. Introduction to Information Retrieval Sec. 8.4
Mean average precision
適合文書がない場合MAP = 0
MAPは算術平均である。
最も一般的評価方法
MAPはユーザが各クエリに対して適合文書を多く取得す
るのを好むと想定する。
MAPは text collectionの関連性判断を多く要求する。
24
25. Introduction to Information Retrieval Sec. 8.4
R-precision
Rel = set of known relevant documents
検索結果上位|Rel|件からr件の正解が得られたら
𝑟
R-precision =
|𝑅𝑒𝑙|
完璧なシステムなら = 1
Doc = 100, Rel = 8, k = 20
完璧なシステムではr = 8
Precision@K = r / k = 8 / 20 = 0.4
R-precision = r / |Rel| = 8 / 8 = 1
25
26. Introduction to Information Retrieval Sec. 8.4
ROC curve and NDCG
ROC
yを recall、yを false-positive 率
( fp / (fp + tn) )
いいシステムは右の図のように
なる。
NDCG
機械学習によるランク付ける際よく利用される。
26
27. Introduction to Information Retrieval
Outline
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
27
28. Introduction to Information Retrieval Sec. 8.5
Assessing relevance
Test queries
文書に対して適切
ドメイン専門家によるデザインがBest!
Random queryはnot a good idea
Relevance assessments
人間の判断, コストがかかる。
人間は完璧ではない。
Kappa statistic
関連性の判断にそれらがどれくらい一致するかを測定す
る必要がある。
28
29. Introduction to Information Retrieval Sec. 8.5
Kappa statistic
Kappa statistic
判定の一致度
カテゴリーの判定に対してデザイン
偶然の一致の割合に基づいて単純な一致度の割合を補正
Corrects for chance agreement
Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
P(A) – 判定が一致した回数の比率
proportion of time judges agree
P(E) – 偶然により一致すると期待される回数の比率
Kappa = 0 = 偶然, 1 = 完全に合意よる一致.
29
30. Introduction to Information Retrieval Sec. 8.5
Kappa Example
Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2
Judg Rele Non Tota
e1 van -Rel l
ce
Rele 300 20 320
van
ce
Non 10 70 80
-Rel
Tota 310 90 400
l
30
31. Introduction to Information Retrieval Sec. 8.5
Kappa Example
Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2
300+70 Judg Rele Non Tota
𝑃 𝐴 = = 0.925 e1 van -Rel l
400
ce
10+20+70+70
𝑃 𝑛𝑜𝑛 = = 0.2125 Rele 300 20 320
800
van
10+20+300+300
𝑃 𝑟𝑒𝑙 = = 0.7878 ce
800
Non 10 70 80
-Rel
Tota 310 90 400
l
31
32. Introduction to Information Retrieval Sec. 8.5
Kappa Example
Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ] Judge 2
300+70 Judg Rele Non Tota
𝑃 𝐴 = = 0.925 e1 van -Rel l
400
ce
10+20+70+70
𝑃 𝑛𝑜𝑛 = = 0.2125 Rele 300 20 320
800
van
10+20+300+300
𝑃 𝑟𝑒𝑙 = = 0.7878 ce
800
Non 10 70 80
𝑃 𝐸 = 𝑃 𝑟𝑒𝑙 2 + 𝑃 𝑛𝑜𝑛 2 = -Rel
0.21252 + 0.78782 = 0.665 Tota 310 90 400
𝑃 𝐴 −𝑃(𝐸) 0.925 −0.665 l
𝐾= = =
1−𝑃(𝐸) 1−0.665
0.776
32
33. Introduction to Information Retrieval Sec. 8.5
Kappa statistic
Interpretation of the kappa statistic k:
k > 0.8 good agreement
0.67 <= k < 0.8 fair agreement
k < 0.67 bad agreement
33
34. Introduction to Information Retrieval
Outline
I. Information retrieval system evaluation
II. Standard test collections
III. Evaluation for unranked retrieval
IV. Evaluation for ranked retrieval
V. Assessing relevance
VI. System quality and user utility
34
35. Introduction to Information Retrieval Sec. 8.6
System quality and user utility
System issues
How fast does it index?
How fast does it search?
How expressive is its query language?
How fast is it on complex queries?
How large is its document collection?
User utility – ユーザの幸福度の測定
www:ユーザが探す結果を得たのか、また利用するか
エンタプライズ:必要情報を探すまでの時間
Refining a deployed system
A/B test
35
36. Introduction to Information Retrieval
Reference
IIR Chapter 8
http://www.stanford.edu/class/cs276/handouts/lect
ure8-evaluation.ppt
http://bloghackers.net/~naoya/iir/ppt/
http://www.stanford.edu/class/cs276/handouts/Eval
uationNew.ppt
36