Tarea 5_ Foro _Selección de herramientas digitales_Manuel.pdf
Evaluacion de Sistemas Inteligentes de Acceso a la Información
1. Evaluación de los SINAI
José Carlos Cortizo Pérez
http://www.esp.uem.es/jccortizo
josecarlos.cortizo@uem.es
Departamento de Sistemas Informáticos
Escuela Superior Politécnica
Universidad Europea de Madrid
2. Índice
Introducción
Colecciones de Datos
Espacio de Documentos
Recall, Precisón, F-measure
Accuracy, ROC/AUC
José Carlos Cortizo Pérez
4. Introducción
¿Por qué evaluar?
Existen muchos modelos y algoritmos para cada tarea, ¿cuál es
el mejor?
Cada sistema se suele componer de varios elementos
ranker, normalización, selección de términos, etc.
¿Qué componente es mejor para cada problema?
¿Cuánto va a tardar un usuario en encontrar la información que
le interesa?
José Carlos Cortizo Pérez
5. Introducción
Dificultades
La relevancia de los documentos es algo difícil de medir
Muchas veces responde a criterios humanos
Subjetividad
Situación (depende de las necesidades actuales)
Cognitivo (depende de la percepción)
Dinámico (cambia con el tiempo)
José Carlos Cortizo Pérez
6. Introducción
Dificultades
La relevancia de los documentos es algo difícil de medir
Muchas veces responde a criterios humanos
Otras muchas, no responde a una mera respuesta SI/NO, si
no que es un valor continuo
José Carlos Cortizo Pérez
7. Introducción
Términos de la Evaluación
Efectividad
Capacidad de satisfacer las necesidades del usuario
Eficiencia
Complejidad teórica
Tiempos de respuesta
Nos centramos en efectividad
José Carlos Cortizo Pérez
8. Introducción
Métricas
Existen múltiples métricas, dependiendo tanto de la tarea
concreta como de otros factores
Casi todas ellas se basan en disponer de una colección de datos
de referencia
José Carlos Cortizo Pérez
11. Colecciones de Datos
¿Qué son?
Una colección de datos es un conjunto de elementos (webs,
correos, artículos, etc.) que han sido revisadas y “etiquetadas”
por humanos
Sirven como referencia a la hora de evaluar SINAIs
Las colecciones dependen, o son específicas, de las tareas a
evaluar
José Carlos Cortizo Pérez
12. Colecciones de Datos
¿De dónde sacarlas?
Existe una gran variedad de colecciones ya “prefabricadas” y,
en muchos casos, ejercen como estándares
José Carlos Cortizo Pérez
13. Colecciones de Datos
Categorización de Texto
Reuters-21578
Reuters-22173
RCV1(Reuters Corpus Volume 1)
TREC-AP
Construcción propia: A partir de DMOZ, categorías de Yahoo!,
catálogos de bibliotecas, etc.
José Carlos Cortizo Pérez
14. Colecciones de Datos
Recuperación de Información
OHSUMED (Medicina)
LISA (Abstracts de ciencia)
TREC
CERC (búsqueda empresarial)
José Carlos Cortizo Pérez
15. Colecciones de Datos
Filtrado de Información
TREC Blogs06
ENRON
Spam Corpus
Spam Assassin Public Corpus
José Carlos Cortizo Pérez
21. Espacio de Documentos
Matriz de Confusión
Recuperados No Recuperados
Relevantes A B
No Relevantes C D
José Carlos Cortizo Pérez
22. Espacio de Documentos
Matriz de Confusión
La matriz de confusión anterior es para un problema de 2 clases
P.e: Recuperados vs. No-Recuperados
Se puede extender el concepto a espacios con N clases
José Carlos Cortizo Pérez
26. Métricas de Recuperación de I.
Recall
Es la proporción entre documentos relevantes recuperados y
documentos relevantes
A mayor recall, el sistema nos devolverá una mayor proporción
de documentos relevantes
recall = A / (A+B)
José Carlos Cortizo Pérez
27. Métricas de Recuperación de I.
Precisión
Es la proporción entre documentos relevantes recuperados y
documentos recuperados
Nos da una idea de lo “buenos” que son los documentos que
nos devuelve el sistema
precision = A / (A + C)
José Carlos Cortizo Pérez
28. Métricas de Recuperación de I.
Recall vs. Precisión
Generalmente recall y precisión son inversamente
proporcionales
punto ideal
Precisión
Recall
José Carlos Cortizo Pérez
29. Métricas de Recuperación de I.
Recall vs. Precisión
Se suele buscar un equilibrio entre métricas
O primar las necesidades del usuario/sistema
P.e. Un médico preferirá mayor recall
Un usuario en Google suele preferir precisión
José Carlos Cortizo Pérez
30. Métricas de Recuperación de I.
Factores adicionales
Varias consultas
Necesidad de promediar
Ranking de documentos
Necesidad de normalizar
José Carlos Cortizo Pérez
31. Métricas de Recuperación de I.
Promedio
2 enfoques
Macroaveraging
Calcular para cada consulta y promediar
Todas las consultas tienen igual importancia
Microaveraging
Sumar tablas para todas las consultas y calcular 1 valor
Consultas con más docs. tienen mayor peso
José Carlos Cortizo Pérez
32. Métricas de Recuperación de I.
Ranking de documentos
Si no hay ranking de documentos, obtenemos sólo 1 valor de
recall y de precisión
Con ranking de documentos, podemos calcular la precisión para
11 niveles de recall (0.0, 0.1...1.0)
Esto devuelve una gráfica que permite analizar el rendimiento
de forma visual
José Carlos Cortizo Pérez
33. Métricas de Recuperación de I.
Ranking de documentos
N # doc relevante
1 588 X R=1/6=0.167; P=1/1=1
2 589 X
3 576
R=2/6=0.333; P=2/2=1
4 590 X R=3/6=0.5; P=3/4=0.75
5 986
6 592 X R=4/6=0.667; P=4/6=0.667
7 984
8 988
9 578
10 985
11 103
12 591
13 772 X R=5/6=0.833; P=5/13=0.38
14 990 José Carlos Cortizo Pérez
34. Métricas de Recuperación de I.
Curva recall/precisión
1,00
0,75
0,50
0,25
0.167
0.333
0.5 0
0.667
0.8333
José Carlos Cortizo Pérez
35. Métricas de Recuperación de I.
Interpolación de la curva recall/precisión
Con el método anterior, logramos valores de recall y precisión
en puntos que no tienen por qué estar justo en valores de recall
pertenecientes a {0.0, 0.1, ..., 1.0}
Para lograr los valores de precisión asociados a estos puntos de
recall, debemos interpolar
José Carlos Cortizo Pérez
36. Métricas de Recuperación de I.
Interpolación de la curva recall/precisión
1,00
0,75
0,50
0,25
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0
0.8 0.9 1.0
José Carlos Cortizo Pérez
37. Métricas de Recuperación de I.
Interpolación de la curva recall/precisión
1,00
1,00
0,75 0,75
0,50 0,50
0,25 0,25
0.0 0.1
0.167 0.2 0.3
0.333 0.4 0.5
0.5 0.6 0.7 0 0
0.667 0.8 0.9
0.8333 1.0
José Carlos Cortizo Pérez
38. Métricas de Recuperación de I.
¿Cómo interpolamos?
La precisión interpolada en el punto de recall estándar j, es el
valor máximo de la precisión para cualquier nivel de recall entre
el j y el (j+1)
José Carlos Cortizo Pérez
39. Métricas de Recuperación de I.
¿Cómo interpolamos?
N # doc relevant recall precisión Recall Precisión
1 588 e
X 0,167 1,0 0,0 1,0
2 589 X 0,333 1,0 0,1 1,0
3 576 0,333 1,0
0,2 1,0
4 590 X 0,5 0,75
5 986 0,5 0,75 0,3 1,0
6 592 X 0,667 0,667 0,4 0,75
7 984 0,667 0,667 0,5 0,75
8 988 0,667 0,667 0,6 0,667
9 578 0,667 0,667 0,7 0,38
10 985 0,667 0,667 0,8 0,38
11 103 0,667 0,667
0,9 0,0
12 591 0,667 0,667
13 772 X 0,833 0,38 1,0 0,0
14 990 0,833 0,38 José Carlos Cortizo Pérez
41. Métricas de Recuperación de I.
R-precision
Es la precisión en la posicion R del ranking de resultados para
una consulta que tiene R documentos relevantes
N #Doc Rel.
1 588 X R = # doc. relevantes = 6
2 589 X
3 576
4 590 X
5 986
6 592 X
R-precision = 4/6 = 0.67
7 984
8 988
9 772 X
José Carlos Cortizo Pérez
42. Métricas de Recuperación de I.
F-Measure
Es una métrica que tiene en cuenta tanto el Recall como la
precisión
Es la media harmónica del recall y la precisión
2·P·R 2
F= =
P+R (1/R) + (1/P)
José Carlos Cortizo Pérez
43. Métricas de Recuperación de I.
E-Measure
Es una variante de la F-measure que permite establecer pesos
(énfasis) para la precisión y el recall
E= (1+ β2)PR (1+ β2)
2P+R
= 2
β (β /R) + (1/P)
Los valores de β controlan el “trade-off” entre recall y precisión
β = 1 : Igual peso para recall y precisión
β > 1 : Mayor peso para el recall
β < 1 : Mayor peso para la precisión José Carlos Cortizo Pérez
46. Métricas de Recuperación de I.
Otras métricas
El recall, precisión, F y E, son métricas aptas para la
recuperación de información
También para el filtrado, ya que se puede ver como una
especie de recuperación
Sin embargo, otras tareas necesitan de otras métricas más
adecuadas
José Carlos Cortizo Pérez
48. Métricas de Recuperación de I.
Notación
TP es el número de instancias que pertenecen a la clase (+), que
el clasificador ha clasificado como (+)
TN es el número de instancias que pertenencen a la clase (-),
que el clasificador ha clasificado como (-)
FP es el número de instancias que pertenecen a la clase (-) pero
que el clasificador ha clasificado como (+)
FN es el número de instancias que pertenecen a la clase (+)
pero que el clasificador ha clasificado como (-)
José Carlos Cortizo Pérez
49. Métricas de Recuperación de I.
Notación
π0 es la probabilidad a priori de la clase (+)
π0 es la probabilidad a priori de la clase (-)
p0 es la proporción de veces que el clasificador predice (+)
p1 es la proporción de veces que el clasificador predice (-)
p1 = 1 - p0
José Carlos Cortizo Pérez
50. Métricas de Recuperación de I.
Ratios básicos
tprate = TP / π0 hit rate, recall, sensivity
fprate = FP / π1 false alarm rate, especifity
precision = TP / TP + FP
accuracy = ( TP + TN ) / (π0 + π1)
accuracy es precisión clasificadora, no confundir con
precisión normal
José Carlos Cortizo Pérez
51. Métricas de Recuperación de I.
Accuracy vs Precisión
↑accuracy, ↓precisión ↑precisión, ↓accuracy
José Carlos Cortizo Pérez
52. Métricas de Recuperación de I.
Curva ROC
Las curvas ROC han sido ampliamente utilizadas en el
diagnóstico médico para visualizar y analizar el comportamiento
de los sistemas de diagnóstico
Permiten comparar el rendimiento de un clasificador para un
gran rango de costes de error y distribución de clases
José Carlos Cortizo Pérez
55. Métricas de Recuperación de I.
Curva ROC
Si solo tengo un valor de TPR y FPR, solo tengo un punto en el
espacio ROC
Con clasificadores probabilísticos, además de la clasificación de
cada instancia, tenemos la probabilidad, si ordenamos los
resultados en función de la probabilidad...
José Carlos Cortizo Pérez
57. Métricas de Recuperación de I.
AUC
Comparar gráficas resulta complicado, sobre todo cuándo una
no está siempre por encima de otra
AUC es el área bajo la curva, que nos permite tener un valor
único que refleje lo “buena” o “mala” que pueda ser una
clasificación
José Carlos Cortizo Pérez
59. Bibliografía
Adicional
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca
UEM, edificio C).
Raymond Mooney. Performance Evaluation of Information
Retrieval Systems. Tema 4 de su curso en IR.
http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt
José Carlos Cortizo Pérez