Evaluacion de Sistemas Inteligentes de Acceso a la Información

Evaluación de los SINAI

José Carlos Cortizo Pérez
http://www.esp.uem.es/jccortizo
josecarlos.cortizo@uem.es

Departamento de Sistemas Informáticos
Escuela Superior Politécnica
Universidad Europea de Madrid

Índice

Introducción
Colecciones de Datos
Espacio de Documentos
Recall, Precisón, F-measure
Accuracy, ROC/AUC


Sistemas Inteligentes de Acceso a
la Información

Introducción

Introducción
¿Por qué evaluar?

Existen muchos modelos y algoritmos para cada tarea, ¿cuál es
el mejor?
Cada sistema se suele componer de varios elementos
ranker, normalización, selección de términos, etc.
¿Qué componente es mejor para cada problema?
¿Cuánto va a tardar un usuario en encontrar la información que
le interesa?

Introducción
Diﬁcultades

La relevancia de los documentos es algo difícil de medir
Muchas veces responde a criterios humanos
Subjetividad
Situación (depende de las necesidades actuales)
Cognitivo (depende de la percepción)
Dinámico (cambia con el tiempo)

Introducción
Diﬁcultades

La relevancia de los documentos es algo difícil de medir
Muchas veces responde a criterios humanos
Otras muchas, no responde a una mera respuesta SI/NO, si
no que es un valor continuo


Introducción
Términos de la Evaluación

Efectividad
Capacidad de satisfacer las necesidades del usuario
Eﬁciencia
Complejidad teórica
Tiempos de respuesta
Nos centramos en efectividad

Introducción
Métricas

Existen múltiples métricas, dependiendo tanto de la tarea
concreta como de otros factores
Casi todas ellas se basan en disponer de una colección de datos
de referencia


¿Alguna pregunta?


la Información


¿Qué son?

Una colección de datos es un conjunto de elementos (webs,
correos, artículos, etc.) que han sido revisadas y “etiquetadas”
por humanos
Sirven como referencia a la hora de evaluar SINAIs
Las colecciones dependen, o son especíﬁcas, de las tareas a
evaluar


¿De dónde sacarlas?

Existe una gran variedad de colecciones ya “prefabricadas” y,
en muchos casos, ejercen como estándares


Categorización de Texto

Reuters-21578
Reuters-22173
RCV1(Reuters Corpus Volume 1)
TREC-AP
Construcción propia: A partir de DMOZ, categorías de Yahoo!,
catálogos de bibliotecas, etc.


Recuperación de Información

OHSUMED (Medicina)
LISA (Abstracts de ciencia)
TREC
CERC (búsqueda empresarial)


Filtrado de Información

TREC Blogs06
ENRON
Spam Corpus
Spam Assassin Public Corpus


Recomendación

Netﬂix
Auto-creadas a partir de Flickr, Amazon, etc.


la Información



Colección de documentos

Relevantes Recuperados


No Recuperados

Relevantes
A B

C D


Matriz de Confusión

Recuperados No Recuperados

Relevantes A B

No Relevantes C D



La matriz de confusión anterior es para un problema de 2 clases
P.e: Recuperados vs. No-Recuperados
Se puede extender el concepto a espacios con N clases


la Información

Recall, Precisión, F-Measure

Métricas de Recuperación de I.
Recall

Es la proporción entre documentos relevantes recuperados y
documentos relevantes
A mayor recall, el sistema nos devolverá una mayor proporción
de documentos relevantes
recall = A / (A+B)


Precisión

Es la proporción entre documentos relevantes recuperados y
documentos recuperados
Nos da una idea de lo “buenos” que son los documentos que
nos devuelve el sistema
precision = A / (A + C)


Recall vs. Precisión

Generalmente recall y precisión son inversamente
proporcionales
punto ideal
Precisión

Recall

Recall vs. Precisión

Se suele buscar un equilibrio entre métricas
O primar las necesidades del usuario/sistema
P.e. Un médico preferirá mayor recall
Un usuario en Google suele preferir precisión


Factores adicionales

Varias consultas
Necesidad de promediar
Ranking de documentos
Necesidad de normalizar


Promedio

2 enfoques
Macroaveraging
Calcular para cada consulta y promediar
Todas las consultas tienen igual importancia
Microaveraging
Sumar tablas para todas las consultas y calcular 1 valor
Consultas con más docs. tienen mayor peso


Si no hay ranking de documentos, obtenemos sólo 1 valor de
recall y de precisión
Con ranking de documentos, podemos calcular la precisión para
11 niveles de recall (0.0, 0.1...1.0)
Esto devuelve una gráﬁca que permite analizar el rendimiento
de forma visual


N # doc relevante
1 588 X R=1/6=0.167; P=1/1=1
2 589 X
3 576
R=2/6=0.333; P=2/2=1
4 590 X R=3/6=0.5; P=3/4=0.75
5 986
6 592 X R=4/6=0.667; P=4/6=0.667
7 984
8 988
9 578
10 985
11 103
12 591
13 772 X R=5/6=0.833; P=5/13=0.38
14 990 José Carlos Cortizo Pérez

Curva recall/precisión

1,00

0,75

0,50

0,25
0.167
0.333
0.5 0
0.667
0.8333

Interpolación de la curva recall/precisión

Con el método anterior, logramos valores de recall y precisión
en puntos que no tienen por qué estar justo en valores de recall
pertenecientes a {0.0, 0.1, ..., 1.0}
Para lograr los valores de precisión asociados a estos puntos de
recall, debemos interpolar



1,00

0,75

0,50

0,25
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0
0.8 0.9 1.0


1,00
1,00

0,75 0,75

0,50 0,50

0,25 0,25
0.0 0.1
0.167 0.2 0.3
0.333 0.4 0.5
0.5 0.6 0.7 0 0
0.667 0.8 0.9
0.8333 1.0

¿Cómo interpolamos?

La precisión interpolada en el punto de recall estándar j, es el
valor máximo de la precisión para cualquier nivel de recall entre
el j y el (j+1)


¿Cómo interpolamos?
N # doc relevant recall precisión Recall Precisión
1 588 e
X 0,167 1,0 0,0 1,0
2 589 X 0,333 1,0 0,1 1,0
3 576 0,333 1,0
0,2 1,0
4 590 X 0,5 0,75
5 986 0,5 0,75 0,3 1,0
6 592 X 0,667 0,667 0,4 0,75
7 984 0,667 0,667 0,5 0,75
8 988 0,667 0,667 0,6 0,667
9 578 0,667 0,667 0,7 0,38
10 985 0,667 0,667 0,8 0,38
11 103 0,667 0,667
0,9 0,0
12 591 0,667 0,667
13 772 X 0,833 0,38 1,0 0,0
14 990 0,833 0,38 José Carlos Cortizo Pérez

Comparación de técnicas/sistemas


R-precision
Es la precisión en la posicion R del ranking de resultados para
una consulta que tiene R documentos relevantes
N #Doc Rel.
1 588 X R = # doc. relevantes = 6
2 589 X
3 576
4 590 X
5 986
6 592 X
R-precision = 4/6 = 0.67
7 984
8 988
9 772 X

F-Measure

Es una métrica que tiene en cuenta tanto el Recall como la
precisión
Es la media harmónica del recall y la precisión
2·P·R 2
F= =
P+R (1/R) + (1/P)


E-Measure
Es una variante de la F-measure que permite establecer pesos
(énfasis) para la precisión y el recall

E= (1+ β2)PR (1+ β2)
2P+R
= 2
β (β /R) + (1/P)
Los valores de β controlan el “trade-off” entre recall y precisión
β = 1 : Igual peso para recall y precisión
β > 1 : Mayor peso para el recall
β < 1 : Mayor peso para la precisión José Carlos Cortizo Pérez

la Información

Accuracy, ROC, AUC

Otras métricas

El recall, precisión, F y E, son métricas aptas para la
recuperación de información
También para el ﬁltrado, ya que se puede ver como una
especie de recuperación
Sin embargo, otras tareas necesitan de otras métricas más
adecuadas


Notación


Notación

TP es el número de instancias que pertenecen a la clase (+), que
el clasificador ha clasificado como (+)
TN es el número de instancias que pertenencen a la clase (-),
que el clasificador ha clasificado como (-)
FP es el número de instancias que pertenecen a la clase (-) pero
que el clasificador ha clasificado como (+)
FN es el número de instancias que pertenecen a la clase (+)
pero que el clasificador ha clasificado como (-)

Notación

π0 es la probabilidad a priori de la clase (+)
π0 es la probabilidad a priori de la clase (-)
p0 es la proporción de veces que el clasiﬁcador predice (+)
p1 es la proporción de veces que el clasiﬁcador predice (-)
p1 = 1 - p0


Ratios básicos

tprate = TP / π0 hit rate, recall, sensivity
fprate = FP / π1 false alarm rate, especiﬁty
precision = TP / TP + FP
accuracy = ( TP + TN ) / (π0 + π1)
accuracy es precisión clasiﬁcadora, no confundir con
precisión normal


Accuracy vs Precisión

↑accuracy, ↓precisión ↑precisión, ↓accuracy

Curva ROC

Las curvas ROC han sido ampliamente utilizadas en el
diagnóstico médico para visualizar y analizar el comportamiento
de los sistemas de diagnóstico
Permiten comparar el rendimiento de un clasiﬁcador para un
gran rango de costes de error y distribución de clases


Curva ROC


Curva ROC

Si solo tengo un valor de TPR y FPR, solo tengo un punto en el
espacio ROC
Con clasiﬁcadores probabilísticos, además de la clasiﬁcación de
cada instancia, tenemos la probabilidad, si ordenamos los
resultados en función de la probabilidad...


AUC

Comparar gráficas resulta complicado, sobre todo cuándo una
no está siempre por encima de otra
AUC es el área bajo la curva, que nos permite tener un valor
único que refleje lo “buena” o “mala” que pueda ser una
clasificación


Bibliografía
Adicional

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca
UEM, ediﬁcio C).
Raymond Mooney. Performance Evaluation of Information
Retrieval Systems. Tema 4 de su curso en IR.
http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt


Evaluacion de Sistemas Inteligentes de Acceso a la Información

Recomendados

Recomendados

Más contenido relacionado

Más de Jose Carlos Cortizo Perez

Más de Jose Carlos Cortizo Perez (20)

Último

Último (20)

Evaluacion de Sistemas Inteligentes de Acceso a la Información