2. Evaluación de Hipótesis
Tenemos un algoritmo de ML A.
La aplicación de A produce una hipótesis h tomada del conjunto de
hipótesis H.
¿Qué tan buena o qué tan mala es la hipótesis h?
8. Medidas de rendimiento
Clustering
Número de grupos esperados vs grupos obtenidos:
“Tenemos datos de prueba que contemplan 5 grupos distintos; se
obtienen 6 grupos”
5
6
∗ 100 = 80%
9. Medidas de rendimiento detalladas
Para una correcta evaluación, son necesarias otras métricas.
10. Medidas de rendimiento detalladas
¿Por qué?
Sistema de acceso biométrico
Huella correcta = acceso concedido
Huella incorrecta = acceso denegado
Figure 2: Huella dactilar
11. Medidas de rendimiento detalladas
¿Por qué?
Sistema de acceso biométrico
Falso negativo: Molesto, inconveniente
Falso positivo: Posiblemente catastrófico
12. Medidas de rendimiento detalladas
¿Por qué?
Sistema de acceso biométrico
Aplicamos algún algoritmo A de ML y obtenemos una hipótesis h1
Figure 3: Hipótesis 1
13. Medidas de rendimiento detalladas
¿Por qué?
Sistema de acceso biométrico
Aplicamos algún algoritmo A de ML y obtenemos una hipótesis h2
Figure 4: Hipótesis 2
14. Medidas de rendimiento detalladas
Verdaderos positivos (TPR)
Verdaderos negativos (TNR)
Falsos positivos (FPR)
Falsos negativos (FNR)
Característica operativa total (TOC)
Característica operativa del receptor (ROC)
ROC bajo la curva (AUC)
18. Medidas de rendimiento detalladas
Razón de verdaderos positivos (TPR) - Sensibilidad
Cuantos datos positivos fueron correctamente identificados
TP = Número de verdaderos positivos
N = Número de datos de prueba totales
TPR =
TP
N
“Número de huellas que son validas y que son clasificadas
como validas”
19. Medidas de rendimiento detalladas
Razón de verdaderos negativos (TNR) - Especificidad
Cuantos datos negativos fueron correctamente identificados
TN = Número de verdaderos negativos
N = Número de datos de prueba totales
TPR =
TN
N
“Número de huellas que NO son validas y que son clasifi-
cadas como invalidas”
20. Medidas de rendimiento detalladas
Razón de falsos positivos (FPR)
Cuantos datos positivos fueron incorrectamente identificados
FP = Número de falsos positivos
N = Número de datos de prueba totales
FPR =
FP
N
=
1 − TN
N
“Número de huellas que NO son validas y que son clasifi-
cadas como validas”
21. Medidas de rendimiento detalladas
Razón de falsos negativos (FNR)
Cuantos datos negativos fueron incorrectamente identificados
FN = Número de falsos negativos
N = Número de datos de prueba totales
FPR =
FN
N
“Número de huellas que son validas y que son clasificadas
como invalidas”
23. Medidas de rendimiento detalladas
Métricas para clasificación multi-clase
Generalizando estas métricas a clasificaciones de múltiples clases:
Precisión(micro) =
TP1 + ... + TPn
TP1 + ... + TPn + FP1 + ... + FPn
Precisión(macro) =
Precision1 + ... + Precisionn
n
24. Medidas de rendimiento detalladas
Matriz de confusión
Comparación matricial entre clases esperadas y obtenidas. Permite
una fácil evaluación visual.
26. Medidas de rendimiento detalladas
Característica operativa del receptor (ROC)
El ROC es una gráfica de verdaderos positivos vs falsos positivos
que muestra la habilidad de diagnostico de un clasificador.
36. Característica operativa del receptor - Área bajo la curva
(ROC AUC)
El Área bajo la curva de la ROC permite conocer la probabilidad de
que se favorezcan instancias positivas sobre instancias negativas.
A =
−∞
∞
TPR(T). − FPR(T)dT
37. Característica operativa del receptor - Área bajo la curva
(ROC AUC)
Recientemente questionado en el ambito de machine learning por
ser una medida ruidosa
38. Referencias
Jason Brownlee. 2013. “How to evaluate machine learning
algorithms”
Mahesh Kumar, Nitin R. Patel, James B. Orlin. 2002. “Clustering
Data with Measurement Errors”
Abu Mostafa et al. 2012. “Learning from data”
Sebastian Rashka. 2015. “Python Machine Learning”
David Page et al. “Evaluating Machine Learning Methods”
Hanczar, Blaise et al. 2010. “Small-sample precision of ROC-related
estimates, Bioinformatics”