Machine learning: evaluación de hipótesis

Evaluación de Hipótesis
Machine Learning
Daniel Campoverde C.

Tenemos un algoritmo de ML A.
La aplicación de A produce una hipótesis h tomada del conjunto de
hipótesis H.
¿Qué tan buena o qué tan mala es la hipótesis h?

Si tenemos varias hipótesis:
h1, h2, h3...hn
¿Cuál es la mejor?

Si tenemos varios algoritmos ML:
A1, A2, A3...An
¿Cuál es mejor para este problema? ¿Hay algo que aprender?

Medidas de rendimiento
Dependen del tipo de problema que se resuelve:
Clasiﬁcación
Regresión
Clustering
. . .

Clasiﬁcación
Porcentajes:
“Tenemos 1000 datos de prueba; 900 se clasiﬁcan correctamente.”
Rendimiento: 90%

Regresión
Error medio cuadrado:
1
n
n
i=1
(Yi − Yi)
2

Clustering
Número de grupos esperados vs grupos obtenidos:
“Tenemos datos de prueba que contemplan 5 grupos distintos; se
obtienen 6 grupos”
5
6
∗ 100 = 80%

Medidas de rendimiento detalladas
Para una correcta evaluación, son necesarias otras métricas.

¿Por qué?
Sistema de acceso biométrico
Huella correcta = acceso concedido
Huella incorrecta = acceso denegado
Figure 2: Huella dactilar

¿Por qué?
Falso negativo: Molesto, inconveniente
Falso positivo: Posiblemente catastróﬁco

¿Por qué?
Aplicamos algún algoritmo A de ML y obtenemos una hipótesis h1
Figure 3: Hipótesis 1

¿Por qué?
Aplicamos algún algoritmo A de ML y obtenemos una hipótesis h2
Figure 4: Hipótesis 2

Verdaderos positivos (TPR)
Verdaderos negativos (TNR)
Falsos positivos (FPR)
Falsos negativos (FNR)
Característica operativa total (TOC)
Característica operativa del receptor (ROC)
ROC bajo la curva (AUC)

Métodos de evaluación
Holdout
N-fold cross validation
. . .

Holdout
Figure 5: Holdout

N-fold cross validation

Razón de verdaderos positivos (TPR) - Sensibilidad
Cuantos datos positivos fueron correctamente identiﬁcados
TP = Número de verdaderos positivos
N = Número de datos de prueba totales
TPR =
TP
N
“Número de huellas que son validas y que son clasiﬁcadas
como validas”

Razón de verdaderos negativos (TNR) - Especificidad
Cuantos datos negativos fueron correctamente identificados
TN = Número de verdaderos negativos
TPR =
TN
N
“Número de huellas que NO son validas y que son clasifi-
cadas como invalidas”

Razón de falsos positivos (FPR)
Cuantos datos positivos fueron incorrectamente identiﬁcados
FP = Número de falsos positivos
FPR =
FP
N
=
1 − TN
N
“Número de huellas que NO son validas y que son clasiﬁ-
cadas como validas”

Razón de falsos negativos (FNR)
Cuantos datos negativos fueron incorrectamente identiﬁcados
FN = Número de falsos negativos
FPR =
FN
N
“Número de huellas que son validas y que son clasiﬁcadas
como invalidas”

Error y Precisión
Error =
FP + FN
FP + FN + TP + TN
Precisión = 1 − Error
Exactitud =
TP
TP + FP

Métricas para clasiﬁcación multi-clase
Generalizando estas métricas a clasiﬁcaciones de múltiples clases:
Precisión(micro) =
TP1 + ... + TPn
TP1 + ... + TPn + FP1 + ... + FPn
Precisión(macro) =
Precision1 + ... + Precisionn
n

Matriz de confusión
Comparación matricial entre clases esperadas y obtenidas. Permite
una fácil evaluación visual.

Matriz de confusión
Condiciones negativas y positivas

El ROC es una gráﬁca de verdaderos positivos vs falsos positivos
que muestra la habilidad de diagnostico de un clasiﬁcador.

Diagonal de conjetura aleatoria.

Datos de prueba = N = 200
100 Negativos y 100 Positivos
Hipótesis h1, h2, h3
Figure 12: Huella dactilar

Condiciones para h1
TP TN FP FN
63 72 28 37

Condiciones para h2
TP TN FP FN
77 23 77 23

Condiciones para h3
TP TN FP FN
24 12 88 76

Matrices de confusión para h1, h2 y h3
Figure 13: Matrices de confusión

ROC para h1, h2 y h3

Invertimos la hipótesis h3 para obtener h3’

Característica operativa del receptor - Área bajo la curva
(ROC AUC)
El Área bajo la curva de la ROC permite conocer la probabilidad de
que se favorezcan instancias positivas sobre instancias negativas.
A =
−∞
∞
TPR(T). − FPR(T)dT

Característica operativa del receptor - Área bajo la curva
(ROC AUC)
Recientemente questionado en el ambito de machine learning por
ser una medida ruidosa

Referencias
Jason Brownlee. 2013. “How to evaluate machine learning
algorithms”
Mahesh Kumar, Nitin R. Patel, James B. Orlin. 2002. “Clustering
Data with Measurement Errors”
Abu Mostafa et al. 2012. “Learning from data”
Sebastian Rashka. 2015. “Python Machine Learning”
David Page et al. “Evaluating Machine Learning Methods”
Hanczar, Blaise et al. 2010. “Small-sample precision of ROC-related
estimates, Bioinformatics”

Machine learning: evaluación de hipótesis

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (17)

Similar a Machine learning: evaluación de hipótesis

Similar a Machine learning: evaluación de hipótesis (20)

Más de Angel Vázquez Patiño

Más de Angel Vázquez Patiño (20)

Último

Último (20)

Machine learning: evaluación de hipótesis