Analisis discriminante

ANÁLISIS DISCRIMINANTE
Análisis discriminante:
¿Qué tan fiable es tu clasificación?
Amaya Ramos Isaac Bernabé
I. Introducción
El Análisis Discriminante es una técnica
estadı́stica multivariante cuya finalidad es el
reconocimiento de patrones y aprendizaje de
máquinas para encontrar una combinación lineal
de rasgos que caracterizan o separan dos o más
clases de objetos o eventos.
En este reporte se utiliza este método para una
clasificación supervisada de variables cuantitati-
vas, en el que dos grupos son conocidos a priori y
nuevas observaciones se clasifican en uno de estos
en función de sus caracterı́sticas.
Figura 1: Análisis Discriminante
Para realizar esta clasificación se utiliza una ba-
se de datos en donde se tiene como variables de-
pendientes dos categorı́as, es decir, dos grupos de
clasificación. Estos grupos corresponden a dos tipo
de cráneos encontrados en el Tibet. Las variables
independientes son cinco medidas antropométri-
cas de longitudes, anchuras de cráneo y de cara
que pertenecen a 32 cráneos que conforman el nu-
mero total campos de la base de datos.
II. Desarrollo
Para realizar este análisis discriminante se co-
mienza importante a MATLAB la base de datos
(datos.csv) que contiene las muestras previamen-
te clasificados por los expertos. Un criterio que se
utiliza en Machine Learning para realizar clasifica-
ciones es utilizar el 80 % de la base de datos como
entrenamiento del algoritmo y el 20 % restante pa-
ra realizar las pruebas. Teniendo en cuenta esto se
tomaron 26 datos al azar para forma los datos de
entrenamiento y 6 datos para las pruebas.
Tabla 1: Datos de Entrenamiento
Datos en Entrenamiento
Lon An Al Al.C An.C Tipo
1 190.5 152.5 145 73.5 136.5 1
2 172.5 132 125.5 63 121 1
3 167 130 125.5 69.5 119.5 1
24 195.5 144 138.5 78.5 144 2
25 197 131.5 135 80.5 139 2
26 182.5 131 135 68.5 136 2
Tabla 2: Datos de Prueba
Datos de Prueba
Long An Al Al.C An.C Tipo
1 179.5 138 133.5 73.5 132.5 1
2 173.5 135.5 130.5 70 133.5 1
3 184.5 141.5 134.5 76.5 141.5 2
4 181 142 132.5 79 136.5 2
5 173.5 136.5 126 71.5 136.5 2
6 188.5 130 143 79.5 136 2
Una vez formados estos grupos de entrena-
miento y prueba se utiliza la función classify
para clasificar cada fila de datos de prueba. Esta
clasificación se hace de acuerdo al aprendizaje
Ing. Mecatrónica 1

que se obtuvo del grupo de entrenamiento pro-
porcionado. En este caso se va a ocupar una
clasificación lineal, es decir la clasificación se
ajusta a una densidad normal multivariante para
cada grupo, con una estimación combinada de la
covarianza. Esta función también nos devuelve el
error de clasificación, tomando en cuenta la tasa
de observaciones de prueba mal clasificados.
En la figura 2 se muestra los resultados del clasi-
ficador, visualizando las variables Longitud y An-
chura.
Figura 2: Predicción del clasificador y Clasifica-
ción Real
A continuación se muestra la clasificación de los
grupos tomando en cuenta las 5 caracterı́sticas de
la base de datos.
Figura 3: Clasificación del predictor mostrando las
5 caracterı́sticas de la base de datos
Dentro del análisis de resultados se creo la si-
guiente matriz de confusión.
Figura 4: Matriz de confusión
Finalmente se calcularon las siguientes métricas
de clasificación.
Métrica Valor Métrica Valor
Acurracy 83,33 % Precisión
grupo 2
100 %
Sensibilidad
grupo 1
100 % Error ti-
po 1
0,25
Sensibilidad
grupo 2
75 % Error ti-
po 2
0
Precisión
grupo 1
66,667 %
Tabla 3: Métricas de clasificación

III. Conclusión
Al observar la clasificación realizada podemos
ver que de 6 datos de prueba, el clasificador
tuvo un error del 19.09 %. Esto es cierto ya
que se puede ver como el clasificador etiquetó
un datos como grupo 1, mientras que viendo
los datos reales ese dato pertenece al grupo 2
(figura 4). Este error es comprensible ya que
tenemos un eje discriminante lineal , el cual
determina el limite para considerar que un dato
pertenezca a un grupo o a otro. Siguiendo esto,
el dato mal etiquetado se encuentra del lado
del grupo 1 , por lo que computacionalmen-
te es menos costoso etiquetarlo en ese grupo,
aunque realmente pertenezca al grupo 2 (figura 2).
Analizando la matriz de confusión podemos
determinar que la exactitud (Accuracy) de la
predicción es del 83.33 %. La exactitud nos indica
el numero de elementos clasificados correctamente
en comparación del numero total de datos. En
este caso de 6 datos, se observa que 5 datos están
bien clasificados.
También se puede ver la sensibilidad de la
predicción, es decir, los datos identificados co-
rrectamente como positivos del total de positivos
verdaderos. Esta sensibilidad es del 100 % para el
grupo 1, ya que de 2 datos pertenecientes al grupo
1, el clasificador los ha etiquetado correctamente.
Para el grupo 2 se tiene una sensibilidad del 75 %,
ya que de 4 datos pertenecientes a este grupo, el
clasificador ha etiquetado como positivos 3.
La precisión es la cantidad de datos identifica-
dos correctamente como positivos de un total de
elementos identificados como positivos. Para esta
métrica se tiene un 66.667 % de precisión para
el grupo 1 y un 100 % de precisión para el grupo 2.
Finalmente podemos decir que el clasificador
realizado tiene un buen rendimiento, aunque se
notó que modificando los porcentajes de datos
de entrenamiento y de prueba los porcentajes de
exactitud si disminuyen considerablemente.
Referencias
[1] SitioBigData, “Machine Learning: Seleccion
Metricas de clasificacion,” Jan. 2019.
[2] J. Martinez, “Precision, Recall, F1, Accuracy
en clasificación,” 2020. Section: machine lear-
ning.
[3] S. de La Fuente, “Análisis Discriminante,”
tech. rep., Fac. Ciencias Económicas y Empre-
sariales, 2011.
[4] J. A. Rodrigo, “Análisis discriminante li-
neal (LDA) y análisis discriminante cuadrático
(QDA),” 2016.

Analisis discriminante

Más contenido relacionado

La actualidad más candente

Similar a Analisis discriminante

Último

Analisis discriminante