El Análisis Discriminante es una técnica
estadística multivariante cuya finalidad es el
reconocimiento de patrones y aprendizaje de
máquinas para encontrar una combinación lineal
de rasgos que caracterizan o separan dos o más
clases de objetos o eventos.
El código utilizado se encuentra aquí:
https://mega.nz/folder/msxCAAyb#SWoq2NK4lsiBmT-SsIgWiw
Tiempos Predeterminados MOST para Estudio del Trabajo II
Analisis discriminante
1. ANÁLISIS DISCRIMINANTE
Análisis discriminante:
¿Qué tan fiable es tu clasificación?
Amaya Ramos Isaac Bernabé
I. Introducción
El Análisis Discriminante es una técnica
estadı́stica multivariante cuya finalidad es el
reconocimiento de patrones y aprendizaje de
máquinas para encontrar una combinación lineal
de rasgos que caracterizan o separan dos o más
clases de objetos o eventos.
En este reporte se utiliza este método para una
clasificación supervisada de variables cuantitati-
vas, en el que dos grupos son conocidos a priori y
nuevas observaciones se clasifican en uno de estos
en función de sus caracterı́sticas.
Figura 1: Análisis Discriminante
Para realizar esta clasificación se utiliza una ba-
se de datos en donde se tiene como variables de-
pendientes dos categorı́as, es decir, dos grupos de
clasificación. Estos grupos corresponden a dos tipo
de cráneos encontrados en el Tibet. Las variables
independientes son cinco medidas antropométri-
cas de longitudes, anchuras de cráneo y de cara
que pertenecen a 32 cráneos que conforman el nu-
mero total campos de la base de datos.
II. Desarrollo
Para realizar este análisis discriminante se co-
mienza importante a MATLAB la base de datos
(datos.csv) que contiene las muestras previamen-
te clasificados por los expertos. Un criterio que se
utiliza en Machine Learning para realizar clasifica-
ciones es utilizar el 80 % de la base de datos como
entrenamiento del algoritmo y el 20 % restante pa-
ra realizar las pruebas. Teniendo en cuenta esto se
tomaron 26 datos al azar para forma los datos de
entrenamiento y 6 datos para las pruebas.
Tabla 1: Datos de Entrenamiento
Datos en Entrenamiento
Lon An Al Al.C An.C Tipo
1 190.5 152.5 145 73.5 136.5 1
2 172.5 132 125.5 63 121 1
3 167 130 125.5 69.5 119.5 1
24 195.5 144 138.5 78.5 144 2
25 197 131.5 135 80.5 139 2
26 182.5 131 135 68.5 136 2
Tabla 2: Datos de Prueba
Datos de Prueba
Long An Al Al.C An.C Tipo
1 179.5 138 133.5 73.5 132.5 1
2 173.5 135.5 130.5 70 133.5 1
3 184.5 141.5 134.5 76.5 141.5 2
4 181 142 132.5 79 136.5 2
5 173.5 136.5 126 71.5 136.5 2
6 188.5 130 143 79.5 136 2
Una vez formados estos grupos de entrena-
miento y prueba se utiliza la función classify
para clasificar cada fila de datos de prueba. Esta
clasificación se hace de acuerdo al aprendizaje
Ing. Mecatrónica 1
2. ANÁLISIS DISCRIMINANTE
que se obtuvo del grupo de entrenamiento pro-
porcionado. En este caso se va a ocupar una
clasificación lineal, es decir la clasificación se
ajusta a una densidad normal multivariante para
cada grupo, con una estimación combinada de la
covarianza. Esta función también nos devuelve el
error de clasificación, tomando en cuenta la tasa
de observaciones de prueba mal clasificados.
En la figura 2 se muestra los resultados del clasi-
ficador, visualizando las variables Longitud y An-
chura.
Figura 2: Predicción del clasificador y Clasifica-
ción Real
A continuación se muestra la clasificación de los
grupos tomando en cuenta las 5 caracterı́sticas de
la base de datos.
Figura 3: Clasificación del predictor mostrando las
5 caracterı́sticas de la base de datos
Dentro del análisis de resultados se creo la si-
guiente matriz de confusión.
Figura 4: Matriz de confusión
Finalmente se calcularon las siguientes métricas
de clasificación.
Métrica Valor Métrica Valor
Acurracy 83,33 % Precisión
grupo 2
100 %
Sensibilidad
grupo 1
100 % Error ti-
po 1
0,25
Sensibilidad
grupo 2
75 % Error ti-
po 2
0
Precisión
grupo 1
66,667 %
Tabla 3: Métricas de clasificación
Ing. Mecatrónica 2
3. ANÁLISIS DISCRIMINANTE
III. Conclusión
Al observar la clasificación realizada podemos
ver que de 6 datos de prueba, el clasificador
tuvo un error del 19.09 %. Esto es cierto ya
que se puede ver como el clasificador etiquetó
un datos como grupo 1, mientras que viendo
los datos reales ese dato pertenece al grupo 2
(figura 4). Este error es comprensible ya que
tenemos un eje discriminante lineal , el cual
determina el limite para considerar que un dato
pertenezca a un grupo o a otro. Siguiendo esto,
el dato mal etiquetado se encuentra del lado
del grupo 1 , por lo que computacionalmen-
te es menos costoso etiquetarlo en ese grupo,
aunque realmente pertenezca al grupo 2 (figura 2).
Analizando la matriz de confusión podemos
determinar que la exactitud (Accuracy) de la
predicción es del 83.33 %. La exactitud nos indica
el numero de elementos clasificados correctamente
en comparación del numero total de datos. En
este caso de 6 datos, se observa que 5 datos están
bien clasificados.
También se puede ver la sensibilidad de la
predicción, es decir, los datos identificados co-
rrectamente como positivos del total de positivos
verdaderos. Esta sensibilidad es del 100 % para el
grupo 1, ya que de 2 datos pertenecientes al grupo
1, el clasificador los ha etiquetado correctamente.
Para el grupo 2 se tiene una sensibilidad del 75 %,
ya que de 4 datos pertenecientes a este grupo, el
clasificador ha etiquetado como positivos 3.
La precisión es la cantidad de datos identifica-
dos correctamente como positivos de un total de
elementos identificados como positivos. Para esta
métrica se tiene un 66.667 % de precisión para
el grupo 1 y un 100 % de precisión para el grupo 2.
Finalmente podemos decir que el clasificador
realizado tiene un buen rendimiento, aunque se
notó que modificando los porcentajes de datos
de entrenamiento y de prueba los porcentajes de
exactitud si disminuyen considerablemente.
Referencias
[1] SitioBigData, “Machine Learning: Seleccion
Metricas de clasificacion,” Jan. 2019.
[2] J. Martinez, “Precision, Recall, F1, Accuracy
en clasificación,” 2020. Section: machine lear-
ning.
[3] S. de La Fuente, “Análisis Discriminante,”
tech. rep., Fac. Ciencias Económicas y Empre-
sariales, 2011.
[4] J. A. Rodrigo, “Análisis discriminante li-
neal (LDA) y análisis discriminante cuadrático
(QDA),” 2016.
Ing. Mecatrónica 3