ANÁLISIS DISCRIMINANTE
Análisis discriminante:
¿Qué tan fiable es tu clasificación?
Amaya Ramos Isaac Bernabé
I. Introducción
El Análisis Discriminante es una técnica
estadı́stica multivariante cuya finalidad es el
reconocimiento de patrones y aprendizaje de
máquinas para encontrar una combinación lineal
de rasgos que caracterizan o separan dos o más
clases de objetos o eventos.
En este reporte se utiliza este método para una
clasificación supervisada de variables cuantitati-
vas, en el que dos grupos son conocidos a priori y
nuevas observaciones se clasifican en uno de estos
en función de sus caracterı́sticas.
Figura 1: Análisis Discriminante
Para realizar esta clasificación se utiliza una ba-
se de datos en donde se tiene como variables de-
pendientes dos categorı́as, es decir, dos grupos de
clasificación. Estos grupos corresponden a dos tipo
de cráneos encontrados en el Tibet. Las variables
independientes son cinco medidas antropométri-
cas de longitudes, anchuras de cráneo y de cara
que pertenecen a 32 cráneos que conforman el nu-
mero total campos de la base de datos.
II. Desarrollo
Para realizar este análisis discriminante se co-
mienza importante a MATLAB la base de datos
(datos.csv) que contiene las muestras previamen-
te clasificados por los expertos. Un criterio que se
utiliza en Machine Learning para realizar clasifica-
ciones es utilizar el 80 % de la base de datos como
entrenamiento del algoritmo y el 20 % restante pa-
ra realizar las pruebas. Teniendo en cuenta esto se
tomaron 26 datos al azar para forma los datos de
entrenamiento y 6 datos para las pruebas.
Tabla 1: Datos de Entrenamiento
Datos en Entrenamiento
Lon An Al Al.C An.C Tipo
1 190.5 152.5 145 73.5 136.5 1
2 172.5 132 125.5 63 121 1
3 167 130 125.5 69.5 119.5 1
24 195.5 144 138.5 78.5 144 2
25 197 131.5 135 80.5 139 2
26 182.5 131 135 68.5 136 2
Tabla 2: Datos de Prueba
Datos de Prueba
Long An Al Al.C An.C Tipo
1 179.5 138 133.5 73.5 132.5 1
2 173.5 135.5 130.5 70 133.5 1
3 184.5 141.5 134.5 76.5 141.5 2
4 181 142 132.5 79 136.5 2
5 173.5 136.5 126 71.5 136.5 2
6 188.5 130 143 79.5 136 2
Una vez formados estos grupos de entrena-
miento y prueba se utiliza la función classify
para clasificar cada fila de datos de prueba. Esta
clasificación se hace de acuerdo al aprendizaje
Ing. Mecatrónica 1
ANÁLISIS DISCRIMINANTE
que se obtuvo del grupo de entrenamiento pro-
porcionado. En este caso se va a ocupar una
clasificación lineal, es decir la clasificación se
ajusta a una densidad normal multivariante para
cada grupo, con una estimación combinada de la
covarianza. Esta función también nos devuelve el
error de clasificación, tomando en cuenta la tasa
de observaciones de prueba mal clasificados.
En la figura 2 se muestra los resultados del clasi-
ficador, visualizando las variables Longitud y An-
chura.
Figura 2: Predicción del clasificador y Clasifica-
ción Real
A continuación se muestra la clasificación de los
grupos tomando en cuenta las 5 caracterı́sticas de
la base de datos.
Figura 3: Clasificación del predictor mostrando las
5 caracterı́sticas de la base de datos
Dentro del análisis de resultados se creo la si-
guiente matriz de confusión.
Figura 4: Matriz de confusión
Finalmente se calcularon las siguientes métricas
de clasificación.
Métrica Valor Métrica Valor
Acurracy 83,33 % Precisión
grupo 2
100 %
Sensibilidad
grupo 1
100 % Error ti-
po 1
0,25
Sensibilidad
grupo 2
75 % Error ti-
po 2
0
Precisión
grupo 1
66,667 %
Tabla 3: Métricas de clasificación
Ing. Mecatrónica 2
ANÁLISIS DISCRIMINANTE
III. Conclusión
Al observar la clasificación realizada podemos
ver que de 6 datos de prueba, el clasificador
tuvo un error del 19.09 %. Esto es cierto ya
que se puede ver como el clasificador etiquetó
un datos como grupo 1, mientras que viendo
los datos reales ese dato pertenece al grupo 2
(figura 4). Este error es comprensible ya que
tenemos un eje discriminante lineal , el cual
determina el limite para considerar que un dato
pertenezca a un grupo o a otro. Siguiendo esto,
el dato mal etiquetado se encuentra del lado
del grupo 1 , por lo que computacionalmen-
te es menos costoso etiquetarlo en ese grupo,
aunque realmente pertenezca al grupo 2 (figura 2).
Analizando la matriz de confusión podemos
determinar que la exactitud (Accuracy) de la
predicción es del 83.33 %. La exactitud nos indica
el numero de elementos clasificados correctamente
en comparación del numero total de datos. En
este caso de 6 datos, se observa que 5 datos están
bien clasificados.
También se puede ver la sensibilidad de la
predicción, es decir, los datos identificados co-
rrectamente como positivos del total de positivos
verdaderos. Esta sensibilidad es del 100 % para el
grupo 1, ya que de 2 datos pertenecientes al grupo
1, el clasificador los ha etiquetado correctamente.
Para el grupo 2 se tiene una sensibilidad del 75 %,
ya que de 4 datos pertenecientes a este grupo, el
clasificador ha etiquetado como positivos 3.
La precisión es la cantidad de datos identifica-
dos correctamente como positivos de un total de
elementos identificados como positivos. Para esta
métrica se tiene un 66.667 % de precisión para
el grupo 1 y un 100 % de precisión para el grupo 2.
Finalmente podemos decir que el clasificador
realizado tiene un buen rendimiento, aunque se
notó que modificando los porcentajes de datos
de entrenamiento y de prueba los porcentajes de
exactitud si disminuyen considerablemente.
Referencias
[1] SitioBigData, “Machine Learning: Seleccion
Metricas de clasificacion,” Jan. 2019.
[2] J. Martinez, “Precision, Recall, F1, Accuracy
en clasificación,” 2020. Section: machine lear-
ning.
[3] S. de La Fuente, “Análisis Discriminante,”
tech. rep., Fac. Ciencias Económicas y Empre-
sariales, 2011.
[4] J. A. Rodrigo, “Análisis discriminante li-
neal (LDA) y análisis discriminante cuadrático
(QDA),” 2016.
Ing. Mecatrónica 3

Analisis discriminante

  • 1.
    ANÁLISIS DISCRIMINANTE Análisis discriminante: ¿Quétan fiable es tu clasificación? Amaya Ramos Isaac Bernabé I. Introducción El Análisis Discriminante es una técnica estadı́stica multivariante cuya finalidad es el reconocimiento de patrones y aprendizaje de máquinas para encontrar una combinación lineal de rasgos que caracterizan o separan dos o más clases de objetos o eventos. En este reporte se utiliza este método para una clasificación supervisada de variables cuantitati- vas, en el que dos grupos son conocidos a priori y nuevas observaciones se clasifican en uno de estos en función de sus caracterı́sticas. Figura 1: Análisis Discriminante Para realizar esta clasificación se utiliza una ba- se de datos en donde se tiene como variables de- pendientes dos categorı́as, es decir, dos grupos de clasificación. Estos grupos corresponden a dos tipo de cráneos encontrados en el Tibet. Las variables independientes son cinco medidas antropométri- cas de longitudes, anchuras de cráneo y de cara que pertenecen a 32 cráneos que conforman el nu- mero total campos de la base de datos. II. Desarrollo Para realizar este análisis discriminante se co- mienza importante a MATLAB la base de datos (datos.csv) que contiene las muestras previamen- te clasificados por los expertos. Un criterio que se utiliza en Machine Learning para realizar clasifica- ciones es utilizar el 80 % de la base de datos como entrenamiento del algoritmo y el 20 % restante pa- ra realizar las pruebas. Teniendo en cuenta esto se tomaron 26 datos al azar para forma los datos de entrenamiento y 6 datos para las pruebas. Tabla 1: Datos de Entrenamiento Datos en Entrenamiento Lon An Al Al.C An.C Tipo 1 190.5 152.5 145 73.5 136.5 1 2 172.5 132 125.5 63 121 1 3 167 130 125.5 69.5 119.5 1 24 195.5 144 138.5 78.5 144 2 25 197 131.5 135 80.5 139 2 26 182.5 131 135 68.5 136 2 Tabla 2: Datos de Prueba Datos de Prueba Long An Al Al.C An.C Tipo 1 179.5 138 133.5 73.5 132.5 1 2 173.5 135.5 130.5 70 133.5 1 3 184.5 141.5 134.5 76.5 141.5 2 4 181 142 132.5 79 136.5 2 5 173.5 136.5 126 71.5 136.5 2 6 188.5 130 143 79.5 136 2 Una vez formados estos grupos de entrena- miento y prueba se utiliza la función classify para clasificar cada fila de datos de prueba. Esta clasificación se hace de acuerdo al aprendizaje Ing. Mecatrónica 1
  • 2.
    ANÁLISIS DISCRIMINANTE que seobtuvo del grupo de entrenamiento pro- porcionado. En este caso se va a ocupar una clasificación lineal, es decir la clasificación se ajusta a una densidad normal multivariante para cada grupo, con una estimación combinada de la covarianza. Esta función también nos devuelve el error de clasificación, tomando en cuenta la tasa de observaciones de prueba mal clasificados. En la figura 2 se muestra los resultados del clasi- ficador, visualizando las variables Longitud y An- chura. Figura 2: Predicción del clasificador y Clasifica- ción Real A continuación se muestra la clasificación de los grupos tomando en cuenta las 5 caracterı́sticas de la base de datos. Figura 3: Clasificación del predictor mostrando las 5 caracterı́sticas de la base de datos Dentro del análisis de resultados se creo la si- guiente matriz de confusión. Figura 4: Matriz de confusión Finalmente se calcularon las siguientes métricas de clasificación. Métrica Valor Métrica Valor Acurracy 83,33 % Precisión grupo 2 100 % Sensibilidad grupo 1 100 % Error ti- po 1 0,25 Sensibilidad grupo 2 75 % Error ti- po 2 0 Precisión grupo 1 66,667 % Tabla 3: Métricas de clasificación Ing. Mecatrónica 2
  • 3.
    ANÁLISIS DISCRIMINANTE III. Conclusión Alobservar la clasificación realizada podemos ver que de 6 datos de prueba, el clasificador tuvo un error del 19.09 %. Esto es cierto ya que se puede ver como el clasificador etiquetó un datos como grupo 1, mientras que viendo los datos reales ese dato pertenece al grupo 2 (figura 4). Este error es comprensible ya que tenemos un eje discriminante lineal , el cual determina el limite para considerar que un dato pertenezca a un grupo o a otro. Siguiendo esto, el dato mal etiquetado se encuentra del lado del grupo 1 , por lo que computacionalmen- te es menos costoso etiquetarlo en ese grupo, aunque realmente pertenezca al grupo 2 (figura 2). Analizando la matriz de confusión podemos determinar que la exactitud (Accuracy) de la predicción es del 83.33 %. La exactitud nos indica el numero de elementos clasificados correctamente en comparación del numero total de datos. En este caso de 6 datos, se observa que 5 datos están bien clasificados. También se puede ver la sensibilidad de la predicción, es decir, los datos identificados co- rrectamente como positivos del total de positivos verdaderos. Esta sensibilidad es del 100 % para el grupo 1, ya que de 2 datos pertenecientes al grupo 1, el clasificador los ha etiquetado correctamente. Para el grupo 2 se tiene una sensibilidad del 75 %, ya que de 4 datos pertenecientes a este grupo, el clasificador ha etiquetado como positivos 3. La precisión es la cantidad de datos identifica- dos correctamente como positivos de un total de elementos identificados como positivos. Para esta métrica se tiene un 66.667 % de precisión para el grupo 1 y un 100 % de precisión para el grupo 2. Finalmente podemos decir que el clasificador realizado tiene un buen rendimiento, aunque se notó que modificando los porcentajes de datos de entrenamiento y de prueba los porcentajes de exactitud si disminuyen considerablemente. Referencias [1] SitioBigData, “Machine Learning: Seleccion Metricas de clasificacion,” Jan. 2019. [2] J. Martinez, “Precision, Recall, F1, Accuracy en clasificación,” 2020. Section: machine lear- ning. [3] S. de La Fuente, “Análisis Discriminante,” tech. rep., Fac. Ciencias Económicas y Empre- sariales, 2011. [4] J. A. Rodrigo, “Análisis discriminante li- neal (LDA) y análisis discriminante cuadrático (QDA),” 2016. Ing. Mecatrónica 3