🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
Tratamiento quimiométrico de datos cromatográficos. Aplicación a la clasificación tecnológica de manzanas de sidra
1. Tratamiento quimiométrico de datos cromatográficos.
Aplicación a la clasificación tecnológica de manzanas de sidra
Objetivo
Se pretende utilizar una serie de análisis quimiométricos para el tratamiento de los datos
cromatográficos obtenidos a partir de una cromatografía de gases de distintas clases de
manzanas. Con ello se puede obtener un modelo que puede predecir la clasificación de diferentes
muestras de manzanas. Todas los análisis quimiométricos se realizan en el programa Statgraphics
excepto la selección de variables que se utiliza PARVUS.
Exploración de datos
El análisis exploratorio de los datos se realiza para obtener información sobre las variables,
sobre los objetos y sobre su relación.
Se realizó un test de normalidad de las variables para dos casos: análisis univariante y
análisis multivariante.
En el primero de los casos, se realizó el análisis para alguna de las variables como ejemplo, y
todas las variables analizadas siguen la distribución normal.
En el análisis multivariante, algunas variables se desviaban en pequeña medida de esta
distribución, pero esta pequeñas diferencias no es causa para la eliminación de esas variables en
posteriores análisis multivariantes.
Se realizó una búsqueda de outliers, que son valores de las variables que no están
distribuidos homogéneamente. Para ello se realiza una gráfica de cajas y bigotes, donde los
puntos que estén en el exterior de esta gráfica, si los hubiera, deberían ser eliminados.
En la figura se puede ver el ejemplo de una gráfica de cajas y bigotes, para la variable
hexanol.
Para las variables realizadas, no se encontró ningún punto fuera de la gráfica.
Selección de variables
En los análisis multivariantes (como es el caso que se está estudiando), el número de
objetos debe ser dos o tres veces el número de variables. Por lo que se deben seleccionar
correctamente las variables con las cual trabajar en los siguientes análisis, que serán las que
menos correlacionadas estén.
2. Se realizó una selección de variables utilizando como criterio el peso de clasificación (peso
de Fisher), es decir, fueron seleccionadas las variables que diferencian en mejor medida las
diferentes clases de manzanas. Esta selección se realizó frente a un conjunto de entrenamiento,
que es un conjunto de muestras ya clasificadas conociendo los valores de las variables para ellas.
Se debe realizar un autoescalado de las variables, para que valores absolutos altos de las
variables no tengan mayor peso que los valores bajos.
Se añade un valor de corte para seleccionar variables que tengan un peso estadístico por encima
de esta valor (en el caso estudiado 0.05).
Se obtienen las variables más significativas que son las siguientes:
Peso estadistico (%)
but hex 50.13
hexanol 11.81
hept et 0.68
prop et 0.27
__met_1_propanol 0.09
Agrupamiento
El objetivo del análisis de agrupamiento es agrupar objetos que tengan características
similares.
· Análisis de conglomerados (dendograma) ·
Con este análisis se obtiene una representación de la correlación que existe entre las
variables analizadas y objetos. Se obtiene el siguiente dendograma, donde se puede observar la
similitud entre las diferentes muestras, según el criterio de distancia euclídea:
Dendograma
Método del Vecino Más Cercano,Euclideana Cuadrada
5
4
3
Distancia
2
1
0
1
2
3
4
5
6
7
8
9
11
12
13
14
20
21
16
17
18
19
10
15
Se puede observar en el dendograma, como las muestras más correlacionadas son los
distintos ensayos para una misma muestra (por ejemplo entre 1 y 2), después hay más correlación
para manzanas de la misma cosecha (entre 1-2 y 3-4), y hay menor correlación entre distintos
tipos de manzanas.
3. · Análisis de componentes principales ·
El objetivo es obtener una combinación de las variables que agrupe los datos según su
variablidad y expliquen la mayor parte de la varianza del sistema.
Este ensayo se realiza con las variables seleccionadas en PARVUS.
Se obtienen dos gráficas con este análisis:
Gráfica de sedimentación: determina las componentes (combinaciones lineales de las
variables, que retienen la información de las originales) que están por encima de una varianza
determinada. Con estas componentes se puede explicar con alta probabilidad la variabilidad de la
mayor parte del sistema.
Gráfica de Sedimentación
3
2,5
2
Eigenvalor
1,5
1
0,5
0
0 1 2 3 4 5
Componente
Gráfica de dispersión 2D: es una representación de los dos componentes con las
mayores varianzas. En este caso entre las dos explican el 70% de la variablilidad del sistema.
Bigráfica
3,6
prop et
2,6
hept et
Componente 2
1,6
__met_1_propanol
0,6
-0,4 hex
but
hexanol
-1,4
-2,8 -1,8 -0,8 0,2 1,2 2,2 3,2
Componente 1
4. Se consigue una mayor separación entre las muestras de los diferentes tipos de manzana,
como se puede ver en la gráfica. Se observa que las variables “but hex” y “hexanol”, permiten
diferenciar el tipo de manzana Clara del resto. En el caso de la Coloradona, se consigue
diferenciar mediante las variables “prop et” y “hep et”. Mientras que para diferenciar la Ernestina
del resto, se usaría la variable “2-met-1-propanol”
Clasificación
Se realizó un análisis clasificatorio para poder predecir el grupo al que pertenece una
muestra de manzanas a partir de otras variables cuantitativas.
El factor discriminante utilizado es los diferentes grupos de manzanas (Clara, Coloradona y
Ernestina). Se utilizan las variables seleccionadas con PARVUS: “but hex”, “hexanol”, “hep et”,
“prop et” y “2-met_1_propanol”.
Con este análisis se obtienen unas combinaciones lineales de las variables seleccionadas
con el objetivo de diferenciar entre los grupos de manzanas (mayor varianza) al tiempo que
minimizar (menor varianza) entre las muestras de un mismo grupo.
Gráfica de Funciones Discriminantes
10 Col_28
1
7 2
3
4 Centroides
Función 2
1
-2
-5
-8
-7 -4 -1 2 5 8 11
Función 1
La gráfica representa las dos funciones discriminantes obtenidas con este análisis que
mejor diferencian los grupos. Se puede observar que las diferentes muestras de cada grupo de
manzana están alineadas en la gráfica, por lo que se consigue separar en buena medida los
diferentes grupos de manzanas (de manera probabilística). De este modo, teniendo el análisis de
una muestra se podría determinar con una alta probabilidad a que grupo de manzanas pertenece.