Este documento presenta un análisis de componentes principales (ACP) realizado sobre datos de calidad de aguas residuales depuradas. El ACP muestra que las dos primeras componentes principales explican el 80.5% de la variabilidad de los datos. Adicionalmente, las cinco primeras componentes representan el 90.3% de los datos, lo que indica que el ACP proporciona una representación efectiva de los datos utilizando un número reducido de dimensiones.
6.1-Proclamación de la II República, la Constitución y el bienio reformista-L...
Trabajo ACP Analisis de Componentes Principales.pdf
1. Curso:
Análisis de datos con
énfasis en Ecología y
Gestión
Tema:
Aplicabilidad de
método de ordenación
- ACP
Alumno
Jorge Enrique Chaparro Mesa
Estudiante de Doctorado en Ingeniería
Electrónica y de Computación
Docentes
Esnedy Hernández A. Dra Biología
Diana María Agudelo E. Dra Ingeniería Ambiental
Posgrado de Ingeniería
Universidad de Antioquia
Posgrado de Ingeniería. Universidad de Antioquia
Medellín, septiembre 14 de 2020
2. Contenido
I. Análisis de Componentes Principales PCA..................................................................................................3
1. Conjunto de datos utilizados para el ejercicio........................................................................................3
2. Preprocesamiento de datos ...................................................................................................................3
3. Calculo en R del Análisis de Componentes Principales - ACP..................................................................4
4. Conclusiones...........................................................................................................................................6
BIBLIOGRAFIA.....................................................................................................................................................6
Anexos................................................................................................................................................................6
Lista de Figuras
Figura 1 Gráfica de correlacion de variables ......................................................................................................3
Figura 2 Resultados del ACP...............................................................................................................................4
Figura 3 Tendencia de las variables hacia las dimensiones 1 y 2........................................................................5
Figura 4 Relación de las variables respecto a las componentes PC1 y PC2.........................................................5
Lista de Tablas
Tabla 1 Dataset de variables utilizadas...............................................................................................................3
Tabla 2. Resultados del Análisis de Varianza ......................................................................................................4
Tabla 3. Resumen de la proporción que representan el ACP sobre las variables. ..............................................5
Tabla 4 Resultados finales en las primeras 6 referencias de las variables representadas en PC1, PC2, PC3, PC4
Y PC5 ..................................................................................................................................................................6
3. I. Análisis de Componentes Principales PCA.
1. Conjunto de datos utilizados para el ejercicio
En la tabla adjunta se reflejan los parámetros de calidad del vertido de las aguas residuales depuradas en las
ocho estaciones depuradoras dependientes del Ayuntamiento de Madrid. Los valores aportados son los
obtenidos en las analíticas de control que se llevan a cabo cada quince días. El dataset esta conformado por
28 observaciones y 26 variables. Anexo Estructura del Dataset
Tabla 1 Dataset de variables utilizadas
En la tabla 1 se observan las variables monitoreadas por fecha durante varios días del año 2019.
2. Preprocesamiento de datos
Para este ejercicio se realizó un análisis básico de las variables, se calculó la varianza y se realizaron diversas
graficas exploratorias a fin de ver si las variables tienen correlación para que sea efectivo llevar acabo un
método de ordenación, como es el Análisis de Componentes Principales PCA.
Análisis de Correlación
Figura 1 Gráfica de correlacion de variables
Como se observa en la Figura 1, la correlación de todas las variables es positiva y existe una alta correlación
entre algunos meses del año, igualmente algunos meses del año no se encuentran tan relacionados, pero en
general es mayor la correlación de las variables. La presencia de éstas correlaciones permiten iniciar la
4. búsqueda de componentes que van a contener variables inter relacionadas (Yengle Ruiz, 2012). Con esta
información podemos tener la certeza que un Análisis de Componentes Principales tiene sentido aplicar ya
que las variables son de tipo cuantitativo, y existe alta correlación entre las diferentes variables.
Análisis de Varianza
En la tabla 2 se observa el análisis de la varianza de los datos, donde observamos que la variabilidad en general
se encuentra entre 14 y 159 aproximadamente.
Tabla 2. Resultados del Análisis de Varianza
Como se puede observar las variables están muy dispersas por lo tanto se realiza un proceso de normalización
previo al cálculo del Análisis de Componentes Principales, ACP, de qui en adelante.
3. Calculo en R del Análisis de Componentes Principales - ACP
A continuación, calculamos el ACP, con el comando prcomp en R calculamos el ACP como se muestra a
continuación:
A continuación, en la Figura 3 se presentan los resultados del ACP.
Figura 2 Resultados del ACP
En la Figura 3 se puede ver claramente que las componentes principales 1, y 2 tiene mayor incidencia en el
conjunto de datos. Es evidente que en la Figura 3, las primeras 2 componentes representan un alto porcentaje
de las variables (80, 5%) exactamente.
5. A continuación, en la Taba 3, se muestra un resumen de la proporción de las componentes sobre el total de
los datos y se puede observar en color morado que las cinco primeras componentes describen el conjunto de
datos en un 90.3%, mientras que las dos primeras componentes que se encuentran en color rojo representan
el 80.5%. Este resultado corrobora la gráfica y se puede aplicar el criterio de codo o quebrada que indica que
los valores propios se pueden escoger teniendo en cuenta la ruptura de la continuidad, codo o quebrada de
valle, que es el valor y orden adecuados para ser tomado como criterio (& Wolfman, 2013). Si se aplicase este
criterio se podría decir que las dos primeras componentes describen la variabilidad del comportamiento de
los datos.
Tabla 3. Resumen de la proporción que representan el ACP sobre las variables.
Ahora con el comando biblot, se puede ver gráficamente las relaciones de los componentes principales con
las variables.
Figura 3 Tendencia de las variables hacia las dimensiones 1 y 2
En la Figura 4 se observa a través de las flechas de color azul, hacia donde tienden las variables y como estas
se mueven más en el eje horizontal es decir hacia el componente PC1 y solo una (oct_01) se mueve hacia PC2.
Esto quiere decir que la gran mayoría de los datos se pueden explicar a través del componente PC1.
Figura 4 Relación de las variables respecto a las componentes PC1 y
PC2
En la Figura 4, se puede observar que las variables tienden hacia
el eje horizontal, es decir hacia la componente 1. Esto se puede
evidencia gracias a la intensidad del color y vemos que solo la
variable oct_01 tiende un poco hacia el eje vertical, que para el
caso es la componente PC1.
6. Finalmente, en la tabla 4 se pueden ver las primeras 6 referencias representadas por el APC1 y el APC2
Tabla 4 Resultados finales en las primeras 6 referencias de las variables representadas en PC1, PC2, PC3, PC4 Y PC5
4. Conclusiones
• Con el análisis exploratorio de los datos se tiene la certeza de que un Análisis de Componentes
Principales tiene sentido aplicarlo, ya que las variables son de tipo cuantitativo, y existe alta
correlación entre las diferentes variables.
• La matriz de componentes presenta los indicadores ordenados según el valor absoluto de los
coeficientes de correlación con las sucesivas componentes. Los primeros dos indicadores son los que
tienen mayor coeficiente de correlación con la componente 1 y 2 exactamente representan el 80, 5%.
• Con PC1 y PC2 se puede explicar el comportamiento de las variables en un 80, 5%, lo cual es un valor
bastante significativo explicado con dos componentes, sin embargo, para efectos de tener mayor
porcentaje de representatividad se podría trabajar con las cinco primeras componentes que
representan el 90.3%.
BIBLIOGRAFIA
& Wolfman, L. S. B. A. (2013). El análisis de componentes principales: aplicación al análisis de datos
secundarios. Journal of Chemical Information and Modeling, 53(9), 1689–1699.
https://doi.org/10.1017/CBO9781107415324.004
Rodríguez, J., & Giménez, E. (2017). Aplicación del análisis de componentes principales en la investigación de
aguas de pozo para el consumo humano. Población y Desarrollo, 23(45), 38–52.
https://doi.org/10.18004/pdfce/2076-054x/2017.023(45).038-052
Yengle Ruiz, C. (2012). Aplicación del análisis de componentes principales como técnica para obtener índices
sintéticos de calidad ambiental. Ucv - Scientia, 4(2), 145–153.
Anexos
• Dataset utilizado (Depuradoras_aguas_residuales_2019)
• Script en R ( ACP Aguas residuales)
• Estructura de la Base de datos utilizada