Los mejores simuladores electrónicos que se pueden utilizar
G5_SANTOS MARIANO JUAN DIEGO.pdf
1. ESTIMACIÓN DE
PRECIPITACIONES
MÁXIMAS DE LA CUENCA
DE URUBAMBA MEDIANTE
EL MÉTODO DE WARD Y
EL MÉTODO DE K-MEANS
Ing. Jimmy Mendoza Montalvo
DOCENTE
ALUMNOS
Anthony Ramos Aponte
Diego Santos Mariano
Kelmer Mayta Chiclote
Fernando Rios Ortiz
2. I. RESUMEN
En el presente informe se realiza el procedimiento para la estimación de precipitaciones máximas de la cuenca de
Urubamba apoyándose del análisis de cluster, el cual utiliza la información previamente obtenida de la data
PISCO. Teniendo los datos de 15 estaciones pluviométricas, cada una de ellas con registro de precipitaciones
entre 1981 y 2016 (36 años) se procede a filtrar la información de precipitaciones para solo tomar la data de
precipitaciones máximas en un rango anual de cada estación, posteriormente se toma la información de las 15
estaciones y se ordena la información de tal manera en la que se encuentren todas la estaciones con sus valores
de precipitaciones máximas en el rango de años de 1981 hasta el 2016. Luego, se hará uso del software Past 4 en
el cual haremos uso del método de Ward para la manipulación de datos y obtendremos una clasificación en base
a los datos ingresados. Finalmente, se hará uso del software RStudio en el cual ingresaremos la información
organizada y mediante un proceso iterativo se hará uso del método de K-means para obtener una clasificación en
base a los datos registrados.
3. II. OBJETIVOS
▪ Realizar las estimaciones máximas de la cuenca de Urubamba
▪ Realizar un agrupamiento o análisis cluster acerca de las distribuciones de probabilidad para dichas
precipitaciones máximas
OBJETIVOS GENERALES
OBJETIVOS ESPECÍFICOS
▪ Obtener la data PISCO brindada por el Servicio Nacional de Meteorología e Hidrología del Perú
(SENAMHI)
▪ Aplicar los métodos de agrupamiento correspondiente al método de Ward y el método de K-means
▪ Discutir los resultados obtenidos por el método de Ward y el método de k-means
4. III. METODOLOGÍA
▪ Geográfica y políticamente, la cuenca de Vilcanota-Urubamba
abarca parte del territorio de los departamentos de Cusco (11
provincias, 73 distritos) con un 73,84% lo cual corresponde a un
área total de 43,370 km2, y otra parte del departamento de
Ucayali (1 provincia, 2 distritos) con un 26,16% lo cual
corresponde a un área total de 15,365 km2, teniendo un área
total de 58,735 km2.
ÁREA DE ESTUDIO
5. III. METODOLOGÍA
• La data pluviométrica de 15 estaciones meteorológicas fue obtenida del Servicio Nacional de
Meteorología e Hidrología del Perú (SENAMHI). La ubicación geográfica de las estaciones climáticas
se muestra en la figura siguiente. Cabe resaltar que esta data Pisco obtenida de cada estación ha
tenido que pasar por cierto filtro en el cual solo mantendremos la información relevante como son las
precipitaciones máximas
DATA METEOROLÓGICA
14. III. METODOLOGÍA
• El análisis de cluster es una técnica estadística multivariante cuya idea básica es agrupar un conjunto de observaciones en un
número dado de cluster o grupos tratando de lograr la máxima homogeneidad en cada grupo y la mayor diferencia entre los
grupos. Este agrupamiento se basa en la idea de distancia o similitud entre las observaciones. Este análisis tiene dos tipos de
clasificaciones:
Métodos de Cluster Jerárquicos
• En la práctica, no se pueden examinar todas las posibilidades de agrupar los elementos, incluso con los ordenadores más rápidos.
Una solución se encuentra en los llamados métodos jerárquicos. Se tienen dos posibles formas de actuar:
Métodos jerárquicos aglomerativos
• Se comienza con los objetos o individuos de modo individual; de este modo, se tienen tantos clusters iniciales como objetos. Luego
se van agrupando de modo que los primeros en hacerlo son los más similares y al final, todos los subgrupos se unen en un único
cluster.
ANÁLISIS CLUSTER
15. III. METODOLOGÍA
Métodos jerárquicos divididos
• Se actúa, de manera contraria. Se parte de un único grupo con todas las observaciones y se van dividiendo según lo lejanos que se
encuentren. Las metodologías de trabajo más conocidos dentro de los métodos jerárquicos son:
Enlace Simple
Enlace completo
Método de agrupación de vinculación promedio
Método de Ward o Varianza mínima
Métodos de Cluster no Jerárquicos
• En este caso comienzan con una solución prestablecida. Este es el punto de partida para el análisis clúster. De esta forma, los
grupos están establecidos de antemano y luego se van cambiando de modo iterativo, en función de sus características. A su vez,
podemos dividirlos en otros subgrupos.
Métodos de reasignación
• Los más relevantes son los métodos de centroides, como el k-means. Los de medioides, como el PAM. O el de las nubes dinámicas.
ANÁLISIS CLUSTER
16. III. METODOLOGÍA
Métodos directos
• El más importante es el block clustering, muy utilizado en minería de datos.
Métodos reductivos
• Estos están basados en los análisis factoriales tipo Q.
Métodos de búsqueda de densidad
• Por un lado, estarían los de aproximaciones tipológicas, como el análisis modal. Por otro, tenemos los probabilísticos,
como el de Wolf.
ANÁLISIS CLUSTER
18. III. METODOLOGÍA
• Este método une los casos buscando minimizar la varianza
dentro de cada grupo. Para ello se calcula, en un primer
momento, la media de todas las variables en cada
conglomerado. Seguido, se calcula la distancia entre cada
caso y la media del conglomerado, sumando después las
distancias entre todos los casos obtenidos. Posteriormente se
agrupan los conglomerados que generen menos aumentos en
la suma de las distancias dentro de cada conglomerado. Este
procedimiento crea grupos homogéneos y con tamaños
similares que se pueden apreciar de mejor manera en un
dendograma.
MÉTODO DE WARD
19. III. METODOLOGÍA
• Es un procediendo iterativo mediante el cual cada observación se
asigna al cluster más cercano. Inicialmente se establecen de
forma aleatoria las ubicaciones centrales de los grupos o
centroides. Se calculan las distancias de los distintos individuos a
estos centroides y se agrupa cada uno en el cluster más cercano.
Una vez las observaciones han sido clasificadas en el grupo cuyo
centroide es más cercano, se recalculan los centroides y se repite
el proceso de reagrupación. Hasta que los centroides se
estabilizan.
MÉTODO DE K-MEANS
27. V. DISCUCIÓN DE RESULTADOS
▪ Con respecto al método de Ward, interpretando los resultados podemos realizar una agrupación el
cual estaría dividido en dos grupos como se aprecia en la tabla siguiente.
▪ Referente al método de K-means, interpretando los resultados obtenidos podemos realizar 3 tipos
de agrupaciones, referentes al número de cluster k=2, k=3 y k=4 como se aprecia en la tabla
siguiente.
▪ Tanto el método de Ward como el método de K-means me arrojan resultados de clasificaciones
distintas; sin embargo, hay un punto de similitud con el método de K-means cuando el número de
cluster es k = 3, en este caso el Grupo 3 del método de K-means coincide con el Grupo 1 del método
de Ward.
29. Urubamba Urubamba Urubamba
Granja Kcayra Granja Kcayra Granja Kcayra
Pisac Pisac Pisac
Pomacanchi Pomacanchi Pomacanchi
Ccatcca Ccatcca Ccatcca
Colquepata Colquepata Colquepata
Ocobamba Ocobamba Ocobamba
Zurite Zurite Zurite
Quebrada Yanatilde Quebrada Yanatilde Quebrada Yanatilde
Cirialo Cirialo Cirialo
Maranura Maranura Maranura
Machu Picchu Machu Picchu Grupo 3 Machu Picchu
Acjanaco Acjanaco Acjanaco
Sepa Sepa Sepa
Sepahua Sepahua Sepahua
Grupo 3
Agrupación k=4
Grupo 1
Grupo 2
Grupo 4
Método de K-means
Agrupación k=3
Grupo 1
Grupo 2
Grupo 1
Grupo 2
Agrupación k=2
30. VI. CONCLUSIONES
▪ El análisis de clustering es una técnica estadística multivariante cuya finalidad es dividir un conjunto
de objetos en grupos que compartan cierto patrón.
▪ La metodología desarrollada permitió completar la correcta agrupación en base a la información
brindada por la data PISCO de 15 estaciones pluviométricas brindada por el Servicio Nacional de
Meteorología e Hidrología del Perú (SENAMHI).
▪ El método de Ward a comparación de los otros métodos mencionados tiene significativamente
menos cálculos que otros métodos, el inconveniente de esto es que generalmente da como
resultado clústeres menos que óptimos.
▪ Si bien es cierto el método de Ward es similar a método de K-means, la ventaja que tenemos con el
segundo es que podemos seleccionar el número de cluster que nosotros queramos y nos arroja su
dendograma correspondiente.