4. Métodos de Agrupación
Métodos jerárquicos:
• Los objetos se agrupan (dividen) por partes hasta clasificar todos los objetos.
• No requiere fijar un número de clústeres o grupos (menos supervisado).
Métodos de capa única:
• Se tiene un número de grupos predefinidos y cada objeto se ubica en un grupo hasta
alcanzar estabilidad en los valores de los centroides.
• Requiere, generalmente, fijar a priori un número de clústeres.
Ing. Mtr. Luis Fernando Aguas Bucheli
6. Métodos aglomerativos
Esquema general algoritmo:
1. Cada objeto corresponde a un grupo.
2. En cada iteración se juntan los dos grupos más cercanos bajo algún
criterio de cercanía entre grupos.
3. Los dos grupos recién unidos forman un único grupo.
4. Iterar hasta formar un único grupo.
El método jerárquico aglomerativo más utilizado es el de
Ward, por el nombre de su autor.
Ing. Mtr. Luis Fernando Aguas Bucheli
7. Método de Ward
• Este procedimiento trata de identificar grupos
de casos, tratando de minimizar la varianza
dentro de los grupos.
• Se minimiza la distancia euclideana cuadrada
a las medias del conglomerado o grupo.
Ing. Mtr. Luis Fernando Aguas Bucheli
8. Dendogramas
Un dendograma es un árbol en el que el largo de
las ramas está asociado inversamente a la
fortaleza de la relación.
Ing. Mtr. Luis Fernando Aguas Bucheli
9. Métodos divisivos
• Esquema general algoritmo:
1. Todos los objetos corresponde a un grupo.
2. Cada grupo se separa bajo algún criterio de maximización de
varianza entre grupos.
3. Dividir cada uno de los grupos hasta que:
– Todos los grupos sean tan homogéneos que no vale la pena
seguir dividiendo.
– Los grupos son tan pequeños que no vale la pena seguir
dividiendo.
Ing. Mtr. Luis Fernando Aguas Bucheli
10. Métodos de una sola capa o
particionales
Algoritmos iterativos: en cada iteración ubican a los
objetos en el grupo más cercano a él, de acuerdo con
los valores de los centroides.
Ing. Mtr. Luis Fernando Aguas Bucheli
11. • La función kmeans trata a cada observación como un objeto
localizado en el espacio. Se pueden escoger cinco medidas de
distancia.
• Cada clúster es definido por sus miembros y por su centroide. El
centroide es aquel que minimiza la suma de las desviaciones desde
cualquier punto del grupo a ese punto central. La función kmeans
minimiza una función diferente dependiendo de la medida de
distancia que se utilice.
• Se pueden controlar los detalles de la minimización como incluir los
valores iniciales de los centroides o el máximo número de iteraciones.
Ing. Mtr. Luis Fernando Aguas Bucheli
[idx,ctrs] = kmeans(X,2,... 'Distance','city’);
18. Comparación de agrupamientos con los lirios,
usando una interfaz de Matlab
Clustering sustractivo Fuzzy C-means
findcluster('iris.dat')
19. Interpretar y elaborar un perfil de cada
grupo
• Debe buscarse una semántica que
diferencie a los objetos de cada grupo.
• Enfoques complementarios:
– Análisis y comparación de los centroides de
cada grupo.
– Análisis gráfico para determinar la variables
que marcan diferencias significativas.
20. EVALUACIÓN VISUAL DE AGRUPAMIENTOS
Datos originales K-medias Probabilístico EM
Ing. Mtr. Luis Fernando Aguas Bucheli