Analisis Cluster

ANÁLISIS CLÚSTER (O ANÁLISIS CONGLOMERADOS)
MAESTRIA EN VALUACION
•ING. JUAN CARLOS VÁZQUEZ LÓPEZ

ETAPAS DEL ANÁLISIS CLUSTER
1) Elección de las variables.
2) Elección de la medida de asociación.
3) Elección de la técnica Clúster.
4) Validación de los resultados

ETAPAS DEL ANÁLISIS CLUSTER
1) Elección de las variables.
Variables cualitativasVariables cualitativas
- Ordinales: (ej. Nivel de estudios)
- Nominales: (ej. Nacionalidad)
Variables cuantitativasVariables cuantitativas
- Discretas: (ej. Numero de hermanos)
- Continuas: (ej. Peso)

2) Elección de la medida de asociación.
• Cuando se elige una distancia como medida de asociación (por ejemplo
la distancia euclídea) los grupos formados contendrán individuos
parecidos de forma que la distancia entre ellos ha de ser pequeña.
.
• Cuando se elige una medida de similaridad (por ejemplo el coeficiente de
correlación) los grupos formados contendrán individuos con una
similaridad alta entre ellos.
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que
caractericen las relaciones entre las variables o los individuos. Cada medida refleja
asociación en un sentido particular y es necesario elegir una medida apropiada para el
problema concreto que se esté tratando. La medida de asociación puede ser una distancia o
una similaridad.

3) Elección de la técnica Clúster.

Ejemplo
Supongamos que un Museo realiza encuestas a un grupo de niños al terminar el recorrido; dicha
encuesta ésta diseñada con distintas preguntas generales y algunas que pueden ayudarnos a
identificar grupos y diseñar estrategias que vayan acorde con los niños que están más
interesados en asistir a un museo.
Suponiendo que las preguntas de la sección denominada como “Opiniones generales que tengo
en relación al museo” son con las que el equipo pretende agrupar a los 25 niños que
respondieron la encuesta, se tendrían que hacer primero 2 consideraciones:
1.Que para identificar los grupos de niños, las preguntas que se elijan deben de estar en la
misma escala de medición. (En caso de que esto no sea posible, se deben de estandarizar los
valores)
1.Justificar la aplicación del clúster análisis, lo cual podemos hacer demostrando que existe fuerte
asociación entre las variables que van a configurarlo.

Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25 niños:
caso sexo edad divertid pidocomp aprendom excur quitatie nomeint gustovis
1 1 9 6 7 3 3 4 2 1
2 1 10 2 1 4 4 3 5 0
3 0 9 7 6 3 4 2 1 1
4 0 9 4 4 6 5 6 3 1
5 0 9 1 2 4 2 3 6 0
6 0 10 6 6 4 3 4 3 1
7 0 10 5 6 4 3 3 3 1
8 0 10 7 7 4 4 3 1 1
9 1 9 2 3 3 3 4 6 0
10 1 9 3 3 6 6 5 4 0
11 0 10 1 2 3 3 3 5 1
12 0 9 5 5 4 4 4 2 1
13 0 9 2 1 4 5 2 4 1
14 0 9 4 4 7 6 6 4 1
15 0 8 6 4 4 2 5 1 1
16 0 9 3 4 7 6 5 4 0
17 1 9 4 7 5 2 4 2 0
18 0 9 3 2 3 6 7 4 1
19 0 9 4 3 7 7 6 2 1
20 1 9 2 2 2 4 3 7 0
21 0 9 5 6 5 4 4 3 1
22 1 9 5 7 5 4 3 3 1
23 1 9 4 2 7 7 7 1 1
24 1 10 3 3 5 7 4 4 0
25 1 10 1 2 3 3 2 4 0

Tabla de Correlaciones Bivariadas
** **
.818** **
.000
25
.099 .034 ** **
.638 .870
25 25
-.066 -.318 .631** **
.755 .121 .001
25 25 25
.099 -.111 .616** .577**
.636 .599 .001 .003
25 25 25 25
-.816** -.591** -.296 -.071 -.218
.000 .002 .152 .735 .295
25 25 25 25 25
Correlación de Pearson
Sig. (bilateral)
N
Sig. (bilateral)
N
Sig. (bilateral)
N
Sig. (bilateral)
N
Sig. (bilateral)
N
Es divertido ir al museo
Cuando voy al museo
le pido a mis papas
que me compren algo
de los materiales que
venden adentro
Puedo aprender en la
escuela lo mismo que
en el museo
Prefiero ir al museo en
excursiones con la
escuela
Ir al museo en mi
tiempo libre me quita
tiempo para jugar
No me interesa en lo
mas mínimo asistir al
museo
Es divertido
ir al museo
Pido a mis
papas que
me compren
algo dentro
del museo
Puedo
aprender en
la escuela lo
mismo que
en el museo
Prefiero ir al
museo en
excursiones
con la
escuela
Ir al museo
en mi tiempo
libre me
quita tiempo
para jugar
No me
interesa en lo
mas mínimo
asistir al
museo
La correlación es significativa al nivel 0,01 (bilateral).**.
Ya que hemos elegido a las variables que consideramos que podemos utilizar para nuestro análisis,
debemos demostrar su aplicabilidad mediante la demostración de la existencia de una fuerte
asociación entre las variables que van a configurarlo, lo cual podemos hacer con el siguiente análisis
de correlación.

El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos podríamos utilizar,
en éste caso de nuestro análisis, el dendrograma se muestra así:
* * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
20    
21     
18             
19             
25    
23                                       
24    
22                     
2             
5          
9     
10           
3         
4          
6                                        
1         
8          
7                 
11           
15                                           
13         
16       
14     
17       
12    
Mucha distancia
entre los clusters (3)
Poca distancia
entre los casos
de cada cluster

En la gráfica anterior podemos notar la existencia de distintos grupos de alumnos
(clusters), donde nuestra principal tarea en éstos momentos es poder definir con
cuantos grupos quedarnos, opciones que podrían ir desde los dos hasta que cada
alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar en
cuenta la practicidad del manejo de la información, y que tampoco podemos
considerar como un cluster o conglomerado a 1 sólo elemento.
Así que de manera gráfica podemos optar por la opción de tres clusters, donde
existe poca distancia entre los elementos de cada cluster (la observamos por las
líneas horizontales) y mucha distancia entre los distintos clusters (la observamos
de la misma manera), donde cada conglomerado estaría conformado por los
siguientes niños/elementos:
Conglomerado 1: Niños 20,21,18,19,25,23, 24 y 22 (8 niños)
Conglomerado 2: Niños 2,5,9,10,3,4,6,1,8 y 7 (10 niños)
Conglomerado 3: Niños 11,15,13,16,14,17 y 12 (7 niños)
Es muy importante que al ejecutar un análisis cluster indiquemos al paquete que
nos guarde el conglomerado de pertenencia de cada elemento (en el rango de
opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de esta
manera tener ya el conglomerado de pertenencia de cada elemento en nuestra
base de datos y poder estudiar las características de cada conglomerado.
También podemos justificar nuestra decisión de 3 conglomerados mediante la
creación de una tabla que (esto sólo se puede hacer cuando de manera previa le
hemos indicado al paquete que nos guarde la información de pertenencia de cada
caso) nos muestre cuantos elementos estarían en cada conglomerado entre las
opciones que mostramos como probables en un inicio.

18 10 10 9 9 7
7 7 7 1 1 2
8 7 7 7 1
1 7 5 7
1 1 5
2 1
2
1
2
3
4
5
6
7
Casos
2 clusters
Casos
3 clusters
Casos
4 clusters
Casos
5 clusters
Casos
6 clusters
Casos
7 clusters
De ésta manera podemos analizar que si tuviéramos 2 clusters, uno tendría 18 casos y el
otro 7, pero si tuviéramos 4 clusters tendríamos uno con 10 niños, otro con 7, otro con 7 y
otro con 1, de modo que la opción mas “viable” o “equilibrada” sería la que tomamos de
manera visual de 3 clusters; No debemos olvidar que además de prácticos y homogéneos,
los clusters deben aportar información razonable y fácil de comprender a la investigación.

Una vez que hemos determinado el número de los clusters, podemos proceder a estudiarlos y
compararlos; una buena opción podría ser desarrollar gráficas que nos apoyen en su estudio, y de
acuerdo a las características de los clusters podríamos también
Esdivertidoiralmuseo
Cuandovoyalmuseol
Puedoaprenderenl
Prefieroiralmuseo
Iralmuseoenmitiempo
Nomeinteresaen
0
1
2
3
4
5
6
7
Interesados Desinteresados
Lúdicos
Totalm ente
de Acuerdo
Totalm ente
en
desacuerdo
Cuandovoyalmuseo
lepidoamispapas
quemecomprenalgo
adentro
Aprendoenla
escuelalomismo
queenelmuseo
Prefieroiralmuseo
enexcursiones
conlaescuela
Iralmuseoenmi
tiempolibremequita
tiempoparajugar
Nomeinteresaen
lomásmínimoiral
museo
Esdivertido
iralmuseo

Funciones Discriminantes Canónicas
Cluster
Centroides de grupo
Lúdicos
Desinteresados
Interesados

Resultados de la clasificacióna
10 0 0 10
0 7 0 7
0 0 8 8
100.0 .0 .0 100.0
.0 100.0 .0 100.0
.0 .0 100.0 100.0
Average Linkage
(Betw een Groups)
Interesados
Desinteresados
Lúdicos
Interesados
Desinteresados
Lúdicos
Recuento
%
Original
Interesados
Desintere
sados Lúdicos
Grupo de pertenencia pronosticado
Total
Clasificados correctamente el 100.0% de los casos agrupados originales.a.
En dicho diagrama de dispersión y en la tabla que muestra los
resultados de clasificación podemos observar que tenemos una muy
buena clasificación (Esta clasificación tan alta no se logra siempre, varía
muchas veces tanto del número de casos como de la forma en que se
distribuyen, en ésta ocasión tuvimos la fortuna de que los casos
muestren una agrupación natural perfectamente delimitada), donde de
manera gráfica podemos observar que los tres grupos se diferencian
muy bien, encontrándose cada uno en regiones muy independientes.

Analisis Cluster

Más contenido relacionado

La actualidad más candente

Similar a Analisis Cluster

Más de juan vazquez

Analisis Cluster