ESTADISTICA
ANÁLISIS CLÚSTER (O ANÁLISIS CONGLOMERADOS)
MAESTRIA EN VALUACION
•ING. JUAN CARLOS VÁZQUEZ LÓPEZ
INTRODUCCION
ETAPAS DEL ANÁLISIS CLUSTER
1) Elección de las variables.
2) Elección de la medida de asociación.
3) Elección de la técnica Clúster.
4) Validación de los resultados
ETAPAS DEL ANÁLISIS CLUSTER
1) Elección de las variables.
Variables cualitativasVariables cualitativas
- Ordinales: (ej. Nivel de estudios)
- Nominales: (ej. Nacionalidad)
Variables cuantitativasVariables cuantitativas
- Discretas: (ej. Numero de hermanos)
- Continuas: (ej. Peso)
2) Elección de la medida de asociación.
• Cuando se elige una distancia como medida de asociación (por ejemplo
la distancia euclídea) los grupos formados contendrán individuos
parecidos de forma que la distancia entre ellos ha de ser pequeña.
.
• Cuando se elige una medida de similaridad (por ejemplo el coeficiente de
correlación) los grupos formados contendrán individuos con una
similaridad alta entre ellos.
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que
caractericen las relaciones entre las variables o los individuos. Cada medida refleja
asociación en un sentido particular y es necesario elegir una medida apropiada para el
problema concreto que se esté tratando. La medida de asociación puede ser una distancia o
una similaridad.
3) Elección de la técnica Clúster.
Ejemplo
Supongamos que un Museo realiza encuestas a un grupo de niños al terminar el recorrido; dicha
encuesta ésta diseñada con distintas preguntas generales y algunas que pueden ayudarnos a
identificar grupos y diseñar estrategias que vayan acorde con los niños que están más
interesados en asistir a un museo.
Suponiendo que las preguntas de la sección denominada como “Opiniones generales que tengo
en relación al museo” son con las que el equipo pretende agrupar a los 25 niños que
respondieron la encuesta, se tendrían que hacer primero 2 consideraciones:
1.Que para identificar los grupos de niños, las preguntas que se elijan deben de estar en la
misma escala de medición. (En caso de que esto no sea posible, se deben de estandarizar los
valores)
1.Justificar la aplicación del clúster análisis, lo cual podemos hacer demostrando que existe fuerte
asociación entre las variables que van a configurarlo.
Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25 niños:
caso sexo edad divertid pidocomp aprendom excur quitatie nomeint gustovis
1 1 9 6 7 3 3 4 2 1
2 1 10 2 1 4 4 3 5 0
3 0 9 7 6 3 4 2 1 1
4 0 9 4 4 6 5 6 3 1
5 0 9 1 2 4 2 3 6 0
6 0 10 6 6 4 3 4 3 1
7 0 10 5 6 4 3 3 3 1
8 0 10 7 7 4 4 3 1 1
9 1 9 2 3 3 3 4 6 0
10 1 9 3 3 6 6 5 4 0
11 0 10 1 2 3 3 3 5 1
12 0 9 5 5 4 4 4 2 1
13 0 9 2 1 4 5 2 4 1
14 0 9 4 4 7 6 6 4 1
15 0 8 6 4 4 2 5 1 1
16 0 9 3 4 7 6 5 4 0
17 1 9 4 7 5 2 4 2 0
18 0 9 3 2 3 6 7 4 1
19 0 9 4 3 7 7 6 2 1
20 1 9 2 2 2 4 3 7 0
21 0 9 5 6 5 4 4 3 1
22 1 9 5 7 5 4 3 3 1
23 1 9 4 2 7 7 7 1 1
24 1 10 3 3 5 7 4 4 0
25 1 10 1 2 3 3 2 4 0
Tabla de Correlaciones Bivariadas
** **
.818** **
.000
25
.099 .034 ** **
.638 .870
25 25
-.066 -.318 .631** **
.755 .121 .001
25 25 25
.099 -.111 .616** .577**
.636 .599 .001 .003
25 25 25 25
-.816** -.591** -.296 -.071 -.218
.000 .002 .152 .735 .295
25 25 25 25 25
Correlación de Pearson
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Es divertido ir al museo
Cuando voy al museo
le pido a mis papas
que me compren algo
de los materiales que
venden adentro
Puedo aprender en la
escuela lo mismo que
en el museo
Prefiero ir al museo en
excursiones con la
escuela
Ir al museo en mi
tiempo libre me quita
tiempo para jugar
No me interesa en lo
mas mínimo asistir al
museo
Es divertido
ir al museo
Pido a mis
papas que
me compren
algo dentro
del museo
Puedo
aprender en
la escuela lo
mismo que
en el museo
Prefiero ir al
museo en
excursiones
con la
escuela
Ir al museo
en mi tiempo
libre me
quita tiempo
para jugar
No me
interesa en lo
mas mínimo
asistir al
museo
La correlación es significativa al nivel 0,01 (bilateral).**.
Ya que hemos elegido a las variables que consideramos que podemos utilizar para nuestro análisis,
debemos demostrar su aplicabilidad mediante la demostración de la existencia de una fuerte
asociación entre las variables que van a configurarlo, lo cual podemos hacer con el siguiente análisis
de correlación.
El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos podríamos utilizar,
en éste caso de nuestro análisis, el dendrograma se muestra así:
* * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
20    
21     
18             
19             
25    
23                                       
24    
22                     
2             
5          
9     
10           
3         
4          
6                                        
1         
8          
7                 
11           
15                                           
13         
16       
14     
17       
12    
Mucha distancia
entre los clusters (3)
Poca distancia
entre los casos
de cada cluster
En la gráfica anterior podemos notar la existencia de distintos grupos de alumnos
(clusters), donde nuestra principal tarea en éstos momentos es poder definir con
cuantos grupos quedarnos, opciones que podrían ir desde los dos hasta que cada
alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar en
cuenta la practicidad del manejo de la información, y que tampoco podemos
considerar como un cluster o conglomerado a 1 sólo elemento.
Así que de manera gráfica podemos optar por la opción de tres clusters, donde
existe poca distancia entre los elementos de cada cluster (la observamos por las
líneas horizontales) y mucha distancia entre los distintos clusters (la observamos
de la misma manera), donde cada conglomerado estaría conformado por los
siguientes niños/elementos:
Conglomerado 1: Niños 20,21,18,19,25,23, 24 y 22 (8 niños)
Conglomerado 2: Niños 2,5,9,10,3,4,6,1,8 y 7 (10 niños)
Conglomerado 3: Niños 11,15,13,16,14,17 y 12 (7 niños)
Es muy importante que al ejecutar un análisis cluster indiquemos al paquete que
nos guarde el conglomerado de pertenencia de cada elemento (en el rango de
opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de esta
manera tener ya el conglomerado de pertenencia de cada elemento en nuestra
base de datos y poder estudiar las características de cada conglomerado.
También podemos justificar nuestra decisión de 3 conglomerados mediante la
creación de una tabla que (esto sólo se puede hacer cuando de manera previa le
hemos indicado al paquete que nos guarde la información de pertenencia de cada
caso) nos muestre cuantos elementos estarían en cada conglomerado entre las
opciones que mostramos como probables en un inicio.
18 10 10 9 9 7
7 7 7 1 1 2
8 7 7 7 1
1 7 5 7
1 1 5
2 1
2
1
2
3
4
5
6
7
Casos
2 clusters
Casos
3 clusters
Casos
4 clusters
Casos
5 clusters
Casos
6 clusters
Casos
7 clusters
De ésta manera podemos analizar que si tuviéramos 2 clusters, uno tendría 18 casos y el
otro 7, pero si tuviéramos 4 clusters tendríamos uno con 10 niños, otro con 7, otro con 7 y
otro con 1, de modo que la opción mas “viable” o “equilibrada” sería la que tomamos de
manera visual de 3 clusters; No debemos olvidar que además de prácticos y homogéneos,
los clusters deben aportar información razonable y fácil de comprender a la investigación.
Una vez que hemos determinado el número de los clusters, podemos proceder a estudiarlos y
compararlos; una buena opción podría ser desarrollar gráficas que nos apoyen en su estudio, y de
acuerdo a las características de los clusters podríamos también
Esdivertidoiralmuseo
Cuandovoyalmuseol
Puedoaprenderenl
Prefieroiralmuseo
Iralmuseoenmitiempo
Nomeinteresaen
0
1
2
3
4
5
6
7
Interesados Desinteresados
Lúdicos
Totalm ente
de Acuerdo
Totalm ente
en
desacuerdo
Cuandovoyalmuseo
lepidoamispapas
quemecomprenalgo
adentro
Aprendoenla
escuelalomismo
queenelmuseo
Prefieroiralmuseo
enexcursiones
conlaescuela
Iralmuseoenmi
tiempolibremequita
tiempoparajugar
Nomeinteresaen
lomásmínimoiral
museo
Esdivertido
iralmuseo
Funciones Discriminantes Canónicas
Cluster
Centroides de grupo
Lúdicos
Desinteresados
Interesados
Resultados de la clasificacióna
10 0 0 10
0 7 0 7
0 0 8 8
100.0 .0 .0 100.0
.0 100.0 .0 100.0
.0 .0 100.0 100.0
Average Linkage
(Betw een Groups)
Interesados
Desinteresados
Lúdicos
Interesados
Desinteresados
Lúdicos
Recuento
%
Original
Interesados
Desintere
sados Lúdicos
Grupo de pertenencia pronosticado
Total
Clasificados correctamente el 100.0% de los casos agrupados originales.a.
En dicho diagrama de dispersión y en la tabla que muestra los
resultados de clasificación podemos observar que tenemos una muy
buena clasificación (Esta clasificación tan alta no se logra siempre, varía
muchas veces tanto del número de casos como de la forma en que se
distribuyen, en ésta ocasión tuvimos la fortuna de que los casos
muestren una agrupación natural perfectamente delimitada), donde de
manera gráfica podemos observar que los tres grupos se diferencian
muy bien, encontrándose cada uno en regiones muy independientes.

Analisis Cluster

  • 1.
  • 2.
    ANÁLISIS CLÚSTER (OANÁLISIS CONGLOMERADOS) MAESTRIA EN VALUACION •ING. JUAN CARLOS VÁZQUEZ LÓPEZ
  • 3.
  • 4.
    ETAPAS DEL ANÁLISISCLUSTER 1) Elección de las variables. 2) Elección de la medida de asociación. 3) Elección de la técnica Clúster. 4) Validación de los resultados
  • 5.
    ETAPAS DEL ANÁLISISCLUSTER 1) Elección de las variables. Variables cualitativasVariables cualitativas - Ordinales: (ej. Nivel de estudios) - Nominales: (ej. Nacionalidad) Variables cuantitativasVariables cuantitativas - Discretas: (ej. Numero de hermanos) - Continuas: (ej. Peso)
  • 6.
    2) Elección dela medida de asociación. • Cuando se elige una distancia como medida de asociación (por ejemplo la distancia euclídea) los grupos formados contendrán individuos parecidos de forma que la distancia entre ellos ha de ser pequeña. . • Cuando se elige una medida de similaridad (por ejemplo el coeficiente de correlación) los grupos formados contendrán individuos con una similaridad alta entre ellos. Para poder unir variables o individuos es necesario tener algunas medidas numéricas que caractericen las relaciones entre las variables o los individuos. Cada medida refleja asociación en un sentido particular y es necesario elegir una medida apropiada para el problema concreto que se esté tratando. La medida de asociación puede ser una distancia o una similaridad.
  • 7.
    3) Elección dela técnica Clúster.
  • 11.
    Ejemplo Supongamos que unMuseo realiza encuestas a un grupo de niños al terminar el recorrido; dicha encuesta ésta diseñada con distintas preguntas generales y algunas que pueden ayudarnos a identificar grupos y diseñar estrategias que vayan acorde con los niños que están más interesados en asistir a un museo. Suponiendo que las preguntas de la sección denominada como “Opiniones generales que tengo en relación al museo” son con las que el equipo pretende agrupar a los 25 niños que respondieron la encuesta, se tendrían que hacer primero 2 consideraciones: 1.Que para identificar los grupos de niños, las preguntas que se elijan deben de estar en la misma escala de medición. (En caso de que esto no sea posible, se deben de estandarizar los valores) 1.Justificar la aplicación del clúster análisis, lo cual podemos hacer demostrando que existe fuerte asociación entre las variables que van a configurarlo.
  • 12.
    Tras aplicar laencuesta obtenemos las siguientes respuestas por parte de los 25 niños: caso sexo edad divertid pidocomp aprendom excur quitatie nomeint gustovis 1 1 9 6 7 3 3 4 2 1 2 1 10 2 1 4 4 3 5 0 3 0 9 7 6 3 4 2 1 1 4 0 9 4 4 6 5 6 3 1 5 0 9 1 2 4 2 3 6 0 6 0 10 6 6 4 3 4 3 1 7 0 10 5 6 4 3 3 3 1 8 0 10 7 7 4 4 3 1 1 9 1 9 2 3 3 3 4 6 0 10 1 9 3 3 6 6 5 4 0 11 0 10 1 2 3 3 3 5 1 12 0 9 5 5 4 4 4 2 1 13 0 9 2 1 4 5 2 4 1 14 0 9 4 4 7 6 6 4 1 15 0 8 6 4 4 2 5 1 1 16 0 9 3 4 7 6 5 4 0 17 1 9 4 7 5 2 4 2 0 18 0 9 3 2 3 6 7 4 1 19 0 9 4 3 7 7 6 2 1 20 1 9 2 2 2 4 3 7 0 21 0 9 5 6 5 4 4 3 1 22 1 9 5 7 5 4 3 3 1 23 1 9 4 2 7 7 7 1 1 24 1 10 3 3 5 7 4 4 0 25 1 10 1 2 3 3 2 4 0
  • 13.
    Tabla de CorrelacionesBivariadas ** ** .818** ** .000 25 .099 .034 ** ** .638 .870 25 25 -.066 -.318 .631** ** .755 .121 .001 25 25 25 .099 -.111 .616** .577** .636 .599 .001 .003 25 25 25 25 -.816** -.591** -.296 -.071 -.218 .000 .002 .152 .735 .295 25 25 25 25 25 Correlación de Pearson Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Es divertido ir al museo Cuando voy al museo le pido a mis papas que me compren algo de los materiales que venden adentro Puedo aprender en la escuela lo mismo que en el museo Prefiero ir al museo en excursiones con la escuela Ir al museo en mi tiempo libre me quita tiempo para jugar No me interesa en lo mas mínimo asistir al museo Es divertido ir al museo Pido a mis papas que me compren algo dentro del museo Puedo aprender en la escuela lo mismo que en el museo Prefiero ir al museo en excursiones con la escuela Ir al museo en mi tiempo libre me quita tiempo para jugar No me interesa en lo mas mínimo asistir al museo La correlación es significativa al nivel 0,01 (bilateral).**. Ya que hemos elegido a las variables que consideramos que podemos utilizar para nuestro análisis, debemos demostrar su aplicabilidad mediante la demostración de la existencia de una fuerte asociación entre las variables que van a configurarlo, lo cual podemos hacer con el siguiente análisis de correlación.
  • 14.
    El dendrograma esmuy importante porque nos ayuda a identificar cuantos grupos podríamos utilizar, en éste caso de nuestro análisis, el dendrograma se muestra así: * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 20     21      18              19              25     23                                        24     22                      2              5           9      10            3          4           6                                         1          8           7                  11            15                                            13          16        14      17        12     Mucha distancia entre los clusters (3) Poca distancia entre los casos de cada cluster
  • 15.
    En la gráficaanterior podemos notar la existencia de distintos grupos de alumnos (clusters), donde nuestra principal tarea en éstos momentos es poder definir con cuantos grupos quedarnos, opciones que podrían ir desde los dos hasta que cada alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar en cuenta la practicidad del manejo de la información, y que tampoco podemos considerar como un cluster o conglomerado a 1 sólo elemento. Así que de manera gráfica podemos optar por la opción de tres clusters, donde existe poca distancia entre los elementos de cada cluster (la observamos por las líneas horizontales) y mucha distancia entre los distintos clusters (la observamos de la misma manera), donde cada conglomerado estaría conformado por los siguientes niños/elementos: Conglomerado 1: Niños 20,21,18,19,25,23, 24 y 22 (8 niños) Conglomerado 2: Niños 2,5,9,10,3,4,6,1,8 y 7 (10 niños) Conglomerado 3: Niños 11,15,13,16,14,17 y 12 (7 niños) Es muy importante que al ejecutar un análisis cluster indiquemos al paquete que nos guarde el conglomerado de pertenencia de cada elemento (en el rango de opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de esta manera tener ya el conglomerado de pertenencia de cada elemento en nuestra base de datos y poder estudiar las características de cada conglomerado. También podemos justificar nuestra decisión de 3 conglomerados mediante la creación de una tabla que (esto sólo se puede hacer cuando de manera previa le hemos indicado al paquete que nos guarde la información de pertenencia de cada caso) nos muestre cuantos elementos estarían en cada conglomerado entre las opciones que mostramos como probables en un inicio.
  • 16.
    18 10 109 9 7 7 7 7 1 1 2 8 7 7 7 1 1 7 5 7 1 1 5 2 1 2 1 2 3 4 5 6 7 Casos 2 clusters Casos 3 clusters Casos 4 clusters Casos 5 clusters Casos 6 clusters Casos 7 clusters De ésta manera podemos analizar que si tuviéramos 2 clusters, uno tendría 18 casos y el otro 7, pero si tuviéramos 4 clusters tendríamos uno con 10 niños, otro con 7, otro con 7 y otro con 1, de modo que la opción mas “viable” o “equilibrada” sería la que tomamos de manera visual de 3 clusters; No debemos olvidar que además de prácticos y homogéneos, los clusters deben aportar información razonable y fácil de comprender a la investigación.
  • 17.
    Una vez quehemos determinado el número de los clusters, podemos proceder a estudiarlos y compararlos; una buena opción podría ser desarrollar gráficas que nos apoyen en su estudio, y de acuerdo a las características de los clusters podríamos también Esdivertidoiralmuseo Cuandovoyalmuseol Puedoaprenderenl Prefieroiralmuseo Iralmuseoenmitiempo Nomeinteresaen 0 1 2 3 4 5 6 7 Interesados Desinteresados Lúdicos Totalm ente de Acuerdo Totalm ente en desacuerdo Cuandovoyalmuseo lepidoamispapas quemecomprenalgo adentro Aprendoenla escuelalomismo queenelmuseo Prefieroiralmuseo enexcursiones conlaescuela Iralmuseoenmi tiempolibremequita tiempoparajugar Nomeinteresaen lomásmínimoiral museo Esdivertido iralmuseo
  • 18.
    Funciones Discriminantes Canónicas Cluster Centroidesde grupo Lúdicos Desinteresados Interesados
  • 19.
    Resultados de laclasificacióna 10 0 0 10 0 7 0 7 0 0 8 8 100.0 .0 .0 100.0 .0 100.0 .0 100.0 .0 .0 100.0 100.0 Average Linkage (Betw een Groups) Interesados Desinteresados Lúdicos Interesados Desinteresados Lúdicos Recuento % Original Interesados Desintere sados Lúdicos Grupo de pertenencia pronosticado Total Clasificados correctamente el 100.0% de los casos agrupados originales.a. En dicho diagrama de dispersión y en la tabla que muestra los resultados de clasificación podemos observar que tenemos una muy buena clasificación (Esta clasificación tan alta no se logra siempre, varía muchas veces tanto del número de casos como de la forma en que se distribuyen, en ésta ocasión tuvimos la fortuna de que los casos muestren una agrupación natural perfectamente delimitada), donde de manera gráfica podemos observar que los tres grupos se diferencian muy bien, encontrándose cada uno en regiones muy independientes.