analisis de conglomerados prctica en spss

Master en Recursos Humanos
Análisis de Conglomerados (Cluster
Analysis): prácticas con SPSS
Ana María López
Área de Metodología de las Ciencias del Comportamiento
Departamento de Psicología Experimental

• El objetivo es agrupar a los sujetos en función de su parecido en las subescalas del WISC-R.
dado que todas las variables son cuantitativas utilizaremos como medida de disimilaridad la
distancia euclídea y como procedimiento de agregación los métodos de la media, mínimo y
máximo. La matriz con la que vamos a trabajar es: datos1. Para ejecutar un análisis de
conglomerados con SPSS en primer lugar hay que seleccionar el menú Analizar como muestra el
siguiente cuadro:
Conglomerados jerárquicos

• En segundo lugar seleccionamos Conglomerados jerárquicos y accedemos al siguiente cuadro:
El cuadro contiene:
1. la lista de variables del archivo. De esta lista
seleccionamos aquellas sobre las que
deseemos evaluar el parecido de los
sujetos. En nuestro caso son las
correspondientes a las subescalas del
WISC-R. Una vez seleccionadas las
variables las trasladamos al cuadro
Variables.
2. Existe la posibilidad de agrupar
(Conglomerar) casos, este es el uso más
frecuente del análisis de conglomerados, o
de agrupar variables y el resultado sería el
equivalente a un análisis factorial.
3. Además disponemos de una serie de
botones que nos permiten acceder a las
diferente opciones implementadas en SPSS.
En las transparencias siguientes
comentaremos las opciones de los cuadros:
Estadísticos, Gráficos, Método y Guardar en
este orden.

• Cuadro Estadísticos:
En este cuadro podemos solicitar:
1. además del Historial de conglomeración que
lo proporciona por defecto si tenemos
seleccionada la opción Estadísticos dell
cuadro Análisis de conglomerados
jerárquico, la Matriz de distancias.
2. Podemos pedir que nos proporcione una
tabla con el conglomerado de pertenencia
de cada sujeto si nos decidimos por una
solución en un número de conglomerados
determinado o en un rango. Estas opciones
son muy útiles cuando tenemos claro el
número de conglomerados que constituye la
solución a nuestro problema de
investigación. No obstante lo más
importante no es visualizar la tabla crear
una variable en el archivo de datos con
valores que indican el conglomerado al que
pertenece el sujeto esto podemos hacerlo
con las opciones del cuadro Guardar
variables nuevas.

Cuadro Método:
En este cuadro podemos
1. seleccionar entre una larga lista de métodos
de conglomeración: vinculación inter-grupo
(método de la media), vinculación intra-
grupos (distancia media entre las distancias
de los elementos del grupo unión), vecino
más próximo (mínimo), vecino más lejano
(máximo), agrupación de centroides
(distancia entre centroides), agrupación de
medianas (media de centroides) y Método
de Ward (minimiza la varianza intragrupo).
En principio convendría explorar con
distintos métodos hasta encontrar la
solucción más satisfactoria. El método de
Ward sólo puede aplicarse a variables
cuantitativas.
2. Seleccionar la medida de distancia
adecuada a la métrica de las variables.
3. Podemos optar por calcular las distancias
entre los sujetos a partir de puntuaciones
estandarizadas con las opciones del cuadro
Transformar valores. Se recomienda
estandarizar cuando las variables están
medidas en escalas distintas.

Cuadro Guardar variables nuevas:
Este cuadro nos permite crear nuevas
variables en el archivo de datos con el grupo
de pertenencia de cada sujeto. Podemos
crear una única variable correspondiente a
una Solución única en K conglomerados.
Esta variable toma valores desde 1 hasta K
e indica el grupo al que pertenece el sujeto.
Si seleccionamos un Rango de soluciones
crea una variable para cada una de las
soluciones desde Número mínimo de
conglomerados hasta Número máximo de
conglomerados. Por ejemplos si en Número
mínimo de conglomerados escribimos 2 y en
Número máximo 4 creará 3 variables: una
para la solución en dos conglomerados,
otras para la solución en tres
conglomerados y la última para la solución
en cuatro conglomerados.

Resultados
Resumen delprocesamiento de los casos
a,b
48 71,6 19 28,4 67 100,0
N Porcentaje N Porcentaje N Porcentaje
Válidos Perdidos Total
Casos
distancia euclídea al cuadrado usada
a.
Vinculación promedio (Inter-grupos)
b.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine

Vinculación simple (método del mínimo)
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine

Vinculación completa (método del máximo)

Resultados:
Si a partir del dendograma anterior, en el cuadro Guardar variables nuevas, seleccionamos Rango
de soluciones y en Número mínimo de conglomerados escribimos 2 y en Número máximo de
conglomerados escribimos 4 se crean tres nuevas variables en el editor de datos que clasifican a
los sujetos en función del cluster al que pertenecen para cada una de las soluciones en dos, tres y
cuatro conglomerados. Las nuevas variables se denominan: CLU4_1, CLU3_1 y CLU2_1 como
podemos observar en la porción del editor de datos siguiente.

Resultados:
La interpretación de los conglomerados depende del valor medio de las variables en cada uno de
ellos. Es decir, para caracterizar a cada clase y diferenciarla de las demás vamos a obtener el
centroide de cada una de ellas y vamos a realizar un gráfico de lineas. Vamos también a realizar
una análisis de frecuencias para saber el número de sujetos de cada cluster y para cada solución.
Tabla de frecuencia
CLU4_1 Complete Linkage
15 22,4 31,3 31,3
13 19,4 27,1 58,3
8 11,9 16,7 75,0
12 17,9 25,0 100,0
48 71,6 100,0
19 28,4
67 100,0
1
2
3
4
Total
Válidos
Sistema
Perdidos
Total
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
15 22,4 31,3 31,3
25 37,3 52,1 83,3
8 11,9 16,7 100,0
48 71,6 100,0
19 28,4
67 100,0
1
2
3
Total
Válidos
Sistema
Perdidos
Total
Porcentaje
válido
Porcentaje
acumulado
23 34,3 47,9 47,9
25 37,3 52,1 100,0
48 71,6 100,0
19 28,4
67 100,0
1
2
Total
Válidos
Sistema
Perdidos
Total
Porcentaje
válido
Porcentaje
acumulado

Resultados: Perfil de medias de cada solución
Tablas personalizadas
7 4
8 4
8 4
9 5
8 5
9 5
9 5
8 3
8 4
9 3
8 4
8 2
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
fi figuras incompletas
his historietas
cub cubos
rom rompecabezas
cn claves numéricas
laber laberintos
Media
1
Media
2
CLU2_1 Complete
Linkage
0
1
2
3
4
5
6
7
8
9
10
inf
información
sem
semejanzas
arit
aritmética
voc
vocabulario
comp
comprensión
dig
dígitos
fi
figuras
incompletas
his
historietas
cub
cubos
rom
rompecabezas
cn
claves
numéricas
laber
laberintos
cluster 1 cluster 2
Los gráficos de perfiles obtenerlos del archivo: perfiles

7 4 7
7 4 9
6 4 10
9 5 9
8 5 9
9 5 10
9 5 10
6 3 10
7 4 10
7 3 11
6 4 10
8 2 9
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
his historietas
cub cubos
rom rompecabezas
laber laberintos
Media
1
Media
2
Media
3
0
2
4
6
8
10
12
inf
información
sem
semejanzas
arit
aritmética
voc
vocabulario
comp
comprensión
dig
dígitos
fi
figuras
incompletas
his
historietas
cub
cubos
rom
rompecabezas
cn
claves
numéricas
laber
laberintos
cluster 1 cluster 2 cluster 3

7 3 7 4
7 3 9 5
6 2 10 6
9 3 9 6
8 4 9 6
9 3 10 8
9 4 10 6
6 3 10 3
7 4 10 4
7 4 11 3
6 2 10 5
8 2 9 3
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
his historietas
cub cubos
rom rompecabezas
laber laberintos
Media
1
Media
2
Media
3
Media
4
0
2
4
6
8
10
12
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
his historietas
cub cubos
rom rompecabezas
laber laberintos
cluster 1 cluster 2 cluster 3 cluster 4

• Con la misma matriz y variables con las que hemos realizado el análisis de conglomerados
jerárquico vamos a realizar un análisis de conglomerados de k-medias. Ahora del menú Clasificar
seleccionamos Conglomerado de K medias
Conglomerados de k medias

El cuadro contiene:
1. la lista de variables del archivo. De esta lista
seleccionamos aquellas sobre las que
deseemos evaluar el parecido de los
sujetos. En nuestro caso son las
correspondientes a las subescalas del
WISC-R. Una vez seleccionadas las
variables las trasladamos al cuadro
Variables.
2. Por defecto el Nº de conglomerados en que
divide a los sujetos es 2 pero podemos
segmentar la muestra en un número mayor
de clases. Sólo tenemos que sustituir el 2
por otro número.
3. Sabemos que la primera partición la inducen
un número de sujetos igual al número de
conglomerados elegidos mediante diferentes
procedimientos. Por defecto SPSS elige a
los dos sujetos más distantes. Podemos no
obstante escribir en un archivo los centros
de los conglomerados que dan lugar a la
primera partición marcando en Leer
iniciales.
4. También podemos escribir en un archivo los
centros de los conglomerados finales
seleccionando Escribir finales.

Si pulsamos en los botones Guardar del cuadro anterior obtenemos podemos crear una
nueva variable en el editor de datos de manera que asigne a cada sujeto un valor que
identifica el conglomerado al que pertenece. :
Si pulsamos en el botón Opciones podemos seleccionar una Tabla de ANOVA con la única
utilidad de identificar a las variables que desde un punto de vista descriptivo discriminan
entre los conglomerados. Las inferencias a partir de estos resultados de ANOVA serían
incorrectas. :

Resultados:
Análisis de conglomerados de K medias
Centros iniciales de los conglomerados
6 1
10 1
10 1
11 1
10 1
9 1
8 1
16 1
14 2
15 1
14 1
14 1
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
his historietas
cub cubos
rom rompecabezas
laber laberintos
1 2
Conglomerado
Historial de iteracionesa
14,752 11,160
,814 ,702
,415 ,361
,000 ,000
Iteración
1
2
3
4
1 2
Cambio en los centros
de los conglomerados
Se ha logrado la convergencia debido a que los
centros de los conglomerados no presentan ningún
cambio o éste es pequeño. El cambio máximo de
coordenadas absolutas para cualquier centro es de
,000. La iteración actual es 4. La distancia mínima
entre los centros iniciales es de 37,202.
a.

Resultados:
Análisis de conglomerados de K medias
Centros de los conglomerados finales
7 4
8 4
8 4
9 5
8 5
9 5
9 5
8 3
8 4
9 3
8 4
8 2
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
his historietas
cub cubos
rom rompecabezas
laber laberintos
1 2
Conglomerado
0
1
2
3
4
5
6
7
8
9
10
inf
información
sem
semejanzas
arit
aritmética
voc
vocabulario
comp
comprensión
dig
dígitos
fi
figuras
incompletas
his
historietas
cub
cubos
rom
rompecabezas
cn
claves
numéricas
laber
laberintos
cluster 1 cluster 2

Resultados:
ANOVA
155,462 1 4,566 46 34,051 ,000
199,432 1 7,866 46 25,355 ,000
205,962 1 9,087 46 22,665 ,000
208,046 1 9,064 46 22,954 ,000
135,668 1 9,246 46 14,673 ,000
163,695 1 9,739 46 16,809 ,000
245,833 1 6,032 46 40,754 ,000
271,847 1 7,045 46 38,587 ,000
159,399 1 6,055 46 26,326 ,000
336,154 1 7,051 46 47,678 ,000
227,637 1 9,919 46 22,949 ,000
413,149 1 6,620 46 62,410 ,000
inf información
sem semejanzas
arit aritmética
voc vocabulario
comp comprensión
dig dígitos
his historietas
cub cubos
rom rompecabezas
laber laberintos
Media
cuadrática gl
Conglomerado
Media
cuadrática gl
Error
F Sig.
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han
sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles
críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los
centros de los conglomerados son iguales.
Número de casos en cada conglomerado
22,000
26,000
48,000
19,000
1
2
Conglomerado
Válidos
Perdidos

• Dado que en la matriz además de las variables de la evaluación intelectual disponemos de otras
variables de naturaleza cualitativa tales como la presencia de ansiedad, válvulas, retrasos en el
desarrollo, etc. Vamos a realizar un análisis de conglomerados en dos fases. Para ello elegimos
Conglomerado en dos fases…
Conglomerados en dos etapas

• A diferencia del resto de los procedimientos aquí disponemos de dos cuadros: en uno insertamos
las variables cualitativas y en el otro las cuantitativas.

• Como en el resto de los cuadros de diálogo si pinchamos en el botón Gráficos podemos
seleccionar dos tipos de gráficos que nos ayudarán a interpretar el perfil de los conglomerados
tanto en las variables cualitativas como cuantitativas.

• Pulsando en el botón Resultados podemos Estadísticos Descriptivos por conglomerado y
Frecuencias de los conglomerados.

Resultados:
Conglomerados en dos fases Distribución de conglomerados
17 37,8% 25,4%
28 62,2% 41,8%
45 100,0% 67,2%
22 32,8%
67 100,0%
1
2
Combinados
Conglomerado
Casos excluidos
Total
N
% de
combinados % del total
Perfiles de los conglomerados
Centroides
8,00 3,82 5,40
1,936 1,887 2,783
8,59 4,43 6,00
2,785 2,645 3,357
8,24 3,82 5,49
2,969 2,945 3,635
8,94 5,29 6,67
3,363 3,053 3,612
8,18 5,04 6,22
2,351 3,480 3,437
8,88 6,04 7,11
2,619 3,687 3,575
9,59 5,14 6,82
1,970 2,990 3,413
7,18 3,32 4,78
3,107 2,310 3,218
7,76 4,43 5,69
2,587 2,116 2,803
8,65 3,86 5,67
3,020 2,592 3,599
6,94 4,07 5,16
2,076 3,030 3,030
8,29 2,61 4,76
3,197 2,025 3,743
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
Media
Desv. típica
inf
información
sem
semejanzas
arit aritmética
voc
vocabulario
comp
comprensión
dig dígitos
fi figuras
incompletas
his
historietas
cub cubos
rom
rompecabeza
s
cn claves
numéricas
laber
laberintos
1 2 Combinados
Conglomerado
Agrupación automática
711,054
708,351 -2,703 1,000 1,788
753,807 45,457 -16,816 1,370
815,777 61,969 -22,924 1,226
885,960 70,184 -25,963 1,061
958,224 72,264 -26,732 1,397
1040,247 82,023 -30,342 1,033
1123,052 82,805 -30,632 1,182
1209,521 86,469 -31,987 1,204
1299,394 89,873 -33,246 1,098
1390,763 91,368 -33,799 1,041
1482,737 91,974 -34,024 1,103
1576,082 93,345 -34,531 1,004
1669,477 93,395 -34,549 1,022
1763,157 93,680 -34,655 1,224
Número de
conglomerados
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Criterio
bayesiano de
Schwarz (BIC)
Cambio
en BIC
a
Razón de
cambios
en BIC
b
Razón de
medidas de
distancia
c
Los cambios proceden del número anterior de conglomerados de la
tabla.
a.
Las razones de los cambios están relacionadas con el cambio para la
solución de los dos conglomerados.
b.
Las razones de las medidas de la distancia se basan en el número
actual de conglomerados frente al número de conglomerados
anterior.
c.

Resultados:
Frecuencias
proceden procedencia
10 32,3% 7 50,0%
21 67,7% 7 50,0%
31 100,0% 14 100,0%
1
2
Combinados
Conglomerado
Frecuencia Porcentaje Frecuencia Porcentaje
1 rural 2 urbano
válvulas presencia de válvulas
3 12,0% 14 70,0%
22 88,0% 6 30,0%
25 100,0% 20 100,0%
1
2
Combinados
Conglomerado
1 Si 2 No
retdes retraso en el desarrollo
8 26,7% 9 60,0%
22 73,3% 6 40,0%
30 100,0% 15 100,0%
1
2
Combinados
Conglomerado
1 Si 2 No
ans ansiedad
2 10,5% 15 57,7%
17 89,5% 11 42,3%
19 100,0% 26 100,0%
1
2
Combinados
Conglomerado
1 Si 2 No

Resultados:
Importancia de los atributos

Resultados:
Variación intra-conglomerado

Resultados:
Importancia según agrupación

Resultados:
Prueba para una muestra
5,180 16 ,000 ,80657945 ,4764821 1,1366768
2,859 16 ,011 ,48217148 ,1246918 ,8396511
3,353 16 ,004 ,66429329 ,2442607 1,0843259
2,526 16 ,022 ,54570281 ,0878061 1,0035995
2,691 16 ,016 ,38414254 ,0815166 ,6867685
2,835 16 ,012 ,50443714 ,1271916 ,8816827
5,697 16 ,000 ,83255309 ,5227588 1,1423474
2,254 16 ,039 ,46506233 ,0277328 ,9023919
2,765 16 ,014 ,52024129 ,1214140 ,9190686
3,676 16 ,002 ,74794809 ,3165717 1,1793245
2,471 16 ,025 ,32044215 ,0455715 ,5953128
4,141 16 ,001 ,82167235 ,4010257 1,2423191
Zinf Puntua: información
Zsem Puntua:
semejanzas
Zarit Puntua: aritmética
Zvoc Puntua: vocabulario
Zcomp Puntua:
comprensión
Zdig Puntua: dígitos
Zfi Puntua: figuras
incompletas
Zhis Puntua: historietas
Zcub Puntua: cubos
Zrom Puntua:
rompecabezas
Zcn Puntua: claves
numéricas
Zlaber Puntua:
laberintos
t gl Sig. (bilateral)
Diferencia
de medias Inferior Superior
95% Intervalo de
confianza para la
diferencia
Valor de prueba = 0
Prueba para una muestra
-4,896 27 ,000 -,57877908 -,8213243 -,3362338
-4,458 27 ,000 -,55621925 -,8122251 -,3002134
-3,593 27 ,001 -,55012974 -,8642810 -,2359785
-2,764 27 ,010 -,42237245 -,7359185 -,1088264
-2,442 27 ,021 -,40201383 -,7397717 -,0642560
-1,501 27 ,145 -,29299391 -,6934485 ,1074607
-3,049 27 ,005 -,52683232 -,8814079 -,1722568
-4,939 27 ,000 -,59025492 -,8354870 -,3450228
-4,005 27 ,000 -,48018512 -,7261983 -,2341720
-4,283 27 ,000 -,58296876 -,8622595 -,3036781
-2,839 27 ,008 -,41865379 -,7212325 -,1160751
-6,472 27 ,000 -,63368232 -,8345916 -,4327731
Zinf Puntua: información
Zsem Puntua:
semejanzas
Zarit Puntua: aritmética
Zvoc Puntua: vocabulario
Zcomp Puntua:
comprensión
Zdig Puntua: dígitos
Zfi Puntua: figuras
incompletas
Zhis Puntua: historietas
Zcub Puntua: cubos
Zrom Puntua:
rompecabezas
Zcn Puntua: claves
numéricas
Zlaber Puntua:
laberintos
t gl Sig.(bilateral)
Diferencia
de medias Inferior Superior
95% Intervalo de
confianza para la
diferencia
Valor de prueba =0

analisis de conglomerados prctica en spss

Recomendados

Recomendados

Más contenido relacionado

Similar a analisis de conglomerados prctica en spss

Similar a analisis de conglomerados prctica en spss (20)

Último

Último (20)

analisis de conglomerados prctica en spss