“ANÁLISIS CLUSTER”
Estudio de Caso: 14-1.sav
UNIVERSIDAD GALILEO
FACULTAD DE CIENCIA, TECNOLOGÍA E INDUSTRIA
DOCTORADO EN ADMINISTRACIÓN CON ESPECIALIDAD
EN FINANZAS
ARQ. ALVARO COUTIÑO G.
Carnet 1300-4393
“ANÁLISIS CLUSTER”
1
Contenido
INTRODUCCIÓN .............................................................................................................................. 2
1. INFORMACIÓN CASO DE ESTUDIO..................................................................................... 3
2. ANÁLISIS................................................................................................................................... 3
2.1. DECRIPTIVOS....................................................................................................................... 3
2.1.1. Estadísticos descriptivos ..................................................................................................... 3
2.1.2. Estadísticos descriptivos ..................................................................................................... 4
3. Gráfico de dispersión .................................................................................................................. 4
4. Correlaciones: ............................................................................................................................. 5
A. ANÁLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5
5. Conglomerado............................................................................................................................. 6
5.1. Resumen del procesamiento de los casos................................................................................ 6
6. Vinculación promedio (inter-grupos).......................................................................................... 7
6.1. Historial de conglomeración ................................................................................................... 7
6.2. Conglomerado de pertenencia................................................................................................. 8
6.3. Dendograma:........................................................................................................................... 9
B. ANÁLISIS NO JERÁRQUICO DE CONGLOMERADOS: .............................................. 10
7. Análisis de conglomerados y K-medias.................................................................................... 10
7.1. Centros iniciales de los conglomerados ................................................................................ 10
7.2. Historial de relaciones........................................................................................................... 10
7.3. Pertenencia a los conglomerados .......................................................................................... 10
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en excel)........................... 11
7.4. Centros de los conglomerados finales................................................................................... 11
7.5. Distancias entre los centros de los conglomerados finales.................................................... 12
7.6. ANOVA ................................................................................................................................ 12
7.7. Número de casos en cada conglomerado .............................................................................. 12
8. CONCLUSIONES: ................................................................................................................... 12
9. BIBLIOGRAFÍA....................................................................................................................... 13
“ANÁLISIS CLUSTER”
2
INTRODUCCIÓN
El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un
conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de
una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la
similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos
internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se
aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis.
En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto,
el análisis un marcado carácter exploratorio y de agrupación.
En el campo de los bienes raíces y construcción, es de utilidad cuando la empresa desea
clasificar a sus consumidores en tipos según sus distintas percepciones de determinados
atributos del proyecto: Calidad, precio, servicios, especificaciones, entorno, acceso,
distancias a puntos estratégicos de conveniencia, áreas de la ciudad, zonas, niveles de
violencia, entre otras. Para ello, se diseña una muestra con 100 clientes a los que se
cuestiona sobre su percepción, en una escala de intervalos, de las anteriores características
de los productos de la empresa. El resultado final consiste en diseñar diferentes estrategias
de promoción en función de sus diversos perfiles.
En el siguiente análisis, se procede a realizar un estudio de caso mediante el análisis
clúster, el cual está dividido en el proceso de análisis, resultados, conceptos y conclusiones.
“ANÁLISIS CLUSTER”
3
1. INFORMACIÓN CASO DE ESTUDIO
1. Con la técnica de Análisis de conglomerados clasificar a los jóvenes (base de datos
14-1) según:
 Número de veces que van anualmente al futbol (futbol)
 La paga semanal que reciben (paga2)
 El número de horas semanales que ven la televisión.
Preguntas
1. Utilizar análisis clúster jerárquico y no jerárquico (con todos los conglomerados).Para
homogenizar las variables, estandarícelas por medio del procedimiento “descriptivos”
pidiendo que “guarde los valores tipificados como variables”.
2. Utilice estas variables tipificadas (en la base de datos original).
3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos:
3.1. jerárquico
3.2. no jerárquico.
4. Proponga un nombre para cada conglomerado.
Como primer paso,
Cargue en SPSS el archivo de nombre 14-1.sav, (archivo → abrir → datos) se trata de
clasificar a los jóvenes por el número de veces que van anualmente al futbol, la pagas
semanal que reciben y el número de horas que ven la televisión.
2. ANÁLISIS
2.1. DECRIPTIVOS
2.1.1. Estadísticos descriptivos
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
ASISTENCIA ANUAL AL FUTBOL 14 0 8 3.71 3.429
PAGA SEMANAL EN PTAS 14 1000 2500 1557.14 730.347
HORAS SEMANALES TV 14 5 22 15.86 5.051
N válido (según lista) 14
“ANÁLISIS CLUSTER”
4
Como paso siguiente, se procede a tipificar1
las variables, ya que, al trabajar con
distancias, todas las variables han de venir medidas en las mismas unidades.
Para éste análisis realizamos los siguientes pasos:
1. Analizar
1.1. Estadísticos descriptivos
1.1.1. Descriptivos
1.1.1.1. Guardar valores tipificados como variables
2.1.2. Estadísticos descriptivos
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
Puntuación Z: ASISTENCIA ANUAL AL FUTBOL 14 -1.08319 1.24983 .0000000 1.00000000
Puntuación Z: PAGA SEMANAL EN PTAS 14 -.76285 1.29097 .0000000 1.00000000
Puntuación Z: HORAS SEMANALES TV 14 -2.14934 1.21607 .0000000 1.00000000
N válido (según lista) 14
El siguiente paso, es realizar gráficos de dispersión2
en tres dimensiones para las
tres variables tipificadas con el objeto de observar los posibles grupos.
Para éste análisis realizamos los siguientes pasos:
1. Gráficos
1.1. Dispersión
1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z:
TV)
3. Gráfico de dispersión
1
Tipificar las variables: Procedimiento para estandarizar las variables y que exista así una comparabilidad
entre las variables. (Pérez López, 2004, pág. 447)
2
Gráfico de dispersión: Observa la relación entre dos o más variables. (Pérez López, 2004, pág. 82)
“ANÁLISIS CLUSTER”
5
Interpretación:
 Se observa que se podría agrupar a los individuos en tres grupos.
Es siguiente paso es realizar un análisis de correlaciones bivariadas3
:
Para éste análisis realizamos los siguientes pasos:
1. analizar
1.1. Correlaciones
1.1.1. Bivariadas
4. Correlaciones:
Correlaciones
Puntuación Z:
ASISTENCIA
ANUAL AL
FUTBOL
Puntuación Z:
PAGA
SEMANAL EN
PTAS
Puntuación Z:
HORAS
SEMANALES
TV
Puntuación Z: ASISTENCIA ANUAL AL
FUTBOL
Correlación de Pearson 1 -.291 -.229
Sig. (bilateral) .313 .431
N 14 14 14
Puntuación Z: PAGA SEMANAL EN PTAS
Correlación de Pearson -.291 1 .025
Sig. (bilateral) .313 .932
N 14 14 14
Puntuación Z: HORAS SEMANALES TV
Correlación de Pearson -.229 .025 1
Sig. (bilateral) .431 .932
N 14 14 14
 Se observa que existen tres grupos.
A. ANÁLISIS JERARQUICO4
DE CONGLOMERADOS
El siguiente paso es realizar un análisis de jerárquico
Para éste análisis realizamos los siguientes pasos:
1. Analizar
1.1. Clasificar
1.1.1. Conglomerado jerárquico
1.1.1.1. Variables: Tipificadas
1.1.1.1.1. Estadísticos
3
Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Pérez López,
2004, pág. 446)
4
Análisis jerárquico: Procedimiento que intenta identificar grupos relativamente homogéneos de casos o de
variables basándose en características seleccionadas, mediante un algoritmo que comienza con cada caso o
cada variable en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. (Pérez
López, 2004, pág. 440)
“ANÁLISIS CLUSTER”
6
a. Historial de conglomeración
b. Rangos 2 – 4
1.1.1.1.2. Gráficos
a. Dendograma
b. Horizontal
1.1.1.1.3. Método
1.1.1.1.4. Guardar
1.1.1.1.5. Rango 2 – 4
5. Conglomerado
5.1. Resumen del procesamiento de los casos
Resumen del procesamiento de los casosa,b
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
14 100.0 0 .0 14 100.0
a. distancia euclídea al cuadrado usada
b. Vinculación promedio (Inter-grupos)
Interpretación:
 Se muestran el número de porcentaje de casos válidos analizados, el número y
porcentaje de casos con valores perdidos en alguna de las variables incluidas en los
análisis y el tamaño total de la muestra, que no es otra cosa que la suma de los casos
válidos y los perdidos. (Análiss de conglomerados, 2014, pág. 477)
En la tabla siguiente, se muestra el historial del proceso de conglomeración, etapa por
etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen
14 casos sólo se realizan 13 etapas de fusión.
“ANÁLISIS CLUSTER”
7
6. Vinculación promedio (inter-grupos)
6.1. Historial de conglomeración5
Historial de conglomeración
Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado aparece
por primera vez
Próxima etapa
Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
1 3 9 .000 0 0 8
2 2 8 .000 0 0 9
3 7 10 .104 0 0 6
4 5 11 .379 0 0 5
5 5 13 .575 4 0 9
6 7 14 .679 3 0 10
7 1 6 1.065 0 0 11
8 3 4 1.065 1 0 10
9 2 5 1.640 2 5 12
10 3 7 5.138 8 6 12
11 1 12 5.157 7 0 13
12 2 3 6.565 9 10 13
13 1 2 8.378 11 12 0
Interpretación
La columna conglomerado que se combina informa sobre los conglomerados o casos
fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de
datos. Como el análisis se inicia con todos los casos separados en conglomerados
individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese
momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas
posteriores.
La Columna “Coeficientes”, ofrece el valor de la distancia la que se encuentran los casos
antes de la fusión. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9
vale 0, lo que significa que se trata de casos con idénticas puntuaciones.
La columna “Etapa en la que el conglomerado aparece por primera vez” recoge la etapa
en la que se han formado los conglomerados que se están fundiendo en cada momento. El
5
Historial de conglomeración: Muestra los casos o conglomerados combinados en cada etapa, las distancias
entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de aglomeración
en el que cada caso o variable se unió a su conglomerado correspondiente. (Pérez López, 2004, pág. 441)
RANGO DE SOLUCIONES 3 O 4 CLUSTER
“ANÁLISIS CLUSTER”
8
valor 0 indica que el conglomerado correspondiente es un caso individual. Un valor mayor
que o indica el número de etapa en la que se formó el conglomerado. En nuestro caso, el
valor 0 nos indica que los conglomerados son casos individuales, lo que significa el
surgimiento de 4 conglomerados.
La columna “Próxima etapa”, indica la etapa en la que el conglomerado que se acaba de
formar volverá a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9
respectivamente.
6.2. Conglomerado de pertenencia6
Conglomerado de pertenencia
Caso 4 conglomerados 3 conglomerados 2 conglomerados
1 1 1 1
2 2 2 2
3 3 3 2
4 3 3 2
5 2 2 2
6 1 1 1
7 3 3 2
8 2 2 2
9 3 3 2
10 3 3 2
11 2 2 2
12 4 1 1
13 2 2 2
14 3 3 2
6
Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solución única
o un rango de soluciones. Las variables pueden emplearse en análisis posteriores para explorar otras
diferencias entre los grupos. (Pérez López, 2004, pág. 442)
Interpretación:
 Se refiere al conglomerado de pertenencia al que pertenece cada caso.
“ANÁLISIS CLUSTER”
9
6.3. Dendograma7
:
Interpretación:
Para interpretar estos resultados se recuerda que el objetivo es agrupar los individuos
considerando sus características. Por lo tanto, tener un solo grupo no aporta información.
En consecuencia, sabiendo que a menor distancia los conglomerados son más homogéneos,
es conveniente detener el proceso de unión cuando las líneas horizontales sean muy largas:
en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters.
Se observa en el dendograma la conformación de 4 grupos:
 Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV)
 Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV)
 Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es
indiferente, si les gasta la TV)
 Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV)
El siguiente paso es el realizar un análisis no jerárquico
7
Dendograma: Se usan para evaluar la cohesión de los conglomerados que se han formado y proporcionar
información sobre el número adecuado de conglomerados que deben conservarse. (Pérez López, 2004, pág.
443)
“ANÁLISIS CLUSTER”
10
B. ANÁLISIS NO JERÁRQUICO8
DE CONGLOMERADOS:
Para éste análisis realizamos los siguientes pasos:
2. Analizar
2.1. Clasificar
2.1.1. Conglomerado de K-medias
2.1.1.1. Variables: Tipificadas
2.1.1.2. Numero de conglomerados 4
2.1.2. Opciones
2.1.2.1. Información de conglomerados de cada caso
7. Análisis de conglomerados y K-medias
7.1. Centros iniciales de los conglomerados
Centros iniciales de los conglomerados
Conglomerado
1 2 3
Puntuación Z(fútbol) ASISTENCIA ANUAL AL
FUTBOL
1.24983 -.79156 .95821
Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 1.29097 -.76285
Puntuación Z: Puntuación Z: HORAS SEMANALES TV -2.14934 -.56562 1.21607
7.2. Historial de relaciones
Historial de iteracionesa
Iteración
Cambio en los centros de los conglomerados
1 2 3
1 .516 .753 .754
2 .000 .261 .243
3 .000 .000 .000
a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio
máximo de coordenadas absolutas para cualquier centro es de .000. La iteración actual es 3. La distancia mínima entre los centros iniciales
es de 3.233.
7.3. Pertenencia a los conglomerados
Pertenencia a los conglomerados
Número de caso Conglomerado Distancia
1 1 .516
2 2 .984
3 3 1.281
4 3 .990
5 2 .828
6 1 .516
8
Análisis no jerárquico: Procedimiento que intenta identificar grupos de casos relativamente homogéneos
basándose en las características seleccionadas y utilizando un algoritmo que pueden gestionar un gran
número de casos. (Pérez López, 2004, pág. 437)
“ANÁLISIS CLUSTER”
11
7 3 .990
8 2 .984
9 3 1.281
10 3 1.258
11 2 .397
12 2 2.070
13 2 .591
14 3 1.216
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel)
Pertenencia a los conglomerados
Número de caso Conglomerado Distancia
1 1 .516
6 1 .516
2 2 .984
5 2 .828
8 2 .984
11 2 .397
12 2 2.070
13 2 .591
3 3 1.281
4 3 .990
7 3 .990
9 3 1.281
10 3 1.258
14 3 1.216
Interpretación:
Se observa en la tabla de pertenencia la conformación de 3 grupos:
 Grupo A: 1, 6 (Poco interés, en el futbol, poco interés en TV, poco dinero para esos
fines, prefieren otro tipo de entretenimiento y diversión)
 Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol)
 Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los
partidos en vivo y si les interesa ver el futbol por la TV)
7.4. Centros de los conglomerados finales
Centros de los conglomerados finales
Conglomerado
1 2 3
Puntuación Z(fútbol) ASISTENCIA ANUAL AL FUTBOL 1.10402 -.45133 .08332
Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 .97149 -.71721
Puntuación Z: Puntuación Z: HORAS SEMANALES TV -1.65443 -.20268 .75415
“ANÁLISIS CLUSTER”
12
7.5. Distancias entre los centros de los conglomerados finales
Distancias entre los centros de los conglomerados finales
Conglomerado 1 2 3
1 2.745 2.616
2 2.745 2.013
3 2.616 2.013
7.6. ANOVA
ANOVA
Conglomerado Error F Sig.
Media cuadrática gl Media cuadrática gl
Puntuación Z(fútbol)
ASISTENCIA ANUAL AL
FUTBOL
1.851 2 .845 11 2.189 .158
Puntuación Z(paga2) PAGA
SEMANAL EN PTAS 4.956 2 .281 11 17.661 .000
Puntuación Z: Puntuación Z:
HORAS SEMANALES TV 4.567 2 .352 11 12.991 .001
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las
diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como
pruebas de la hipótesis de que los centros de los conglomerados son iguales.
7.7. Número de casos en cada conglomerado
Número de casos en cada conglomerado
Conglomerado
1 2.000
2 6.000
3 6.000
Válidos 14.000
Perdidos .000
Interpretaciones.
8. CONCLUSIONES:
El clúster es una técnica de clasificación que sirve para poder detectar y describir
subgrupos de sujetos o variables homogéneas en función de los valores observados dentro
de un conjunto aparentemente heterogéneo. Se fundamenta en el estudio de las distancias
entre ellos, permitiendo en el análisis, cuantificar el grado de similitud, en el caso de las
proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado
aparecen agrupaciones homogéneas.
A diferencia de otras pruebas de clasificación, el investigador no tiene conocimiento de
la existencia de los subgrupos o conglomerados, ni del número resultante, ni de las
“ANÁLISIS CLUSTER”
13
características que los definen. Por lo tanto, es una técnica exploratoria y descriptiva sin
variables dependientes.
El objetivo fundamental de esta técnica es la configuración de grupos similares y
homogéneos para poder entender y estudiar mejor los fenómenos sociales y educativos. En
el campo de los bienes raíces e inmobiliario, nos ayuda en estudiar a los diferentes grupos
de clientes para los proyectos según sus características, así como también puede ayudar en
el área urbanística donde nos puede orientar en el crecimiento de las poblaciones en las
ciudades.
9. BIBLIOGRAFÍA
(Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina
nte.pdf
(Mayo de 2014). Recuperado el Mayo de 2014, de
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli
ent/Manuals/IBM_SPSS_Statistics_Base.pdf
(Mayo de 2014). Recuperado el Mayo de 2014, de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf
Google. (Ayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved=
0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p
pt&ei=DpaHU-
6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w
“ANÁLISIS CLUSTER”
14
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf
You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=IYg0npCrSGw
You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=07lCKn6EEMQ
De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/
CONGLOMERADOS/conglomerados.pdf
IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli
ent/Manuals/IBM_SPSS_Statistics_Base.pdf
Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadística aplicada a los negocios y
la economía. México D. F.: McGraw-Hill Interamericana.
Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf
Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Madrid: PEARSON
EDUCACIÓN, S. A.
villardón, J. L. (Mayo de 2014). Google. Obtenido de
http://benjamindespensa.tripod.com/spss/AC.pdf

Análisis cluster

  • 1.
    “ANÁLISIS CLUSTER” Estudio deCaso: 14-1.sav UNIVERSIDAD GALILEO FACULTAD DE CIENCIA, TECNOLOGÍA E INDUSTRIA DOCTORADO EN ADMINISTRACIÓN CON ESPECIALIDAD EN FINANZAS ARQ. ALVARO COUTIÑO G. Carnet 1300-4393
  • 2.
    “ANÁLISIS CLUSTER” 1 Contenido INTRODUCCIÓN ..............................................................................................................................2 1. INFORMACIÓN CASO DE ESTUDIO..................................................................................... 3 2. ANÁLISIS................................................................................................................................... 3 2.1. DECRIPTIVOS....................................................................................................................... 3 2.1.1. Estadísticos descriptivos ..................................................................................................... 3 2.1.2. Estadísticos descriptivos ..................................................................................................... 4 3. Gráfico de dispersión .................................................................................................................. 4 4. Correlaciones: ............................................................................................................................. 5 A. ANÁLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5 5. Conglomerado............................................................................................................................. 6 5.1. Resumen del procesamiento de los casos................................................................................ 6 6. Vinculación promedio (inter-grupos).......................................................................................... 7 6.1. Historial de conglomeración ................................................................................................... 7 6.2. Conglomerado de pertenencia................................................................................................. 8 6.3. Dendograma:........................................................................................................................... 9 B. ANÁLISIS NO JERÁRQUICO DE CONGLOMERADOS: .............................................. 10 7. Análisis de conglomerados y K-medias.................................................................................... 10 7.1. Centros iniciales de los conglomerados ................................................................................ 10 7.2. Historial de relaciones........................................................................................................... 10 7.3. Pertenencia a los conglomerados .......................................................................................... 10 7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en excel)........................... 11 7.4. Centros de los conglomerados finales................................................................................... 11 7.5. Distancias entre los centros de los conglomerados finales.................................................... 12 7.6. ANOVA ................................................................................................................................ 12 7.7. Número de casos en cada conglomerado .............................................................................. 12 8. CONCLUSIONES: ................................................................................................................... 12 9. BIBLIOGRAFÍA....................................................................................................................... 13
  • 3.
    “ANÁLISIS CLUSTER” 2 INTRODUCCIÓN El análisisclúster es un conjunto de técnicas multivariante utilizadas para clasificar a un conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis. En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto, el análisis un marcado carácter exploratorio y de agrupación. En el campo de los bienes raíces y construcción, es de utilidad cuando la empresa desea clasificar a sus consumidores en tipos según sus distintas percepciones de determinados atributos del proyecto: Calidad, precio, servicios, especificaciones, entorno, acceso, distancias a puntos estratégicos de conveniencia, áreas de la ciudad, zonas, niveles de violencia, entre otras. Para ello, se diseña una muestra con 100 clientes a los que se cuestiona sobre su percepción, en una escala de intervalos, de las anteriores características de los productos de la empresa. El resultado final consiste en diseñar diferentes estrategias de promoción en función de sus diversos perfiles. En el siguiente análisis, se procede a realizar un estudio de caso mediante el análisis clúster, el cual está dividido en el proceso de análisis, resultados, conceptos y conclusiones.
  • 4.
    “ANÁLISIS CLUSTER” 3 1. INFORMACIÓNCASO DE ESTUDIO 1. Con la técnica de Análisis de conglomerados clasificar a los jóvenes (base de datos 14-1) según:  Número de veces que van anualmente al futbol (futbol)  La paga semanal que reciben (paga2)  El número de horas semanales que ven la televisión. Preguntas 1. Utilizar análisis clúster jerárquico y no jerárquico (con todos los conglomerados).Para homogenizar las variables, estandarícelas por medio del procedimiento “descriptivos” pidiendo que “guarde los valores tipificados como variables”. 2. Utilice estas variables tipificadas (en la base de datos original). 3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos: 3.1. jerárquico 3.2. no jerárquico. 4. Proponga un nombre para cada conglomerado. Como primer paso, Cargue en SPSS el archivo de nombre 14-1.sav, (archivo → abrir → datos) se trata de clasificar a los jóvenes por el número de veces que van anualmente al futbol, la pagas semanal que reciben y el número de horas que ven la televisión. 2. ANÁLISIS 2.1. DECRIPTIVOS 2.1.1. Estadísticos descriptivos Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. ASISTENCIA ANUAL AL FUTBOL 14 0 8 3.71 3.429 PAGA SEMANAL EN PTAS 14 1000 2500 1557.14 730.347 HORAS SEMANALES TV 14 5 22 15.86 5.051 N válido (según lista) 14
  • 5.
    “ANÁLISIS CLUSTER” 4 Como pasosiguiente, se procede a tipificar1 las variables, ya que, al trabajar con distancias, todas las variables han de venir medidas en las mismas unidades. Para éste análisis realizamos los siguientes pasos: 1. Analizar 1.1. Estadísticos descriptivos 1.1.1. Descriptivos 1.1.1.1. Guardar valores tipificados como variables 2.1.2. Estadísticos descriptivos Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. Puntuación Z: ASISTENCIA ANUAL AL FUTBOL 14 -1.08319 1.24983 .0000000 1.00000000 Puntuación Z: PAGA SEMANAL EN PTAS 14 -.76285 1.29097 .0000000 1.00000000 Puntuación Z: HORAS SEMANALES TV 14 -2.14934 1.21607 .0000000 1.00000000 N válido (según lista) 14 El siguiente paso, es realizar gráficos de dispersión2 en tres dimensiones para las tres variables tipificadas con el objeto de observar los posibles grupos. Para éste análisis realizamos los siguientes pasos: 1. Gráficos 1.1. Dispersión 1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z: TV) 3. Gráfico de dispersión 1 Tipificar las variables: Procedimiento para estandarizar las variables y que exista así una comparabilidad entre las variables. (Pérez López, 2004, pág. 447) 2 Gráfico de dispersión: Observa la relación entre dos o más variables. (Pérez López, 2004, pág. 82)
  • 6.
    “ANÁLISIS CLUSTER” 5 Interpretación:  Seobserva que se podría agrupar a los individuos en tres grupos. Es siguiente paso es realizar un análisis de correlaciones bivariadas3 : Para éste análisis realizamos los siguientes pasos: 1. analizar 1.1. Correlaciones 1.1.1. Bivariadas 4. Correlaciones: Correlaciones Puntuación Z: ASISTENCIA ANUAL AL FUTBOL Puntuación Z: PAGA SEMANAL EN PTAS Puntuación Z: HORAS SEMANALES TV Puntuación Z: ASISTENCIA ANUAL AL FUTBOL Correlación de Pearson 1 -.291 -.229 Sig. (bilateral) .313 .431 N 14 14 14 Puntuación Z: PAGA SEMANAL EN PTAS Correlación de Pearson -.291 1 .025 Sig. (bilateral) .313 .932 N 14 14 14 Puntuación Z: HORAS SEMANALES TV Correlación de Pearson -.229 .025 1 Sig. (bilateral) .431 .932 N 14 14 14  Se observa que existen tres grupos. A. ANÁLISIS JERARQUICO4 DE CONGLOMERADOS El siguiente paso es realizar un análisis de jerárquico Para éste análisis realizamos los siguientes pasos: 1. Analizar 1.1. Clasificar 1.1.1. Conglomerado jerárquico 1.1.1.1. Variables: Tipificadas 1.1.1.1.1. Estadísticos 3 Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Pérez López, 2004, pág. 446) 4 Análisis jerárquico: Procedimiento que intenta identificar grupos relativamente homogéneos de casos o de variables basándose en características seleccionadas, mediante un algoritmo que comienza con cada caso o cada variable en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. (Pérez López, 2004, pág. 440)
  • 7.
    “ANÁLISIS CLUSTER” 6 a. Historialde conglomeración b. Rangos 2 – 4 1.1.1.1.2. Gráficos a. Dendograma b. Horizontal 1.1.1.1.3. Método 1.1.1.1.4. Guardar 1.1.1.1.5. Rango 2 – 4 5. Conglomerado 5.1. Resumen del procesamiento de los casos Resumen del procesamiento de los casosa,b Casos Válidos Perdidos Total N Porcentaje N Porcentaje N Porcentaje 14 100.0 0 .0 14 100.0 a. distancia euclídea al cuadrado usada b. Vinculación promedio (Inter-grupos) Interpretación:  Se muestran el número de porcentaje de casos válidos analizados, el número y porcentaje de casos con valores perdidos en alguna de las variables incluidas en los análisis y el tamaño total de la muestra, que no es otra cosa que la suma de los casos válidos y los perdidos. (Análiss de conglomerados, 2014, pág. 477) En la tabla siguiente, se muestra el historial del proceso de conglomeración, etapa por etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen 14 casos sólo se realizan 13 etapas de fusión.
  • 8.
    “ANÁLISIS CLUSTER” 7 6. Vinculaciónpromedio (inter-grupos) 6.1. Historial de conglomeración5 Historial de conglomeración Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado aparece por primera vez Próxima etapa Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2 1 3 9 .000 0 0 8 2 2 8 .000 0 0 9 3 7 10 .104 0 0 6 4 5 11 .379 0 0 5 5 5 13 .575 4 0 9 6 7 14 .679 3 0 10 7 1 6 1.065 0 0 11 8 3 4 1.065 1 0 10 9 2 5 1.640 2 5 12 10 3 7 5.138 8 6 12 11 1 12 5.157 7 0 13 12 2 3 6.565 9 10 13 13 1 2 8.378 11 12 0 Interpretación La columna conglomerado que se combina informa sobre los conglomerados o casos fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de datos. Como el análisis se inicia con todos los casos separados en conglomerados individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas posteriores. La Columna “Coeficientes”, ofrece el valor de la distancia la que se encuentran los casos antes de la fusión. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9 vale 0, lo que significa que se trata de casos con idénticas puntuaciones. La columna “Etapa en la que el conglomerado aparece por primera vez” recoge la etapa en la que se han formado los conglomerados que se están fundiendo en cada momento. El 5 Historial de conglomeración: Muestra los casos o conglomerados combinados en cada etapa, las distancias entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de aglomeración en el que cada caso o variable se unió a su conglomerado correspondiente. (Pérez López, 2004, pág. 441) RANGO DE SOLUCIONES 3 O 4 CLUSTER
  • 9.
    “ANÁLISIS CLUSTER” 8 valor 0indica que el conglomerado correspondiente es un caso individual. Un valor mayor que o indica el número de etapa en la que se formó el conglomerado. En nuestro caso, el valor 0 nos indica que los conglomerados son casos individuales, lo que significa el surgimiento de 4 conglomerados. La columna “Próxima etapa”, indica la etapa en la que el conglomerado que se acaba de formar volverá a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9 respectivamente. 6.2. Conglomerado de pertenencia6 Conglomerado de pertenencia Caso 4 conglomerados 3 conglomerados 2 conglomerados 1 1 1 1 2 2 2 2 3 3 3 2 4 3 3 2 5 2 2 2 6 1 1 1 7 3 3 2 8 2 2 2 9 3 3 2 10 3 3 2 11 2 2 2 12 4 1 1 13 2 2 2 14 3 3 2 6 Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solución única o un rango de soluciones. Las variables pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos. (Pérez López, 2004, pág. 442) Interpretación:  Se refiere al conglomerado de pertenencia al que pertenece cada caso.
  • 10.
    “ANÁLISIS CLUSTER” 9 6.3. Dendograma7 : Interpretación: Parainterpretar estos resultados se recuerda que el objetivo es agrupar los individuos considerando sus características. Por lo tanto, tener un solo grupo no aporta información. En consecuencia, sabiendo que a menor distancia los conglomerados son más homogéneos, es conveniente detener el proceso de unión cuando las líneas horizontales sean muy largas: en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters. Se observa en el dendograma la conformación de 4 grupos:  Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV)  Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV)  Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es indiferente, si les gasta la TV)  Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV) El siguiente paso es el realizar un análisis no jerárquico 7 Dendograma: Se usan para evaluar la cohesión de los conglomerados que se han formado y proporcionar información sobre el número adecuado de conglomerados que deben conservarse. (Pérez López, 2004, pág. 443)
  • 11.
    “ANÁLISIS CLUSTER” 10 B. ANÁLISISNO JERÁRQUICO8 DE CONGLOMERADOS: Para éste análisis realizamos los siguientes pasos: 2. Analizar 2.1. Clasificar 2.1.1. Conglomerado de K-medias 2.1.1.1. Variables: Tipificadas 2.1.1.2. Numero de conglomerados 4 2.1.2. Opciones 2.1.2.1. Información de conglomerados de cada caso 7. Análisis de conglomerados y K-medias 7.1. Centros iniciales de los conglomerados Centros iniciales de los conglomerados Conglomerado 1 2 3 Puntuación Z(fútbol) ASISTENCIA ANUAL AL FUTBOL 1.24983 -.79156 .95821 Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 1.29097 -.76285 Puntuación Z: Puntuación Z: HORAS SEMANALES TV -2.14934 -.56562 1.21607 7.2. Historial de relaciones Historial de iteracionesa Iteración Cambio en los centros de los conglomerados 1 2 3 1 .516 .753 .754 2 .000 .261 .243 3 .000 .000 .000 a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de .000. La iteración actual es 3. La distancia mínima entre los centros iniciales es de 3.233. 7.3. Pertenencia a los conglomerados Pertenencia a los conglomerados Número de caso Conglomerado Distancia 1 1 .516 2 2 .984 3 3 1.281 4 3 .990 5 2 .828 6 1 .516 8 Análisis no jerárquico: Procedimiento que intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que pueden gestionar un gran número de casos. (Pérez López, 2004, pág. 437)
  • 12.
    “ANÁLISIS CLUSTER” 11 7 3.990 8 2 .984 9 3 1.281 10 3 1.258 11 2 .397 12 2 2.070 13 2 .591 14 3 1.216 7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel) Pertenencia a los conglomerados Número de caso Conglomerado Distancia 1 1 .516 6 1 .516 2 2 .984 5 2 .828 8 2 .984 11 2 .397 12 2 2.070 13 2 .591 3 3 1.281 4 3 .990 7 3 .990 9 3 1.281 10 3 1.258 14 3 1.216 Interpretación: Se observa en la tabla de pertenencia la conformación de 3 grupos:  Grupo A: 1, 6 (Poco interés, en el futbol, poco interés en TV, poco dinero para esos fines, prefieren otro tipo de entretenimiento y diversión)  Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol)  Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los partidos en vivo y si les interesa ver el futbol por la TV) 7.4. Centros de los conglomerados finales Centros de los conglomerados finales Conglomerado 1 2 3 Puntuación Z(fútbol) ASISTENCIA ANUAL AL FUTBOL 1.10402 -.45133 .08332 Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 .97149 -.71721 Puntuación Z: Puntuación Z: HORAS SEMANALES TV -1.65443 -.20268 .75415
  • 13.
    “ANÁLISIS CLUSTER” 12 7.5. Distanciasentre los centros de los conglomerados finales Distancias entre los centros de los conglomerados finales Conglomerado 1 2 3 1 2.745 2.616 2 2.745 2.013 3 2.616 2.013 7.6. ANOVA ANOVA Conglomerado Error F Sig. Media cuadrática gl Media cuadrática gl Puntuación Z(fútbol) ASISTENCIA ANUAL AL FUTBOL 1.851 2 .845 11 2.189 .158 Puntuación Z(paga2) PAGA SEMANAL EN PTAS 4.956 2 .281 11 17.661 .000 Puntuación Z: Puntuación Z: HORAS SEMANALES TV 4.567 2 .352 11 12.991 .001 Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales. 7.7. Número de casos en cada conglomerado Número de casos en cada conglomerado Conglomerado 1 2.000 2 6.000 3 6.000 Válidos 14.000 Perdidos .000 Interpretaciones. 8. CONCLUSIONES: El clúster es una técnica de clasificación que sirve para poder detectar y describir subgrupos de sujetos o variables homogéneas en función de los valores observados dentro de un conjunto aparentemente heterogéneo. Se fundamenta en el estudio de las distancias entre ellos, permitiendo en el análisis, cuantificar el grado de similitud, en el caso de las proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado aparecen agrupaciones homogéneas. A diferencia de otras pruebas de clasificación, el investigador no tiene conocimiento de la existencia de los subgrupos o conglomerados, ni del número resultante, ni de las
  • 14.
    “ANÁLISIS CLUSTER” 13 características quelos definen. Por lo tanto, es una técnica exploratoria y descriptiva sin variables dependientes. El objetivo fundamental de esta técnica es la configuración de grupos similares y homogéneos para poder entender y estudiar mejor los fenómenos sociales y educativos. En el campo de los bienes raíces e inmobiliario, nos ayuda en estudiar a los diferentes grupos de clientes para los proyectos según sus características, así como también puede ayudar en el área urbanística donde nos puede orientar en el crecimiento de las poblaciones en las ciudades. 9. BIBLIOGRAFÍA (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina nte.pdf (Mayo de 2014). Recuperado el Mayo de 2014, de ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli ent/Manuals/IBM_SPSS_Statistics_Base.pdf (Mayo de 2014). Recuperado el Mayo de 2014, de http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf Google. (Ayo de 2014). Recuperado el Mayo de 2014, de file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf Google. (Mayo de 2014). Recuperado el Mayo de 2014, de file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf Google. (Mayo de 2014). Recuperado el Mayo de 2014, de https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved= 0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p pt&ei=DpaHU- 6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w
  • 15.
    “ANÁLISIS CLUSTER” 14 Google. (Mayode 2014). Recuperado el Mayo de 2014, de http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.youtube.com/watch?v=IYg0npCrSGw You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de http://www.youtube.com/watch?v=07lCKn6EEMQ De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/ CONGLOMERADOS/conglomerados.pdf IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli ent/Manuals/IBM_SPSS_Statistics_Base.pdf Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadística aplicada a los negocios y la economía. México D. F.: McGraw-Hill Interamericana. Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Madrid: PEARSON EDUCACIÓN, S. A. villardón, J. L. (Mayo de 2014). Google. Obtenido de http://benjamindespensa.tripod.com/spss/AC.pdf