SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
Estadística Multivariante
Jaime C. Rubin-de-Celis
22 de noviembre de 2012
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
ÍNDICE GENERAL ÍNDICE GENERAL
Índice general
1. Análisis de Conglomerados 1
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Uso del Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3. ¿En qué consiste? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4. Etapas para la formación de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4.1. Casos Atípicos (outliers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Medida de Similitud/Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5.1. Distancias para Datos de Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.2. Otras Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.3. Distancias para Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6. Formación de los Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.1. Procesos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.2. Procesos No-Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.3. Optimización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Selección del número de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.1. Métodos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7.2. Métodos No-Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8. Validación Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Bibliografía 21
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 i
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
ÍNDICE DE CUADROS ÍNDICE DE CUADROS
Índice de cuadros
1.1. Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Ejemplo Distancias Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 ii
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
ÍNDICE DE FIGURAS ÍNDICE DE FIGURAS
Índice de figuras
1.1. Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Distancias Entre e Inter Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. ¿Cuántos Clústers puede encontrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Casos Atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Ventas vs. Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Análisis de Perfil de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.7. Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA) . . . . . . . . . 12
1.8. Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio 12
1.9. Chaining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.10. Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.11. Dendrograma (Manhattan / Encadenamiento Simple) . . . . . . . . . . . . . . . . . . . . 15
1.12. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 16
1.13. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 16
1.14. Dendrograma (Similitud de Jaccard / Centroides) . . . . . . . . . . . . . . . . . . . . . . 18
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 iii
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Capítulo 1
Análisis de Conglomerados
1.1. Introducción
Figura 1.1: Análisis de Conglo-
merados
El análisis de conglomerados (clústers) busca la identificación de
grupos dentro de una población. Agrupa objetos (encuestados, productos,
empresas, variables, etc.) de modo que cada objeto sea similar a los otros
objetos en el clúster y diferente de los objetos en todos los otros grupos.
El análisis de conglomerados busca una estructura subyacente entre
las observaciones basada en un perfil multivariante. Este técnica busca
características compartidas entre individuos u objetos. Es un enfoque
que se basa en la clasificación de datos según una característica “natural”
común a todos los objetos.
Este método engloba un grupo de técnicas multivariantes cuyo prin-
cipal propósito es agrupar objetos basándose en las características que
poseen. Es una técnica de clasificación sin supervisión: no existen clases
o grupos predefinidos.
1.2. Uso del Análisis de Conglomerados
Al análisis de conglomerados se le conoce con muchos nombres dependiendo de los ojos (área del
conocimiento) con que se observe. Algunos de los métodos basado en este conjunto de técnicas multivariante
incluyen segmentación (Marketing), Análisis de Grupos Estratégicos (Estrategia), Análisis de Q (Psicología
y Medicina), Construcción de tipologías (Sistemas de Información), Análisis de Clasificación (Metereología),
Taxonomías (Biología), Análisis Espacial (Geolocalización).
Algunos ejemplos específicos de su uso:
Marketing: Identificar segmentos de consumidores para desarrollar campañas publicitarias o de
promoción más enfocadas.
Uso del Suelo (Geo-Agricultura): Identificación de superficies en base a su uso (cosecha) usando
satélites.
Seguros: Identificar grupos de asegurados para detectar aquellos que tienen altos costos por reclamos.
Planificación Urbana: Identificación de grupos de hogares de acuerdo al tipo de casa, valor, y ubicación
geográfica.
Sismología: Agrupación de epicentros a lo largo de fallas continentales.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 1
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.3. ¿EN QUÉ CONSISTE? CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
1.3. ¿En qué consiste?
Básicamente lo que se busca es:
Minimizar la variación dentro del clúster; y, maximizar la variación entre clústers.
Usando otras palabras, un buen análisis de clústers busca:
Una alta similitud intra-clase; y, una baja similitud entre-clases,
Figura 1.2: Distancias Entre e Inter Cluster
La calidad del análisis de clúster depende de la medida de similitud o distancia que se ocupe. La calidad
también depende de la habilidad en identificar patrones subyacentes.
El Análisis de Clúster puede ser muy subjetivo, a manera de ejemplo, considere las siguientes tareas:
Ejemplo 1.1.
Agrupe los siguientes animales: oveja, lagarto, gato, perro, gorrión, tiburón azul, víbora, gaviota, pez
dorado, rana, salmón.
Criterios de Agrupación
Por la forma en que tienen a su progenie
Por el hecho de tener pulmones
Por el entorno en el que viven
Por la forma en que tienen a su progenie y porque tienen pulmones
¿Cuál es la forma correcta?
1.4. Etapas para la formación de Clústers
El análisis de clúster puede realizarse en 5 pasos o etapas simples y claramente definidas (Romesburg,
2004).
1er. Paso: Formular el problema (ver ejemplo anterior).
En esta etapa, el investigador puede realizar entrevistas informales para identificar y seleccionar
las variables en las que basará la agrupación, ya que si se incluyen variables irrelevantes, pueden
distorsionar el problema.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 2
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Figura 1.3: ¿Cuántos Clústers puede encontrar?
2do. Paso: Seleccionar una medida de similitud.
La forma en que generalmente se hace es en términos de la distancia (ver siguiente sección) entre
cada par de casos; cuando la distancia es menor se considera que los casos son más parecidos entre sí.
Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomienda
estandarizar los datos para eliminar la influencia de la unidad de medición.
3er. Paso: Seleccionar un procedimiento de agrupamiento.
Para este paso hay diversos métodos (se discuten más adelante).
4to. Paso: Decidir el número de conglomerados a conservar.
Una vez que ya se ha hecho un clasificación, se decidirá con cuántos conglomerados se trabajará,
algunas veces esto es una decisión subjetiva del investigador.
5to. Paso: Interpretar y elaborar un perfil de los conglomerados.
En esta etapa se procederá a determinar las características de cada conglomerado que se conservará.
1.4.1. Casos Atípicos (outliers)
Figura 1.4: Casos Atípicos
Los casos atípicos (outliers) son objetos que no
pertenecen a ningún cluster o forman un clúster de
baja cardinalidad (ver Figura 1.4). Para analizar
estas situaciones se pueden realizar Diagramas de
Perfil (Profile Analysis) u ocupar una medida de
ajuste como D2
o Distancia de Mahalanobis.
La existencia de casos atípicos representa un
problema importante en el análisis de conglomera-
dos.
1.5. Medida de Similitud/Dis-
tancia
La distancia se expresa con una función de la forma: d(i, j). La definición de las distancias dependen
del tipo de datos que estemos ocupando: escala métrica, no-métrica, binaria, categórica, ordinal, etc.
En general, los datos están expresados en una matriz (sin estandarizar) con n observaciones (objetos) y
p variables, de la forma:
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 3
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
X =
0
B
B
B
B
@
x11 . . . x1k . . . x1p
. . . . . . . . . . . . . . .
xi1 . . . xik . . . xip
. . . . . . . . . . . . . . .
xn1 . . . xnk . . . xnp
1
C
C
C
C
A
(1.1)
De ser necesario, los datos deben estandarizarse para eliminar los problemas asociados a escalas
diferentes. Esto generalmente puede lograrse mediante el cálculo de los Z-score (con la Desviación Media
Absoluta):
mk =
1
n
(x1k + x2k + . . . + xnk) 8k 2 [1, . . . , p]
sm
k =
1
n
(|x1k mk| + |x2k mk|) + . . . + |xnk mk|
Zik =
xik mk
sm
k
Usar la desviación media absoluta (sm
f ), en lugar de la desviación estándar, produce resultados más
robustos en el análisis de clúster. No obstante, también puede ocupar la desviación estándar:
xk =
1
n
nX
i=1
xik s2
k =
1
n 1
nX
i=1
(xik xk)
2
zik =
(xik xk)
sk
La matriz de datos estandarizados es entonces:
Z =
0
B
B
B
B
@
z11 . . . z1k . . . z1p
. . . . . . . . . . . . . . .
zi1 . . . zik . . . zip
. . . . . . . . . . . . . . .
zn1 . . . znk . . . znp
1
C
C
C
C
A
(1.2)
Luego, la matriz de datos originales (o estandarizados) debe ser transformada en una matriz de
distancias D = dij, que es simétrica con dii = 0:
D =
0
B
B
B
B
B
@
0
d(2, 1) 0
d(3, 1) d(3, 2) 0
...
... . . .
d(n, 1) d(n, 2) d(n, 3) . . . 0
1
C
C
C
C
C
A
1.5.1. Distancias para Datos de Intervalo
Por lo general usamos distancias para medir la similitud o diferencia entre dos objetos. Una de las
distancias más populares es la Distancia de Minkowski:
d(xi, xj) =
" pX
k=1
|xik xjk|q
#1
q
= q
q
|xi1 xj1|q + |xi2 xj2|q + · · · + |xip xjp|q
donde xi = (xi1, xi2, . . . , xip) , y xj = (xj1, xj2, . . . , xjp) son dos vectores de dimensión p; y q es un entero
positivo.
Si q = 1, esta distancia se conoce como distancia de Manhattan o también llamada city-block.
Si q = 2, entonces tenemos Distancia Euclidiana:
d(xi, xj) =
q
|xi1 xj1|2 + |xi2 xj2|2 + · · · + |xip xjp|2
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 4
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Formalmente, las propiedades de estas distancias son:
d(xi, xj) 0
d(xi, xi) = 0
d(xi, xj) = d(xj, xi)
d(xi, xj)  d(xi, xk) + d(xk, xj)
También pueden usarse distancias ponderadas (ej. correlaciones Pearson-paramétricas), u otro tipo de
ponderación (w), como:
d(xi, xj) =
q
w1|xi1 xj1|2 + w2|xi2 xj2|2 + · · · + wp|xip xjp|2
Ejemplo 1.2.
Suponga que existen 6 firmas (1-6) de las cuales se conoce su nivel de ventas (y) y el número de patentes
que tienen registradas (x). Se desea conocer si existen grupos estratégicos dentro de esta industria. La
solución se hará ocupando Stata12.
1 . list
2 +-------------------+
3 | firm x y |
4 |-------------------|
5 1. | Firma 1 0 3 |
6 2. | Firma 2 1 2 |
7 3. | Firma 3 4 3.5 |
8 4. | Firma 4 5 5 |
9 5. | Firma 5 4 4 |
10 6. | Firma 6 1 1 |
11 +-------------------+
12 . label var firm "Firmas"
13 . label var x "Patentes"
14 . label var y "Ventas"
Los datos pueden estandarizarse fácilmente:
1 . egen zy = std(y)
2 . egen zx = std(x)
3 . list
4 +-------------------------------------------+
5 | firm x y zx zy |
6 |-------------------------------------------|
7 1. | Firma 1 0 3 -1.205607 -.0583212 |
8 2. | Firma 2 1 2 -.7233642 -.7581754 |
9 3. | Firma 3 4 3.5 .7233642 .2916059 |
10 4. | Firma 4 5 5 1.205607 1.341387 |
11 5. | Firma 5 4 4 .7233642 .641533 |
12 6. | Firma 6 1 1 -.7233642 -1.45803 |
13 +-------------------------------------------+
Considerando que los datos tienen magnitudes similares (y para simplificar la presentación de resultados),
los datos no serán estandarizados, sin embargo, debe recordarse que ese paso es necesario en la mayoría de
los casos.
En adelante simplemente puede reemplazar las variables orginales (x, y) por estas nuevas variables
estandarizadas (zx, zy), y así obtener resultados más robustos.
La distribución de estas firmas puede ser obtenida:
1 . scatter y x, title (" Ventas vs. Patentes ") ///
2 ylabel (0(1)5) mlabel(firm) mlabp (5) aspect (.7)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 5
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Firma 1
Firma 2
Firma 3
Firma 4
Firma 5
Firma 6
012345
Ventas
0 1 2 3 4 5
Patentes
Ventas vs. Patentes
Figura 1.5: Ventas vs. Patentes
Del gráfico anterior puede apreciarse que aparentemente existen (al menos) dos grupos. Las firmas 3,
4 y 5 poseen un nivel alto de patentes y también de ventas; por lo que aparentemente son parte de un
mismo grupo. Les llamaremos las “innovadoras”.
Un case particular es el de la firma 1, ya que no tiene patentes pero sí Ventas por encima del promedio.
Esto supone que debe revisarse si no se trata de un caso atípico (outlier). Para ello revisamos el Perfil de
Variables:
1 . gen n = _n
2 . label values n firm_ids
3 . profileplot y x, by(n)
012345
mean
y x
Variables
Firma 1 Firma 2
Firma 3 Firma 4
Firma 5 Firma 6
mean
Figura 1.6: Análisis de Perfil de Variables
La Figura 1.6 muestra un comportamiento atípico de la firma 1, sin embargo aún no puede descartarse;
deben realizarse primero calcularse las distancias y los agrupamientos correspondientes.
La matriz de distancias de Manhattan (city-block) es:
1 . mat diss L1 = y x, L1
2
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 6
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
3 . mat list L1
4
5 symmetric L1[6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 2 0
9 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 0
11 Firma_5 5 5 .5 2 0
12 Firma_6 3 1 5.5 8 6 0
Nótese que el resultado anterior también puede obtenerse ocupando la Distancia de Minkowski de
Grado 1:
1 . mat diss M1 = y x, Lpow (1)
2
3 . mat list M1
4
5 symmetric M1[6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 2 0
9 Firma_3 4.5 4.5 0
10 Firma_4 7 7 2.5 0
11 Firma_5 5 5 .5 2 0
12 Firma_6 3 1 5.5 8 6 0
En esta matriz de distancias, las menores valores están en d3,5 = 0,5 y en d2,6 = 1, por lo que podemos
esperara que éstos sean los primeros grupos que se formarían (en un método jerárquico). Esto también es
consistente si ocupamos distancias euclidianas. La matriz de distancias euclidianas es:
1 . mat diss L2 = y x, L2
2
3 . mat list L2
4
5 symmetric L2[6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 1.4142136 0
9 Firma_3 4.0311289 3.354102 0
10 Firma_4 5.3851648 5 1.8027756 0
11 Firma_5 4.1231056 3.6055513 .5 1.4142136 0
12 Firma_6 2.236068 1 3.9051248 5.6568542 4.2426407 0
1.5.2. Otras Distancias
1.5.2.1. Canberra
d(xi, xj) =
pX
k=1

|xik xjk|
xik + xjk
(1.3)
Ejemplo 1.3.
Distancia de Canberra (continua del ejemplo anterior).
1 . mat diss Cb = y x, canberra names(firm)
2
3 . mat list Cb
4
5 symmetric Cb[6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 1.2 0
9 Firma_3 1.0769231 .87272727 0
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 7
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
10 Firma_4 1.25 1.0952381 .2875817 0
11 Firma_5 1.1428571 .93333333 .06666667 .22222222 0
12 Firma_6 1.5 .33333333 1.1555556 1.3333333 1.2 0
Nótese que en este caso el orden de agrupamiento es algo diferente a los casos anteriores. La menor
distancia está aún entre las firmas 3 y 5, sin embargo, la segunda menor distancia está entre las firmas
4 y 5 (d4,5 = 0,22). Más aun, la tercera menor distancia es d3,4 = 0,29. Esto muestra que el orden de
agrupamiento será diferente, y eventualmente, dependiendo del Método de Agrupamiento, podríamos
encontrar soluciones diferentes.
cuando la distancia euclidiana (y también la de Manhattan) ponen a las firmas 2 y 6 como las más
cercanas (d2,6 = 1). Esto también es evidente de la Figura 1.5.
1.5.2.2. Czekanowski
d(xi, xj) = 1
2
6
6
6
6
4
2
pX
k=1
m´ın(xik, xjk)
pX
k=1
(xik + xjk)
3
7
7
7
7
5
(1.4)
1.5.2.3. Tchebyschev
d(xi, xj) = m´ax
i=1,2,...,n
|xik xjk| (1.5)
Ejemplo 1.4.
Distancia de Tchebyschev
1 . mat diss Tch = y x, maximum names(firm)
2
3 . mat list Tch
4
5 symmetric Tch [6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 1 0
9 Firma_3 4 3 0
10 Firma_4 5 4 1.5 0
11 Firma_5 4 3 .5 1 0
12 Firma_6 2 1 3 4 3 0
1.5.2.4. Distancia de Cosenos
d(xixj) =
1
2
[1 cos(xi, xj)] =
1
2

1
xi · xj
kxikkxjk
(1.6)
Donde
cos(xi, xj) =
xi · xj
kxikkxjk
=
xi
T
xj
kxikkxjk
=
xi1xj1 + · · · + xipxjp
q
x2
i1 + · · · + x2
ip
q
x2
j1 + · · · + x2
jp
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 8
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
cos(xi, xj) =
pX
k=1
(xik ⇥ xjk)
v
u
u
t
pX
k=1
x2
ik ⇥
pX
h=1
x2
jh
Este último valor también se conoce como la Distancia Angular.
Ejemplo 1.5.
1 . mat diss ANG = y x, angle names(firm) dissim(oneminus)
2
3 . mat list ANG
4
5 symmetric ANG [6 ,6]
6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6
7 Firma_1 0
8 Firma_2 .10557281 0
9 Firma_3 .34149539 .07445304 0
10 Firma_4 .29289322 .0513167 .00221484 0
11 Firma_5 .29289322 .0513167 .00221484 0 0
12 Firma_6 .29289322 .0513167 .00221484 0 0 0
Nótese en la matriz anterior que las distancias entre las firmas 4, 5 , 6 es igual a 0 (d4,5 = d4,6 = d5,6 = 0).
Esto se debe a que esta medida de distancia, como su nombre indica, mide las distancias en ángulos; al
estar las firmas 4, 5 y 6 sobre la diagonal (45o
) (ver Figura 1.5), su distancia es igual a cero.
1.5.2.5. Distancia de Mahalanobis
d(x, y) = xT
A 1
y A es definida positiva (1.7)
Mahalanobis, al permitirnos elegir la matriz A, entrega mayores posibilidades de controlar la geometría
de los potenciales clústers.
1.5.3. Distancias para Datos Binarios
Cuando trabajamos con datos binarios es más común hablar de similitud y no de distancia. Estas
similitudes pueden calcularse de la siguiente forma:
Cuadro 1.1: Datos Binarios
Objeto j
1 0 Suma
Objeto i
1 a b a+b
0 c d c+d
Suma a+c b+d p
Similitud para variables simétricas binarias:
sim(i, j) =
b + c
a + b + c + d
Similitud para variables asimétricas binarias:
sim(i, j) =
b + c
a + b + c
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 9
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Similitud de Jaccard: Jaccard (1901, 1908)
simJacard(i, j) =
a
a + b + c
Similitud de Russel: Russel y Rao (1940)
simRussel(i, j) =
b
a + b + c + d
Similitud de Hamann: Hamann (1961)
simHamann(i, j) =
(a + d) (b + c)
a + b + c + d
Similitud de Czekanowski: También conocida como Similitud de Dice. Czekanowski (1932), Dice (1945),
Sørensen (1948).
simDice(i, j) =
2a
2a + b + c
Similitud de Ochiai: Ochiai (1957)
simOchiai(i, j) =
a
p
(a + b)(a + c)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 10
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Ejemplo 1.6.
Suponga que en una encuesta sobre acceso de tecnología para el hogar se obtuvieron los siguientes
resultados:
Cuadro 1.2: Ejemplo Distancias Datos Binarios
Nombre Sexo TV Auto Casa Comp. Telef. Cable
Juan M 1 0 1 0 0 0
María F 1 0 1 0 1 0
Pedro M 1 1 0 0 0 0
“Sexo” es el único atributo simétrico, el resto son atributos asimétricos.
Matriz de Frecuencia Binaria (Pedro, María):
1 0 Total
1 1 1 2
0 3 2 5
Total 4 3 7
simJaccard(Pedro, Maria) =
1
1 + 1 + 3
= 0,2
1 . list
2
3 +---------------------------------------------------------+
4 | name sex tv auto home comp cell cable |
5 |---------------------------------------------------------|
6 1. | Juan Hombre 1 0 1 0 0 0 |
7 2. | Maria Mujer 1 0 1 0 1 0 |
8 3. | Pedro Hombre 1 1 0 0 0 0 |
9 +---------------------------------------------------------+
10
11 . mat diss SIM = sex tv auto home comp cell cable , Jaccard names(name)
12
13 . mat list SIM
14
15 symmetric SIM [3 ,3]
16 Juan Maria Pedro
17 Juan 1
18 Maria .5 1
19 Pedro .33333333 .2 1
Y, para obtener la matriz de distancias ocupada luego para la formación de clústers (note que la matriz
de distancias debe siempre tener ceros en la diagonal):
1 . mat diss DIST = sex tv auto home comp cell cable , ///
2 Jaccard names(name) dissim(one minus)
3 . mat list DIST
4
5 symmetric DIST [3 ,3]
6 Juan Maria Pedro
7 Juan 0
8 Maria .5 0
9 Pedro .66666667 .8 0
1.6. Formación de los Clústers
Una vez obtenida la Matriz de Distancia (D), se debe seleccionar un procedimiento para agrupar las
observaciones:
Procedimientos Jerárquicos
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 11
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Procedimientos No-Jerarquicos
Procedimientos Compuestos
1.6.1. Procesos Jerárquicos
Estos procesos puede clasificarse en métodos aglomerativos o métodos divisivos. Éstos están repre-
sentados os en la Figura 1.7. En el primer caso, como sugiere el nombre, el objetivo es ir agrupando las
observaciones en función a su cercanía (o distancia). En el caso de los métodos divisivos, se parte con
un único clúster que contiene a todas las observaciones y se va desagregando, de nuevo, en función a la
distancia.
(a) Métodos Aglomerativos
(b) Métodos Divisivos
Figura 1.7: Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA)
1.6.1.1. Métodos Aglomerativos (AGNES)
Objetos que son similares (están cerca) son agrupados uno a uno. Son los métodos más sencillos y los
principales son:
Figura 1.8: Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio
Single Linkage. (Enlace Simple o «Vecino más cercano»)
Este algoritmo calcula la distancias o similitudes entre pares de objetos y forma los grupos
agregando al objeto vecino más cercano
d(UV )W = m´ın[dUW , dV W ]
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 12
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Una ventaja de este método es que puede identificar clústers que no necesariamente tienen una
forma elipsoidal.
Una desventaja es que no puede discriminar fácilmente entre grupos muy distantes. Esto sucede
porque el agrupamiento sucede muy pronto, ver la figura. Esta tendencia de formar clústers con
poca cohesión interna se conoce como chaining (ver Figura 1.9).
Figura 1.9: Chaining
Complete Linkage. (Enlace Completo o «Vecino más lejano»)
Este algoritmo es similar al anterior, pero calcula la distancia entre los objetos más distantes.
De esta forma este algoritmo se asegura que todos los miembros de cada grupo estén dentro de
la mayor distancia posible.
Average Linkage. (Enlace Promedio o «Promedio de Grupo»)
d(UV )W =
P
i
P
k dik
NUV NW
Donde:
dik = distancia entre objeto i en cluster ( UV ) y objecto k en clusterW.
NUV = número de objetos en cluster ( UV )
NW = número de objetos en cluster ( W )
Método de los Centroides. En este algoritmo la distancia entre clusters se calcula usando los centroides.
Los centroides son los valores medios de las observaciones de las variables en el valor teórico del
cluster.
Cálculo de Centroides: Suponga dos puntos (en tres dimensiones) X = (x1, x2, x3) ; Y =
(y1, y2, y3). Al agrupar estos puntos en un clúster, el centroide se obtiene de: Z = (z1, z2, z3).
Donde: z1 =
(x1 + y1)
2
; z2 =
(x2 + y2)
2
; z3 =
(x3 + y3)
2
Método de Ward. Método de la Suma de Cuadrados
Los nuevos clústers se crean de tal manera de que se minimice la suma de cuadrados total de
las distancias dentro de cada clúster.
1.6.1.2. Métodos Divisivos (DIANA):
Los métodos divisivos parten separando toda la muestra en dos grupos y luego se van retirando grupos
que son diferentes (mayor distancia o diferencia).
Este proceso puede realizarse en base al uso de las mismas distancias discutidas para los Métodos
Aglomerativos.
1.6.1.3. Representación Gráfica (Dendrogramas)
En procesos jerárquicos, es muy común la representación gráfica de los clústers usando dendrogramas
(ver Figura 1.10). Éstos pueden representarse en forma vertical (como se muestra) o en forma horizontal.
Siguiendo los ejemplos anteriores, se muestran a continuación distintos tipos de agrupamiento.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 13
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
0246
L2dissimilaritymeasure
1 2 6 3 5 4
Dendrogram for Euclidean cluster analysis
Figura 1.10: Dendrograma
Ejemplo 1.7.
Distancia de Manhattan, Encadenamiento Simple
1 . cluster singlelinkage y x, L1 name(L1)
2
3 . cluster gen Grupos_L1 = group (2)
4
5 . table firm Grupos_L1
6
7 ----------------------
8 | Grupos_L1
9 Firmas | 1 2
10 ----------+-----------
11 Firma 1 | 1
12 Firma 2 | 1
13 Firma 3 | 1
14 Firma 4 | 1
15 Firma 5 | 1
16 Firma 6 | 1
17 ----------------------
18 . label var L1_ord "Valor de Corte"
19
20 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///
21 title (" Dendrograma (Distancia de Manhattan / Single Linkage )") ///
22 addplot(line L1_ord cutvalue , clpattern(dot) lcolor(red ))
23
24 . graph export dend_L1.eps , replace
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 14
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Firma 4
Firma 3
Firma 5
Firma 1
Firma 2
Firma 6
0 1 2 3 4 5
L1 dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia de Manhattan / Single Linkage)
Figura 1.11: Dendrograma (Manhattan / Encadenamiento Simple)
Ejemplo 1.8.
Distancia Euclideana, Encadenamiento Promedio
1 . cluster averagelinkage y x, L2 name(L2)
2
3 . cluster gen Grupos_L2 = group (2)
4
5 . table firm Grupos_L2
6
7 ----------------------
8 | Grupos_L2
9 Firmas | 1 2
10 ----------+-----------
11 Firma 1 | 1
12 Firma 2 | 1
13 Firma 3 | 1
14 Firma 4 | 1
15 Firma 5 | 1
16 Firma 6 | 1
17 ----------------------
18
19 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///
20 title (" Dendrograma (Distancia Euclideana / Average Linkage )")
21
22 . graph export dend_L2.eps , replace
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 15
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
Firma 1
Firma 2
Firma 6
Firma 3
Firma 5
Firma 4
0 1 2 3 4
L2 dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia Euclideana / Average Linkage)
Figura 1.12: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
Ejemplo 1.9.
Distancia de Canberra, Método de Ward
1 . cluster ward y x, canberra name(Canberra)
2
3 . cluster dend , hor labels(firm) ylabel(,angle (0)) ///
4 title (" Dendrograma (Distancia de Canberra / Ward )")
5
6 . graph export dend_Canberra .eps , replace
Firma 1
Firma 3
Firma 5
Firma 4
Firma 2
Firma 6
0 .5 1 1.5 2
Canberra dissimilarity measure
y1/y2 Valor de Corte
Dendrograma (Distancia de Canberra / Ward)
Figura 1.13: Dendrograma (Distancia Euclideana / Encadenamiento Promedio)
Nótese en este caso que la solución más apropiada es de 3 grupos. En caso de formar sólo dos grupos,
la firma 1 pasaría a formar parte del grupo compuesto por 3, 4 y 5; algo que no sucedió en los ejemplos
anteriores. Esto podría confirmar la sospecha de que la firma 1 es un caso atípico. Dado que el objetivo
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 16
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
acá es ver si existen grupos este caso debería ser tratado como un grupo de un miembro (o eventualmente
retirarse, por ejemplo, si después se pretende realizar un análisis de regresión con los datos agregados).
En el Dendrograma puede verse que incorporar la firma 1 al grupo (3/4/5) agregaría mucha entropia
(la línea de unión de la firma 1 al grupo está muy separada -hacia la derecha- del anterior agrupamiento).
Los grupos según esta medida de distancia y método de agrupamiento son:
1 . cluster gen Canberra_3G = group (3)
2
3 . table firm Canberra_3G
4
5 ----------------------------
6 | Canberra_3G
7 Firmas | 1 2 3
8 ----------+-----------------
9 Firma 1 | 1
10 Firma 2 | 1
11 Firma 3 | 1
12 Firma 4 | 1
13 Firma 5 | 1
14 Firma 6 | 1
15 ----------------------------
Ejemplo 1.10.
Análisis de Clúster con Datos Binarios, Similitud de Jaccard y agrupamiento a través del Método de
Centroides.
1 . list
2
3 +---------------------------------------------------------+
4 | name sex tv auto home comp cell cable |
5 |---------------------------------------------------------|
6 1. | Juan Hombre 1 0 1 0 0 0 |
7 2. | Maria Mujer 1 0 1 0 1 0 |
8 3. | Pedro Hombre 1 1 0 0 0 0 |
9 +---------------------------------------------------------+
10
11 . cluster cent sex tv auto home comp cell cable , Jaccard name(Jaccard)
12
13 . cluster gen Grupos_Jaccard = group (2)
14
15 . table name Grupos_Jaccard
16
17 ---------------------------
18 Encuestado | Grupos_Jaccard
19 | 1 2
20 -----------+---------------
21 Juan | 1
22 Maria | 1
23 Pedro | 1
24 -----------_---------------
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 17
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
.4
.6
.8
1
Jaccardsimilaritymeasure
Juan Maria Pedro
y1/y2 Valor Límite
Dendrograma (Jaccard / Centroid)
Figura 1.14: Dendrograma (Similitud de Jaccard / Centroides)
1.6.2. Procesos No-Jerárquicos
Los procedimientos no jerárquicos se conocen como agrupación de k medias (k-means clustering). Estos
métodos se dividen en tres que son: umbral secuencial, umbral paralelo y división para la optimización. Estos
métodos no-jerárquicos parten con la generación de una semilla y permiten en ocasiones que observaciones
queden fuera de algún clúster; i.e. el método de k medias es menos sensible a los outliers.
Ejemplo 1.11.
1 . cluster kmeans y x, k(3) Lpow (3) keep name(km3)
2
3 . table firm km3
4
5 ----------------------------
6 | km3
7 Firmas | 1 2 3
8 ----------+-----------------
9 Firma 1 | 1
10 Firma 2 | 1
11 Firma 3 | 1
12 Firma 4 | 1
13 Firma 5 | 1
14 Firma 6 | 1
15 ----------------------------
Nótese que en esta oportunidad, forzando la existencia de 3 clústers, Stata respeta esta condición
dejando como un único grupo a la Firma 1 (outlier).
Asimismo, podemos obtener los centros de cada uno de los clústers.
1 . list y x if km3 == .
2
3 +---------------------+
4 | y x |
5 |---------------------|
6 7. | 4.166667 4.333333 |
7 8. | 1.5 1 |
8 9. | 3 0 |
9 +---------------------+
Sin embargo, con 2 medias, los resultados son consistentes con Métodos Jerárquicos.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 18
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.7. SELECCIÓN DEL NÚMERO DE CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
1 . cluster kmeans y x, k(2) Lpow (3) keep name(km2)
2
3 . table firm km2
4 ----------------------
5 | km2
6 Firmas | 1 2
7 ----------+-----------
8 Firma 1 | 1
9 Firma 2 | 1
10 Firma 3 | 1
11 Firma 4 | 1
12 Firma 5 | 1
13 Firma 6 | 1
14 ----------------------
15
16 . list y x if km2 == .
17 +---------------------+
18 | y x |
19 |---------------------|
20 7. | 2 .6666667 |
21 8. | 4.166667 4.333333 |
22 +---------------------+
1.6.2.1. Método del Umbral Secuencial
Se selecciona una primera semilla para un cluster. Esta semilla representa el centro del clúster. Todos
los objetos con una distancia menor al umbral son agregados a este clúster. A continuación se selecciona
una segunda semilla, y se incluyen todos los objetos que están a un distancia menor al umbral. Así,
sucesivamente hasta obtener el número deseado de clusters.
Una vez que un objeto (observación) ha sida asignado a un clúster, no es considerado para las iteraciones
posteriores.
1.6.2.2. Método del Umbral Paralelo
Se seleccionan varias semillas simultáneamente al inicio. Cada semilla representa el centro de cada
clúster. Todos los objetos con una distancia menor al umbral son agregados al clúster más cercano.
En este caso, algunos objetos pueden permanecer fuera de un clúster si su distancia es superior al
umbral especificado.
1.6.3. Optimización
Este procedimiento es similar a los métodos anteriores, con la excepción que permite la reubicación de
los objetos. I.e. si en proceso de iteración, un objeto se acerca más a otro clúster, distinto del que tiene
asignado en ese momento, entonces este procedimiento cambia el objeto al clúster más cercano.
1.7. Selección del número de Clústers
Esto depende de la pregunta que busca responderse y de la teoría subyacente. No obstante, una forma
común de realizar esto es a través de un Análisis de Perfil de Clusters.
Algunos software de estadística han popularizado algunas “reglas de parada” como el CCC (Cluster
Cubic Criterion) popluarizado por SAS (Stata no lo tiene).
La buena noticia es que se ha demostrado empíricamente que los criterios “subjetivos” (ej. nivel de
entropía del dendrograma) son extremadamente consistentes con técnicas más elaboradas.
1.7.1. Métodos Jerárquicos
La selección del número de clústers se realiza en estos casos a través de una comparación de cambios
porcentuales en coeficientes de aglomeración (suma de los cuadrados de las distancias entre objetos dentro
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 19
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
1.8. VALIDACIÓN PREDICTIVA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS
de los clústers). Cuando el coeficiente de aglomeración aumenta significativamente en la formación de
un nuevo grupo, entonces es momento de detener el proceso. A esta situación comúnmente se le llama
entropia.
En un estudio de indices usando Simulación de Montercarlo, Dubes (1987) encontró que los métodos
de Enlace Completo (“Vecino más lejano”) consistentemente encontraban el verdadero número de Clusters
en comparación a otros métodos jerárquicos.
1.7.2. Métodos No-Jerárquicos
Test de Hipótesis de comparación de medias entre clústers. Consiste en realizar una prueba simple
de medias (con varianzas iguales), para cada una de las variables de estudio separadas según los clústers
encontrados.
1.8. Validación Predictiva
Una forma de validar el análisis de clústers es a través de la Validación Predictiva. Ésta consiste en
dejar fuera del análisis de clúster una variable que se sabe que cambia según el clúster. Con esto, se puede
ver si luego del análisis de clúster la separación de la variable extra se cumple.
Esta variable de validación debe tener una fuerte base teórica para ser ocupada como tal.
(Still working on this section!)
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 20
N
O
C
O
PIA
R
O
PU
B
LIC
A
R
-c
Jaim
e
C.R
ubin-de-Celis
BIBLIOGRAFÍA BIBLIOGRAFÍA
Bibliografía
Dubes, R. C. (1987). How many clusters are the best?- an experiment. Pattern Recognition, 20(6):645–663.
Romesburg, C. (2004). Cluster Analysis for Researchers. Lulu.com.
Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 21

Más contenido relacionado

La actualidad más candente

15 test estadísticos
15 test estadísticos15 test estadísticos
15 test estadísticosYerko Bravo
 
Basic Statistics & Data Analysis
Basic Statistics & Data AnalysisBasic Statistics & Data Analysis
Basic Statistics & Data AnalysisAjendra Sharma
 
Manual de descarga del software smart pls 3 y smartp ls2
Manual de descarga del software smart pls 3 y smartp ls2Manual de descarga del software smart pls 3 y smartp ls2
Manual de descarga del software smart pls 3 y smartp ls2Vasilica Maria Margalina
 
Muestra y muestreo (2)
Muestra y muestreo (2)Muestra y muestreo (2)
Muestra y muestreo (2)paolajd
 
Measure of dispersion part I (Range, Quartile Deviation, Interquartile devi...
Measure of dispersion part   I (Range, Quartile Deviation, Interquartile devi...Measure of dispersion part   I (Range, Quartile Deviation, Interquartile devi...
Measure of dispersion part I (Range, Quartile Deviation, Interquartile devi...Shakehand with Life
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte IIjpgv84
 
Análisis factorial SPSS
Análisis factorial SPSSAnálisis factorial SPSS
Análisis factorial SPSSAl Cougar
 

La actualidad más candente (17)

15 test estadísticos
15 test estadísticos15 test estadísticos
15 test estadísticos
 
Pruebas no parametricas de wilcoxon 2007.
Pruebas no parametricas de wilcoxon 2007.Pruebas no parametricas de wilcoxon 2007.
Pruebas no parametricas de wilcoxon 2007.
 
Estadística: Pruebas de normalidad
Estadística: Pruebas de normalidadEstadística: Pruebas de normalidad
Estadística: Pruebas de normalidad
 
Cluster Analysis
Cluster Analysis Cluster Analysis
Cluster Analysis
 
Basic Statistics & Data Analysis
Basic Statistics & Data AnalysisBasic Statistics & Data Analysis
Basic Statistics & Data Analysis
 
Manual de descarga del software smart pls 3 y smartp ls2
Manual de descarga del software smart pls 3 y smartp ls2Manual de descarga del software smart pls 3 y smartp ls2
Manual de descarga del software smart pls 3 y smartp ls2
 
Estadistica DS
Estadistica DSEstadistica DS
Estadistica DS
 
Estadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSSEstadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSS
 
Muestreo clase2
Muestreo clase2Muestreo clase2
Muestreo clase2
 
Muestra y muestreo (2)
Muestra y muestreo (2)Muestra y muestreo (2)
Muestra y muestreo (2)
 
Inferencia Estadística
Inferencia EstadísticaInferencia Estadística
Inferencia Estadística
 
Measure of dispersion part I (Range, Quartile Deviation, Interquartile devi...
Measure of dispersion part   I (Range, Quartile Deviation, Interquartile devi...Measure of dispersion part   I (Range, Quartile Deviation, Interquartile devi...
Measure of dispersion part I (Range, Quartile Deviation, Interquartile devi...
 
Estadística: Pruebas de Normalidad
Estadística: Pruebas de NormalidadEstadística: Pruebas de Normalidad
Estadística: Pruebas de Normalidad
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II5 Semana Analisis Multivariante Parte II
5 Semana Analisis Multivariante Parte II
 
Análisis factorial SPSS
Análisis factorial SPSSAnálisis factorial SPSS
Análisis factorial SPSS
 
K mean-clustering
K mean-clusteringK mean-clustering
K mean-clustering
 

Destacado

ANÁLISIS DE CLUSTERS (CLUSTERING)
ANÁLISIS DE CLUSTERS (CLUSTERING)ANÁLISIS DE CLUSTERS (CLUSTERING)
ANÁLISIS DE CLUSTERS (CLUSTERING)Raquel Solano
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquicoguest83cad74
 
Análisis de Fuerzas Internas y Externas
Análisis de Fuerzas Internas y ExternasAnálisis de Fuerzas Internas y Externas
Análisis de Fuerzas Internas y ExternasJuan Carlos Fernandez
 
Presentación marina
Presentación marinaPresentación marina
Presentación marinamarinagonrui
 
Revisión de publicaciones que involucran acp y análisis cluster
Revisión de publicaciones que involucran acp y análisis clusterRevisión de publicaciones que involucran acp y análisis cluster
Revisión de publicaciones que involucran acp y análisis clusterMilza Cerda
 
Capc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidal
Capc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidalCapc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidal
Capc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidalAnayenci Mendoza Garcia
 
Proyecto educativo institucional
Proyecto educativo institucionalProyecto educativo institucional
Proyecto educativo institucionaljkique22
 
ejemplo red neuronal Art1
ejemplo red neuronal Art1ejemplo red neuronal Art1
ejemplo red neuronal Art1ESCOM
 
Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)
Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)
Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)Adrian Zambrano
 
Agrupamiento Kmeans
Agrupamiento KmeansAgrupamiento Kmeans
Agrupamiento KmeansOmar Sanchez
 
Fuzzy c-means clustering
Fuzzy c-means clusteringFuzzy c-means clustering
Fuzzy c-means clusteringOmar Sanchez
 
Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”
Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”
Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”Patricia
 
Cloud computing trabajo final
Cloud computing trabajo finalCloud computing trabajo final
Cloud computing trabajo finalJavier Navarro
 
K means Clustering
K means ClusteringK means Clustering
K means ClusteringEdureka!
 
Cálculo del Coeficiente de Correlación de Pearson
Cálculo del Coeficiente de Correlación de PearsonCálculo del Coeficiente de Correlación de Pearson
Cálculo del Coeficiente de Correlación de Pearsonsaulvalper
 
EJERCICIO DE ÁRBOL DE DECISION
EJERCICIO  DE  ÁRBOL  DE DECISION EJERCICIO  DE  ÁRBOL  DE DECISION
EJERCICIO DE ÁRBOL DE DECISION Maricela Ayala
 
Diagnostico Empresarial
Diagnostico EmpresarialDiagnostico Empresarial
Diagnostico Empresarialdiego8217
 

Destacado (20)

ANÁLISIS DE CLUSTERS (CLUSTERING)
ANÁLISIS DE CLUSTERS (CLUSTERING)ANÁLISIS DE CLUSTERS (CLUSTERING)
ANÁLISIS DE CLUSTERS (CLUSTERING)
 
Cluster
ClusterCluster
Cluster
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Análisis de Fuerzas Internas y Externas
Análisis de Fuerzas Internas y ExternasAnálisis de Fuerzas Internas y Externas
Análisis de Fuerzas Internas y Externas
 
Presentación marina
Presentación marinaPresentación marina
Presentación marina
 
Revisión de publicaciones que involucran acp y análisis cluster
Revisión de publicaciones que involucran acp y análisis clusterRevisión de publicaciones que involucran acp y análisis cluster
Revisión de publicaciones que involucran acp y análisis cluster
 
Capc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidal
Capc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidalCapc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidal
Capc3adtulo 5-libro-diagnostico-organizacional-de-elizabeth-vidal
 
Proyecto educativo institucional
Proyecto educativo institucionalProyecto educativo institucional
Proyecto educativo institucional
 
ejemplo red neuronal Art1
ejemplo red neuronal Art1ejemplo red neuronal Art1
ejemplo red neuronal Art1
 
Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)
Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)
Guia analisis y_diagnostico_organizacional_-_octavo_periodo (1)
 
Clusters
ClustersClusters
Clusters
 
Diagnostico
DiagnosticoDiagnostico
Diagnostico
 
Agrupamiento Kmeans
Agrupamiento KmeansAgrupamiento Kmeans
Agrupamiento Kmeans
 
Fuzzy c-means clustering
Fuzzy c-means clusteringFuzzy c-means clustering
Fuzzy c-means clustering
 
Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”
Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”
Ejercicios de correlación lineal de Pearson con “IBM SPSS Statistics 20”
 
Cloud computing trabajo final
Cloud computing trabajo finalCloud computing trabajo final
Cloud computing trabajo final
 
K means Clustering
K means ClusteringK means Clustering
K means Clustering
 
Cálculo del Coeficiente de Correlación de Pearson
Cálculo del Coeficiente de Correlación de PearsonCálculo del Coeficiente de Correlación de Pearson
Cálculo del Coeficiente de Correlación de Pearson
 
EJERCICIO DE ÁRBOL DE DECISION
EJERCICIO  DE  ÁRBOL  DE DECISION EJERCICIO  DE  ÁRBOL  DE DECISION
EJERCICIO DE ÁRBOL DE DECISION
 
Diagnostico Empresarial
Diagnostico EmpresarialDiagnostico Empresarial
Diagnostico Empresarial
 

Similar a Estadística Multivariante: Análisis de Conglomerados

Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz BoliviaTesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz BoliviaSUPSI
 
Metodos
MetodosMetodos
Metodostototl
 
Muestreo tc3 2014 2015
Muestreo tc3 2014 2015Muestreo tc3 2014 2015
Muestreo tc3 2014 2015ABDALA LEON
 
notas de análisis numerico
notas de análisis numericonotas de análisis numerico
notas de análisis numericoxino7
 
guia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbcguia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbcapuntescbc
 
guia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbcguia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbcclasesdequimica
 
Apunts dintel ligencia_artificial
Apunts dintel ligencia_artificialApunts dintel ligencia_artificial
Apunts dintel ligencia_artificialAndreu Garcia
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4JCASTINI
 
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...CIMAT
 
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...L Méndez
 
DataMining_lastfm
DataMining_lastfmDataMining_lastfm
DataMining_lastfmRub Afonso
 
Diseño de Experimentos Métodos y Aplicaciones.pdf
Diseño de Experimentos Métodos y Aplicaciones.pdfDiseño de Experimentos Métodos y Aplicaciones.pdf
Diseño de Experimentos Métodos y Aplicaciones.pdfJuvenalriv
 

Similar a Estadística Multivariante: Análisis de Conglomerados (20)

Materia investigación operativa 2
Materia investigación operativa 2Materia investigación operativa 2
Materia investigación operativa 2
 
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz BoliviaTesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
Tesis Gregory Pekynov Bustamante, Ingenieria Electronica, La Paz Bolivia
 
Metodos
MetodosMetodos
Metodos
 
regresion
regresionregresion
regresion
 
Muestreo tc3 2014 2015
Muestreo tc3 2014 2015Muestreo tc3 2014 2015
Muestreo tc3 2014 2015
 
notas de análisis numerico
notas de análisis numericonotas de análisis numerico
notas de análisis numerico
 
TFM_MJVillanueva
TFM_MJVillanuevaTFM_MJVillanueva
TFM_MJVillanueva
 
guia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbcguia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbc
 
guia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbcguia de ejercicios de analisis del cbc
guia de ejercicios de analisis del cbc
 
Tesis análisis estructural.
Tesis análisis estructural.Tesis análisis estructural.
Tesis análisis estructural.
 
Tesis python ing. civil
Tesis python ing. civilTesis python ing. civil
Tesis python ing. civil
 
Apunts dintel ligencia_artificial
Apunts dintel ligencia_artificialApunts dintel ligencia_artificial
Apunts dintel ligencia_artificial
 
Serie aprender a investigar 4
Serie aprender a investigar 4Serie aprender a investigar 4
Serie aprender a investigar 4
 
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...
Algoritmo de Reconocimiento de Objetos en Escenas Complejas para Aplicaciones...
 
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
Estadistica 2, distribuciones muestrales, intervalos de confianza y prueba de...
 
DataMining_lastfm
DataMining_lastfmDataMining_lastfm
DataMining_lastfm
 
Guia_Analisis_Exp.pdf
Guia_Analisis_Exp.pdfGuia_Analisis_Exp.pdf
Guia_Analisis_Exp.pdf
 
Diseño de Experimentos.pdf
Diseño de Experimentos.pdfDiseño de Experimentos.pdf
Diseño de Experimentos.pdf
 
Diseño de Experimentos Métodos y Aplicaciones.pdf
Diseño de Experimentos Métodos y Aplicaciones.pdfDiseño de Experimentos Métodos y Aplicaciones.pdf
Diseño de Experimentos Métodos y Aplicaciones.pdf
 
Hefesto v2.1
Hefesto v2.1Hefesto v2.1
Hefesto v2.1
 

Último

MARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptxMARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptxgabyardon485
 
IDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDINGIDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDINGAndresGEscobar
 
EGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxEGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxDr. Edwin Hernandez
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzassuperamigo2014
 
Efectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxEfectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxCONSTRUCTORAEINVERSI3
 
Presentación de la empresa polar, estados financieros
Presentación de la empresa polar, estados financierosPresentación de la empresa polar, estados financieros
Presentación de la empresa polar, estados financierosmadaloga01
 
Contabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHillContabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHilldanilojaviersantiago
 
TIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptx
TIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptxTIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptx
TIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptxKevinHeredia14
 
AUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptxAUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptxMatiasGodoy33
 
Régimen Depósito Aduanero_20200203 V1.pptx
Régimen Depósito Aduanero_20200203 V1.pptxRégimen Depósito Aduanero_20200203 V1.pptx
Régimen Depósito Aduanero_20200203 V1.pptxDavesGirao
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...antonellamujica
 
DELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdfDELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdfJaquelinRamos6
 
ISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónjesuscub33
 
INFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsx
INFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsxINFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsx
INFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsxCORPORACIONJURIDICA
 
clase de Mercados financieros - lectura importante
clase de Mercados financieros - lectura importanteclase de Mercados financieros - lectura importante
clase de Mercados financieros - lectura importanteJanettCervantes1
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfConstructiva
 
fracturas de antebhbunununrazo [II].pptx
fracturas de antebhbunununrazo  [II].pptxfracturas de antebhbunununrazo  [II].pptx
fracturas de antebhbunununrazo [II].pptxkarlagonzalez159945
 
Plan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdfPlan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdfdanilojaviersantiago
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosFundación YOD YOD
 

Último (20)

MARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptxMARKETING SENSORIAL -GABRIELA ARDON .pptx
MARKETING SENSORIAL -GABRIELA ARDON .pptx
 
IDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDINGIDENTIDAD Y MANUAL DE MARCA PARA BRANDING
IDENTIDAD Y MANUAL DE MARCA PARA BRANDING
 
EGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxEGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptx
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzas
 
Efectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxEfectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptx
 
Presentación de la empresa polar, estados financieros
Presentación de la empresa polar, estados financierosPresentación de la empresa polar, estados financieros
Presentación de la empresa polar, estados financieros
 
Contabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHillContabilidad universitaria Septima edición de MCGrawsHill
Contabilidad universitaria Septima edición de MCGrawsHill
 
TIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptx
TIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptxTIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptx
TIPOS DE PLANES administracion una perspectiva global - KOONTZ.pptx
 
AUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptxAUDITORIAS en enfermeria hospitalaria .pptx
AUDITORIAS en enfermeria hospitalaria .pptx
 
Régimen Depósito Aduanero_20200203 V1.pptx
Régimen Depósito Aduanero_20200203 V1.pptxRégimen Depósito Aduanero_20200203 V1.pptx
Régimen Depósito Aduanero_20200203 V1.pptx
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
 
Walmectratoresagricolas Trator NH TM7040.pdf
Walmectratoresagricolas Trator NH TM7040.pdfWalmectratoresagricolas Trator NH TM7040.pdf
Walmectratoresagricolas Trator NH TM7040.pdf
 
DELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdfDELITOS CONTRA LA GESTION PUBLICA PPT.pdf
DELITOS CONTRA LA GESTION PUBLICA PPT.pdf
 
ISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarización
 
INFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsx
INFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsxINFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsx
INFORMATIVO CIRCULAR FISCAL - RENTA 2023.ppsx
 
clase de Mercados financieros - lectura importante
clase de Mercados financieros - lectura importanteclase de Mercados financieros - lectura importante
clase de Mercados financieros - lectura importante
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
 
fracturas de antebhbunununrazo [II].pptx
fracturas de antebhbunununrazo  [II].pptxfracturas de antebhbunununrazo  [II].pptx
fracturas de antebhbunununrazo [II].pptx
 
Plan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdfPlan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdf
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de servicios
 

Estadística Multivariante: Análisis de Conglomerados

  • 2. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis ÍNDICE GENERAL ÍNDICE GENERAL Índice general 1. Análisis de Conglomerados 1 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Uso del Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.3. ¿En qué consiste? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4. Etapas para la formación de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4.1. Casos Atípicos (outliers) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5. Medida de Similitud/Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5.1. Distancias para Datos de Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5.2. Otras Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.5.3. Distancias para Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.6. Formación de los Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6.1. Procesos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6.2. Procesos No-Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.6.3. Optimización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7. Selección del número de Clústers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7.1. Métodos Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7.2. Métodos No-Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.8. Validación Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Bibliografía 21 Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 i
  • 3. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis ÍNDICE DE CUADROS ÍNDICE DE CUADROS Índice de cuadros 1.1. Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2. Ejemplo Distancias Datos Binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 ii
  • 4. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis ÍNDICE DE FIGURAS ÍNDICE DE FIGURAS Índice de figuras 1.1. Análisis de Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Distancias Entre e Inter Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. ¿Cuántos Clústers puede encontrar? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4. Casos Atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5. Ventas vs. Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6. Análisis de Perfil de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.7. Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA) . . . . . . . . . 12 1.8. Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio 12 1.9. Chaining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.10. Dendrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.11. Dendrograma (Manhattan / Encadenamiento Simple) . . . . . . . . . . . . . . . . . . . . 15 1.12. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 16 1.13. Dendrograma (Distancia Euclideana / Encadenamiento Promedio) . . . . . . . . . . . . . 16 1.14. Dendrograma (Similitud de Jaccard / Centroides) . . . . . . . . . . . . . . . . . . . . . . 18 Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 iii
  • 5. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Capítulo 1 Análisis de Conglomerados 1.1. Introducción Figura 1.1: Análisis de Conglo- merados El análisis de conglomerados (clústers) busca la identificación de grupos dentro de una población. Agrupa objetos (encuestados, productos, empresas, variables, etc.) de modo que cada objeto sea similar a los otros objetos en el clúster y diferente de los objetos en todos los otros grupos. El análisis de conglomerados busca una estructura subyacente entre las observaciones basada en un perfil multivariante. Este técnica busca características compartidas entre individuos u objetos. Es un enfoque que se basa en la clasificación de datos según una característica “natural” común a todos los objetos. Este método engloba un grupo de técnicas multivariantes cuyo prin- cipal propósito es agrupar objetos basándose en las características que poseen. Es una técnica de clasificación sin supervisión: no existen clases o grupos predefinidos. 1.2. Uso del Análisis de Conglomerados Al análisis de conglomerados se le conoce con muchos nombres dependiendo de los ojos (área del conocimiento) con que se observe. Algunos de los métodos basado en este conjunto de técnicas multivariante incluyen segmentación (Marketing), Análisis de Grupos Estratégicos (Estrategia), Análisis de Q (Psicología y Medicina), Construcción de tipologías (Sistemas de Información), Análisis de Clasificación (Metereología), Taxonomías (Biología), Análisis Espacial (Geolocalización). Algunos ejemplos específicos de su uso: Marketing: Identificar segmentos de consumidores para desarrollar campañas publicitarias o de promoción más enfocadas. Uso del Suelo (Geo-Agricultura): Identificación de superficies en base a su uso (cosecha) usando satélites. Seguros: Identificar grupos de asegurados para detectar aquellos que tienen altos costos por reclamos. Planificación Urbana: Identificación de grupos de hogares de acuerdo al tipo de casa, valor, y ubicación geográfica. Sismología: Agrupación de epicentros a lo largo de fallas continentales. Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 1
  • 6. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.3. ¿EN QUÉ CONSISTE? CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS 1.3. ¿En qué consiste? Básicamente lo que se busca es: Minimizar la variación dentro del clúster; y, maximizar la variación entre clústers. Usando otras palabras, un buen análisis de clústers busca: Una alta similitud intra-clase; y, una baja similitud entre-clases, Figura 1.2: Distancias Entre e Inter Cluster La calidad del análisis de clúster depende de la medida de similitud o distancia que se ocupe. La calidad también depende de la habilidad en identificar patrones subyacentes. El Análisis de Clúster puede ser muy subjetivo, a manera de ejemplo, considere las siguientes tareas: Ejemplo 1.1. Agrupe los siguientes animales: oveja, lagarto, gato, perro, gorrión, tiburón azul, víbora, gaviota, pez dorado, rana, salmón. Criterios de Agrupación Por la forma en que tienen a su progenie Por el hecho de tener pulmones Por el entorno en el que viven Por la forma en que tienen a su progenie y porque tienen pulmones ¿Cuál es la forma correcta? 1.4. Etapas para la formación de Clústers El análisis de clúster puede realizarse en 5 pasos o etapas simples y claramente definidas (Romesburg, 2004). 1er. Paso: Formular el problema (ver ejemplo anterior). En esta etapa, el investigador puede realizar entrevistas informales para identificar y seleccionar las variables en las que basará la agrupación, ya que si se incluyen variables irrelevantes, pueden distorsionar el problema. Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 2
  • 7. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Figura 1.3: ¿Cuántos Clústers puede encontrar? 2do. Paso: Seleccionar una medida de similitud. La forma en que generalmente se hace es en términos de la distancia (ver siguiente sección) entre cada par de casos; cuando la distancia es menor se considera que los casos son más parecidos entre sí. Cuando las variables se miden en unidades muy diferentes, antes de agrupar los casos, se recomienda estandarizar los datos para eliminar la influencia de la unidad de medición. 3er. Paso: Seleccionar un procedimiento de agrupamiento. Para este paso hay diversos métodos (se discuten más adelante). 4to. Paso: Decidir el número de conglomerados a conservar. Una vez que ya se ha hecho un clasificación, se decidirá con cuántos conglomerados se trabajará, algunas veces esto es una decisión subjetiva del investigador. 5to. Paso: Interpretar y elaborar un perfil de los conglomerados. En esta etapa se procederá a determinar las características de cada conglomerado que se conservará. 1.4.1. Casos Atípicos (outliers) Figura 1.4: Casos Atípicos Los casos atípicos (outliers) son objetos que no pertenecen a ningún cluster o forman un clúster de baja cardinalidad (ver Figura 1.4). Para analizar estas situaciones se pueden realizar Diagramas de Perfil (Profile Analysis) u ocupar una medida de ajuste como D2 o Distancia de Mahalanobis. La existencia de casos atípicos representa un problema importante en el análisis de conglomera- dos. 1.5. Medida de Similitud/Dis- tancia La distancia se expresa con una función de la forma: d(i, j). La definición de las distancias dependen del tipo de datos que estemos ocupando: escala métrica, no-métrica, binaria, categórica, ordinal, etc. En general, los datos están expresados en una matriz (sin estandarizar) con n observaciones (objetos) y p variables, de la forma: Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 3
  • 8. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS X = 0 B B B B @ x11 . . . x1k . . . x1p . . . . . . . . . . . . . . . xi1 . . . xik . . . xip . . . . . . . . . . . . . . . xn1 . . . xnk . . . xnp 1 C C C C A (1.1) De ser necesario, los datos deben estandarizarse para eliminar los problemas asociados a escalas diferentes. Esto generalmente puede lograrse mediante el cálculo de los Z-score (con la Desviación Media Absoluta): mk = 1 n (x1k + x2k + . . . + xnk) 8k 2 [1, . . . , p] sm k = 1 n (|x1k mk| + |x2k mk|) + . . . + |xnk mk| Zik = xik mk sm k Usar la desviación media absoluta (sm f ), en lugar de la desviación estándar, produce resultados más robustos en el análisis de clúster. No obstante, también puede ocupar la desviación estándar: xk = 1 n nX i=1 xik s2 k = 1 n 1 nX i=1 (xik xk) 2 zik = (xik xk) sk La matriz de datos estandarizados es entonces: Z = 0 B B B B @ z11 . . . z1k . . . z1p . . . . . . . . . . . . . . . zi1 . . . zik . . . zip . . . . . . . . . . . . . . . zn1 . . . znk . . . znp 1 C C C C A (1.2) Luego, la matriz de datos originales (o estandarizados) debe ser transformada en una matriz de distancias D = dij, que es simétrica con dii = 0: D = 0 B B B B B @ 0 d(2, 1) 0 d(3, 1) d(3, 2) 0 ... ... . . . d(n, 1) d(n, 2) d(n, 3) . . . 0 1 C C C C C A 1.5.1. Distancias para Datos de Intervalo Por lo general usamos distancias para medir la similitud o diferencia entre dos objetos. Una de las distancias más populares es la Distancia de Minkowski: d(xi, xj) = " pX k=1 |xik xjk|q #1 q = q q |xi1 xj1|q + |xi2 xj2|q + · · · + |xip xjp|q donde xi = (xi1, xi2, . . . , xip) , y xj = (xj1, xj2, . . . , xjp) son dos vectores de dimensión p; y q es un entero positivo. Si q = 1, esta distancia se conoce como distancia de Manhattan o también llamada city-block. Si q = 2, entonces tenemos Distancia Euclidiana: d(xi, xj) = q |xi1 xj1|2 + |xi2 xj2|2 + · · · + |xip xjp|2 Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 4
  • 9. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Formalmente, las propiedades de estas distancias son: d(xi, xj) 0 d(xi, xi) = 0 d(xi, xj) = d(xj, xi) d(xi, xj)  d(xi, xk) + d(xk, xj) También pueden usarse distancias ponderadas (ej. correlaciones Pearson-paramétricas), u otro tipo de ponderación (w), como: d(xi, xj) = q w1|xi1 xj1|2 + w2|xi2 xj2|2 + · · · + wp|xip xjp|2 Ejemplo 1.2. Suponga que existen 6 firmas (1-6) de las cuales se conoce su nivel de ventas (y) y el número de patentes que tienen registradas (x). Se desea conocer si existen grupos estratégicos dentro de esta industria. La solución se hará ocupando Stata12. 1 . list 2 +-------------------+ 3 | firm x y | 4 |-------------------| 5 1. | Firma 1 0 3 | 6 2. | Firma 2 1 2 | 7 3. | Firma 3 4 3.5 | 8 4. | Firma 4 5 5 | 9 5. | Firma 5 4 4 | 10 6. | Firma 6 1 1 | 11 +-------------------+ 12 . label var firm "Firmas" 13 . label var x "Patentes" 14 . label var y "Ventas" Los datos pueden estandarizarse fácilmente: 1 . egen zy = std(y) 2 . egen zx = std(x) 3 . list 4 +-------------------------------------------+ 5 | firm x y zx zy | 6 |-------------------------------------------| 7 1. | Firma 1 0 3 -1.205607 -.0583212 | 8 2. | Firma 2 1 2 -.7233642 -.7581754 | 9 3. | Firma 3 4 3.5 .7233642 .2916059 | 10 4. | Firma 4 5 5 1.205607 1.341387 | 11 5. | Firma 5 4 4 .7233642 .641533 | 12 6. | Firma 6 1 1 -.7233642 -1.45803 | 13 +-------------------------------------------+ Considerando que los datos tienen magnitudes similares (y para simplificar la presentación de resultados), los datos no serán estandarizados, sin embargo, debe recordarse que ese paso es necesario en la mayoría de los casos. En adelante simplemente puede reemplazar las variables orginales (x, y) por estas nuevas variables estandarizadas (zx, zy), y así obtener resultados más robustos. La distribución de estas firmas puede ser obtenida: 1 . scatter y x, title (" Ventas vs. Patentes ") /// 2 ylabel (0(1)5) mlabel(firm) mlabp (5) aspect (.7) Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 5
  • 10. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Firma 1 Firma 2 Firma 3 Firma 4 Firma 5 Firma 6 012345 Ventas 0 1 2 3 4 5 Patentes Ventas vs. Patentes Figura 1.5: Ventas vs. Patentes Del gráfico anterior puede apreciarse que aparentemente existen (al menos) dos grupos. Las firmas 3, 4 y 5 poseen un nivel alto de patentes y también de ventas; por lo que aparentemente son parte de un mismo grupo. Les llamaremos las “innovadoras”. Un case particular es el de la firma 1, ya que no tiene patentes pero sí Ventas por encima del promedio. Esto supone que debe revisarse si no se trata de un caso atípico (outlier). Para ello revisamos el Perfil de Variables: 1 . gen n = _n 2 . label values n firm_ids 3 . profileplot y x, by(n) 012345 mean y x Variables Firma 1 Firma 2 Firma 3 Firma 4 Firma 5 Firma 6 mean Figura 1.6: Análisis de Perfil de Variables La Figura 1.6 muestra un comportamiento atípico de la firma 1, sin embargo aún no puede descartarse; deben realizarse primero calcularse las distancias y los agrupamientos correspondientes. La matriz de distancias de Manhattan (city-block) es: 1 . mat diss L1 = y x, L1 2 Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 6
  • 11. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS 3 . mat list L1 4 5 symmetric L1[6 ,6] 6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6 7 Firma_1 0 8 Firma_2 2 0 9 Firma_3 4.5 4.5 0 10 Firma_4 7 7 2.5 0 11 Firma_5 5 5 .5 2 0 12 Firma_6 3 1 5.5 8 6 0 Nótese que el resultado anterior también puede obtenerse ocupando la Distancia de Minkowski de Grado 1: 1 . mat diss M1 = y x, Lpow (1) 2 3 . mat list M1 4 5 symmetric M1[6 ,6] 6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6 7 Firma_1 0 8 Firma_2 2 0 9 Firma_3 4.5 4.5 0 10 Firma_4 7 7 2.5 0 11 Firma_5 5 5 .5 2 0 12 Firma_6 3 1 5.5 8 6 0 En esta matriz de distancias, las menores valores están en d3,5 = 0,5 y en d2,6 = 1, por lo que podemos esperara que éstos sean los primeros grupos que se formarían (en un método jerárquico). Esto también es consistente si ocupamos distancias euclidianas. La matriz de distancias euclidianas es: 1 . mat diss L2 = y x, L2 2 3 . mat list L2 4 5 symmetric L2[6 ,6] 6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6 7 Firma_1 0 8 Firma_2 1.4142136 0 9 Firma_3 4.0311289 3.354102 0 10 Firma_4 5.3851648 5 1.8027756 0 11 Firma_5 4.1231056 3.6055513 .5 1.4142136 0 12 Firma_6 2.236068 1 3.9051248 5.6568542 4.2426407 0 1.5.2. Otras Distancias 1.5.2.1. Canberra d(xi, xj) = pX k=1  |xik xjk| xik + xjk (1.3) Ejemplo 1.3. Distancia de Canberra (continua del ejemplo anterior). 1 . mat diss Cb = y x, canberra names(firm) 2 3 . mat list Cb 4 5 symmetric Cb[6 ,6] 6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6 7 Firma_1 0 8 Firma_2 1.2 0 9 Firma_3 1.0769231 .87272727 0 Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 7
  • 12. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS 10 Firma_4 1.25 1.0952381 .2875817 0 11 Firma_5 1.1428571 .93333333 .06666667 .22222222 0 12 Firma_6 1.5 .33333333 1.1555556 1.3333333 1.2 0 Nótese que en este caso el orden de agrupamiento es algo diferente a los casos anteriores. La menor distancia está aún entre las firmas 3 y 5, sin embargo, la segunda menor distancia está entre las firmas 4 y 5 (d4,5 = 0,22). Más aun, la tercera menor distancia es d3,4 = 0,29. Esto muestra que el orden de agrupamiento será diferente, y eventualmente, dependiendo del Método de Agrupamiento, podríamos encontrar soluciones diferentes. cuando la distancia euclidiana (y también la de Manhattan) ponen a las firmas 2 y 6 como las más cercanas (d2,6 = 1). Esto también es evidente de la Figura 1.5. 1.5.2.2. Czekanowski d(xi, xj) = 1 2 6 6 6 6 4 2 pX k=1 m´ın(xik, xjk) pX k=1 (xik + xjk) 3 7 7 7 7 5 (1.4) 1.5.2.3. Tchebyschev d(xi, xj) = m´ax i=1,2,...,n |xik xjk| (1.5) Ejemplo 1.4. Distancia de Tchebyschev 1 . mat diss Tch = y x, maximum names(firm) 2 3 . mat list Tch 4 5 symmetric Tch [6 ,6] 6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6 7 Firma_1 0 8 Firma_2 1 0 9 Firma_3 4 3 0 10 Firma_4 5 4 1.5 0 11 Firma_5 4 3 .5 1 0 12 Firma_6 2 1 3 4 3 0 1.5.2.4. Distancia de Cosenos d(xixj) = 1 2 [1 cos(xi, xj)] = 1 2  1 xi · xj kxikkxjk (1.6) Donde cos(xi, xj) = xi · xj kxikkxjk = xi T xj kxikkxjk = xi1xj1 + · · · + xipxjp q x2 i1 + · · · + x2 ip q x2 j1 + · · · + x2 jp Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 8
  • 13. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS cos(xi, xj) = pX k=1 (xik ⇥ xjk) v u u t pX k=1 x2 ik ⇥ pX h=1 x2 jh Este último valor también se conoce como la Distancia Angular. Ejemplo 1.5. 1 . mat diss ANG = y x, angle names(firm) dissim(oneminus) 2 3 . mat list ANG 4 5 symmetric ANG [6 ,6] 6 Firma_1 Firma_2 Firma_3 Firma_4 Firma_5 Firma_6 7 Firma_1 0 8 Firma_2 .10557281 0 9 Firma_3 .34149539 .07445304 0 10 Firma_4 .29289322 .0513167 .00221484 0 11 Firma_5 .29289322 .0513167 .00221484 0 0 12 Firma_6 .29289322 .0513167 .00221484 0 0 0 Nótese en la matriz anterior que las distancias entre las firmas 4, 5 , 6 es igual a 0 (d4,5 = d4,6 = d5,6 = 0). Esto se debe a que esta medida de distancia, como su nombre indica, mide las distancias en ángulos; al estar las firmas 4, 5 y 6 sobre la diagonal (45o ) (ver Figura 1.5), su distancia es igual a cero. 1.5.2.5. Distancia de Mahalanobis d(x, y) = xT A 1 y A es definida positiva (1.7) Mahalanobis, al permitirnos elegir la matriz A, entrega mayores posibilidades de controlar la geometría de los potenciales clústers. 1.5.3. Distancias para Datos Binarios Cuando trabajamos con datos binarios es más común hablar de similitud y no de distancia. Estas similitudes pueden calcularse de la siguiente forma: Cuadro 1.1: Datos Binarios Objeto j 1 0 Suma Objeto i 1 a b a+b 0 c d c+d Suma a+c b+d p Similitud para variables simétricas binarias: sim(i, j) = b + c a + b + c + d Similitud para variables asimétricas binarias: sim(i, j) = b + c a + b + c Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 9
  • 14. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.5. MEDIDA DE SIMILITUD/DISTANCIA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Similitud de Jaccard: Jaccard (1901, 1908) simJacard(i, j) = a a + b + c Similitud de Russel: Russel y Rao (1940) simRussel(i, j) = b a + b + c + d Similitud de Hamann: Hamann (1961) simHamann(i, j) = (a + d) (b + c) a + b + c + d Similitud de Czekanowski: También conocida como Similitud de Dice. Czekanowski (1932), Dice (1945), Sørensen (1948). simDice(i, j) = 2a 2a + b + c Similitud de Ochiai: Ochiai (1957) simOchiai(i, j) = a p (a + b)(a + c) Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 10
  • 15. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Ejemplo 1.6. Suponga que en una encuesta sobre acceso de tecnología para el hogar se obtuvieron los siguientes resultados: Cuadro 1.2: Ejemplo Distancias Datos Binarios Nombre Sexo TV Auto Casa Comp. Telef. Cable Juan M 1 0 1 0 0 0 María F 1 0 1 0 1 0 Pedro M 1 1 0 0 0 0 “Sexo” es el único atributo simétrico, el resto son atributos asimétricos. Matriz de Frecuencia Binaria (Pedro, María): 1 0 Total 1 1 1 2 0 3 2 5 Total 4 3 7 simJaccard(Pedro, Maria) = 1 1 + 1 + 3 = 0,2 1 . list 2 3 +---------------------------------------------------------+ 4 | name sex tv auto home comp cell cable | 5 |---------------------------------------------------------| 6 1. | Juan Hombre 1 0 1 0 0 0 | 7 2. | Maria Mujer 1 0 1 0 1 0 | 8 3. | Pedro Hombre 1 1 0 0 0 0 | 9 +---------------------------------------------------------+ 10 11 . mat diss SIM = sex tv auto home comp cell cable , Jaccard names(name) 12 13 . mat list SIM 14 15 symmetric SIM [3 ,3] 16 Juan Maria Pedro 17 Juan 1 18 Maria .5 1 19 Pedro .33333333 .2 1 Y, para obtener la matriz de distancias ocupada luego para la formación de clústers (note que la matriz de distancias debe siempre tener ceros en la diagonal): 1 . mat diss DIST = sex tv auto home comp cell cable , /// 2 Jaccard names(name) dissim(one minus) 3 . mat list DIST 4 5 symmetric DIST [3 ,3] 6 Juan Maria Pedro 7 Juan 0 8 Maria .5 0 9 Pedro .66666667 .8 0 1.6. Formación de los Clústers Una vez obtenida la Matriz de Distancia (D), se debe seleccionar un procedimiento para agrupar las observaciones: Procedimientos Jerárquicos Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 11
  • 16. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Procedimientos No-Jerarquicos Procedimientos Compuestos 1.6.1. Procesos Jerárquicos Estos procesos puede clasificarse en métodos aglomerativos o métodos divisivos. Éstos están repre- sentados os en la Figura 1.7. En el primer caso, como sugiere el nombre, el objetivo es ir agrupando las observaciones en función a su cercanía (o distancia). En el caso de los métodos divisivos, se parte con un único clúster que contiene a todas las observaciones y se va desagregando, de nuevo, en función a la distancia. (a) Métodos Aglomerativos (b) Métodos Divisivos Figura 1.7: Métodos (a) Aglomerativos (AGNES); y (b) Métodos Divisivos (DIANA) 1.6.1.1. Métodos Aglomerativos (AGNES) Objetos que son similares (están cerca) son agrupados uno a uno. Son los métodos más sencillos y los principales son: Figura 1.8: Métodos Aglomerativos: (a) Enlace Simple; (b) Enlace Completo; y (c) Enlace Promedio Single Linkage. (Enlace Simple o «Vecino más cercano») Este algoritmo calcula la distancias o similitudes entre pares de objetos y forma los grupos agregando al objeto vecino más cercano d(UV )W = m´ın[dUW , dV W ] Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 12
  • 17. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Una ventaja de este método es que puede identificar clústers que no necesariamente tienen una forma elipsoidal. Una desventaja es que no puede discriminar fácilmente entre grupos muy distantes. Esto sucede porque el agrupamiento sucede muy pronto, ver la figura. Esta tendencia de formar clústers con poca cohesión interna se conoce como chaining (ver Figura 1.9). Figura 1.9: Chaining Complete Linkage. (Enlace Completo o «Vecino más lejano») Este algoritmo es similar al anterior, pero calcula la distancia entre los objetos más distantes. De esta forma este algoritmo se asegura que todos los miembros de cada grupo estén dentro de la mayor distancia posible. Average Linkage. (Enlace Promedio o «Promedio de Grupo») d(UV )W = P i P k dik NUV NW Donde: dik = distancia entre objeto i en cluster ( UV ) y objecto k en clusterW. NUV = número de objetos en cluster ( UV ) NW = número de objetos en cluster ( W ) Método de los Centroides. En este algoritmo la distancia entre clusters se calcula usando los centroides. Los centroides son los valores medios de las observaciones de las variables en el valor teórico del cluster. Cálculo de Centroides: Suponga dos puntos (en tres dimensiones) X = (x1, x2, x3) ; Y = (y1, y2, y3). Al agrupar estos puntos en un clúster, el centroide se obtiene de: Z = (z1, z2, z3). Donde: z1 = (x1 + y1) 2 ; z2 = (x2 + y2) 2 ; z3 = (x3 + y3) 2 Método de Ward. Método de la Suma de Cuadrados Los nuevos clústers se crean de tal manera de que se minimice la suma de cuadrados total de las distancias dentro de cada clúster. 1.6.1.2. Métodos Divisivos (DIANA): Los métodos divisivos parten separando toda la muestra en dos grupos y luego se van retirando grupos que son diferentes (mayor distancia o diferencia). Este proceso puede realizarse en base al uso de las mismas distancias discutidas para los Métodos Aglomerativos. 1.6.1.3. Representación Gráfica (Dendrogramas) En procesos jerárquicos, es muy común la representación gráfica de los clústers usando dendrogramas (ver Figura 1.10). Éstos pueden representarse en forma vertical (como se muestra) o en forma horizontal. Siguiendo los ejemplos anteriores, se muestran a continuación distintos tipos de agrupamiento. Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 13
  • 18. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS 0246 L2dissimilaritymeasure 1 2 6 3 5 4 Dendrogram for Euclidean cluster analysis Figura 1.10: Dendrograma Ejemplo 1.7. Distancia de Manhattan, Encadenamiento Simple 1 . cluster singlelinkage y x, L1 name(L1) 2 3 . cluster gen Grupos_L1 = group (2) 4 5 . table firm Grupos_L1 6 7 ---------------------- 8 | Grupos_L1 9 Firmas | 1 2 10 ----------+----------- 11 Firma 1 | 1 12 Firma 2 | 1 13 Firma 3 | 1 14 Firma 4 | 1 15 Firma 5 | 1 16 Firma 6 | 1 17 ---------------------- 18 . label var L1_ord "Valor de Corte" 19 20 . cluster dend , hor labels(firm) ylabel(,angle (0)) /// 21 title (" Dendrograma (Distancia de Manhattan / Single Linkage )") /// 22 addplot(line L1_ord cutvalue , clpattern(dot) lcolor(red )) 23 24 . graph export dend_L1.eps , replace Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 14
  • 19. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Firma 4 Firma 3 Firma 5 Firma 1 Firma 2 Firma 6 0 1 2 3 4 5 L1 dissimilarity measure y1/y2 Valor de Corte Dendrograma (Distancia de Manhattan / Single Linkage) Figura 1.11: Dendrograma (Manhattan / Encadenamiento Simple) Ejemplo 1.8. Distancia Euclideana, Encadenamiento Promedio 1 . cluster averagelinkage y x, L2 name(L2) 2 3 . cluster gen Grupos_L2 = group (2) 4 5 . table firm Grupos_L2 6 7 ---------------------- 8 | Grupos_L2 9 Firmas | 1 2 10 ----------+----------- 11 Firma 1 | 1 12 Firma 2 | 1 13 Firma 3 | 1 14 Firma 4 | 1 15 Firma 5 | 1 16 Firma 6 | 1 17 ---------------------- 18 19 . cluster dend , hor labels(firm) ylabel(,angle (0)) /// 20 title (" Dendrograma (Distancia Euclideana / Average Linkage )") 21 22 . graph export dend_L2.eps , replace Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 15
  • 20. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS Firma 1 Firma 2 Firma 6 Firma 3 Firma 5 Firma 4 0 1 2 3 4 L2 dissimilarity measure y1/y2 Valor de Corte Dendrograma (Distancia Euclideana / Average Linkage) Figura 1.12: Dendrograma (Distancia Euclideana / Encadenamiento Promedio) Ejemplo 1.9. Distancia de Canberra, Método de Ward 1 . cluster ward y x, canberra name(Canberra) 2 3 . cluster dend , hor labels(firm) ylabel(,angle (0)) /// 4 title (" Dendrograma (Distancia de Canberra / Ward )") 5 6 . graph export dend_Canberra .eps , replace Firma 1 Firma 3 Firma 5 Firma 4 Firma 2 Firma 6 0 .5 1 1.5 2 Canberra dissimilarity measure y1/y2 Valor de Corte Dendrograma (Distancia de Canberra / Ward) Figura 1.13: Dendrograma (Distancia Euclideana / Encadenamiento Promedio) Nótese en este caso que la solución más apropiada es de 3 grupos. En caso de formar sólo dos grupos, la firma 1 pasaría a formar parte del grupo compuesto por 3, 4 y 5; algo que no sucedió en los ejemplos anteriores. Esto podría confirmar la sospecha de que la firma 1 es un caso atípico. Dado que el objetivo Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 16
  • 21. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS acá es ver si existen grupos este caso debería ser tratado como un grupo de un miembro (o eventualmente retirarse, por ejemplo, si después se pretende realizar un análisis de regresión con los datos agregados). En el Dendrograma puede verse que incorporar la firma 1 al grupo (3/4/5) agregaría mucha entropia (la línea de unión de la firma 1 al grupo está muy separada -hacia la derecha- del anterior agrupamiento). Los grupos según esta medida de distancia y método de agrupamiento son: 1 . cluster gen Canberra_3G = group (3) 2 3 . table firm Canberra_3G 4 5 ---------------------------- 6 | Canberra_3G 7 Firmas | 1 2 3 8 ----------+----------------- 9 Firma 1 | 1 10 Firma 2 | 1 11 Firma 3 | 1 12 Firma 4 | 1 13 Firma 5 | 1 14 Firma 6 | 1 15 ---------------------------- Ejemplo 1.10. Análisis de Clúster con Datos Binarios, Similitud de Jaccard y agrupamiento a través del Método de Centroides. 1 . list 2 3 +---------------------------------------------------------+ 4 | name sex tv auto home comp cell cable | 5 |---------------------------------------------------------| 6 1. | Juan Hombre 1 0 1 0 0 0 | 7 2. | Maria Mujer 1 0 1 0 1 0 | 8 3. | Pedro Hombre 1 1 0 0 0 0 | 9 +---------------------------------------------------------+ 10 11 . cluster cent sex tv auto home comp cell cable , Jaccard name(Jaccard) 12 13 . cluster gen Grupos_Jaccard = group (2) 14 15 . table name Grupos_Jaccard 16 17 --------------------------- 18 Encuestado | Grupos_Jaccard 19 | 1 2 20 -----------+--------------- 21 Juan | 1 22 Maria | 1 23 Pedro | 1 24 -----------_--------------- Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 17
  • 22. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.6. FORMACIÓN DE LOS CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS .4 .6 .8 1 Jaccardsimilaritymeasure Juan Maria Pedro y1/y2 Valor Límite Dendrograma (Jaccard / Centroid) Figura 1.14: Dendrograma (Similitud de Jaccard / Centroides) 1.6.2. Procesos No-Jerárquicos Los procedimientos no jerárquicos se conocen como agrupación de k medias (k-means clustering). Estos métodos se dividen en tres que son: umbral secuencial, umbral paralelo y división para la optimización. Estos métodos no-jerárquicos parten con la generación de una semilla y permiten en ocasiones que observaciones queden fuera de algún clúster; i.e. el método de k medias es menos sensible a los outliers. Ejemplo 1.11. 1 . cluster kmeans y x, k(3) Lpow (3) keep name(km3) 2 3 . table firm km3 4 5 ---------------------------- 6 | km3 7 Firmas | 1 2 3 8 ----------+----------------- 9 Firma 1 | 1 10 Firma 2 | 1 11 Firma 3 | 1 12 Firma 4 | 1 13 Firma 5 | 1 14 Firma 6 | 1 15 ---------------------------- Nótese que en esta oportunidad, forzando la existencia de 3 clústers, Stata respeta esta condición dejando como un único grupo a la Firma 1 (outlier). Asimismo, podemos obtener los centros de cada uno de los clústers. 1 . list y x if km3 == . 2 3 +---------------------+ 4 | y x | 5 |---------------------| 6 7. | 4.166667 4.333333 | 7 8. | 1.5 1 | 8 9. | 3 0 | 9 +---------------------+ Sin embargo, con 2 medias, los resultados son consistentes con Métodos Jerárquicos. Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 18
  • 23. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.7. SELECCIÓN DEL NÚMERO DE CLÚSTERS CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS 1 . cluster kmeans y x, k(2) Lpow (3) keep name(km2) 2 3 . table firm km2 4 ---------------------- 5 | km2 6 Firmas | 1 2 7 ----------+----------- 8 Firma 1 | 1 9 Firma 2 | 1 10 Firma 3 | 1 11 Firma 4 | 1 12 Firma 5 | 1 13 Firma 6 | 1 14 ---------------------- 15 16 . list y x if km2 == . 17 +---------------------+ 18 | y x | 19 |---------------------| 20 7. | 2 .6666667 | 21 8. | 4.166667 4.333333 | 22 +---------------------+ 1.6.2.1. Método del Umbral Secuencial Se selecciona una primera semilla para un cluster. Esta semilla representa el centro del clúster. Todos los objetos con una distancia menor al umbral son agregados a este clúster. A continuación se selecciona una segunda semilla, y se incluyen todos los objetos que están a un distancia menor al umbral. Así, sucesivamente hasta obtener el número deseado de clusters. Una vez que un objeto (observación) ha sida asignado a un clúster, no es considerado para las iteraciones posteriores. 1.6.2.2. Método del Umbral Paralelo Se seleccionan varias semillas simultáneamente al inicio. Cada semilla representa el centro de cada clúster. Todos los objetos con una distancia menor al umbral son agregados al clúster más cercano. En este caso, algunos objetos pueden permanecer fuera de un clúster si su distancia es superior al umbral especificado. 1.6.3. Optimización Este procedimiento es similar a los métodos anteriores, con la excepción que permite la reubicación de los objetos. I.e. si en proceso de iteración, un objeto se acerca más a otro clúster, distinto del que tiene asignado en ese momento, entonces este procedimiento cambia el objeto al clúster más cercano. 1.7. Selección del número de Clústers Esto depende de la pregunta que busca responderse y de la teoría subyacente. No obstante, una forma común de realizar esto es a través de un Análisis de Perfil de Clusters. Algunos software de estadística han popularizado algunas “reglas de parada” como el CCC (Cluster Cubic Criterion) popluarizado por SAS (Stata no lo tiene). La buena noticia es que se ha demostrado empíricamente que los criterios “subjetivos” (ej. nivel de entropía del dendrograma) son extremadamente consistentes con técnicas más elaboradas. 1.7.1. Métodos Jerárquicos La selección del número de clústers se realiza en estos casos a través de una comparación de cambios porcentuales en coeficientes de aglomeración (suma de los cuadrados de las distancias entre objetos dentro Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 19
  • 24. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis 1.8. VALIDACIÓN PREDICTIVA CAPÍTULO 1. ANÁLISIS DE CONGLOMERADOS de los clústers). Cuando el coeficiente de aglomeración aumenta significativamente en la formación de un nuevo grupo, entonces es momento de detener el proceso. A esta situación comúnmente se le llama entropia. En un estudio de indices usando Simulación de Montercarlo, Dubes (1987) encontró que los métodos de Enlace Completo (“Vecino más lejano”) consistentemente encontraban el verdadero número de Clusters en comparación a otros métodos jerárquicos. 1.7.2. Métodos No-Jerárquicos Test de Hipótesis de comparación de medias entre clústers. Consiste en realizar una prueba simple de medias (con varianzas iguales), para cada una de las variables de estudio separadas según los clústers encontrados. 1.8. Validación Predictiva Una forma de validar el análisis de clústers es a través de la Validación Predictiva. Ésta consiste en dejar fuera del análisis de clúster una variable que se sabe que cambia según el clúster. Con esto, se puede ver si luego del análisis de clúster la separación de la variable extra se cumple. Esta variable de validación debe tener una fuerte base teórica para ser ocupada como tal. (Still working on this section!) Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 20
  • 25. N O C O PIA R O PU B LIC A R -c Jaim e C.R ubin-de-Celis BIBLIOGRAFÍA BIBLIOGRAFÍA Bibliografía Dubes, R. C. (1987). How many clusters are the best?- an experiment. Pattern Recognition, 20(6):645–663. Romesburg, C. (2004). Cluster Analysis for Researchers. Lulu.com. Jaime C. Rubin-de-Celis, 22 de noviembre de 2012 21