SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
Curso(1)-Clasificacion
1. Universidad
de Costa Rica
CIMPA Modelos de Clasificación
Javier Trejos Zelaya
Centro de Investigación en Matemática
Pura y Aplicada (CIMPA)
Universidad de Costa Rica
Foro Nacional de Estadística
México D.F., octubre 2003
2. Universidad
de Costa Rica
CIMPA Contenido
1. Introducción
2. Medidas de Semejanza
3. Clasificación Jerárquica
4. Clasificación por Particiones
5. Métodos Arbóreos no Jerárquicos
6. Otros Métodos
7. Validación de Resultados
3. Universidad
de Costa Rica
CIMPA Aplicaciones (UCR)
• Consumidores del sistema eléctrico: Clasificar
“curvas de carga” tarifas electricas
• Solicitantes de beca en un sistema educativo
• Cantones productores de café; Climas
• Temas de conflicto en encuestas de opinión
pública
• Plantas epífitas; Especies de pejibaye
• Clasificación de habas asturianas; de ñame
4. Universidad
de Costa Rica Introduccion a la
CIMPA
Clasificación
p
“Cluster analysis”
Análisis de conglomerados
X Xij
Análisis tipológico
Análisis de grupos n
{1,2,...,n}
Objetivo: Obtener grupos de objetos o individuos,
homogéneos internamente,
bien separados entre sí.
5. Universidad
de Costa Rica
CIMPA Tipos de Clasificación
Por el resultado buscado:
• Clasificación Arbórea
• Particionamiento
Importante para la interpretación de los
resultados y los objetivos de la
investigación
6. Universidad
de Costa Rica
CIMPA Clasificación Arbórea
• Clasificación Jerárquica:
construye árboles jerárquicos
(ascendente, descendente, aproximación)
• Arboles aditivos
(aproximación, descomposición)
• Pirámides
(ascendente, aproximación)
7. Universidad
de Costa Rica
CIMPA Particionamiento
• Particiones disjuntas:
– K-Medias: núcleos son centros de gravedad
– Nubes Dinamicas: núcleos generales
– Optimización (Fisher, heurísticas)
– Cruzada o bimodal
– Programación lineal
• Particiones no disjuntas:
– Clasificación difusa
– Clasificación superpuesta (Ej: método del líder)
8. Universidad
de Costa Rica
CIMPA Los Datos
j
: individuos u objetos
X=i xij
xij : variable j observada
sobre objeto i
xi : xi1 , xi 2 ,..., xip
•Cuantitativas: peso, talla, edad, … xij
•Cualitativas: sexo (F-M), nivel de ingreso,… xij A
•Binarias (Presencia-ausencia) Sí - 1 , No - 0 xij {0,1}
D= d
•Tabla de distancias ij
9. Universidad
de Costa Rica
CIMPA Medidas de Semejanza
• Distancias y Disimilitudes
Semejanza entre individuos u objetos
• Agregaciones
Semejanza entre conjuntos de individuos u
objetos
10. Universidad
de Costa Rica
CIMPA Distancias y Disimilitudes
Disimilitud: d:
i, j d i, j
con d i, j 0 i j definida
d i, j d j, i simétrica
“Entre menor sea d, más parecidos son i, j.
Entre mayor sea d, más diferentes son i, j.”
Distancia = Disimilitud + Desigualdad triangular
d i, j d i, k d k, j
11. Universidad
de Costa Rica
CIMPA Ultramétricas
Ultramétrica = Disimilitud + Desigualdad ultramétrica
d i, j Max{d i, k , d k , j }
Obs:
•Desigualdad Ultramétrica desigualdad Triangular
•Geometría: todos los triángulos son isóceles agudos
no se puede hacer
una representación plana
de más de 3 puntos
12. Universidad
de Costa Rica
CIMPA Datos Cuantitativos xi p
2
Euclídea Clásica: p
t
d i, j xik x jk xi xj xi xj
k 1
Euclídea: M matriz simétrica, definida y positiva
t
d M i, j xi x j M xi xj xj
x j2
xi xj 1 xi
M
Ej : M diag xi 2
var k
x i1 x j1
Chi-cuadrado ( χ2 )
2
p
2 1 xik x jk p n
d 2
i. j con xi xik xk xik
k 1 x k xi xj k 1 i 1
13. Universidad
de Costa Rica
CIMPA Datos cuantitativos (2)
1
p r
Minkowski: r 0, d r i, j xik x jk
r
k 1
Chebychev o L :
r d i, j max xik x jk
j
City-block,
Manhattan o L1:
p
d1 i, j xik x jk
k 1
r 1 i
14. Universidad
de Costa Rica
CIMPA Datos Binarios
xik {0,1}
xj = 1 xj = 0
xi = 1 aij cij ni
xi = 0 bij dij
nj p
• Jaccard: d1(xi,xj) = 1 – aij/(aij + bij + cij)
• Czekanowski: d2(xi,xj) = 1 –2 aij/(ni + nj)
• Russel & Rao: d3(xi,xj) = 1 – aij/p
15. Universidad
de Costa Rica
CIMPA Ejemplo de datos binarios
Especies Var 1 Var 2 Var 3 Var 4 Var 5 Var 6
1 1 1 0 0 1 0
2 0 1 0 0 0 0
3 1 1 1 1 0 0
1 1
2 1 3
1 1 3 0
0 2 2 1 2
2
3 2 3
1 2
d Jacard 1,2 1
1 2 0 3
1 3
d Jacard 2,3 1
2 3 1 0 3 4
d Jacard 1,3 1
2 2 1 5
16. Universidad
de Costa Rica
CIMPA
Datos Cualitativos
A: conjunto de modalidades (códigos) xij A
Hamming: p
d H i, j ij k
k 1
con k 1 si xik xjk , # de veces que son
ij
{0 si x = x
ik jk diferentes
Euclídea: d i, j 2d H i , j
p
2 ij k
Chi-cuadrado: d i, j
p2 k 1 nk
Con nk : cardinal de modalidad k
17. Universidad
de Costa Rica
CIMPA Tablas Mixtas
Clases:
Mismo tamaño
Qt Ql histograma
discretizar x Qt Mismo efectivo
Optimas (Fisher)
cuantificar
1.Ql Análisis de Correspondencias Múltiples
C
Ponderar
2. Qt C
d i, j pt d qt i, j pl d ql i, j
18. Universidad
de Costa Rica
CIMPA Agregaciones
Indices de disimilitud
entre conjuntos de objetos
: con
A, B A, B A, B 0
A, B B, A
19. Universidad
de Costa Rica
CIMPA Agregaciones Generales
•Salto mínimo
min A, B min{ d i, j / i A, j B}
A B
•Salto máximo
max A, B max{ d i, j / i A, j B}
A B
•Salto promedio
1
prom A, B d i, j
B AB i A j B
A
20. Universidad
de Costa Rica
CIMPA Agregaciones Euclídeas
•Ward (incremento de la inercia)
AB 2
ward A, B I A B I A I B 2
gA gB
A B
•Distancia entre
centros de gravedad A B
2
cg A, B gA gB
21. Universidad
de Costa Rica
CIMPA Semejanza entre variables
Medidas de asociación (simétricas):
– Correlaciones: entre variables
cuantitativas
– Asociación entre variables cualitativas
2 2
, ,T 2
– Asociación entre variables binarias
22. Universidad
de Costa Rica
CIMPA Clasificación Jerárquica
• Construcción de un árbol jerárquico
de clasificación
• El dendrograma es fácil de interpretar
en términos de clasificación
23. Universidad
de Costa Rica
CIMPA Jerarquías
H P es una jerarquía total si:
H, H
i : {i} H
h1 , h2 H : h1 h2 ó
h1 h2 ó h2 h1
Jerarquía binaria:
h H : h1 , h2 H tq h1 h2 , h1 h2 h
h 1
24. Universidad
de Costa Rica
CIMPA Jerarquías Indexadas
Jerarquía indexada: f :H R tq
h1 h2 f h1 f h2
f {i} 0, f h 0 h {i}
Indexada en sentido amplio:
h1 h2 f h1 f h2
f
i j
25. Universidad
de Costa Rica
CIMPA Clas. Jer. Ascendente
Agrupar sucesivamente las clases (de individuos) más
próximas (en el sentido de una agregación)
1. Considerar P0 = {{1},{2},...,{n}} k = 0 H = P0
2. Escoger en Pk a h1, h2 tq h1 , h2 mín{ a, b / a, b Pk }
3. Unir h1, h2: h h1 h2 Pk 1 Pk {h1 h2 } {h1 , h2 }
k k 1 H H {h1 h2 }
4. Repetir 2 y 3 hasta que Pk =
Indice: f h h1 , h2 donde h h1 h2
26. Universidad
de Costa Rica
CIMPA La CJA paso a paso
1. Po {{a}, {b}, {c}, {d }, {e}, { f }}
2. Escoge {c},{d}, Forma {c,d}
P {{a}, {b}, {c, d }, {e}, { f }}
1
3. Escoge {a},{b}, Forma {a,b}
P2 {{a, b}, {c, d }, {e}, { f }} a b c d e f
4. Escoge {e},{f}, Forma {e,f}
P3 {{a, b}, {c, d }, {e, f }}
27. Universidad
de Costa Rica
CIMPA
Ilustracion de la CJA
a b c d e
Entrada:
a 0
b 0 disimilitud
c 0
d 0 i, j
e 0
Si c, d, son los más cercanos: se forma grupo {c, d}
Nueva •Eliminar fila / columna c y d
tabla: a b {c, d } e •Calcular {c, d }, a
a
b {c, d }, b
{c, d }
{c, d }, e
e
28. Universidad
de Costa Rica
CIMPA Ejemplo 1: min
a b c d
a0 1 3 5.5
b 0 2 4.5
c 0 2.5
d 0
{a, b} c d
{a, b} 0 2 4.5
c 0 2.5 3
d 0 2
1
{a, b, c} d a b c d
{a, b, c} 0 2.5
d 0
29. Universidad
de Costa Rica
CIMPA Ejemplo 1: max
a b c d
a0 1 3 5.5
b 0 2 4.5
c 0 2.5
d 0
{a, b} c d
{a, b} 0 3 5.5 5
c 0 2.5 4
3
d 0
2
{a, b} {c, d }
1
{a, b} 0 5.5
a b c d
{c, d } 0
30. Universidad
de Costa Rica
CIMPA Ejemplo 1: prom
a b c d
a0 1 3 5.5
b 0 2 4.5
c 0 2.5
d 0
{a, b} c d
{a, b} 0 2.5 5 tomar una decisión
c 0 2.5
3
d 0
2
1
a b c d
31. Universidad
de Costa Rica
CIMPA Resultados con prom
{a, b, c} d {a, b} {c, d }
{a, b, c} 0 4.16 {a, b}
0
3.75
0
d 0 {c, d }
5 5
4 4
3
3
2 2
1 1
a b c d a b c d
32. Universidad
de Costa Rica
CIMPA Fórmula de recurrencia
Lance & Williams (1967), Jambu (1978)
h, h1 h2 a1 h, h1 a2 h, h2 a3 h1 , h2 a4 h, h1 h, h2
a1 a2 a3 a4
1 1 0 1
mín 2 2
2
1 1
1
2 2 0 2
máx
h1 h2
prom h1 0 0
h2 h1 h2
h h1 h h2 h
ward h h1 h2 h h1 h2 0
h h1 h2
h1 h2 h1 h2
cg h1 h2 2 0
h1 h2 h1 h2
35. Universidad
de Costa Rica
CIMPA Uso de la Fórmula de Recur.
a b c d e a b {c, d } e
a 0 25 18 25 10 a 0 25 21.5 10
prom b 0 30 40 34
b 0 35 34
{c, d } 0 16.5
c 0 10 15 e 0
d 0 18 {a, e} b {c, d }
e 0 {a, e} 0 29.5 19
b 0 35
1 1 {c, d } 0
{c, d }, a c, a d, a
2 2
1 43 30
18 25 21.5
2 2
20
1 1
{a, e},{c, d } a,{c, d } e,{c, d }
2 2 10
1 38
21.5 16.5 19 c d a e
2 2 b
36. Universidad
de Costa Rica
CIMPA Tabla de Notas CR
Mate. Ciencias Espa. Hist. Ed. Fis.
Lucia 7.0 6.5 9.2 8.6 8.0
Pedro 7.5 9.4 7.3 7.0 7.0
Ines 7.6 9.2 8.0 8.0 7.5
Luis 5. 6.5 6.5 7.0 9.0
Andres 6.0 6.0 7.8 8.9 7.3
Ana 7.8 9.6 7.7 8.0 6.5
Carlos 6.3 6.4 8.2 9.0 7.2
Jose 7.9 9.7 7.5 8.0 6.0
Sonia 6.0 6.0 6.5 5.5 8.7
Maria 6.8 7.2 8.7 9.0 7.0
38. Universidad
de Costa Rica
CIMPA Ej.: notas escolares (CR)
Arbol Jerárquico: ( Ward )
0 1
Lucía
María
Andrés
Carlos
Luis
Sonia
Pedro
Inés
Ana
José
39. Universidad
de Costa Rica
CIMPA Clasificación (notas CR)
Corte en tres clases: B = 19.72
Clase Mat Cie Esp His E.Fi Interpretación
1: Lucía, María, Andrés, Carlos 6.5 6.5 8.5 8.9 7.4 Humanística
2: Luis, Sonia 5.5 6.2 6.5 6.2 8.8 Flojos; Ed. Fís.
3: Pedro, Carmen, Ana, José 7.7 9.5 8.0 7.8 6.7 Buenos; Cient.
Promedio general: 6.8 7.7 7.9 7.9 7.4
40. Universidad
de Costa Rica
CIMPA
Notas escolares (Fr.)
Mate. Ciencias Historia Latín Ed. Fis.
Jean 6 6 5 5.5 8
Alain 8 8 8 8 9
Anne 6 7 11 9.5 11
Monique 14.5 14.5 15.5 15 8
Didier 14 14 12 12.5 10
André 11 10 5.5 7 13
Pierre 5.5 7 14 11.5 10
Brigitte 13 12.5 8.5 9.5 12
Evelyne 9 9.5 12.5 12 18
41. Universidad
de Costa Rica
CIMPA Clasificación (notas Fr.)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
Jean Alain Andr Ana Pier Evel Didr Moni Brig
42. Universidad
de Costa Rica
CIMPA Ejemplo Pintores
Color Expresividad Composició Diseño
n
Bassano 6 8 17 0
Bellini 4 6 14 0
Certona 16 14 12 6
43. Universidad
de Costa Rica
CIMPA Clasificación de Pintores
Perugivo
Durero
Pordenone
Del Piombo
Murillo
Da Udien
Bassano
Bellini
Guercino
Cortona
Teniers
Tintoretto
Veronesse
Holbein
Van Dyck
Rembrandt
Rubens
Rafael
Pousini
Da Vinci
Romano O.
L. Jordans
Del Sarto
45. Universidad
de Costa Rica
CIMPA Clientes de sist. eléctrico
Curva de carga:
max
0 24
Se nencesita conocer el comportamiento del consumo de
los clientes para decidir cuales torces se conectan a
ciertas horas.
tarifas eléctricas x sectores
(residencial,
industrial,…)
Aplicación de método de nubes dinámicas y de
clasificación jerárquica de Ward.
46. Universidad
de Costa Rica
CIMPA Inversiones en CJA
Sea H , f
Inversión: Si h, h H tq h h h f h f h
h
Propiedad ( Diday, 1981 ) :
•( H, f ) jerarquía indexada en sentido amplio
•Condición local: f h h i j
hi h j
f
hi VI
hi hj f hj
47. Universidad
de Costa Rica
CIMPA Teorema de Batalegj-Diday
•Condición global: ff hh h
i j hi , h j
h ih j
i
P
h
hi
h1
i 1 hj
hi 2
h j hi 1 , h j hi 2
Teorema de Batalegj - Diday
No hay inversiones al usar la fórmula de L-W si y
sólo si: a)a4 mín{a1 , a2 }
b)a1 a2 0
c)a1 a2 a3 1
Hay inversiones a4 mín{a1 , a2 }
a1 a2 0, a1 a2 a3 1
48. Universidad
de Costa Rica
CIMPA CJ Descendente
Problema combinatorio: 2n-1-1 dicotomías
• Williams & Lambert: cada variable genera
dicotomía tomar la que maximiza Var Inter.
• Hubert: tomar clase de mayor diámetro, agregar
alrededor de los “polos”
• Roux: inercia asociada a una bipartición (pares)
• Lacoste: análisis factorial
• Cavalli-Sforza: · todas las dicotomías
· escoger la que mín W
49. Universidad
de Costa Rica
CIMPA Teorema de Benzécri
Existe una biyección entre el conjunto J de jerarquías
indexadas de e y el conjunto U de ultramétricas s / .
:J U con H, f con i, j mín{ f h / i, j h}
:U J con s H, f con:
H={clases de equivalencia de R / 0}
f h inf{ 0/ h P x}
con: iR j i, j
P : Partición inducida por R
Lema: h P f h
Si max{ i, j P P 0 {{i} / i }
•H es una jerarquía indexada
Si h1 , h2 H : h1 P 1 , h2 P 2 :
•si 1 2 h1 h2
•si 1 2 h1 h2
50. Universidad
de Costa Rica
CIMPA Consecuencias
, son inversas
H, f H, f una de la otra
Consecuencia: medir “distancias” en un árbol
jerárquico, es medir una ultramétrica
i, j
i j
51. Universidad
de Costa Rica
Aproximación de una
CIMPA
ultramétrica
Sea d una disimilitud sobre
d i, j sup{ i, j / ultram. , i, j d i, j }
Entonces d es una ultramétrica (el máximo se alcanza)
Problema de optimización: 2
hallar ultramétrica tq Mín d , d i, j i, j
i, j
Construcción de la subdominante
Arbol de longitud mínima:
Si A es un árbol de longitud mínima sobre
entonces d(i,j) = longitud del camino de i a j.
•Algoritmo de Kruskal Ejemplo:
•Algoritmo de Prim (1957) •red telefónica
•Clasificación jerárquica (salto mínimo)
•Pb transporte
•Algoritmo de Roux
•conexión de
terminales de
computador
52. Universidad
de Costa Rica
CIMPA Corte del árbol
una partición C1 {a, b, c}
C2 {d , e, f }
a b c d e f
f h
•“Mayor salto” del índice
•Método del codo: inercias (caso cuantitativo )
Wk
Max w
Wk 1
•Control difuso
•Mojena, Jambu, Lerman,...
53. Universidad
de Costa Rica
CIMPA Observaciones a la CJA
Ventajas
•Es fácil de interpretar
•Complejidad O ( n2 )
•Dadas d y , hay una única solución.
Desventajas
• Se ajusta los datos a una ultramétrica
• Resultado depende de y de cómo resolver las igualdades
• Una jerarquía impone restricciones de inclusión
• Cargar en memoria tabla de n2 disimilitudes