SlideShare una empresa de Scribd logo
1 de 57
Descargar para leer sin conexión
J. Trejos: Clasificaión Automática
CIMPA-UCR
Clasificación Automática
Javier Trejos
CIMPA – Escuela de Matemática
Universidad de Costa Rica
J. Trejos: Clasificaión Automática
CIMPA-UCR
Medidas de Semejanza
• Distancias y Disimilitudes
Semejanza entre individuos u objetos
• Agregaciones
Semejanza entre conjuntos de individuos
u objetos
J. Trejos: Clasificaión Automática
CIMPA-UCR
Distancias y Disimilitudes
+

→



:
d
( ) ( )
j
i
d
j
i ,
, 
con ( ) j
i
j
i
d =

= 0
, definida
( ) ( )
i
j
d
j
i
d ,
, = simétrica
“Entre menor sea d, más parecidos son i, j.
Entre mayor sea d, más diferentes son i, j.”
( ) ( ) ( )
j
k
d
k
i
d
j
i
d ,
,
, +

Distancia = Disimilitud + Desigualdad triangular
Disimilitud:
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ultramétricas
Ultramétrica = Disimilitud + Desigualdad ultramétrica
( ) ( ) ( )}
,
,
,
{
, j
k
d
k
i
d
Max
j
i
d 
•Desig. Ultramétrica  desig. Triangular
•Geometría: todos los triángulos son isóceles agudos
 no se puede hacer
una representación plana
de más de 3 puntos
Obs:
J. Trejos: Clasificaión Automática
CIMPA-UCR
Datos cuantitativos (2)
j
i



  

Minkowski:  
+
 ,
0
r
City-block,
Manhattan o L1:
( )
1
=
r
( ) 
=
−
=
p
k
jk
ik x
x
j
i
d
1
1 ,
Chebychev o L :
( ) jk
ik x
x
j
i
d −
=
 max
,
( )

→
r
( )
r
p
k
r
jk
ik
r x
x
j
i
d
1
1
, 





−
= 
=
J. Trejos: Clasificaión Automática
CIMPA-UCR
Distancia Manhattan o City-block
J. Trejos: Clasificaión Automática
CIMPA-UCR
Distancia Manhattan o City-block
J. Trejos: Clasificaión Automática
CIMPA-UCR
Distancia Manhattan o City-block
J. Trejos: Clasificaión Automática
CIMPA-UCR
Clasificación Jerárquica
• Construcción de un árbol jerárquico
de clasificación
• El dendrograma es fácil de interpretar
en términos de clasificación
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplo 1: min
0 1 3 5
.
5
0 2 5
.
4
0 5
.
2
0
a
a
b
b
c
c
d
d
0 2 5
.
4
0 5
.
2
0
}
,
{ b
a
}
,
{ b
a
c
d
d
c
a b c d
1
2
3
0 5
.
2
0
}
,
,
{ c
b
a
}
,
,
{ c
b
a
d
d
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplo 1: max
0 1 3 5
.
5
0 2 5
.
4
0 5
.
2
0
a
a
b
b
c
c
d
d
0 3 5
.
5
0 5
.
2
0
}
,
{ b
a
}
,
{ b
a
c
d
d
c
0 5
.
5
0
}
,
{ b
a
}
,
{ b
a
}
,
{ d
c
}
,
{ d
c
a b c d
1
2
3
4
5
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplo 1: prom
0 5
.
2 5
0 5
.
2
0
}
,
{ b
a
}
,
{ b
a
c
d
d
c
Tomar una decisión
0 1 3 5
.
5
0 2 5
.
4
0 5
.
2
0
a
a
b
b
c
c
d
d
a b c d
1
2
3
J. Trejos: Clasificaión Automática
CIMPA-UCR
Resultados con prom
}
,
{ b
a
0
75
.
3
0
}
,
{ d
c
}
,
{ d
c
}
,
{ b
a
a b c d
1
2
3
4
5
0 16
.
4
0
}
,
,
{ c
b
a
}
,
,
{ c
b
a
d
d
a b c d
1
2
3
4
5
J. Trejos: Clasificaión Automática
CIMPA-UCR
Diferentes resultados
0 1 3 5
.
5
0 2 5
.
4
0 5
.
2
0
a
a
b
b
c
c
d
d
a b c d
1
2
3
min
a b c d
1
2
3
4
5
max
a b c d
1
2
3
4
5
a b c d
1
2
3
4
5
pro
m
J. Trejos: Clasificaión Automática
CIMPA-UCR
Fórmula de recurrencia
2
1
2
1
2
1 2
1
0
0
0
0
0
0
2
1
−
2
1
−
2
1
1
h
h
h
+
2
1
1
h
h
h
h
h
+
+
+
2
1
1
h
h
h
+
2
1
2
h
h
h
+
2
1
2
h
h
h
h
h
+
+
+
2
1
2
h
h
h
+
2
1 h
h
h
h
+
+
−
( )2
2
1
2
1
h
h
h
h
+
−
1
a 2
a 3
a 4
a
min

max

ave

ward

cg

( ) ( ) ( ) ( )
2
1
3
2
2
1
1
2
1 ,
,
,
, h
h
a
h
h
a
h
h
a
h
h
h 


 +
+
=
 ( ) ( )
2
1
4 ,
, h
h
h
h
a 
 −
+
Lance & Williams (1967), Jambu (1978)
J. Trejos: Clasificaión Automática
CIMPA-UCR
Inversiones en CJA
Sea ( )
f
H ,
Inversión: If H
h
h 

 , st ( ) ( )
h
f
h
f
h
h 




 

h
h
J. Trejos: Clasificaión Automática
CIMPA-UCR
Batalegj-Diday Theorem
Cuando se usa la fórmula de Lance & Williams
no hay inversiones si y sólo si:
}
,
{
) 2
1
4 a
a
mín
a
a −

0
) 2
1 
+ a
a
b
1
) 3
2
1 
+
+ a
a
a
c
Hay inversiones }
,
{ 2
1
4 a
a
mín
a −


1
,
0 3
2
1
2
1 
+
+

+ a
a
a
a
a
No tienen inversiones: min max ave ward
J. Trejos: Clasificaión Automática
CIMPA-UCR
CJ Descendente
Problema combinatorio: 2n-1-1 dicotomías
• Williams & Lambert: cada variable genera
dicotomía → tomar la que maximiza Var Inter.
• Hubert: tomar clase de mayor diámetro, agregar
alrededor de los “polos”
• Roux: inercia asociada a una bipartición (pares)
• Lacoste: análisis factorial
• Cavalli-Sforza: · todas las dicotomías
· escoger la que mín W
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplo de Clasificación
Notas Escolares CR ( 1 )
Arbol Jerárquico: ( Ward )
Lucía
María
Andrés
Carlos
Luis
Sonia
Pedro
Carmen
Ana
José
0 1
Corte del árbol
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplo de Clasificación
Notas Escolares C.R. ( 2 )
Corte en tres clases: B = 19.72
Clase
1: Lucía, María, Andrés, Carlos
Mat Cie Esp His E.Fi
6.5 6.5 8.5 8.9 7.4
Interpretación
Humanística
2: Luis, Sonia 5.5 6.2 6.5 6.2 8.8 Flojos; Ed, Físic
3: Pedro, Carmen, Ana, José 7.7 9.5 8.0 7.8 6.7 Buenos; Cient.
6.8 7.7 7.9 7.9 7.4
Promedio general:
J. Trejos: Clasificaión Automática
CIMPA-UCR
J. Trejos: Clasificaión Automática
CIMPA-UCR
J. Trejos: Clasificaión Automática
CIMPA-UCR
J. Trejos: Clasificaión Automática
CIMPA-UCR
Datos sociológicos
• Clasificación de variables cuya asociación
es medida con el T de Chuprov
n
2
J. Trejos: Clasificaión Automática
CIMPA-UCR
J. Trejos: Clasificaión Automática
CIMPA-UCR
Corte del árbol
a b c d e f
una partición
}
,
,
{
1 c
b
a
c =
}
,
,
{
2 f
e
d
c =
•“Mayor salto” del índice
( )
h
f
•Método del codo: inercias (caso cuantitativo )

w
•Max
1
−


k
k
w
w
•Control difuso
•Mojena, Jambu, Lerman,...
J. Trejos: Clasificaión Automática
CIMPA-UCR
Teorema de Benzécri
Hay una biyección entre el conjunto J de
jerarquías indexadas de  y el conjunto U
de ultramétricas definidas sobre .
J. Trejos: Clasificaión Automática
CIMPA-UCR
Consecuencias
( )( ) 


 =
• 
( )( ) ( )
f
H
f
H ,
, =
• 
 
 ,  son funciones
inversas
Consecuencia: medir “distancias” sobre un árbol
jerárquico, es la medición de una ultramétrica


i j
( )
j
i,

J. Trejos: Clasificaión Automática
CIMPA-UCR
Observaciones a la CJA
Desventajas
• Se ajusta los datos a una ultrametrica
• Resultado depende de 
• Resultado depende de cómo resolver las igualdades
• Cargar en memoria tabla de n2 disimilitudes
• Una jerarquía impone restricciones de inclusión
Ventajas
•Complejidad O ( n2 )
•Dadas d y , hay una única solución.
J. Trejos: Clasificaión Automática
CIMPA-UCR
Clasificación por Particiones
• Encontrar clases homogéneas
internamente y bien separadas
• Caso numérico o cuantitativo:
 = {x1,x2,…,xn}  Rp
• Caso binario:
 = {x1,x2,…,xn}  {0,1}p
• Partición: P = (C1,C2,…,CK) [K dado]
J. Trejos: Clasificaión Automática
CIMPA-UCR
Homogeneidad (numérica)
• Minimizar la inercia
(varianza) intraclases:
• donde gk es el centro
de gravedad de Ck
 
= 
−
=
K
k C
k
i
n
k
i
P
W
1
2
1
||
||
)
(
x
g
x
J. Trejos: Clasificaión Automática
CIMPA-UCR Separación (numérica)
• Maximizar la inercia
(varianza) interclases:
Donde g es el c.grav. total
Nota:
Total = W(P) + B(P)
min max

=
−
=
K
k
k
k
n
C
P
B
1
2
||
||
|
|
)
( g
g
J. Trejos: Clasificaión Automática
CIMPA-UCR
Criterios de inercia
nota:
Inercia = W(P) + B(P)
min max

=
−
=
k
l
l
l
n
C
P
B
1
2
||
||
|
|
)
( g
g
 
= 
−
=
k
l C
l
i
n
l
i
P
W
1
2
1
||
||
)
(
x
g
x
J. Trejos: Clasificaión Automática
CIMPA-UCR Problema Combinatorio
• Número de particiones en clases no vacías:
• Ver Stirling.xls
• Se necesitan métodos aproximados
n
K
i
i
K
i
i
K
K
K
n
S
K
K
n
S
K
n
S

=
−








−
=
−

+
−
−
=
0
)
1
(
!
1
)
,
1
(
)
1
,
1
(
)
,
(
J. Trejos: Clasificaión Automática
CIMPA-UCR
Algunos ejemplos de S(n,K)
• S(100, 3) = 8.59 × 1046
• S(100, 7) = 6.41 × 1080
• S(500, 3) = 6.06 × 10237
• S(500, 7) = ¿?
J. Trejos: Clasificaión Automática
CIMPA-UCR Algunos resultados
• La mejor partición tiene exactamente K
clases y no menos
• Monotonicidad:
min{W(P´) : P´P*
K+1}  min{W(P) : PP*
K}
donde P*
K es el conjunto de todas las
particiones de  en K clases no vacías
J. Trejos: Clasificaión Automática
CIMPA-UCR
Métodos tipo K-Medias
• Forgy (1965)
• McQueen (1967)
• Diday (1972): nubes dinámicas
• Ball & Hall (1969): Isodata
• Régnier (1965): transferencias
• Reasignación-recentraje
J. Trejos: Clasificaión Automática
CIMPA-UCR
Método de K-Medias
Principio:
• Cada clase se representa por su
baricentro (vector de medias)
• Hacer iteraciones, hasta converger:
– Asignar objetos a la clase más de
baricentro más cercano
– Recalcular los baricentros
Ver ilustración
J. Trejos: Clasificaión Automática
CIMPA-UCR
MATE CIEN. ESPA HIS. GIM
LUCIA 7.0 6.5 9.2 8.6 8.0
PEDRO 7.5 9.4 7.3 7.0 7.0
INES 7.6 9.2 8.0 8.0 7.5
LUIS 5.0 6.5 6.5 7.0 9.0
ANDRES 6.0 6.0 7.8 8.9 7.3
ANA 7.8 9.6 7.7 8.0 6.5
CARLOS 6.3 6.4 8.2 9.0 7.2
JOSE 7.9 9.7 7.5 8.0 6.0
SONIA 6.0 6.0 6.5 5.5 8.7
MARÍA 6.8 7.2 8.7 9.0 7.0
PROM 6.79 7.65 7.74 7.9 7.42
Ejemplo: notas escolares
J. Trejos: Clasificaión Automática
CIMPA-UCR
Plano Principal
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplo: Notas Escolares
•K-medias con 3 clases:
1) B = 1.37
C1 = {Lucía, Carmen, Ana, María }
C2 = {Luis, Carlos}
C3 = {Pedro, Andrés, José, Sonia}
2) B = 4.97
C1 = {Lucía, Andrés, Carlos, María }
C2 = {Luis, Sonia}
C3 ={Pedro, Carmen, Ana, José}
Humanidades
Gimnasia
Ciencia
•K-medias con 2 clases
C1 = {Lucía, Andrés, Carlos, María, Luis, Sonia}
C2 ={Pedro, Carmen, Ana, José}
J. Trejos: Clasificaión Automática
CIMPA-UCR
Resultados: 25 corridas
Partition # veces W(P) B(P)
{LACM}{LS}{PIAJ} 17 0.75 4.97
{LACMLS}{PI}{AJ} 3 2.48 3.24
{LACMLS}{IAJ}{P} 2 2.52 3.20
{LACMLS}{IA}{PJ} 1 2.55 3.17
{LACLS}{PI}{AJM} 1 2.72 3.00
{LACMPIAJ}{L}{S} 1 3.06 2.66
J. Trejos: Clasificaión Automática
CIMPA-UCR
Observaciones a K-medias
• El algoritmo es muy rápido
• La solución depende de la partición
inicial
• Es una buena idea hacer varias corridas
(cientos o miles!) antes de guardar una
• El número de clases K es fijado a
priori
• Inercia: tiende a dar clases esféricas
J. Trejos: Clasificaión Automática
CIMPA-UCR
Nubes Dinámicas
• Cada clase es representada por un
núcleo
• Hacer iteraciones sobre 
• Dos pasos:
– Asignación: cada objeto se asigna a la
clase del núcleo más cercano
– Representación: recalcular los núcleos
• Hasta estabilidad
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplos de Núcleos
•Caso Euclídeo: baricentro
(objeto promedio) *
•Caso no Euclídeo : una muestra
(objetos más representativos)
•Caso explicativo: regresiones parciales
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplos de Núcleos
•Reconocimiento de patrones: métricas o distancias adaptativas
Una única métrica
*
*
Una métrica por clase
**
*
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ejemplos de Núcleos
• Descripción conceptual
A: {altura  [1.75, 1.80]}
B: {alt < 1.75}  {peso < 68}
C: {alt < 1.75} {peso  68} {sexo= Fem}
D: {alt < 1.75} {peso  68} {sexo= Masc}
1.80
1.75
68
A
B

C
D

weight (kg)
height (mt)
J. Trejos: Clasificaión Automática
CIMPA-UCR
Pasos en Nubes Dinámicas
Asignación: k
i C
x → si
( ) ( )
h
i
k
i N
x
d
N
x
d ,
,  para  
K
h ,...,
1

ie: ( ) ( )
h
i
h
k
i N
x
d
N
x
d ,
min
, =
En caso de igualdad, asignar xi a la clase de menor índice
Representación
Nl es el núcleo de Cl si el criterio W es mínimo para Nl
Caso Euclídeo: Nl = gl , el baricentro, gracias al teorema de
Huygens
J. Trejos: Clasificaión Automática
CIMPA-UCR
Requisitos para MND
• Debe definirse una proximidad entre objetos
y núcleos
• Debe definirse un criterio W
• Debe probarse un teorema tipo Huygens
para poder establecer:
– Convergencia
– Núcleo óptimo
J. Trejos: Clasificaión Automática
CIMPA-UCR
Ventajas e inconvenientes
Ventajas
•Rápido
•Converge
•Interpretación intuitiva
Inconvenientes
•Solución depende de la configuración inicial
•El número de clases debe ser escogido
•Solution suboptimal (mínimo local de W)
J. Trejos: Clasificaión Automática
CIMPA-UCR
Observaciones a K-medias
• El algoritmo es muy rápido
• La solución depende de la partición
inicial
• Es una buena idea hacer varias corridas
(cientos o miles!) antes de guardar una
• El número de clases K es fijado a
priori
• Inercia: tiende a dar clases esféricas
J. Trejos: Clasificaión Automática
CIMPA-UCR
Recomendaciones
Se recomienda
•Ejecutar el método varias veces para
estudiar la estabilidad de las clases
•Cambiar el número K (en caso que
elusuario no conozca el número exacto de
clases)
J. Trejos: Clasificaión Automática
CIMPA-UCR
Análisis de las Formas Fuertes
• Al aplicar varias veces el método de k-
medias, se estudia la estabilidad de las
clases
• Se genera un árbol jerárquico al definir una
disimilitud como el conteo de cuantas veces
cada par de formas fuertes han quedado
clasificadas juntas
J. Trejos: Clasificaión Automática
CIMPA-UCR Datos de CO2: clasificación de
las estaciones meteorológicas
CJA, agregación de Ward,
distancia Euclídea clásica
Datos: concentración
filtrada de CO2
J. Trejos: Clasificaión Automática
CIMPA-UCR Datos de CO2: clasificación de
los instantes
CJA, agregación de Ward,
distancia Euclídea clásica
J. Trejos: Clasificaión Automática
CIMPA-UCR Fabes asturianas: clasificación de las
variedades para distintas agregaciones
J. Trejos: Clasificaión Automática
CIMPA-UCR Fabes asturianas: clasificación
de las variables

Más contenido relacionado

Similar a Clasificacion automática (II parte) - clustering.pdf

guia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbcguia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbc
apuntescbc
 
guia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbcguia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbc
clasesdequimica
 

Similar a Clasificacion automática (II parte) - clustering.pdf (20)

4 mathematic09
4 mathematic094 mathematic09
4 mathematic09
 
Práctica para las pruebas en matemática
Práctica para las pruebas en matemáticaPráctica para las pruebas en matemática
Práctica para las pruebas en matemática
 
Clasificadores Bayesianos: De datos a Conceptos
Clasificadores Bayesianos: De datos a ConceptosClasificadores Bayesianos: De datos a Conceptos
Clasificadores Bayesianos: De datos a Conceptos
 
Modulo nuevo fisica 5 to año de secundaria
Modulo nuevo fisica 5 to  año de secundariaModulo nuevo fisica 5 to  año de secundaria
Modulo nuevo fisica 5 to año de secundaria
 
4 mathematic09
4 mathematic094 mathematic09
4 mathematic09
 
4 mathematic09
4 mathematic094 mathematic09
4 mathematic09
 
Fisica cuaderno-de-trabajo
Fisica cuaderno-de-trabajoFisica cuaderno-de-trabajo
Fisica cuaderno-de-trabajo
 
Fisica cuaderno-de-trabajo
Fisica cuaderno-de-trabajoFisica cuaderno-de-trabajo
Fisica cuaderno-de-trabajo
 
LI-T5b: Algoritmos para SAT. Aplicaciones
LI-T5b: Algoritmos para SAT. AplicacionesLI-T5b: Algoritmos para SAT. Aplicaciones
LI-T5b: Algoritmos para SAT. Aplicaciones
 
guia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbcguia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbc
 
guia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbcguia de ejercicios de algebra del cbc
guia de ejercicios de algebra del cbc
 
Tablas de Distribución de Frecuencias con practica.pptx
Tablas de Distribución de Frecuencias con practica.pptxTablas de Distribución de Frecuencias con practica.pptx
Tablas de Distribución de Frecuencias con practica.pptx
 
Reporte de practicas
Reporte de practicasReporte de practicas
Reporte de practicas
 
Reporte de practicas 2
Reporte de practicas 2Reporte de practicas 2
Reporte de practicas 2
 
Cuaderno Matemática 12º Semestre
Cuaderno Matemática 12º SemestreCuaderno Matemática 12º Semestre
Cuaderno Matemática 12º Semestre
 
Actividadades
ActividadadesActividadades
Actividadades
 
1 taller 01_topografia
1 taller 01_topografia1 taller 01_topografia
1 taller 01_topografia
 
Taller 6 trigonometria
Taller 6 trigonometriaTaller 6 trigonometria
Taller 6 trigonometria
 
Ejercicios resueltos datos_agrupados_tab
Ejercicios resueltos datos_agrupados_tabEjercicios resueltos datos_agrupados_tab
Ejercicios resueltos datos_agrupados_tab
 
Ejercicios resueltos
Ejercicios resueltosEjercicios resueltos
Ejercicios resueltos
 

Más de Facultad de Ciencias, UCR

Más de Facultad de Ciencias, UCR (16)

Yield curve estimation in Costa Rica
Yield curve estimation in Costa RicaYield curve estimation in Costa Rica
Yield curve estimation in Costa Rica
 
CART
CARTCART
CART
 
Análisis en componentes principales general
Análisis en componentes principales generalAnálisis en componentes principales general
Análisis en componentes principales general
 
Análisis en componentes principales
Análisis en componentes principalesAnálisis en componentes principales
Análisis en componentes principales
 
Análisis de correspondencias
Análisis de correspondenciasAnálisis de correspondencias
Análisis de correspondencias
 
Análisis de correspondencias múltiples
Análisis de correspondencias múltiplesAnálisis de correspondencias múltiples
Análisis de correspondencias múltiples
 
Ilustracion de K-medias
Ilustracion de K-mediasIlustracion de K-medias
Ilustracion de K-medias
 
Clasificacion Automática - clustering (I parte)
Clasificacion Automática - clustering (I parte)Clasificacion Automática - clustering (I parte)
Clasificacion Automática - clustering (I parte)
 
Regresión Lineal Múltiple
Regresión Lineal MúltipleRegresión Lineal Múltiple
Regresión Lineal Múltiple
 
Regresión Logística
Regresión LogísticaRegresión Logística
Regresión Logística
 
7_Discriminacion.pdf
7_Discriminacion.pdf7_Discriminacion.pdf
7_Discriminacion.pdf
 
Analisis Canonico
Analisis CanonicoAnalisis Canonico
Analisis Canonico
 
Clasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de FisherClasificación óptima: algoritmo de Fisher
Clasificación óptima: algoritmo de Fisher
 
Regresión PLS
Regresión PLSRegresión PLS
Regresión PLS
 
Curso(1)-Clasificacion
Curso(1)-ClasificacionCurso(1)-Clasificacion
Curso(1)-Clasificacion
 
Modelos de clasificación
Modelos de clasificaciónModelos de clasificación
Modelos de clasificación
 

Último

Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
frank0071
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
frank0071
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
CatalinaSezCrdenas
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
llacza2004
 

Último (20)

medicinatradicionalescuelanacionaldesalud.pptx
medicinatradicionalescuelanacionaldesalud.pptxmedicinatradicionalescuelanacionaldesalud.pptx
medicinatradicionalescuelanacionaldesalud.pptx
 
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
Un repaso de los ensayos recientes de historia de la ciencia y la tecnología ...
 
La biodiversidad de Guanajuato (resumen)
La biodiversidad de Guanajuato (resumen)La biodiversidad de Guanajuato (resumen)
La biodiversidad de Guanajuato (resumen)
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
 
La señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosLa señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malos
 
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDFCUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
 
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdf
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
 
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibras
 
2. Hormonas y Ciclo estral de los animales
2. Hormonas y Ciclo estral de los animales2. Hormonas y Ciclo estral de los animales
2. Hormonas y Ciclo estral de los animales
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
 
Moda colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasModa colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendas
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
 
La Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaLa Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vida
 
Perfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdf
Perfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdfPerfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdf
Perfiles NEUROPSI Atención y Memoria 6 a 85 Años (AyM).pdf
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
 

Clasificacion automática (II parte) - clustering.pdf

  • 1. J. Trejos: Clasificaión Automática CIMPA-UCR Clasificación Automática Javier Trejos CIMPA – Escuela de Matemática Universidad de Costa Rica
  • 2. J. Trejos: Clasificaión Automática CIMPA-UCR Medidas de Semejanza • Distancias y Disimilitudes Semejanza entre individuos u objetos • Agregaciones Semejanza entre conjuntos de individuos u objetos
  • 3. J. Trejos: Clasificaión Automática CIMPA-UCR Distancias y Disimilitudes +  →    : d ( ) ( ) j i d j i , ,  con ( ) j i j i d =  = 0 , definida ( ) ( ) i j d j i d , , = simétrica “Entre menor sea d, más parecidos son i, j. Entre mayor sea d, más diferentes son i, j.” ( ) ( ) ( ) j k d k i d j i d , , , +  Distancia = Disimilitud + Desigualdad triangular Disimilitud:
  • 4. J. Trejos: Clasificaión Automática CIMPA-UCR Ultramétricas Ultramétrica = Disimilitud + Desigualdad ultramétrica ( ) ( ) ( )} , , , { , j k d k i d Max j i d  •Desig. Ultramétrica  desig. Triangular •Geometría: todos los triángulos son isóceles agudos  no se puede hacer una representación plana de más de 3 puntos Obs:
  • 5. J. Trejos: Clasificaión Automática CIMPA-UCR Datos cuantitativos (2) j i        Minkowski:   +  , 0 r City-block, Manhattan o L1: ( ) 1 = r ( )  = − = p k jk ik x x j i d 1 1 , Chebychev o L : ( ) jk ik x x j i d − =  max , ( )  → r ( ) r p k r jk ik r x x j i d 1 1 ,       − =  =
  • 6. J. Trejos: Clasificaión Automática CIMPA-UCR Distancia Manhattan o City-block
  • 7. J. Trejos: Clasificaión Automática CIMPA-UCR Distancia Manhattan o City-block
  • 8. J. Trejos: Clasificaión Automática CIMPA-UCR Distancia Manhattan o City-block
  • 9. J. Trejos: Clasificaión Automática CIMPA-UCR Clasificación Jerárquica • Construcción de un árbol jerárquico de clasificación • El dendrograma es fácil de interpretar en términos de clasificación
  • 10. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplo 1: min 0 1 3 5 . 5 0 2 5 . 4 0 5 . 2 0 a a b b c c d d 0 2 5 . 4 0 5 . 2 0 } , { b a } , { b a c d d c a b c d 1 2 3 0 5 . 2 0 } , , { c b a } , , { c b a d d
  • 11. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplo 1: max 0 1 3 5 . 5 0 2 5 . 4 0 5 . 2 0 a a b b c c d d 0 3 5 . 5 0 5 . 2 0 } , { b a } , { b a c d d c 0 5 . 5 0 } , { b a } , { b a } , { d c } , { d c a b c d 1 2 3 4 5
  • 12. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplo 1: prom 0 5 . 2 5 0 5 . 2 0 } , { b a } , { b a c d d c Tomar una decisión 0 1 3 5 . 5 0 2 5 . 4 0 5 . 2 0 a a b b c c d d a b c d 1 2 3
  • 13. J. Trejos: Clasificaión Automática CIMPA-UCR Resultados con prom } , { b a 0 75 . 3 0 } , { d c } , { d c } , { b a a b c d 1 2 3 4 5 0 16 . 4 0 } , , { c b a } , , { c b a d d a b c d 1 2 3 4 5
  • 14. J. Trejos: Clasificaión Automática CIMPA-UCR Diferentes resultados 0 1 3 5 . 5 0 2 5 . 4 0 5 . 2 0 a a b b c c d d a b c d 1 2 3 min a b c d 1 2 3 4 5 max a b c d 1 2 3 4 5 a b c d 1 2 3 4 5 pro m
  • 15. J. Trejos: Clasificaión Automática CIMPA-UCR Fórmula de recurrencia 2 1 2 1 2 1 2 1 0 0 0 0 0 0 2 1 − 2 1 − 2 1 1 h h h + 2 1 1 h h h h h + + + 2 1 1 h h h + 2 1 2 h h h + 2 1 2 h h h h h + + + 2 1 2 h h h + 2 1 h h h h + + − ( )2 2 1 2 1 h h h h + − 1 a 2 a 3 a 4 a min  max  ave  ward  cg  ( ) ( ) ( ) ( ) 2 1 3 2 2 1 1 2 1 , , , , h h a h h a h h a h h h     + + =  ( ) ( ) 2 1 4 , , h h h h a   − + Lance & Williams (1967), Jambu (1978)
  • 16. J. Trejos: Clasificaión Automática CIMPA-UCR Inversiones en CJA Sea ( ) f H , Inversión: If H h h    , st ( ) ( ) h f h f h h         h h
  • 17. J. Trejos: Clasificaión Automática CIMPA-UCR Batalegj-Diday Theorem Cuando se usa la fórmula de Lance & Williams no hay inversiones si y sólo si: } , { ) 2 1 4 a a mín a a −  0 ) 2 1  + a a b 1 ) 3 2 1  + + a a a c Hay inversiones } , { 2 1 4 a a mín a −   1 , 0 3 2 1 2 1  + +  + a a a a a No tienen inversiones: min max ave ward
  • 18. J. Trejos: Clasificaión Automática CIMPA-UCR CJ Descendente Problema combinatorio: 2n-1-1 dicotomías • Williams & Lambert: cada variable genera dicotomía → tomar la que maximiza Var Inter. • Hubert: tomar clase de mayor diámetro, agregar alrededor de los “polos” • Roux: inercia asociada a una bipartición (pares) • Lacoste: análisis factorial • Cavalli-Sforza: · todas las dicotomías · escoger la que mín W
  • 19. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplo de Clasificación Notas Escolares CR ( 1 ) Arbol Jerárquico: ( Ward ) Lucía María Andrés Carlos Luis Sonia Pedro Carmen Ana José 0 1 Corte del árbol
  • 20. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplo de Clasificación Notas Escolares C.R. ( 2 ) Corte en tres clases: B = 19.72 Clase 1: Lucía, María, Andrés, Carlos Mat Cie Esp His E.Fi 6.5 6.5 8.5 8.9 7.4 Interpretación Humanística 2: Luis, Sonia 5.5 6.2 6.5 6.2 8.8 Flojos; Ed, Físic 3: Pedro, Carmen, Ana, José 7.7 9.5 8.0 7.8 6.7 Buenos; Cient. 6.8 7.7 7.9 7.9 7.4 Promedio general:
  • 21. J. Trejos: Clasificaión Automática CIMPA-UCR
  • 22. J. Trejos: Clasificaión Automática CIMPA-UCR
  • 23. J. Trejos: Clasificaión Automática CIMPA-UCR
  • 24. J. Trejos: Clasificaión Automática CIMPA-UCR Datos sociológicos • Clasificación de variables cuya asociación es medida con el T de Chuprov n 2
  • 25. J. Trejos: Clasificaión Automática CIMPA-UCR
  • 26. J. Trejos: Clasificaión Automática CIMPA-UCR Corte del árbol a b c d e f una partición } , , { 1 c b a c = } , , { 2 f e d c = •“Mayor salto” del índice ( ) h f •Método del codo: inercias (caso cuantitativo )  w •Max 1 −   k k w w •Control difuso •Mojena, Jambu, Lerman,...
  • 27. J. Trejos: Clasificaión Automática CIMPA-UCR Teorema de Benzécri Hay una biyección entre el conjunto J de jerarquías indexadas de  y el conjunto U de ultramétricas definidas sobre .
  • 28. J. Trejos: Clasificaión Automática CIMPA-UCR Consecuencias ( )( )     = •  ( )( ) ( ) f H f H , , = •     ,  son funciones inversas Consecuencia: medir “distancias” sobre un árbol jerárquico, es la medición de una ultramétrica   i j ( ) j i, 
  • 29. J. Trejos: Clasificaión Automática CIMPA-UCR Observaciones a la CJA Desventajas • Se ajusta los datos a una ultrametrica • Resultado depende de  • Resultado depende de cómo resolver las igualdades • Cargar en memoria tabla de n2 disimilitudes • Una jerarquía impone restricciones de inclusión Ventajas •Complejidad O ( n2 ) •Dadas d y , hay una única solución.
  • 30. J. Trejos: Clasificaión Automática CIMPA-UCR Clasificación por Particiones • Encontrar clases homogéneas internamente y bien separadas • Caso numérico o cuantitativo:  = {x1,x2,…,xn}  Rp • Caso binario:  = {x1,x2,…,xn}  {0,1}p • Partición: P = (C1,C2,…,CK) [K dado]
  • 31. J. Trejos: Clasificaión Automática CIMPA-UCR Homogeneidad (numérica) • Minimizar la inercia (varianza) intraclases: • donde gk es el centro de gravedad de Ck   =  − = K k C k i n k i P W 1 2 1 || || ) ( x g x
  • 32. J. Trejos: Clasificaión Automática CIMPA-UCR Separación (numérica) • Maximizar la inercia (varianza) interclases: Donde g es el c.grav. total Nota: Total = W(P) + B(P) min max  = − = K k k k n C P B 1 2 || || | | ) ( g g
  • 33. J. Trejos: Clasificaión Automática CIMPA-UCR Criterios de inercia nota: Inercia = W(P) + B(P) min max  = − = k l l l n C P B 1 2 || || | | ) ( g g   =  − = k l C l i n l i P W 1 2 1 || || ) ( x g x
  • 34. J. Trejos: Clasificaión Automática CIMPA-UCR Problema Combinatorio • Número de particiones en clases no vacías: • Ver Stirling.xls • Se necesitan métodos aproximados n K i i K i i K K K n S K K n S K n S  = −         − = −  + − − = 0 ) 1 ( ! 1 ) , 1 ( ) 1 , 1 ( ) , (
  • 35. J. Trejos: Clasificaión Automática CIMPA-UCR Algunos ejemplos de S(n,K) • S(100, 3) = 8.59 × 1046 • S(100, 7) = 6.41 × 1080 • S(500, 3) = 6.06 × 10237 • S(500, 7) = ¿?
  • 36. J. Trejos: Clasificaión Automática CIMPA-UCR Algunos resultados • La mejor partición tiene exactamente K clases y no menos • Monotonicidad: min{W(P´) : P´P* K+1}  min{W(P) : PP* K} donde P* K es el conjunto de todas las particiones de  en K clases no vacías
  • 37. J. Trejos: Clasificaión Automática CIMPA-UCR Métodos tipo K-Medias • Forgy (1965) • McQueen (1967) • Diday (1972): nubes dinámicas • Ball & Hall (1969): Isodata • Régnier (1965): transferencias • Reasignación-recentraje
  • 38. J. Trejos: Clasificaión Automática CIMPA-UCR Método de K-Medias Principio: • Cada clase se representa por su baricentro (vector de medias) • Hacer iteraciones, hasta converger: – Asignar objetos a la clase más de baricentro más cercano – Recalcular los baricentros Ver ilustración
  • 39. J. Trejos: Clasificaión Automática CIMPA-UCR MATE CIEN. ESPA HIS. GIM LUCIA 7.0 6.5 9.2 8.6 8.0 PEDRO 7.5 9.4 7.3 7.0 7.0 INES 7.6 9.2 8.0 8.0 7.5 LUIS 5.0 6.5 6.5 7.0 9.0 ANDRES 6.0 6.0 7.8 8.9 7.3 ANA 7.8 9.6 7.7 8.0 6.5 CARLOS 6.3 6.4 8.2 9.0 7.2 JOSE 7.9 9.7 7.5 8.0 6.0 SONIA 6.0 6.0 6.5 5.5 8.7 MARÍA 6.8 7.2 8.7 9.0 7.0 PROM 6.79 7.65 7.74 7.9 7.42 Ejemplo: notas escolares
  • 40. J. Trejos: Clasificaión Automática CIMPA-UCR Plano Principal
  • 41. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplo: Notas Escolares •K-medias con 3 clases: 1) B = 1.37 C1 = {Lucía, Carmen, Ana, María } C2 = {Luis, Carlos} C3 = {Pedro, Andrés, José, Sonia} 2) B = 4.97 C1 = {Lucía, Andrés, Carlos, María } C2 = {Luis, Sonia} C3 ={Pedro, Carmen, Ana, José} Humanidades Gimnasia Ciencia •K-medias con 2 clases C1 = {Lucía, Andrés, Carlos, María, Luis, Sonia} C2 ={Pedro, Carmen, Ana, José}
  • 42. J. Trejos: Clasificaión Automática CIMPA-UCR Resultados: 25 corridas Partition # veces W(P) B(P) {LACM}{LS}{PIAJ} 17 0.75 4.97 {LACMLS}{PI}{AJ} 3 2.48 3.24 {LACMLS}{IAJ}{P} 2 2.52 3.20 {LACMLS}{IA}{PJ} 1 2.55 3.17 {LACLS}{PI}{AJM} 1 2.72 3.00 {LACMPIAJ}{L}{S} 1 3.06 2.66
  • 43. J. Trejos: Clasificaión Automática CIMPA-UCR Observaciones a K-medias • El algoritmo es muy rápido • La solución depende de la partición inicial • Es una buena idea hacer varias corridas (cientos o miles!) antes de guardar una • El número de clases K es fijado a priori • Inercia: tiende a dar clases esféricas
  • 44. J. Trejos: Clasificaión Automática CIMPA-UCR Nubes Dinámicas • Cada clase es representada por un núcleo • Hacer iteraciones sobre  • Dos pasos: – Asignación: cada objeto se asigna a la clase del núcleo más cercano – Representación: recalcular los núcleos • Hasta estabilidad
  • 45. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplos de Núcleos •Caso Euclídeo: baricentro (objeto promedio) * •Caso no Euclídeo : una muestra (objetos más representativos) •Caso explicativo: regresiones parciales
  • 46. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplos de Núcleos •Reconocimiento de patrones: métricas o distancias adaptativas Una única métrica * * Una métrica por clase ** *
  • 47. J. Trejos: Clasificaión Automática CIMPA-UCR Ejemplos de Núcleos • Descripción conceptual A: {altura  [1.75, 1.80]} B: {alt < 1.75}  {peso < 68} C: {alt < 1.75} {peso  68} {sexo= Fem} D: {alt < 1.75} {peso  68} {sexo= Masc} 1.80 1.75 68 A B  C D  weight (kg) height (mt)
  • 48. J. Trejos: Clasificaión Automática CIMPA-UCR Pasos en Nubes Dinámicas Asignación: k i C x → si ( ) ( ) h i k i N x d N x d , ,  para   K h ,..., 1  ie: ( ) ( ) h i h k i N x d N x d , min , = En caso de igualdad, asignar xi a la clase de menor índice Representación Nl es el núcleo de Cl si el criterio W es mínimo para Nl Caso Euclídeo: Nl = gl , el baricentro, gracias al teorema de Huygens
  • 49. J. Trejos: Clasificaión Automática CIMPA-UCR Requisitos para MND • Debe definirse una proximidad entre objetos y núcleos • Debe definirse un criterio W • Debe probarse un teorema tipo Huygens para poder establecer: – Convergencia – Núcleo óptimo
  • 50. J. Trejos: Clasificaión Automática CIMPA-UCR Ventajas e inconvenientes Ventajas •Rápido •Converge •Interpretación intuitiva Inconvenientes •Solución depende de la configuración inicial •El número de clases debe ser escogido •Solution suboptimal (mínimo local de W)
  • 51. J. Trejos: Clasificaión Automática CIMPA-UCR Observaciones a K-medias • El algoritmo es muy rápido • La solución depende de la partición inicial • Es una buena idea hacer varias corridas (cientos o miles!) antes de guardar una • El número de clases K es fijado a priori • Inercia: tiende a dar clases esféricas
  • 52. J. Trejos: Clasificaión Automática CIMPA-UCR Recomendaciones Se recomienda •Ejecutar el método varias veces para estudiar la estabilidad de las clases •Cambiar el número K (en caso que elusuario no conozca el número exacto de clases)
  • 53. J. Trejos: Clasificaión Automática CIMPA-UCR Análisis de las Formas Fuertes • Al aplicar varias veces el método de k- medias, se estudia la estabilidad de las clases • Se genera un árbol jerárquico al definir una disimilitud como el conteo de cuantas veces cada par de formas fuertes han quedado clasificadas juntas
  • 54. J. Trejos: Clasificaión Automática CIMPA-UCR Datos de CO2: clasificación de las estaciones meteorológicas CJA, agregación de Ward, distancia Euclídea clásica Datos: concentración filtrada de CO2
  • 55. J. Trejos: Clasificaión Automática CIMPA-UCR Datos de CO2: clasificación de los instantes CJA, agregación de Ward, distancia Euclídea clásica
  • 56. J. Trejos: Clasificaión Automática CIMPA-UCR Fabes asturianas: clasificación de las variedades para distintas agregaciones
  • 57. J. Trejos: Clasificaión Automática CIMPA-UCR Fabes asturianas: clasificación de las variables