Clasificacion Automática - clustering (I parte)

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Javier Trejos
Escuela de Matemática – CIMPA
Universidad de Costa Rica
September 24, 2020

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Esquema
Introducción
Medidas de Semejanza
Clasificación Jerárquica

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Introducción
◮ Objetivo: reconocer grupos de individuos homogéneos,
de tal forma que los grupos queden bien separados y
bien diferenciados.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Introducción
bien diferenciados.
◮ Homogeneidad: dos individuos de una misma clase
deben parecerse más entre sı́, que parecerse a un
individuo de otra clase.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Introducción
bien diferenciados.
◮ Separación: individuos de grupos diferentes deben
tener caracterı́sticas muy diferentes.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Introducción
bien diferenciados.
◮ Separación: individuos de grupos diferentes deben
tener caracterı́sticas muy diferentes.
◮ Sinónimos:
◮ análisis de grupos,
◮ análisis tipológico,
◮ análisis de conglomerados,
◮ análisis de agrupaciones,
◮ clasificación no supervisada,
◮ en inglés: cluster analysis o clustering

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Tipos de Métodos
Según el resultado buscado:
1. Métodos arbóreos
◮ Clasificación jerárquica (ascendente, descendente,
aproximados)
◮ Árboles aditivos (aproximación, descomposición)
◮ Pirámides (ascendentes, aproximativos)
◮ Grafos

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Tipos de Métodos
aproximados)
◮ Grafos
2. Métodos de particionamiento
◮ Particiones disjuntas (k-medias, nubes dinámicas,
optimización, programación lineal)
◮ Particiones no disjuntas (difusa, superpuesta)

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Tipos de Métodos
aproximados)
◮ Grafos
Según el tipo de datos:
◮ Clasificación numérica
◮ Clasificación simbólica

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Tipos de Métodos
aproximados)
◮ Grafos
Según el tipo de datos:
◮ Clasificación numérica
◮ Clasificación simbólica
Según las dimensiones de la matriz a clasificar:
◮ Clasificación unimodal
◮ Clasificación bimodal,, trimodal,...

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Tipos de Clasificación
Clasificación Arbórea

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Tipos de Clasificación
Clasificación Arbórea
Clasificación por Particiones

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Algunas aplicaciones hechas en la UCR – CIMPA
◮ Tipologı́a de consumidores del sistema eléctrico:
Clasificar “curvas de carga” −→ tarifas
◮ Clasificación de suelos por su aptitud (agrı́colas,
urbanos, servicios, industria,...)
◮ Tipologı́a de clientes en un banco
◮ Clasificación de solicitantes de beca en un sistema
educativo
◮ Clasificación de productos en inventario
◮ Clasificación de distritos en un servicio de TV-cable
◮ Clasificación de atributos que describen un cultivo
(ñame, banano, tomate)
◮ Clasificación de productos ferreteros según su
comportamiento en ventas a lo largo del tiempo

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Los datos
◮ Se puede clasificar los individuos o las variables (o
ambos)
◮ Para proceder a la clasificación y encontrar las clases, es
necesaria una medida de semejanza o proximidad entre
los objetos a clasificar
◮ Las tablas de datos pueden ser presentadas como:
◮ Tabla individuos × variables: se pueden clasificar tanto
los individuos como las variables
◮ Tabla individuos × individuos: la tabla puede contener
las proximidades o distancias entre individuos (solo se
podrı́a clasificar a los individuos)
◮ Tabla variables × variables: la tabla puede contener las
correlaciones entre variables (solo se podrı́a clasficar a
las variables)
◮ Los usual: clasificar individuos descritos por variables
◮ Conjunto de individuos: Ω = {x1, x2, . . . , xn}
◮ xi: individuo i-ésimo

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Similitud
Una similitud es una función s : Ω × Ω −→ R+ tal que:
1. para cada i ∈ Ω, se tiene s(i, i) = 1;
2. para cada i, j ∈ Ω, hay simetrı́a: s(i, j) = s(j, i).

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Similitud
Entre mayor sea s más parecidos son i y j.
Entre menor sea s más diferentes son i y j.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Similitud
Entre mayor sea s más parecidos son i y j.
Entre menor sea s más diferentes son i y j.
s podrı́a estar en el rango [0, 1].

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Medidas de Semejanza: Datos Binarios
Datos binarios o presencia/ausencia (0/1).
Dados dos individuos i y j en Ω se define:
◮ pij: número de atributos que poseen al mismo tiempo
tanto i como j,
◮ qij: número de atributos que presenta sólo uno de los
dos,
◮ p: número total de atributos o variables.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Medidas de Semejanza: Datos Binarios
Datos binarios o presencia/ausencia (0/1).
Dados dos individuos i y j en Ω se define:
◮ pij: número de atributos que poseen al mismo tiempo
tanto i como j,
◮ qij: número de atributos que presenta sólo uno de los
dos,
◮ p: número total de atributos o variables.
Indices más usados:
◮ el ı́ndice de Jaccard: s(i, j) =
pij
pij+qij
,
◮ el ı́ndice de Russel y Rao: s(i, j) =
pij
p ,
◮ el ı́ndice de Dice, Czekanowski, Sørensen, Nei y Li:
s(i, j) =
2pij
2pij+qij
.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Medidas de Semejanza: Datos Binarios – Ejemplo
Sea la tabla de datos:
v1 v2 v3 v4
x1 1 0 1 1
x2 0 1 1 1
x3 0 0 0 0
x4 1 0 1 1
x5 0 1 0 0
x6 1 1 1 1

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Sea la tabla de datos:
v1 v2 v3 v4
x1 1 0 1 1
x2 0 1 1 1
x3 0 0 0 0
x4 1 0 1 1
x5 0 1 0 0
x6 1 1 1 1
Entonces
pij x2 x3 x4 x5 x6
x1 2 0 3 0 3
x2 0 2 1 3
x3 0 0 0
x4 0 3
x5 1
qij x2 x3 x4 x5 x6
x1 2 3 0 4 1
x2 3 2 2 1
x3 3 1 4
x4 4 1
x5 3

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Jaccard
s(i, j) x1 x2 x3 x4 x5 x6
x1 1 0.5 0 1 0 0.75
x2 1 0 0.5 0.333 0.75
x3 1 0 0 0
x4 1 0 0.75
x5 1 0.25
x6 1
Russel & Rao
s(i, j) x1 x2 x3 x4 x5 x6
x1 1 0.5 0 0.75 0 0.75
x2 1 0 0.5 0.25 0.75
x3 1 0 0 0
x4 1 0 0.75
x5 1 0.25
x6 1
Dice
s(i, j) x1 x2 x3 x4 x5 x6
x1 1 0.667 0 1 0 0.857
x2 1 0 0.667 0.5 0.857
x3 1 0 0 0
x4 1 0 0.857
x5 1 0.4
x6 1

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Similitudes entre variables
A partir de cualquier ı́ndice de asociación entre variables se
puede definir una similitud entre variables.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
◮ Variables cuantitativas x, y observadas sobre n
objetos:
◮ |r(x, y)|
◮ r2
(x, y)
◮ r(x, y) + 1

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
objetos:
◮ |r(x, y)|
◮ r2
(x, y)
◮ r(x, y) + 1
◮ Variables cualitativas x, y observadas sobre n objetos
y con p, q modalidades
◮ χ2
(x, y)
◮ T2
(x, y)

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
objetos:
◮ |r(x, y)|
◮ r2
(x, y)
◮ r(x, y) + 1
◮ Variables cualitativas x, y observadas sobre n objetos
y con p, q modalidades
◮ χ2
(x, y)
◮ T2
(x, y)
◮ Variables cualitativas ordinales: tau de Kendall,
τ(x, y) = p−q
n(n−1)/2 , donde p es el número de parejas
que siguen el mismo orden y q el número de las que no
lo siguen.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes
Una disimilitud es una función d : Ω × Ω −→ R+ tal que:
1. para cada i ∈ Ω se tiene d(i, i) = 0,
2. para cada i, j ∈ Ω, hay simetrı́a: d(i, j) = d(j, i).

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes
Una disimilitud es una función d : Ω × Ω −→ R+ tal que:
1. para cada i ∈ Ω se tiene d(i, i) = 0,
2. para cada i, j ∈ Ω, hay simetrı́a: d(i, j) = d(j, i).
Si a la definición anterior se le añade:
3. d(i, j) = 0 ⇔ i = j, y
4. la desigualdad triangular: para cada i, j, k ∈ Ω,
d(i, j) ≤ d(i, k) + d(k, j)
entonces la disimilitud es lo que se llama una distancia.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes: Caso Cuantitativo
◮ Distancia Euclı́dea clásica:
d2(i, j) =
Pp
k=1(xik − xjk)2.
◮ Si M es una métrica (matriz simétrica, definida y
positiva), entonces una distancia Euclı́dea es:
d2
(i, j) = ||xi − xj||2
M = (xi − xj)t
M(xi − xj).
◮ Distancia Manhattan o city-block:
d(i, j) =
Pp
k=1 |xik − xjk|.
◮ Distancia de Chebychev: d(i, j) = maxk{|xik − xjk|}.
◮ Distancia de χ2 para tablas de contingencia:
d2
(i, j) =
p
X
k=1
1
x·k

xik
xi·
−
xjk
xj·
2
donde xi· =
Pp
k=1 xik y x·k =
Pn
i=1 xik.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Distancia Manhattan o city-block
d(i, j) =
Pp
k=1 |xik − xjk|

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes: Caso Cuantitativo – Ejemplo
v1 v2 v3 v4 v5
x1 2 3.5 0 4 7
x2 4 3 1.5 5 6
x3 0 6 4 2 3
x4 3 3 1 4 77

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes: Caso Cuantitativo – Ejemplo
v1 v2 v3 v4 v5
x1 2 3.5 0 4 7
x2 4 3 1.5 5 6
x3 0 6 4 2 3
x4 3 3 1 4 77
Euclı́dea
d(i, j) x1 x2 x3 x4
x1 0 2.915 6.801 70.02
x2 0 7.018 71.02
x3 0 74.21
x4 0
City-block
d(i, j) x1 x2 x3 x4
x1 0 6 14.5 72.5
x2 0 15.5 73.5
x3 0 85
x4 0
Chebychev
d(i, j) x1 x2 x3 x4
x1 0 2 4 70
x2 0 4 71
x3 0 74
x4 0

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes: Caso Binario
Se puede definir una disimilitud fácilmente a partir de una
similitud.
Por ejemplo, considerando una similitud s cuyo valor
máximo sea 1, entonces se define d(i, j) = 1 − s(i, j). Ası́,
se define la disimilitud de Jaccard:
d(i, j) = 1 −
pij
pij + qij
La disimilitud de Russel Rao:
d(i, j) = 1 −
pij
p
=
p − pij
p
,
La disimilitud de Dice, Czekanowski, Sørensen, Nei Li,
como
d(i, j) = 1 −
2pij
2pij + qij
=
qij
2pij + qij
.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes: Caso Binario – Ejemplo
Jaccard
d(i, j) x1 x2 x3 x4 x5 x6
x1 0 0.5 1 0 1 0.25
x2 0 1 0.5 0.66 0.25
x3 0 1 1 1
x4 0 1 0.25
x5 0 0.75
x6 0
Russel Rao
d(i, j) x1 x2 x3 x4 x5 x6
x1 0 0.5 1 0.25 1 0.25
x2 0 1 0.5 0.75 0.25
x3 0 1 1 1
x4 0 1 0.25
x5 0 0.75
x6 0
Dice
d(i, j) x1 x2 x3 x4 x5 x6
x1 0 0.333 1 0 1 0.142
x2 0 1 0.333 0.5 0.143
x3 0 1 1 1
x4 0 1 0.143
x5 0 0.6
x6 0

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes: Caso Cualitativo
◮ Cuadrado de distancia Euclı́dea clásica:
d2
(i, j) = 2
p
X
k=1
δk
ij
donde δk
ij =

1 si xik 6= xjk
0 si xik = xjk.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
d2
(i, j) = 2
p
X
k=1
δk
ij
donde δk
ij =

1 si xik 6= xjk
0 si xik = xjk.
◮ La distancia de χ2:
d2
(i, j) =
1
p2
p
X
k=1

1
sik
+
1
sjk

δk
ij
donde sik: # veces que la modalidad que posee i en la
variable k está presente en Ω.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
d2
(i, j) = 2
p
X
k=1
δk
ij
donde δk
ij =

1 si xik 6= xjk
0 si xik = xjk.
◮ La distancia de χ2:
d2
(i, j) =
1
p2
p
X
k=1

1
sik
+
1
sjk

δk
ij
donde sik: # veces que la modalidad que posee i en la
variable k está presente en Ω.
◮ Distancia de Hamming:
d2
(i, j) =
p
X
k=1
δk
ij
es la mitad del cuadrado de la distancia Euclı́dea clásica.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes entre Variables
◮ Si x y y son cuantitativas:
d(x, y) = 1 − |r(x, y)|
d(x, y) = 1 − r2
(x, y)
d(x, y) = 1 − r(x, y).
d(x, y) = 1 − r(x, y).
Podrı́an definirse igualmente
d(x, y) =

1 + r(x, y) si − 1 ≤ r(x, y) ≤ 0,
1 − r(x, y) si 0 ≤ r(x, y) ≤ 1.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Disimilitudes entre Variables
◮ Si x y y son cuantitativas:
d(x, y) = 1 − |r(x, y)|
d(x, y) = 1 − r2
(x, y)
d(x, y) = 1 − r(x, y).
d(x, y) = 1 − r(x, y).
Podrı́an definirse igualmente
d(x, y) =

1 + r(x, y) si − 1 ≤ r(x, y) ≤ 0,
1 − r(x, y) si 0 ≤ r(x, y) ≤ 1.
◮ x y y son cualitativas:
d(x, y) = 1 − T2
(x, y).

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
Proximidad entre grupos de elementos, para medir la
separación entre las clases que se buscan.
Agregación
Sean A, B ⊂ Ω, entonces la agregación entre A y B es:
δ(A, B)
tal que δ es un ı́ndice de disimilitud en el conjunto de partes
P(Ω) que cumple:
i) δ(A, A) = 0 para todo A ∈ P(Ω),
ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω).

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
Sea d una disimilitud previamente definida sobre Ω.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
Sean A, B ⊂ Ω, las agregaciones más usadas son:

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
1. Agregación del salto mı́nimo o del vecino más
cercano:
δmin(A, B) = min{d(i, j)|i ∈ A, j ∈ B}.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
cercano:
2. Agregación del salto máximo:
δmax(A, B) = max{d(i, j)|i ∈ A, j ∈ B}.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
cercano:
2. Agregación del salto máximo:
3. Agregación del salto promedio:
δprom(A, B) =
1
|A| × |B|
X
i∈A
j∈B
d(i, j).
donde |A| denota la cardinalidad del conjunto A, suponiendo
que en todos los casos δ(A, A) = 0.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones: salto mı́nimo
Agregación del salto mı́nimo o del vecino más cercano:

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones: salto máximo
Agregación del salto máximo o del vecino más lejano:

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones: salto promedio
Agregación del salto promedio:
δprom(A, B) =
1
|A| × |B|
X
i∈A
j∈B
d(i, j).

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones: distancia entre centros de gravedad
Agregación de la distancia entre centros de gravedad:
δward(A, B) = ||gA − gB||2

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones: criterio de Ward
Agregación de Ward:
δward(A, B) =
|A||B|
|A| + |B|
||gA − gB||2

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Agregaciones
Agregación de Ward:
δward(A, B) =
|A||B|
|A| + |B|
||gA − gB||2
donde gA es el centro de gravedad del conjunto A y || · || es
una norma Euclı́dea. La agregación de Ward también se
puede escribir como
δward(A, B) = I(A ∪ B) − I(A) − I(B),
donde I(A) = 1
n
P
xi∈A ||xi − gA||2 es la inercia del
conjunto A.
Esta agregación, también llamada del incremento de la
inercia, sólo tiene sentido cuando se está en un contexto
Euclı́deo, es decir, cuando se dispone de variables
cuantitativas o bien para tablas de contingencia.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Jerarquı́as
Se trata de obtener una serie de clasificaciones, encajadas
unas en otras y representadas por un árbol jerárquico.
x1 x2 x3 x4 x5
Encontrar los dos individuos más cercanos en el sentido de d.
Una vez que se han unido, se consideran las distancias entre
los individuos restantes, y entre ellos y el nuevo grupo
formado; se necesita escoger una agregación δ.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Jerárquica Ascendente
◮ El procedimiento para construir el árbol jerárquico,
trata de encontrar los dos individuos más cercanos en el
sentido de la disimilitud d definida sobre Ω.
◮ Una vez que se han unido, se consideran las distancias
entre los individuos restantes, y entre ellos y el nuevo
grupo formado.
◮ Para esto último, se necesita escoger una agregación δ.
◮ La CJA consiste en construir una jerarquı́a sobre Ω: los
individuos más parecidos forman nodos, y los grupos de
individuos más similares también forman nodos
◮ Entre más bajo sea el nivel al que se unen los grupos
entonces se entiende que más parecidos son esos
grupos, con respecto al resto de grupos

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Algoritmo
1. Sean k = 0; Pk = {{i} | i ∈ Ω}; H = Pk; f(h) = 0
para todo h ∈ H.
2. Sea k := k + 1 .
3. Escoger J1, J2 ∈ Pk−1 tales que δ(J1, J2) sea mı́nimo
en Pk−1; se definen J = J1 ∪ J2 y
Pk = (Pk−1 ∪ {J}) − {J1, J2}; y se redefine
H := H ∪ {J}.
4. Calcular el ı́ndice f(J) y δ(J, J′), para todo J′ ∈ H.
5. Mientras k n − 1 ir al paso 2.
6. H := H ∪ {Ω}.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Altura del árbol
El H obtenido es la jerarquı́a deseada. Se define el ı́ndice f,
como una función f : H → R+ tal que:
f(J) =

0 si J es un conjunto unitario,
δ(J1, J2) si J1, J2 se fusionan y forman J

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Altura del árbol
f(J) =

Esta indexación hace que el árbol de clasificación sea más
fácilmente interpretable, pues da la idea de la altura de los
nodos del árbol:

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Altura del árbol
f(J) =

Esta indexación hace que el árbol de clasificación sea más
fácilmente interpretable, pues da la idea de la altura de los
nodos del árbol:entre más bajos sean los nodos más
parecidos son los objetos que están debajo del nodo y menor
es el valor del ı́ndice.
Muchos programas computacionales normalizan el valor de f
a una escala [0, 1], siendo 1 el valor de f(Ω).

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Ejemplos didácticos
Sean los siguientes valores de una disimilitud sobre
Ω = {x1, x2, x3, x4}:
d x1 x2 x3 x4
x1 0 1 3 5.5
x2 0 2 4.5
x3 0 2.5
x4 0
(Ver Power Point)

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Fórmula de recurrencia de Lance Williams

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
◮ Salto promedio,
δprom(J, A ∪ B) =
|A|δprom(J, A) + |B|δprom(J, B)
|A| + |B|
.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
◮ Salto promedio,
δprom(J, A ∪ B) =
|A|δprom(J, A) + |B|δprom(J, B)
|A| + |B|
.
◮ Salto de Ward,
δward(J, A ∪ B) =
=
(|J| + |A|)δward(J, A) + (|J| + |B|)δward(J, B) − |J|δward(A, B)
|A| + |B|
donde |A|, |B|, |J| son respectivamente las
cardinalidades de los conjuntos A, B y J.

Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Inversiones
◮ Se dice que una clasificación jerárquica produce una
inversión cuando se construye J = A ∪ B con
f(J) f(A) ó f(J) f(B), es decir, el ı́ndice
asociado a un nodo “mayor” del árbol es más bajo que
el ı́ndice asociado a alguno de los nodos que lo forman.
◮ Hay condiciones sobre los coeficientes de la fórmula de
recurrencia de Lance Williams para que no se
produzcan inversiones.
◮ no producen inversiones:
δmin, δmax, δprom, δward
◮ Una agregación con posibles inversiones es:
δcg(A, B) = ||gA − gB||2
.

Clasificacion Automática - clustering (I parte)

Recomendados

Recomendados

Más contenido relacionado

Similar a Clasificacion Automática - clustering (I parte)

Similar a Clasificacion Automática - clustering (I parte) (20)

Más de Facultad de Ciencias, UCR

Más de Facultad de Ciencias, UCR (14)

Último

Último (20)

Clasificacion Automática - clustering (I parte)