Se presentan las principales técnicas de clasificación automática, también conocidas como de aprendizaje no supervisado (o clustering, en inglés). Se inicia con los temas de medidas de semejanza y se revisan las técnicas jerárquicas y de particiones, como k-medias.
5. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Introducción
◮ Objetivo: reconocer grupos de individuos homogéneos,
de tal forma que los grupos queden bien separados y
bien diferenciados.
◮ Homogeneidad: dos individuos de una misma clase
deben parecerse más entre sı́, que parecerse a un
individuo de otra clase.
◮ Separación: individuos de grupos diferentes deben
tener caracterı́sticas muy diferentes.
6. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Introducción
◮ Objetivo: reconocer grupos de individuos homogéneos,
de tal forma que los grupos queden bien separados y
bien diferenciados.
◮ Homogeneidad: dos individuos de una misma clase
deben parecerse más entre sı́, que parecerse a un
individuo de otra clase.
◮ Separación: individuos de grupos diferentes deben
tener caracterı́sticas muy diferentes.
◮ Sinónimos:
◮ análisis de grupos,
◮ análisis tipológico,
◮ análisis de conglomerados,
◮ análisis de agrupaciones,
◮ clasificación no supervisada,
◮ en inglés: cluster analysis o clustering
13. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Algunas aplicaciones hechas en la UCR – CIMPA
◮ Tipologı́a de consumidores del sistema eléctrico:
Clasificar “curvas de carga” −→ tarifas
◮ Clasificación de suelos por su aptitud (agrı́colas,
urbanos, servicios, industria,...)
◮ Tipologı́a de clientes en un banco
◮ Clasificación de solicitantes de beca en un sistema
educativo
◮ Clasificación de productos en inventario
◮ Clasificación de distritos en un servicio de TV-cable
◮ Clasificación de atributos que describen un cultivo
(ñame, banano, tomate)
◮ Clasificación de productos ferreteros según su
comportamiento en ventas a lo largo del tiempo
14. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Los datos
◮ Se puede clasificar los individuos o las variables (o
ambos)
◮ Para proceder a la clasificación y encontrar las clases, es
necesaria una medida de semejanza o proximidad entre
los objetos a clasificar
◮ Las tablas de datos pueden ser presentadas como:
◮ Tabla individuos × variables: se pueden clasificar tanto
los individuos como las variables
◮ Tabla individuos × individuos: la tabla puede contener
las proximidades o distancias entre individuos (solo se
podrı́a clasificar a los individuos)
◮ Tabla variables × variables: la tabla puede contener las
correlaciones entre variables (solo se podrı́a clasficar a
las variables)
◮ Los usual: clasificar individuos descritos por variables
◮ Conjunto de individuos: Ω = {x1, x2, . . . , xn}
◮ xi: individuo i-ésimo
19. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Medidas de Semejanza: Datos Binarios
Datos binarios o presencia/ausencia (0/1).
Dados dos individuos i y j en Ω se define:
◮ pij: número de atributos que poseen al mismo tiempo
tanto i como j,
◮ qij: número de atributos que presenta sólo uno de los
dos,
◮ p: número total de atributos o variables.
Indices más usados:
◮ el ı́ndice de Jaccard: s(i, j) =
pij
pij+qij
,
◮ el ı́ndice de Russel y Rao: s(i, j) =
pij
p ,
◮ el ı́ndice de Dice, Czekanowski, Sørensen, Nei y Li:
s(i, j) =
2pij
2pij+qij
.
26. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Similitudes entre variables
A partir de cualquier ı́ndice de asociación entre variables se
puede definir una similitud entre variables.
◮ Variables cuantitativas x, y observadas sobre n
objetos:
◮ |r(x, y)|
◮ r2
(x, y)
◮ r(x, y) + 1
◮ Variables cualitativas x, y observadas sobre n objetos
y con p, q modalidades
◮ χ2
(x, y)
◮ T2
(x, y)
◮ Variables cualitativas ordinales: tau de Kendall,
τ(x, y) = p−q
n(n−1)/2 , donde p es el número de parejas
que siguen el mismo orden y q el número de las que no
lo siguen.
28. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Medidas de Semejanza
Disimilitudes
Una disimilitud es una función d : Ω × Ω −→ R+ tal que:
1. para cada i ∈ Ω se tiene d(i, i) = 0,
2. para cada i, j ∈ Ω, hay simetrı́a: d(i, j) = d(j, i).
Si a la definición anterior se le añade:
3. d(i, j) = 0 ⇔ i = j, y
4. la desigualdad triangular: para cada i, j, k ∈ Ω,
d(i, j) ≤ d(i, k) + d(k, j)
entonces la disimilitud es lo que se llama una distancia.
29. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Disimilitudes: Caso Cuantitativo
◮ Distancia Euclı́dea clásica:
d2(i, j) =
Pp
k=1(xik − xjk)2.
◮ Si M es una métrica (matriz simétrica, definida y
positiva), entonces una distancia Euclı́dea es:
d2
(i, j) = ||xi − xj||2
M = (xi − xj)t
M(xi − xj).
◮ Distancia Manhattan o city-block:
d(i, j) =
Pp
k=1 |xik − xjk|.
◮ Distancia de Chebychev: d(i, j) = maxk{|xik − xjk|}.
◮ Distancia de χ2 para tablas de contingencia:
d2
(i, j) =
p
X
k=1
1
x·k
xik
xi·
−
xjk
xj·
2
donde xi· =
Pp
k=1 xik y x·k =
Pn
i=1 xik.
36. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Disimilitudes: Caso Binario
Se puede definir una disimilitud fácilmente a partir de una
similitud.
Por ejemplo, considerando una similitud s cuyo valor
máximo sea 1, entonces se define d(i, j) = 1 − s(i, j). Ası́,
se define la disimilitud de Jaccard:
d(i, j) = 1 −
pij
pij + qij
La disimilitud de Russel Rao:
d(i, j) = 1 −
pij
p
=
p − pij
p
,
La disimilitud de Dice, Czekanowski, Sørensen, Nei Li,
como
d(i, j) = 1 −
2pij
2pij + qij
=
qij
2pij + qij
.
40. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Disimilitudes: Caso Cualitativo
◮ Cuadrado de distancia Euclı́dea clásica:
d2
(i, j) = 2
p
X
k=1
δk
ij
donde δk
ij =
1 si xik 6= xjk
0 si xik = xjk.
◮ La distancia de χ2:
d2
(i, j) =
1
p2
p
X
k=1
1
sik
+
1
sjk
δk
ij
donde sik: # veces que la modalidad que posee i en la
variable k está presente en Ω.
◮ Distancia de Hamming:
d2
(i, j) =
p
X
k=1
δk
ij
es la mitad del cuadrado de la distancia Euclı́dea clásica.
43. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Agregaciones
Proximidad entre grupos de elementos, para medir la
separación entre las clases que se buscan.
Agregación
Sean A, B ⊂ Ω, entonces la agregación entre A y B es:
δ(A, B)
tal que δ es un ı́ndice de disimilitud en el conjunto de partes
P(Ω) que cumple:
i) δ(A, A) = 0 para todo A ∈ P(Ω),
ii) δ(A, B) = δ(B, A) para todo A, B ∈ P(Ω).
48. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Agregaciones
Sea d una disimilitud previamente definida sobre Ω.
Sean A, B ⊂ Ω, las agregaciones más usadas son:
1. Agregación del salto mı́nimo o del vecino más
cercano:
δmin(A, B) = min{d(i, j)|i ∈ A, j ∈ B}.
2. Agregación del salto máximo:
δmax(A, B) = max{d(i, j)|i ∈ A, j ∈ B}.
3. Agregación del salto promedio:
δprom(A, B) =
1
|A| × |B|
X
i∈A
j∈B
d(i, j).
donde |A| denota la cardinalidad del conjunto A, suponiendo
que en todos los casos δ(A, A) = 0.
54. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Agregaciones
Agregación de Ward:
δward(A, B) =
|A||B|
|A| + |B|
||gA − gB||2
donde gA es el centro de gravedad del conjunto A y || · || es
una norma Euclı́dea. La agregación de Ward también se
puede escribir como
δward(A, B) = I(A ∪ B) − I(A) − I(B),
donde I(A) = 1
n
P
xi∈A ||xi − gA||2 es la inercia del
conjunto A.
Esta agregación, también llamada del incremento de la
inercia, sólo tiene sentido cuando se está en un contexto
Euclı́deo, es decir, cuando se dispone de variables
cuantitativas o bien para tablas de contingencia.
55. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Jerarquı́as
Se trata de obtener una serie de clasificaciones, encajadas
unas en otras y representadas por un árbol jerárquico.
x1 x2 x3 x4 x5
Encontrar los dos individuos más cercanos en el sentido de d.
Una vez que se han unido, se consideran las distancias entre
los individuos restantes, y entre ellos y el nuevo grupo
formado; se necesita escoger una agregación δ.
56. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Jerárquica Ascendente
◮ El procedimiento para construir el árbol jerárquico,
trata de encontrar los dos individuos más cercanos en el
sentido de la disimilitud d definida sobre Ω.
◮ Una vez que se han unido, se consideran las distancias
entre los individuos restantes, y entre ellos y el nuevo
grupo formado.
◮ Para esto último, se necesita escoger una agregación δ.
◮ La CJA consiste en construir una jerarquı́a sobre Ω: los
individuos más parecidos forman nodos, y los grupos de
individuos más similares también forman nodos
◮ Entre más bajo sea el nivel al que se unen los grupos
entonces se entiende que más parecidos son esos
grupos, con respecto al resto de grupos
57. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Jerárquica Ascendente
Algoritmo
1. Sean k = 0; Pk = {{i} | i ∈ Ω}; H = Pk; f(h) = 0
para todo h ∈ H.
2. Sea k := k + 1 .
3. Escoger J1, J2 ∈ Pk−1 tales que δ(J1, J2) sea mı́nimo
en Pk−1; se definen J = J1 ∪ J2 y
Pk = (Pk−1 ∪ {J}) − {J1, J2}; y se redefine
H := H ∪ {J}.
4. Calcular el ı́ndice f(J) y δ(J, J′), para todo J′ ∈ H.
5. Mientras k n − 1 ir al paso 2.
6. H := H ∪ {Ω}.
59. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Altura del árbol
El H obtenido es la jerarquı́a deseada. Se define el ı́ndice f,
como una función f : H → R+ tal que:
f(J) =
0 si J es un conjunto unitario,
δ(J1, J2) si J1, J2 se fusionan y forman J
Esta indexación hace que el árbol de clasificación sea más
fácilmente interpretable, pues da la idea de la altura de los
nodos del árbol:
60. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Automática
Altura del árbol
El H obtenido es la jerarquı́a deseada. Se define el ı́ndice f,
como una función f : H → R+ tal que:
f(J) =
0 si J es un conjunto unitario,
δ(J1, J2) si J1, J2 se fusionan y forman J
Esta indexación hace que el árbol de clasificación sea más
fácilmente interpretable, pues da la idea de la altura de los
nodos del árbol:entre más bajos sean los nodos más
parecidos son los objetos que están debajo del nodo y menor
es el valor del ı́ndice.
Muchos programas computacionales normalizan el valor de f
a una escala [0, 1], siendo 1 el valor de f(Ω).
65. Clasificación
Automática
Javier Trejos
Introducción
Medidas de
Semejanza
Clasificación
Jerárquica
Clasificación Jerárquica Ascendente
Inversiones
◮ Se dice que una clasificación jerárquica produce una
inversión cuando se construye J = A ∪ B con
f(J) f(A) ó f(J) f(B), es decir, el ı́ndice
asociado a un nodo “mayor” del árbol es más bajo que
el ı́ndice asociado a alguno de los nodos que lo forman.
◮ Hay condiciones sobre los coeficientes de la fórmula de
recurrencia de Lance Williams para que no se
produzcan inversiones.
◮ no producen inversiones:
δmin, δmax, δprom, δward
◮ Una agregación con posibles inversiones es:
δcg(A, B) = ||gA − gB||2
.