Se presentan la primera técnica llamada de discriminación, o aprendizaje supervisado en Ciencia de Datos, la cual fue llamada discriminación lineal por R. Fisher. Algunas de sus variantes multivariadas y su interpretación geométrica también son presentadas.
12. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Objetivos
Se distinguen dos objetivos fundamentales que pueden ser
complementarios:
1 Descriptivo: determinar cuales son las combinaciones
lineales de las p variables observadas que permiten
diferenciar lo mejor posible (discriminar) los r grupos.
Este objetivo es de carácter descriptivo y se relaciona con
el Análisis en Componentes Principales.
2 Decisional: construir reglas de clasificación —reglas
decisionales— para asignar un nuevo individuo, del cual se
conocen los valores de los predictores, a uno de los grupos
a priori. Este objetivo es de carácter decisional y su nexo
es con los métodos probabilı́sticos.
15. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Los datos y notaciones
Se consideran p variables continuas (variables explicativas)
x1, . . . , xp observadas en una muestra Ω de n individuos.
Cada individuo i ∈ Ω se identifica con su vector (fila) de
mediciones en Rp, xt
i = (xi1, . . . , xip) y cada variable xj
con su vector (columna) de valores asumidos
xj = (x1j, x2j, . . . , xnj)t.
16. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Los datos y notaciones
Se consideran p variables continuas (variables explicativas)
x1, . . . , xp observadas en una muestra Ω de n individuos.
Cada individuo i ∈ Ω se identifica con su vector (fila) de
mediciones en Rp, xt
i = (xi1, . . . , xip) y cada variable xj
con su vector (columna) de valores asumidos
xj = (x1j, x2j, . . . , xnj)t.
La variable cualitativa y (a explicar) determina una
partición P = {C1, . . . , Cr}, del conjunto de individuos Ω
en r grupos.
19. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Los datos y notaciones
X la matriz de tamaño n × p la cual se supone centrada
en sus columnas. Como es usual sus columnas son las
variables explicativas xj (previamente centradas) y los
individuos xt
i son sus filas.
D=diag(pi) es la matriz de pesos del conjunto de
individuos Ω.
A cada clase Cs se le asigna el peso qs y centro de
gravedad gs para s = 1, . . . , r donde
qs =
X
i∈Cs
pi y gs =
1
qs
X
i∈Cs
pixi.
Se escribe Dq = diag(qj) la matriz diagonal de los pesos
de las r clases.
20. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Los datos y notaciones
X la matriz de tamaño n × p la cual se supone centrada
en sus columnas. Como es usual sus columnas son las
variables explicativas xj (previamente centradas) y los
individuos xt
i son sus filas.
D=diag(pi) es la matriz de pesos del conjunto de
individuos Ω.
A cada clase Cs se le asigna el peso qs y centro de
gravedad gs para s = 1, . . . , r donde
qs =
X
i∈Cs
pi y gs =
1
qs
X
i∈Cs
pixi.
Se escribe Dq = diag(qj) la matriz diagonal de los pesos
de las r clases.
Además, se denota como Cg la matriz cuyas filas son los
centros de gravedad gt
s.
26. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Expresiones matriciales
El promedio de estas matrices se define como la matriz de
covarianza de todas las clases y se denomina matriz de
covarianza intraclase:
VW =
r
X
s=1
qsVs =
r
X
s=1
X
i∈Cs
pi(xi − gs)(xi − gs)t
la matriz VB de covarianza correspondiente a las p
variables calculadas sobre los centros de gravedad, se
llama matriz de covarianza interclase:
VB =
r
X
s=1
qsgsgt
s = Ct
gDqCg,
29. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Caracterización de las funciones discriminantes
Se plantea la necesidad de encontrar funciones que
permitan separar lo mejor posible las r categorı́as.
Se quiere que, entre todas las combinaciones lineales de
las p variables, encontrar aquellas que tienen una varianza
interclase máxima (para resaltar las diferencias entre las
clases) y una varianza intraclase mı́nima (baja dispersión
al interior de las clases).
30. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Caracterización de las funciones discriminantes
Se plantea la necesidad de encontrar funciones que
permitan separar lo mejor posible las r categorı́as.
Se quiere que, entre todas las combinaciones lineales de
las p variables, encontrar aquellas que tienen una varianza
interclase máxima (para resaltar las diferencias entre las
clases) y una varianza intraclase mı́nima (baja dispersión
al interior de las clases).
Estas combinaciones lineales serán las llamadas funciones
discriminantes, se denotan como z1, . . . , zm
Se caracterizan por:
cada función discriminante z ∈ Rn es una combinación
lineal de las p variables originales. Esto es,
z =
p
X
j=1
ujxj
= Xu, con u ∈ Rp
.
32. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Caracterización de las funciones discriminantes
z = Xu es centrada (pues las p variables son centradas)
Su varianza es
var(z) = (Xu)t
DXu = ut
Xt
DXu = ut
Vu
Por el teorema 7.1 se tiene:
var(z) = ut
Vu = ut
VW u + ut
VBu. (1)
Ası́, la varianza de la variable z se descompone en varianza
al interior de las clases y varianza entre las clases
Se definen:
Varianza intraclase de z,
intra(z) = ut
VW u.
Varianza interclase de z,
inter(z) = ut
VBu
34. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Buscando un criterio de optimización
Como la idea es definir m funciones discriminantes
z1, . . . , zm, es natural plantear que ellas sean
D−ortonormadas, es decir, no correlacionadas y de
varianza uno.
Los valores de cada variable zj en los individuos de un
mismo grupo, deben ser lo más próximos posible. Es decir,
se debe minimizar intra(zj), la varianza intraclase.
35. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Buscando un criterio de optimización
Como la idea es definir m funciones discriminantes
z1, . . . , zm, es natural plantear que ellas sean
D−ortonormadas, es decir, no correlacionadas y de
varianza uno.
Los valores de cada variable zj en los individuos de un
mismo grupo, deben ser lo más próximos posible. Es decir,
se debe minimizar intra(zj), la varianza intraclase.
Los valores de cada variable zj en los individuos
pertenecientes a clases distintas, deben ser lo más
diferentes posible. Esto es, se debe maximizar inter(zj),
la varianza interclase.
37. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Si rang(X) = p, como
ut
VBu = ut
VV−1
VBu = hu, V−1
VBuiV
y como la matriz V−1VB es V-simétrica,
entonces se tiene que el máximo de (2) es λ1 y se alcanza
en u = u1 vector propio de la matriz V−1VB asociado al
primer valor propio λ1
La primera función discriminante es por lo tanto
z1 = Xu1.
La segunda función discriminante z2 = Xu2 se obtiene
entre las que el vector u2 satisface la relación (2) y
además es V − ortogonal con u1.
Continuando de esta manera se obtienen que las siguientes
funciones discriminantes
40. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Teorema 7.2: AFD es un ACP
Sea X de rango p, es decir, V es invertible. Si v1, . . . , vt son
los vectores propios del A.C.P. de la nube de centros de
gravedad
Ng = (Cg, V−1, Dq), ortonormados según la métrica V−1,
con valores propios correspondientes λ1 λ2 . . . λt,
entonces las variables discriminantes son
zj = XV−1
vj = Xuj, j = 1, . . . , t.
Demostración: Los vectores v1, . . . , vt son vectores propios
de la matriz Cg
t
DqCgV−1 = VBV−1, de donde sigue que
para j = 1, . . . , t, uj = V−1vj es un vector propio de V−1VB
con valor propio correspondiente λj.
41. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Teorema 7.2: AFD es un ACP
Sea X de rango p, es decir, V es invertible. Si v1, . . . , vt son
los vectores propios del A.C.P. de la nube de centros de
gravedad
Ng = (Cg, V−1, Dq), ortonormados según la métrica V−1,
con valores propios correspondientes λ1 λ2 . . . λt,
entonces las variables discriminantes son
zj = XV−1
vj = Xuj, j = 1, . . . , t.
Demostración: Los vectores v1, . . . , vt son vectores propios
de la matriz Cg
t
DqCgV−1 = VBV−1, de donde sigue que
para j = 1, . . . , t, uj = V−1vj es un vector propio de V−1VB
con valor propio correspondiente λj.Además, los vectores
propios u1, . . . , ut son V–ortonormados.
42. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Teorema 7.2: AFD es un ACP
Sea X de rango p, es decir, V es invertible. Si v1, . . . , vt son
los vectores propios del A.C.P. de la nube de centros de
gravedad
Ng = (Cg, V−1, Dq), ortonormados según la métrica V−1,
con valores propios correspondientes λ1 λ2 . . . λt,
entonces las variables discriminantes son
zj = XV−1
vj = Xuj, j = 1, . . . , t.
Demostración: Los vectores v1, . . . , vt son vectores propios
de la matriz Cg
t
DqCgV−1 = VBV−1, de donde sigue que
para j = 1, . . . , t, uj = V−1vj es un vector propio de V−1VB
con valor propio correspondiente λj.Además, los vectores
propios u1, . . . , ut son V–ortonormados.Se tiene entonces que
las componentes principales zj = Xuj = XV−1
vj,
j = 1, . . . , t, son las funciones discriminantes.
45. Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Al ser el AFD un ACP, se obtiene:
Planos principales con los centros de gravedad
Individuos: proyectados como elementos suplementarios
Cı́rculos de correlaciones entre las variables explicativas y
las variables discriminantes
Calidad del plano:
λ1 + λ2
λ1 + λ2 + · · · + λr
Al ser costoso diagonalizar V−1: puede ser buena idea
seleccionar las variables más discriminantes
Método paso a paso.
Definir un criterio: traza(V−1
W )VB