7_Discriminacion.pdf

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Javier Trejos
Escuela de Matemática – CIMPA
Universidad de Costa Rica
October 22, 2020

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Esquema
1 Problemas
2 Objetivos
3 Notaciones
4 Criterio a optimizar
5 Solución

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Qué tienen en comnún estos problemas?
¿Es posible predecir con antelación si un cliente que
solicita un préstamo a un banco va a ser un cliente
moroso?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Cuáles son los factores que influyen en el desarrollo de un
infarto de miocardio? ¿Es posible predecir de antemano
que un paciente corre un riesgo cierto de infarto?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Se puede predecir de antemano si un recluso que ha
solicitado un permiso carcelario, huirá?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Se puede predecir si una empresa va a entrar en
bancarrota?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Cuáles son las razones que llevan a un consumidor a
preferir una determinada marca sobre otras existentes en el
mercado?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Existe discriminación por razones de sexo o raza en una
empresa o en un colegio?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
¿Cómo será el clima el dı́a de mañana? ¿La próxima
semana?

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Técnicas
Análisis factorial discriminante
Discriminación bayesiana
Discriminación cualitativa (puntaje o scoring)
Vecinos más cercanos
Regresión logı́stica
Árboles de decisión (segmentación): CART, C5.2, ...
Redes neuronales: perceptron, retropropagación del
gradiente, SOM, ...
Generación de reglas ∼
Conjuntos aproximados (rough sets)
Máquinas de soporte vectorial

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Análisis discriminante: caso factorial
Nos colocaremos en el marco del análisis factorial
discriminante
Supondremos que los datos están en matrices de datos
numéricas, en espacios vectoriales.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Objetivos
Se distinguen dos objetivos fundamentales que pueden ser
complementarios:
1 Descriptivo: determinar cuales son las combinaciones
lineales de las p variables observadas que permiten
diferenciar lo mejor posible (discriminar) los r grupos.
Este objetivo es de carácter descriptivo y se relaciona con
el Análisis en Componentes Principales.
2 Decisional: construir reglas de clasificación —reglas
decisionales— para asignar un nuevo individuo, del cual se
conocen los valores de los predictores, a uno de los grupos
a priori. Este objetivo es de carácter decisional y su nexo
es con los métodos probabilı́sticos.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Ilustración

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Los datos y notaciones
Se consideran p variables continuas (variables explicativas)
x1, . . . , xp observadas en una muestra Ω de n individuos.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Cada individuo i ∈ Ω se identifica con su vector (fila) de
mediciones en Rp, xt
i = (xi1, . . . , xip) y cada variable xj
con su vector (columna) de valores asumidos
xj = (x1j, x2j, . . . , xnj)t.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Cada individuo i ∈ Ω se identifica con su vector (fila) de
mediciones en Rp, xt
i = (xi1, . . . , xip) y cada variable xj
con su vector (columna) de valores asumidos
xj = (x1j, x2j, . . . , xnj)t.
La variable cualitativa y (a explicar) determina una
partición P = {C1, . . . , Cr}, del conjunto de individuos Ω
en r grupos.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
X la matriz de tamaño n × p la cual se supone centrada
en sus columnas. Como es usual sus columnas son las
variables explicativas xj (previamente centradas) y los
individuos xt
i son sus filas.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
individuos xt
i son sus filas.
D=diag(pi) es la matriz de pesos del conjunto de
individuos Ω.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
individuos xt
i son sus filas.
individuos Ω.
A cada clase Cs se le asigna el peso qs y centro de
gravedad gs para s = 1, . . . , r donde
qs =
X
i∈Cs
pi y gs =
1
qs
X
i∈Cs
pixi.
Se escribe Dq = diag(qj) la matriz diagonal de los pesos
de las r clases.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
individuos xt
i son sus filas.
individuos Ω.
A cada clase Cs se le asigna el peso qs y centro de
gravedad gs para s = 1, . . . , r donde
qs =
X
i∈Cs
pi y gs =
1
qs
X
i∈Cs
pixi.
Se escribe Dq = diag(qj) la matriz diagonal de los pesos
de las r clases.
Además, se denota como Cg la matriz cuyas filas son los
centros de gravedad gt
s.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Expresiones matriciales
Variables centradas: g = 0

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Matriz de covarianza (total) V, de las p variables
explicativas es
V = Xt
DX =
n
X
i=1
pixixt
i =
r
X
s=1
X
i∈Cs
pixixt
i

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Matriz de covarianza (total) V, de las p variables
explicativas es
V = Xt
DX =
n
X
i=1
pixixt
i =
r
X
s=1
X
i∈Cs
pixixt
i
Sea Vs la matriz de covarianza de las p variables,
calculada sobre los individuos de la s-ésima clase,
Vs =
1
qs
X
i∈Cs
pi(xi − gs)(xi − gs)t

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
El promedio de estas matrices se define como la matriz de
covarianza de todas las clases y se denomina matriz de
covarianza intraclase:
VW =
r
X
s=1
qsVs =
r
X
s=1
X
i∈Cs

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
El promedio de estas matrices se define como la matriz de
covarianza de todas las clases y se denomina matriz de
covarianza intraclase:
VW =
r
X
s=1
qsVs =
r
X
s=1
X
i∈Cs
la matriz VB de covarianza correspondiente a las p
variables calculadas sobre los centros de gravedad, se
llama matriz de covarianza interclase:
VB =
r
X
s=1
qsgsgt
s = Ct
gDqCg,

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Descomposición de la varianza (Fisher)
Teorema 7.1
Sean V, VB, VW las matrices de covarianza total, interclase e
intraclase, respectivamente, entonces
1 V = VB + VW .
2
Pr
s=1 qsgs = 0. Es decir rang(Cg) ≤ r − 1.
3 rang(Cg) = rang(VB).

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Caracterización de las funciones discriminantes
Se plantea la necesidad de encontrar funciones que
permitan separar lo mejor posible las r categorı́as.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Se quiere que, entre todas las combinaciones lineales de
las p variables, encontrar aquellas que tienen una varianza
interclase máxima (para resaltar las diferencias entre las
clases) y una varianza intraclase mı́nima (baja dispersión
al interior de las clases).

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Se quiere que, entre todas las combinaciones lineales de
las p variables, encontrar aquellas que tienen una varianza
interclase máxima (para resaltar las diferencias entre las
clases) y una varianza intraclase mı́nima (baja dispersión
al interior de las clases).
Estas combinaciones lineales serán las llamadas funciones
discriminantes, se denotan como z1, . . . , zm
Se caracterizan por:
cada función discriminante z ∈ Rn es una combinación
lineal de las p variables originales. Esto es,
z =
p
X
j=1
ujxj
= Xu, con u ∈ Rp
.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
z = Xu es centrada (pues las p variables son centradas)

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
z = Xu es centrada (pues las p variables son centradas)
Su varianza es
var(z) = (Xu)t
DXu = ut
Xt
DXu = ut
Vu
Por el teorema 7.1 se tiene:
var(z) = ut
Vu = ut
VW u + ut
VBu. (1)
Ası́, la varianza de la variable z se descompone en varianza
al interior de las clases y varianza entre las clases
Se definen:
Varianza intraclase de z,
intra(z) = ut
VW u.
Varianza interclase de z,
inter(z) = ut
VBu

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Buscando un criterio de optimización
Como la idea es definir m funciones discriminantes
z1, . . . , zm, es natural plantear que ellas sean
D−ortonormadas, es decir, no correlacionadas y de
varianza uno.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
varianza uno.
Los valores de cada variable zj en los individuos de un
mismo grupo, deben ser lo más próximos posible. Es decir,
se debe minimizar intra(zj), la varianza intraclase.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
varianza uno.
Los valores de cada variable zj en los individuos de un
mismo grupo, deben ser lo más próximos posible. Es decir,
se debe minimizar intra(zj), la varianza intraclase.
Los valores de cada variable zj en los individuos
pertenecientes a clases distintas, deben ser lo más
diferentes posible. Esto es, se debe maximizar inter(zj),
la varianza interclase.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Cálculo de las funciones discriminantes
Si utVu = 1 entonces (descomp. de Fisher):
var(z) = ut
Vu = ut
VBu + ut
VW u = 1
Se tiene la equivalencia:
max

ut
VBu ut
Vu = 1 ⇔ min

ut
VW u ut
Vu = 1 .
Es suficiente que z = Xu satisfaga:
max

ut
VBu ut
Vu = 1 . (2)

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Si rang(X) = p, como
ut
VBu = ut
VV−1
VBu = hu, V−1
VBuiV
y como la matriz V−1VB es V-simétrica,
entonces se tiene que el máximo de (2) es λ1 y se alcanza
en u = u1 vector propio de la matriz V−1VB asociado al
primer valor propio λ1
La primera función discriminante es por lo tanto
z1 = Xu1.
La segunda función discriminante z2 = Xu2 se obtiene
entre las que el vector u2 satisface la relación (2) y
además es V − ortogonal con u1.
Continuando de esta manera se obtienen que las siguientes
funciones discriminantes

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Véase que el Análisis Discriminante aquı́ presentado,
también llamado Análisis Factorial Discriminante, es un
Análisis en Componenes Principales
Es el ACP de la nube de centros de gravedad
Ng = (Cg, V−1, Dq)
Esquema de dualidad:
✲
✛
❄
✻ ✻
Cg
Cg
t
Dq
V−1 VB
Rr
(Rr
)∗
Rp
(Rp
)∗ Xn×p : tabla de datos
centrados
r: número de grupos
Cg: matriz de centros
de gravedad

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Teorema 7.2: AFD es un ACP
Sea X de rango p, es decir, V es invertible. Si v1, . . . , vt son
los vectores propios del A.C.P. de la nube de centros de
gravedad
Ng = (Cg, V−1, Dq), ortonormados según la métrica V−1,
con valores propios correspondientes λ1 λ2 . . . λt,
entonces las variables discriminantes son
zj = XV−1
vj = Xuj, j = 1, . . . , t.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
gravedad
zj = XV−1
vj = Xuj, j = 1, . . . , t.
Demostración: Los vectores v1, . . . , vt son vectores propios
de la matriz Cg
t
DqCgV−1 = VBV−1, de donde sigue que
para j = 1, . . . , t, uj = V−1vj es un vector propio de V−1VB
con valor propio correspondiente λj.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
gravedad
zj = XV−1
vj = Xuj, j = 1, . . . , t.
de la matriz Cg
t
con valor propio correspondiente λj.Además, los vectores
propios u1, . . . , ut son V–ortonormados.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
gravedad
zj = XV−1
vj = Xuj, j = 1, . . . , t.
de la matriz Cg
t
con valor propio correspondiente λj.Además, los vectores
propios u1, . . . , ut son V–ortonormados.Se tiene entonces que
las componentes principales zj = Xuj = XV−1
vj,
j = 1, . . . , t, son las funciones discriminantes.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Cada valor propio λi se llama poder discriminante
El vector propio correspondiente vi, eje discriminante.
Los ejes discriminantes son entonces los ejes de máxima
inercia de la nube de centros de gravedad (baricentros).
En este sentido se dice que son los ejes que más
discriminan los grupos a priori.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Teorema 7.3
Sea C = Cg
t
Dq
1
2 , p × r. Entonces
1 VB = CCt
.
2 Si e1, . . . , et son vectores propios Ir-ortonormados de
CtV−1C, asociados respectivamente a los valores propios
no ceros, λ1, . . . , λt. Entonces v1, . . . , vt son vectores
propios V−1-ortonormados de VBV−1 asociados a los
mismos valores propios λj, donde vj =
Cej
√
λj
.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Solución
Al ser el AFD un ACP, se obtiene:
Planos principales con los centros de gravedad
Individuos: proyectados como elementos suplementarios
Cı́rculos de correlaciones entre las variables explicativas y
las variables discriminantes
Calidad del plano:
λ1 + λ2
λ1 + λ2 + · · · + λr
Al ser costoso diagonalizar V−1: puede ser buena idea
seleccionar las variables más discriminantes
Método paso a paso.
Definir un criterio: traza(V−1
W )VB

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Discriminación en la práctica
Se separa la muestra en 2 submuestras:
muestra de aprendizaje: sirve para construir las
funciones discriminantes
muestra de test: sirve para validar el resultado anterior
Matriz de confusión: cruza la partición original con la
partición obtenida con el método discriminante sobre la
muestra de test.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
Reglas geométricas de asignación: 2 grupos
Suponga que se tienen las funciones discriminantes
Se desea asignar un nuevo individuo x a alguna de las
clases C1, C2, . . . , Cr
Se escoge la clase r∗ tal que
dV −1 (x, gk∗ ) = min
k
{dV −1 (x, gk)}
Es equivalente a escoger k∗ tal que:
max
k
{2xt
V−1
gk − gt
kV−1
gk}

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
En el caso de tener 2 grupos: C1, C2
Se tiene los centros de gravedad: g1, g2
Entonces la regla de asignación es:
se asigna x a la clase C1 si
xt
V−1
(g1 − g2)
1
2
(g1 + g2)t
V−1
(g1 − g2)
de lo contrario, asignar x a la clase C2.

Discriminación
Javier Trejos
Problemas
Objetivos
Notaciones
Criterio a
optimizar
Solución
Discriminación
En el caso de tener 2 grupos: C1, C2
Se tiene los centros de gravedad: g1, g2
Entonces el factor discriminante es u = V−1(g1 − g2)
Se llama eje discriminante al vector: a = g1 − g2 ∈ Rp
Eventualmente, se podrı́a usar V−1
W (g1 − g2)

7_Discriminacion.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a 7_Discriminacion.pdf

Similar a 7_Discriminacion.pdf (20)

Más de Facultad de Ciencias, UCR

Más de Facultad de Ciencias, UCR (15)

Último

Último (20)

7_Discriminacion.pdf