En esta conferencia haremos una presentación de los principales métodos predictivos usados hoy día, como son: K vecinos más cercanos, Métodos Bayesianos, Árboles de Decisión, Redes Neuronales, Máquinas de Soporte Vectorial, Métodos de Potenciación, Bosques Aleatorios y el Método LASSO. Al final se presentará un estudio comparativo al aplicar estos métodos para detectar fraudes en tarjetas de crédito.
2. Modelo general de los métodos de Clasificación
|Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No
Divorcia
do
95K Sí
6 No Casado 60K No
10
Tabla de Aprendizaje
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
7 No Soltero 80K No
8 Si Casado 100K No
9 No Soltero 70K No
10
Tabla de Testing
Generar
el
Modelo
Aplicar
el
Modelo
Modelo
Algoritmo
de
Aprendizaje
Nuevos
Individuos
Evaluar
3. Definición de Clasificación
• Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡 𝑛 } de tuplas o registros
(individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶 𝑚 }, el
problema de la clasificación es encontrar una función 𝑓: 𝐷 → 𝐶
tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .
• 𝑓: 𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un
modelo basado en Análisis Discriminante, o una Red Beyesiana.
5. Como de los K=6 “individuos” de
entrenamiento 4 son patos entonces
el “individuo” de testing se clasifica
como pato. Criterio “Majority Vote”
6. Para K=1 (círculo más pequeño), la clase de la nueva
instancia sería la Clase 1, ya que es la clase de su vecino
más cercano, mientras que para K=3 la clase de la nueva
instancia sería la Clase 2 pues habrían dos vecinos de la
Clase 2 y solo 1 de la Clase 1
9. Ejemplo: Créditos en un Banco
Dada esta de Aprendizaje predecir para los siguientes
individuos si van a ser buenos o malos pagadores.
10. Ejemplo: Créditos en un Banco
Nuevos Individuos
• Se
$ene
una
nueva
fila
de
la
base
de
datos
t
=
(100,2,4,2,2,3,?).
• El
problema
es:
a
par$r
de
la
tabla
de
aprendizaje
y
usando
Clasificación
Bayesiana
predecir
si
el
individuo
#100
corresponde
a
un
buen
pagador
o
a
un
mal
pagador.
• Lo
que
se
hace
en
estos
caso
es
calcular
P(Bueno|t)
y
P(Malo|t)
para
determinar
cuál
es
mayor,
donde
por
bueno
se
en$ende
que
la
variable
BuenPagador=1
y
por
malo
que
BuenPagador=2.
14. Redes Neuronales - Perceptrón
• El cerebro humano está
compuesto principalmente de
células nerviosas llamada
Neuronas.
• Estas neuronas están ligadas
mediante unas fibras llamadas
“Axons”.
• Una Neurona está conectada al
Axón de otra Neorona mediante
las Dentritas.
• En punto de contacto entre una
Dentrita y el Axón se llama
Synapse.
• Las Redes Neuronales
Artificiales tratan de emular este
esquema mediante Nodos y
Links.
15. Estructura General de una Red Neuronal
Activation
function
g(Si )
Si
Oi
I1
I2
I3
wi1
wi2
wi3
Oi
Neuron iInput Output
threshold, t
Input
Layer
Hidden
Layer
Output
Layer
x1 x2 x3 x4 x5
y
Entrenar una Red Neuronal
significa descubrir los pesos
de las neuronas
19. n g(x) es una función lineal:
x1
x2
w∙x + b < 0
w∙x+ b > 0
n Se busca un hiperplano en
el espacio de las variables
n n es el vector normal del
hiperplano
=
w
n
w
n
Función discriminante lineal
20. n ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
x1
x2
n Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
21. x1
x2n ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
n Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
22. x1
x2n ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
n Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
23. x1
x2
n ¿Cuál es el mejor?
n ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
n Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
24. Clasificador lineal con el margen más amplio
“zona segura”
n La función discriminante
lineal con el máximo
margen es la mejor
n El margen se define como
la ancho que limita los
datos (podría no existir)
n ¿Por qué es la mejor?
q Generalización robusta y
resistente a los valores
atípicos
x1
x2
Margen
26. MVS no linealmente separables
n Idea general: Los datos de entrada se puede trasladar a
algún espacio de mayor dimensión en el que la Tabla de
Entrenamiento sí sea separable:
Φ: x → φ(x)
28. Un ejemplo de un árbol de decisión
Casado
Reembolso
Es-Civil
Ingresos
SÍNO
NO
NO
Sí No
Soltero, Divorciado
< 80K > 80K
Variables de División
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No
Divorcia
do
95K Sí
6 No Casado 60K No
7 Sí
Divorcia
do
220K No
8 No Soltero 85K Sí
9 No Casado 75K No
10 No Soltero 90K Sí
10
Tabla de Aprendizaje Modelo: Árbol de Decisión
29. Información Ganada à IGSplit
ü Cada vez que se va a hacer una nueva división en el árbol (split
the tree) se debe comparar el grado de impureza del nodo padre
respecto al grado de impureza de los nodos hijos.
ü Esto se calcula con el índice de Información Ganada (IG), que es
la resta de la impureza del nodo padre menos el promedio
ponderado de las impurezas de los nodos hijos.
ü La idea en IGSplit sea máximo y esto se logra si el promedio
ponderado de las impurezas de los nodos hijos es mínimo.
• Donde I es el índice de GINI, la Entropía o el Error de Clasificación.
⎟
⎠
⎞
⎜
⎝
⎛
−==Δ ∑=
k
i
i
split iI
n
n
padreIIG
1
)()(
32. Bosques Aleatorios (Random Forest)
n El caso en el que todos los clasificadores del
Método de Consenso son Árboles dicho método
se denomina Bosques Aleatorios (Random
Forest)
33. Bosques Aleatorios (Random Forest)
Cada árbol usa m diferentes
variables, aleatoriamente
escogidas del conjunto
de p variables m<p (m=mtry en R)
35. Métodos de Potenciación
"Best off-the-shelf classifier in the world”
[Breiman, NIPS Workshop, 1996]
Breiman Friedman
36. Métodos de Potenciación
n La idea es tomar una muestra aleatoria de los
datos originales y aplicar sobre esta un método
clasificatorio luego aumentar el peso (potenciar) a
los individuos mal clasificados para que en la
siguiente aplicación del método clasificatorio se
enfoque más en estos individuos mal clasificados,
mejorando su clasificación, y así sucesivamente
…
n Observación: Solo funciona para problemas de
clasificación binarios (de 2 clases).
37. Métodos de Potenciación
G(x)= Clasificador
Final
Tabla de
Entrenamiento
1° Muestra con
nuevos pesos
2° Muestra con
nuevos pesos
M° Muestra
con nuevos
pesos