Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Métodos Predictivos:
Aplicación a la
Detección de Fraudes
en Tarjetas de Crédito

Modelo general de los métodos de Clasificación
|Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No
Divorcia
do
95K Sí
6 No Casado 60K No
10
Tabla de Aprendizaje
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
7 No Soltero 80K No
8 Si Casado 100K No
9 No Soltero 70K No
10
Tabla de Testing
Generar
el
Modelo
Aplicar
el
Modelo
Modelo
Algoritmo
de
Aprendizaje
Nuevos
Individuos
Evaluar

Definición de Clasificación
• Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡 𝑛 } de tuplas o registros
(individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶 𝑚 }, el
problema de la clasificación es encontrar una función 𝑓: 𝐷 → 𝐶
tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .
• 𝑓: 𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un
modelo basado en Análisis Discriminante, o una Red Beyesiana.

Aprendizaje Supervisado
K - Vecinos más cercanos
KNN-Method

Como de los K=6 “individuos” de
entrenamiento 4 son patos entonces
el “individuo” de testing se clasifica
como pato. Criterio “Majority Vote”

Para K=1 (círculo más pequeño), la clase de la nueva
instancia sería la Clase 1, ya que es la clase de su vecino
más cercano, mientras que para K=3 la clase de la nueva
instancia sería la Clase 2 pues habrían dos vecinos de la
Clase 2 y solo 1 de la Clase 1

Método de Bayes

Ejemplo: Créditos en un Banco
Dada esta de Aprendizaje predecir para los siguientes
individuos si van a ser buenos o malos pagadores.

Ejemplo: Créditos en un Banco
Nuevos Individuos
•  Se
$ene
una
nueva
ﬁla
de
la
base
de
datos
t
=
(100,2,4,2,2,3,?).

•  El
problema
es:
a
par$r
de
la
tabla
de
aprendizaje
y
usando

Clasiﬁcación
Bayesiana
predecir
si
el
individuo
#100

corresponde
a
un
buen
pagador
o
a
un
mal
pagador.

•  Lo
que
se
hace
en
estos
caso
es
calcular
P(Bueno|t)
y
P(Malo|t)

para
determinar
cuál
es
mayor,
donde
por
bueno
se
en$ende

que
la
variable
BuenPagador=1
y
por
malo
que

BuenPagador=2.

Ejemplo de Clasificación Bayesiana
𝑃( 𝐵𝑢𝑒𝑛𝑜| 𝑡) =
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)
𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜)

𝑃( 𝐵𝑢𝑒𝑛𝑜) =
6
10
𝑦 𝑃( 𝑀𝑎𝑙𝑜) =
4
10

Como
t
=
(100,2,4,2,2,3,?),
este
es
un
evento
que
corresponde
realmente
a
5
eventos

independientes,
ser
MontoCredito=2,
IngresoNeto=4,
CoeficienteCreditoAvaluo=2,

MontoCuota=2
y

GradoAcademico=3.
Así:

𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜)
= 𝑃((MontoCredito = 2)| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃A(IngresoNeto = 4)F𝐵𝑢𝑒𝑛𝑜G
∙ 𝑃A(CoeficienteCreditoAvaluo = 2)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃((MontoCuota = 2 )| 𝐵𝑢𝑒𝑛𝑜)
∙ 𝑃((GradoAcademico = 3)| 𝐵𝑢𝑒𝑛𝑜) =
2
6
∙
4
6
∙
2
6
∙
1
6
∙
1
6
=
16
7776
= 0,002.

Ejemplo de Clasificación Bayesiana
𝑃( 𝑡| 𝑀𝑎𝑙𝑜)
= 𝑃((MontoCredito = 2)| 𝑀𝑎𝑙𝑜) ∙ 𝑃6(IngresoNeto = 4)<𝑀𝑎𝑙𝑜=
∙ 𝑃6(CoeficienteCreditoAvaluo = 2)<𝑀𝑎𝑙𝑜= ∙ 𝑃((MontoCuota = 2 )| 𝑀𝑎𝑙𝑜)
∙ 𝑃((GradoAcademico = 3)| 𝑀𝑎𝑙𝑜) =
0
4
∙
0
4
∙
0
4
∙
0
4
∙
0
4
= 0.

𝑃( 𝐵𝑢𝑒𝑛𝑜| 𝑡) =
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)
=
16
7776
∙
6
10
16
7776
∙
6
10
+ 0 ∙
4
10
= 1

Por
lo
que
𝑃( 𝑀𝑎𝑙𝑜| 𝑡) = 0.
Pero
lo
vamos
a
verificar:

𝑃( 𝑀𝑎𝑙𝑜| 𝑡) =
𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)
=
0 ∙
4
10
16
7776
∙
6
10
+ 0 ∙
4
10
= 0.

Por
lo
que
claramente
el
individuo
#100
tiene
una
probabilidad
máxima
de
ser
un
buen
pagador.

Redes Neuronales

Redes Neuronales - Perceptrón
•  El cerebro humano está
compuesto principalmente de
células nerviosas llamada
Neuronas.
•  Estas neuronas están ligadas
mediante unas fibras llamadas
“Axons”.
•  Una Neurona está conectada al
Axón de otra Neorona mediante
las Dentritas.
•  En punto de contacto entre una
Dentrita y el Axón se llama
Synapse.
•  Las Redes Neuronales
Artificiales tratan de emular este
esquema mediante Nodos y
Links.

Estructura General de una Red Neuronal
Activation
function
g(Si )
Si
Oi
I1
I2
I3
wi1
wi2
wi3
Oi
Neuron iInput Output
threshold, t
Input
Layer
Hidden
Layer
Output
Layer
x1 x2 x3 x4 x5
y
Entrenar una Red Neuronal
significa descubrir los pesos
de las neuronas

Máquinas de Soporte
Vectorial

x1
x2
Margen
x+
x+
x-
n
Vectores de Soporte
Vector Director
¿Por qué se denominan Máquinas de Soporte Vectorial
(Support Vector Machines)?

n  g(x) es una función lineal:
x1
x2
w∙x + b < 0
w∙x+ b > 0
n  Se busca un hiperplano en
el espacio de las variables
n  n es el vector normal del
hiperplano
=
w
n
w
n
Función discriminante lineal

n  ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
x1
x2
n  Podrían existir una cantidad
infinita de posibles hiperplanos!

x1
x2n  ¿Cómo clasificar estos
error?

x1
x2
n  ¿Cuál es el mejor?
n  ¿Cómo clasificar estos
error?

Clasificador lineal con el margen más amplio
“zona segura”
n  La función discriminante
lineal con el máximo
margen es la mejor
n  El margen se define como
la ancho que limita los
datos (podría no existir)
n  ¿Por qué es la mejor?
q  Generalización robusta y
resistente a los valores
atípicos
x1
x2
Margen

Resolver un Problema Optimización

MVS no linealmente separables
n  Idea general: Los datos de entrada se puede trasladar a
algún espacio de mayor dimensión en el que la Tabla de
Entrenamiento sí sea separable:
Φ: x → φ(x)

Árboles de Decisión

Un ejemplo de un árbol de decisión
Casado
Reembolso
Es-Civil
Ingresos
SÍNO
NO
NO
Sí No
Soltero, Divorciado
< 80K > 80K
Variables de División
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No
Divorcia
do
95K Sí
6 No Casado 60K No
7 Sí
Divorcia
do
220K No
8 No Soltero 85K Sí
9 No Casado 75K No
10 No Soltero 90K Sí
10
Tabla de Aprendizaje Modelo: Árbol de Decisión

Información Ganada à IGSplit
ü  Cada vez que se va a hacer una nueva división en el árbol (split
the tree) se debe comparar el grado de impureza del nodo padre
respecto al grado de impureza de los nodos hijos.
ü  Esto se calcula con el índice de Información Ganada (IG), que es
la resta de la impureza del nodo padre menos el promedio
ponderado de las impurezas de los nodos hijos.
ü  La idea en IGSplit sea máximo y esto se logra si el promedio
ponderado de las impurezas de los nodos hijos es mínimo.
•  Donde I es el índice de GINI, la Entropía o el Error de Clasificación.
⎟
⎠
⎞
⎜
⎝
⎛
−==Δ ∑=
k
i
i
split iI
n
n
padreIIG
1
)()(

Métodos de Consenso
(Bagging)

Bosques Aleatorios (Random Forest)
n  El caso en el que todos los clasificadores del
Método de Consenso son Árboles dicho método
se denomina Bosques Aleatorios (Random
Forest)

Bosques Aleatorios (Random Forest)
Cada árbol usa m diferentes
variables, aleatoriamente
escogidas del conjunto
de p variables m<p (m=mtry en R)

Métodos Potenciación

Métodos de Potenciación
"Best off-the-shelf classifier in the world”
[Breiman, NIPS Workshop, 1996]
Breiman Friedman

n  La idea es tomar una muestra aleatoria de los
datos originales y aplicar sobre esta un método
clasificatorio luego aumentar el peso (potenciar) a
los individuos mal clasificados para que en la
siguiente aplicación del método clasificatorio se
enfoque más en estos individuos mal clasificados,
mejorando su clasificación, y así sucesivamente
…
n  Observación: Solo funciona para problemas de
clasificación binarios (de 2 clases).

G(x)= Clasificador
Final
Tabla de
Entrenamiento
1° Muestra con
nuevos pesos
2° Muestra con
nuevos pesos
M° Muestra
con nuevos
pesos

Algoritmo:AdaBoost.M1

Ejemplo: Algoritmo:AdaBoost.M1

Regresión Logística LASSO

“LASSO” Regression
Método LASSO
(Propuesto por Robert Tibshirani en 1996)

“Lasso” Regression
(Método Lasso-Tibshirani)

Matricialmente
Solución à NO hay solución explícita
Lasso Ridge

Aplicación a la
Detección de Fraudes
en Tarjetas de Crédito

Proceso de Monitoreo
Transacciones
Vector
Personal
Modelos
Predictivos
Proceso de Análisis (en línea)
Problema del Fraude en tarjetas de crédito y débito
Reglas de
Experto

Validación cruzada usando K grupos
(K-fold cross-validation)
K grupos → K iteraciones

Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Similar a Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito (20)

Más de DMC Perú

Más de DMC Perú (15)

Último

Último (17)

Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito