SlideShare una empresa de Scribd logo
1 de 51
Descargar para leer sin conexión
Métodos Predictivos:
Aplicación a la
Detección de Fraudes
en Tarjetas de Crédito
Modelo general de los métodos de Clasificación
|Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No
Divorcia
do
95K Sí
6 No Casado 60K No
10
Tabla de Aprendizaje
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
7 No Soltero 80K No
8 Si Casado 100K No
9 No Soltero 70K No
10
Tabla de Testing
Generar
el
Modelo
Aplicar
el
Modelo
Modelo
Algoritmo
de
Aprendizaje
Nuevos
Individuos
Evaluar
Definición de Clasificación
• Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡 𝑛 } de tuplas o registros
(individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶 𝑚 }, el
problema de la clasificación es encontrar una función  𝑓: 𝐷 → 𝐶
tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .
• 𝑓: 𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un
modelo basado en Análisis Discriminante, o una Red Beyesiana.
Aprendizaje Supervisado
K - Vecinos más cercanos
KNN-Method
Como de los K=6 “individuos” de
entrenamiento 4 son patos entonces
el “individuo” de testing se clasifica
como pato. Criterio “Majority Vote”
Para K=1 (círculo más pequeño), la clase de la nueva
instancia sería la Clase 1, ya que es la clase de su vecino
más cercano, mientras que para K=3 la clase de la nueva
instancia sería la Clase 2 pues habrían dos vecinos de la
Clase 2 y solo 1 de la Clase 1
Aprendizaje Supervisado
Método de Bayes
Teorema de Naïve Bayes
Ejemplo: Créditos en un Banco
Dada esta de Aprendizaje predecir para los siguientes
individuos si van a ser buenos o malos pagadores.
Ejemplo: Créditos en un Banco
Nuevos Individuos
•  Se	
  $ene	
  una	
  nueva	
  fila	
  de	
  la	
  base	
  de	
  datos	
  t	
  =	
  (100,2,4,2,2,3,?).	
  	
  
•  El	
   problema	
   es:	
   a	
   par$r	
   de	
   la	
   tabla	
   de	
   aprendizaje	
   y	
   usando	
  
Clasificación	
   Bayesiana	
   predecir	
   si	
   el	
   individuo	
   #100	
  
corresponde	
  a	
  un	
  buen	
  pagador	
  o	
  a	
  un	
  mal	
  pagador.	
  
•  Lo	
  que	
  se	
  hace	
  en	
  estos	
  caso	
  es	
  calcular	
  P(Bueno|t)	
  y	
  P(Malo|t)	
  
para	
  determinar	
  cuál	
  es	
  mayor,	
  donde	
  por	
  bueno	
  se	
  en$ende	
  
que	
   la	
   variable	
   BuenPagador=1	
   y	
   por	
   malo	
   que	
  
BuenPagador=2.	
  
Ejemplo de Clasificación Bayesiana
𝑃( 𝐵𝑢𝑒𝑛𝑜| 𝑡) =
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)
𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜)
	
  
	
  
𝑃( 𝐵𝑢𝑒𝑛𝑜) =
6
10
    𝑦    𝑃( 𝑀𝑎𝑙𝑜) =
4
10
	
  
Como	
   t	
   =	
   (100,2,4,2,2,3,?),	
   este	
   es	
   un	
   evento	
   que	
   corresponde	
   realmente	
   a	
   5	
   eventos	
  
independientes,	
   ser	
   MontoCredito=2,	
   IngresoNeto=4,	
   CoeficienteCreditoAvaluo=2,	
  
MontoCuota=2	
  y	
  	
  GradoAcademico=3.	
  Así:	
  
𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜)
= 𝑃((MontoCredito = 2)| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃A(IngresoNeto = 4)F𝐵𝑢𝑒𝑛𝑜G
∙ 𝑃A(CoeficienteCreditoAvaluo = 2)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃((MontoCuota = 2  )| 𝐵𝑢𝑒𝑛𝑜)
∙ 𝑃((GradoAcademico = 3)| 𝐵𝑢𝑒𝑛𝑜) =
2
6
∙
4
6
∙
2
6
∙
1
6
∙
1
6
=
16
7776
= 0,002.	
  
Ejemplo de Clasificación Bayesiana
𝑃( 𝑡| 𝑀𝑎𝑙𝑜)
= 𝑃((MontoCredito = 2)| 𝑀𝑎𝑙𝑜) ∙ 𝑃6(IngresoNeto = 4)<𝑀𝑎𝑙𝑜=
∙ 𝑃6(CoeficienteCreditoAvaluo = 2)<𝑀𝑎𝑙𝑜= ∙ 𝑃((MontoCuota = 2  )| 𝑀𝑎𝑙𝑜)
∙ 𝑃((GradoAcademico = 3)| 𝑀𝑎𝑙𝑜) =
0
4
∙
0
4
∙
0
4
∙
0
4
∙
0
4
= 0.	
  
	
  
𝑃( 𝐵𝑢𝑒𝑛𝑜| 𝑡) =
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)
𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜)
=
16
7776
∙
6
10
16
7776
∙
6
10
+ 0 ∙
4
10
= 1	
  
Por	
  lo	
  que	
   𝑃( 𝑀𝑎𝑙𝑜| 𝑡) = 0.	
  Pero	
  lo	
  vamos	
  a	
  verificar:	
  
𝑃( 𝑀𝑎𝑙𝑜| 𝑡) =
𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)
𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜)
=
0 ∙
4
10
16
7776
∙
6
10
+ 0 ∙
4
10
= 0.	
  
Por	
  lo	
  que	
  claramente	
  el	
  individuo	
  #100	
  tiene	
  una	
  probabilidad	
  máxima	
  de	
  ser	
  un	
  buen	
  pagador.	
  	
  	
  	
  
Aprendizaje Supervisado
Redes Neuronales
Redes Neuronales - Perceptrón
•  El cerebro humano está
compuesto principalmente de
células nerviosas llamada
Neuronas.
•  Estas neuronas están ligadas
mediante unas fibras llamadas
“Axons”.
•  Una Neurona está conectada al
Axón de otra Neorona mediante
las Dentritas.
•  En punto de contacto entre una
Dentrita y el Axón se llama
Synapse.
•  Las Redes Neuronales
Artificiales tratan de emular este
esquema mediante Nodos y
Links.
Estructura General de una Red Neuronal
Activation
function
g(Si )
Si
Oi
I1
I2
I3
wi1
wi2
wi3
Oi
Neuron iInput Output
threshold, t
Input
Layer
Hidden
Layer
Output
Layer
x1 x2 x3 x4 x5
y
Entrenar una Red Neuronal
significa descubrir los pesos
de las neuronas
Perceptrón - xor
Aprendizaje Supervisado
Máquinas de Soporte
Vectorial
x1
x2
Margen
x+
x+
x-
n
Vectores de Soporte
Vector Director
¿Por qué se denominan Máquinas de Soporte Vectorial
(Support Vector Machines)?
n  g(x) es una función lineal:
x1
x2
w∙x + b < 0
w∙x+ b > 0
n  Se busca un hiperplano en
el espacio de las variables
n  n es el vector normal del
hiperplano
=
w
n
w
n
Función discriminante lineal
n  ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
x1
x2
n  Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
x1
x2n  ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
n  Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
x1
x2n  ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
n  Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
x1
x2
n  ¿Cuál es el mejor?
n  ¿Cómo clasificar estos
puntos mediante una función
discriminante lineal
reduciendo al mínimo el
error?
n  Podrían existir una cantidad
infinita de posibles hiperplanos!
Función discriminante lineal
Clasificador lineal con el margen más amplio
“zona segura”
n  La función discriminante
lineal con el máximo
margen es la mejor
n  El margen se define como
la ancho que limita los
datos (podría no existir)
n  ¿Por qué es la mejor?
q  Generalización robusta y
resistente a los valores
atípicos
x1
x2
Margen
Resolver un Problema Optimización
MVS no linealmente separables
n  Idea general: Los datos de entrada se puede trasladar a
algún espacio de mayor dimensión en el que la Tabla de
Entrenamiento sí sea separable:
Φ: x → φ(x)
Aprendizaje Supervisado
Árboles de Decisión
Un ejemplo de un árbol de decisión
Casado
Reembolso
Es-Civil
Ingresos
SÍNO
NO
NO
Sí No
Soltero, Divorciado
< 80K > 80K
Variables de División
Id Reembolso Estado
Civil
Ingresos
Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No
Divorcia
do
95K Sí
6 No Casado 60K No
7 Sí
Divorcia
do
220K No
8 No Soltero 85K Sí
9 No Casado 75K No
10 No Soltero 90K Sí
10
Tabla de Aprendizaje Modelo: Árbol de Decisión
Información Ganada à IGSplit
ü  Cada vez que se va a hacer una nueva división en el árbol (split
the tree) se debe comparar el grado de impureza del nodo padre
respecto al grado de impureza de los nodos hijos.
ü  Esto se calcula con el índice de Información Ganada (IG), que es
la resta de la impureza del nodo padre menos el promedio
ponderado de las impurezas de los nodos hijos.
ü  La idea en IGSplit sea máximo y esto se logra si el promedio
ponderado de las impurezas de los nodos hijos es mínimo.
•  Donde I es el índice de GINI, la Entropía o el Error de Clasificación.
⎟
⎠
⎞
⎜
⎝
⎛
−==Δ ∑=
k
i
i
split iI
n
n
padreIIG
1
)()(
Aprendizaje Supervisado
Métodos de Consenso
(Bagging)
Bosques Aleatorios (Random Forest)
n  El caso en el que todos los clasificadores del
Método de Consenso son Árboles dicho método
se denomina Bosques Aleatorios (Random
Forest)
Bosques Aleatorios (Random Forest)
Cada árbol usa m diferentes
variables, aleatoriamente
escogidas del conjunto
de p variables m<p (m=mtry en R)
Aprendizaje Supervisado
Métodos Potenciación
Métodos de Potenciación
"Best off-the-shelf classifier in the world”
[Breiman, NIPS Workshop, 1996]
Breiman Friedman
Métodos de Potenciación
n  La idea es tomar una muestra aleatoria de los
datos originales y aplicar sobre esta un método
clasificatorio luego aumentar el peso (potenciar) a
los individuos mal clasificados para que en la
siguiente aplicación del método clasificatorio se
enfoque más en estos individuos mal clasificados,
mejorando su clasificación, y así sucesivamente
…
n  Observación: Solo funciona para problemas de
clasificación binarios (de 2 clases).
Métodos de Potenciación
G(x)= Clasificador
Final
Tabla de
Entrenamiento
1° Muestra con
nuevos pesos
2° Muestra con
nuevos pesos
M° Muestra
con nuevos
pesos
Métodos de Potenciación
Algoritmo:AdaBoost.M1
Ejemplo: Algoritmo:AdaBoost.M1
Aprendizaje Supervisado
Regresión Logística LASSO
“LASSO” Regression
Método LASSO
(Propuesto por Robert Tibshirani en 1996)
“Lasso” Regression
(Método Lasso-Tibshirani)
Matricialmente
Solución à NO hay solución explícita
Lasso Ridge
Solución
Aplicación a la
Detección de Fraudes
en Tarjetas de Crédito
Proceso de Monitoreo
Transacciones
Vector
Personal
Modelos
Predictivos
Proceso de Análisis (en línea)
Problema del Fraude en tarjetas de crédito y débito
Reglas de
Experto
Validación cruzada usando K grupos
(K-fold cross-validation)
K grupos → K iteraciones
Muchas Gracias….

Más contenido relacionado

Destacado

Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"DMC Perú
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digitalDMC Perú
 
Big Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosBig Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosDMC Perú
 
La Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónLa Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónDMC Perú
 
Contexto académico nacional e internacional de la Gestión de Proyectos a nive...
Contexto académico nacional e internacional de la Gestión de Proyectos a nive...Contexto académico nacional e internacional de la Gestión de Proyectos a nive...
Contexto académico nacional e internacional de la Gestión de Proyectos a nive...RedRITA
 
2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…
2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…
2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…Dongseo University
 
Credito, Tarjetas de Credito y Robo de Identidad
Credito, Tarjetas de Credito y Robo de IdentidadCredito, Tarjetas de Credito y Robo de Identidad
Credito, Tarjetas de Credito y Robo de IdentidadAxel Rivera, MBA
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASDMC Perú
 
Introducción a Modelos Predictivos de Fuga de Clientes
Introducción a Modelos Predictivos de Fuga de ClientesIntroducción a Modelos Predictivos de Fuga de Clientes
Introducción a Modelos Predictivos de Fuga de ClientesHugo E. Cisternas
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopDMC Perú
 
Arbol de problemas
Arbol de problemasArbol de problemas
Arbol de problemasjuliethrh
 
Estadística aplicada aplicada a la ingeniería química semana 03 - 05
Estadística aplicada aplicada a la ingeniería química    semana 03 - 05Estadística aplicada aplicada a la ingeniería química    semana 03 - 05
Estadística aplicada aplicada a la ingeniería química semana 03 - 05Joselyn Belen Matias Brañez
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?Scoremind
 
Modelos predictivos: datos, métodos, problemas y aplicaciones
Modelos predictivos: datos, métodos, problemas y aplicacionesModelos predictivos: datos, métodos, problemas y aplicaciones
Modelos predictivos: datos, métodos, problemas y aplicacionesÁngel M. Felicísimo
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSlalopg
 
Teorema de bayes probabilidad condicional y probabilidad total
Teorema de bayes probabilidad condicional y probabilidad totalTeorema de bayes probabilidad condicional y probabilidad total
Teorema de bayes probabilidad condicional y probabilidad totalElizabeth Ledezma
 
CRÉDITO Y GESTIÓN DE COBRANZAS
CRÉDITO Y GESTIÓN DE COBRANZASCRÉDITO Y GESTIÓN DE COBRANZAS
CRÉDITO Y GESTIÓN DE COBRANZASWilliamCevallos
 
Tendencias de consumo, creatividad en la oferta
Tendencias de consumo, creatividad en la ofertaTendencias de consumo, creatividad en la oferta
Tendencias de consumo, creatividad en la ofertaRoberto Carreras
 

Destacado (20)

Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digital
 
Big Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosBig Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos Predictivos
 
La Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónLa Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de Innovación
 
Contexto académico nacional e internacional de la Gestión de Proyectos a nive...
Contexto académico nacional e internacional de la Gestión de Proyectos a nive...Contexto académico nacional e internacional de la Gestión de Proyectos a nive...
Contexto académico nacional e internacional de la Gestión de Proyectos a nive...
 
2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…
2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…
2013-1 Machine Learning Lecture 06 - Artur Ferreira - A Survey on Boosting…
 
Credito, Tarjetas de Credito y Robo de Identidad
Credito, Tarjetas de Credito y Robo de IdentidadCredito, Tarjetas de Credito y Robo de Identidad
Credito, Tarjetas de Credito y Robo de Identidad
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SAS
 
Introducción a Modelos Predictivos de Fuga de Clientes
Introducción a Modelos Predictivos de Fuga de ClientesIntroducción a Modelos Predictivos de Fuga de Clientes
Introducción a Modelos Predictivos de Fuga de Clientes
 
Pmi Delta Mining
Pmi Delta MiningPmi Delta Mining
Pmi Delta Mining
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y Hadoop
 
Arbol de problemas
Arbol de problemasArbol de problemas
Arbol de problemas
 
Estadística aplicada aplicada a la ingeniería química semana 03 - 05
Estadística aplicada aplicada a la ingeniería química    semana 03 - 05Estadística aplicada aplicada a la ingeniería química    semana 03 - 05
Estadística aplicada aplicada a la ingeniería química semana 03 - 05
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?
 
Modelos predictivos: datos, métodos, problemas y aplicaciones
Modelos predictivos: datos, métodos, problemas y aplicacionesModelos predictivos: datos, métodos, problemas y aplicaciones
Modelos predictivos: datos, métodos, problemas y aplicaciones
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Teorema de bayes probabilidad condicional y probabilidad total
Teorema de bayes probabilidad condicional y probabilidad totalTeorema de bayes probabilidad condicional y probabilidad total
Teorema de bayes probabilidad condicional y probabilidad total
 
Random forest
Random forestRandom forest
Random forest
 
CRÉDITO Y GESTIÓN DE COBRANZAS
CRÉDITO Y GESTIÓN DE COBRANZASCRÉDITO Y GESTIÓN DE COBRANZAS
CRÉDITO Y GESTIÓN DE COBRANZAS
 
Tendencias de consumo, creatividad en la oferta
Tendencias de consumo, creatividad en la ofertaTendencias de consumo, creatividad en la oferta
Tendencias de consumo, creatividad en la oferta
 

Similar a Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

Similar a Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito (20)

Ejemplos
EjemplosEjemplos
Ejemplos
 
Tipos de distribuciones
Tipos de distribucionesTipos de distribuciones
Tipos de distribuciones
 
Distribuciones
DistribucionesDistribuciones
Distribuciones
 
Genetic Algorithms. Algoritmos Genéticos y cómo funcionan.
Genetic Algorithms. Algoritmos Genéticos y cómo funcionan.Genetic Algorithms. Algoritmos Genéticos y cómo funcionan.
Genetic Algorithms. Algoritmos Genéticos y cómo funcionan.
 
Calculo de Muestras en Epidemiologia con ejemplos
Calculo de Muestras en Epidemiologia con ejemplosCalculo de Muestras en Epidemiologia con ejemplos
Calculo de Muestras en Epidemiologia con ejemplos
 
2.1.2 Técnicas de conteo.pptx
2.1.2 Técnicas de conteo.pptx2.1.2 Técnicas de conteo.pptx
2.1.2 Técnicas de conteo.pptx
 
Distribuciones
DistribucionesDistribuciones
Distribuciones
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdf
 
Estadística Aplicada a la Psicología
Estadística Aplicada a la PsicologíaEstadística Aplicada a la Psicología
Estadística Aplicada a la Psicología
 
Distribuciónes
DistribuciónesDistribuciónes
Distribuciónes
 
Analisis de datos categoricos
Analisis de datos categoricosAnalisis de datos categoricos
Analisis de datos categoricos
 
T1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdfT1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdf
 
Inteligencia
InteligenciaInteligencia
Inteligencia
 
Agtsp 14070746
Agtsp 14070746Agtsp 14070746
Agtsp 14070746
 
Introduccón a la probabilidad
Introduccón a la probabilidadIntroduccón a la probabilidad
Introduccón a la probabilidad
 
Sesión 05
Sesión 05Sesión 05
Sesión 05
 
S01 ad4001 ss
S01 ad4001 ssS01 ad4001 ss
S01 ad4001 ss
 
SEMANA 04- MEDIDAS DE TENDENCIA CENTRAL.pdf
SEMANA 04- MEDIDAS DE TENDENCIA CENTRAL.pdfSEMANA 04- MEDIDAS DE TENDENCIA CENTRAL.pdf
SEMANA 04- MEDIDAS DE TENDENCIA CENTRAL.pdf
 
Intro a la epidemio clase 4
Intro a la epidemio clase 4Intro a la epidemio clase 4
Intro a la epidemio clase 4
 
Intro a la epidemio clase 4
Intro a la epidemio clase 4Intro a la epidemio clase 4
Intro a la epidemio clase 4
 

Más de DMC Perú

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Perú
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Perú
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018DMC Perú
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datosDMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataDMC Perú
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataDMC Perú
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big DataDMC Perú
 
Caso netflix
Caso netflixCaso netflix
Caso netflixDMC Perú
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
Tendencias Recientes en Data Mining
Tendencias Recientes en Data MiningTendencias Recientes en Data Mining
Tendencias Recientes en Data MiningDMC Perú
 
¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?DMC Perú
 

Más de DMC Perú (15)

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain Stamping
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion Voicebots
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datos
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigData
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big Data
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big Data
 
Caso netflix
Caso netflixCaso netflix
Caso netflix
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Web Mining
Web MiningWeb Mining
Web Mining
 
Tendencias Recientes en Data Mining
Tendencias Recientes en Data MiningTendencias Recientes en Data Mining
Tendencias Recientes en Data Mining
 
¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?
 

Último

CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 

Último (17)

CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 

Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito

  • 1. Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas de Crédito
  • 2. Modelo general de los métodos de Clasificación |Id Reembolso Estado Civil Ingresos Anuales Fraude 1 Sí Soltero 125K No 2 No Casado 100K No 3 No Soltero 70K No 4 Sí Casado 120K No 5 No Divorcia do 95K Sí 6 No Casado 60K No 10 Tabla de Aprendizaje Id Reembolso Estado Civil Ingresos Anuales Fraude 7 No Soltero 80K No 8 Si Casado 100K No 9 No Soltero 70K No 10 Tabla de Testing Generar el Modelo Aplicar el Modelo Modelo Algoritmo de Aprendizaje Nuevos Individuos Evaluar
  • 3. Definición de Clasificación • Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡 𝑛 } de tuplas o registros (individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶 𝑚 }, el problema de la clasificación es encontrar una función  𝑓: 𝐷 → 𝐶 tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 . • 𝑓: 𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un modelo basado en Análisis Discriminante, o una Red Beyesiana.
  • 4. Aprendizaje Supervisado K - Vecinos más cercanos KNN-Method
  • 5. Como de los K=6 “individuos” de entrenamiento 4 son patos entonces el “individuo” de testing se clasifica como pato. Criterio “Majority Vote”
  • 6. Para K=1 (círculo más pequeño), la clase de la nueva instancia sería la Clase 1, ya que es la clase de su vecino más cercano, mientras que para K=3 la clase de la nueva instancia sería la Clase 2 pues habrían dos vecinos de la Clase 2 y solo 1 de la Clase 1
  • 9. Ejemplo: Créditos en un Banco Dada esta de Aprendizaje predecir para los siguientes individuos si van a ser buenos o malos pagadores.
  • 10. Ejemplo: Créditos en un Banco Nuevos Individuos •  Se  $ene  una  nueva  fila  de  la  base  de  datos  t  =  (100,2,4,2,2,3,?).     •  El   problema   es:   a   par$r   de   la   tabla   de   aprendizaje   y   usando   Clasificación   Bayesiana   predecir   si   el   individuo   #100   corresponde  a  un  buen  pagador  o  a  un  mal  pagador.   •  Lo  que  se  hace  en  estos  caso  es  calcular  P(Bueno|t)  y  P(Malo|t)   para  determinar  cuál  es  mayor,  donde  por  bueno  se  en$ende   que   la   variable   BuenPagador=1   y   por   malo   que   BuenPagador=2.  
  • 11. Ejemplo de Clasificación Bayesiana 𝑃( 𝐵𝑢𝑒𝑛𝑜| 𝑡) = 𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) 𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜)     𝑃( 𝐵𝑢𝑒𝑛𝑜) = 6 10    𝑦    𝑃( 𝑀𝑎𝑙𝑜) = 4 10   Como   t   =   (100,2,4,2,2,3,?),   este   es   un   evento   que   corresponde   realmente   a   5   eventos   independientes,   ser   MontoCredito=2,   IngresoNeto=4,   CoeficienteCreditoAvaluo=2,   MontoCuota=2  y    GradoAcademico=3.  Así:   𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) = 𝑃((MontoCredito = 2)| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃A(IngresoNeto = 4)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃A(CoeficienteCreditoAvaluo = 2)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃((MontoCuota = 2  )| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃((GradoAcademico = 3)| 𝐵𝑢𝑒𝑛𝑜) = 2 6 ∙ 4 6 ∙ 2 6 ∙ 1 6 ∙ 1 6 = 16 7776 = 0,002.  
  • 12. Ejemplo de Clasificación Bayesiana 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) = 𝑃((MontoCredito = 2)| 𝑀𝑎𝑙𝑜) ∙ 𝑃6(IngresoNeto = 4)<𝑀𝑎𝑙𝑜= ∙ 𝑃6(CoeficienteCreditoAvaluo = 2)<𝑀𝑎𝑙𝑜= ∙ 𝑃((MontoCuota = 2  )| 𝑀𝑎𝑙𝑜) ∙ 𝑃((GradoAcademico = 3)| 𝑀𝑎𝑙𝑜) = 0 4 ∙ 0 4 ∙ 0 4 ∙ 0 4 ∙ 0 4 = 0.     𝑃( 𝐵𝑢𝑒𝑛𝑜| 𝑡) = 𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) 𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜) = 16 7776 ∙ 6 10 16 7776 ∙ 6 10 + 0 ∙ 4 10 = 1   Por  lo  que   𝑃( 𝑀𝑎𝑙𝑜| 𝑡) = 0.  Pero  lo  vamos  a  verificar:   𝑃( 𝑀𝑎𝑙𝑜| 𝑡) = 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) 𝑃( 𝑡| 𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃( 𝐵𝑢𝑒𝑛𝑜) + 𝑃( 𝑡| 𝑀𝑎𝑙𝑜) ∙ 𝑃( 𝑀𝑎𝑙𝑜) = 0 ∙ 4 10 16 7776 ∙ 6 10 + 0 ∙ 4 10 = 0.   Por  lo  que  claramente  el  individuo  #100  tiene  una  probabilidad  máxima  de  ser  un  buen  pagador.        
  • 14. Redes Neuronales - Perceptrón •  El cerebro humano está compuesto principalmente de células nerviosas llamada Neuronas. •  Estas neuronas están ligadas mediante unas fibras llamadas “Axons”. •  Una Neurona está conectada al Axón de otra Neorona mediante las Dentritas. •  En punto de contacto entre una Dentrita y el Axón se llama Synapse. •  Las Redes Neuronales Artificiales tratan de emular este esquema mediante Nodos y Links.
  • 15. Estructura General de una Red Neuronal Activation function g(Si ) Si Oi I1 I2 I3 wi1 wi2 wi3 Oi Neuron iInput Output threshold, t Input Layer Hidden Layer Output Layer x1 x2 x3 x4 x5 y Entrenar una Red Neuronal significa descubrir los pesos de las neuronas
  • 18. x1 x2 Margen x+ x+ x- n Vectores de Soporte Vector Director ¿Por qué se denominan Máquinas de Soporte Vectorial (Support Vector Machines)?
  • 19. n  g(x) es una función lineal: x1 x2 w∙x + b < 0 w∙x+ b > 0 n  Se busca un hiperplano en el espacio de las variables n  n es el vector normal del hiperplano = w n w n Función discriminante lineal
  • 20. n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error? x1 x2 n  Podrían existir una cantidad infinita de posibles hiperplanos! Función discriminante lineal
  • 21. x1 x2n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error? n  Podrían existir una cantidad infinita de posibles hiperplanos! Función discriminante lineal
  • 22. x1 x2n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error? n  Podrían existir una cantidad infinita de posibles hiperplanos! Función discriminante lineal
  • 23. x1 x2 n  ¿Cuál es el mejor? n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error? n  Podrían existir una cantidad infinita de posibles hiperplanos! Función discriminante lineal
  • 24. Clasificador lineal con el margen más amplio “zona segura” n  La función discriminante lineal con el máximo margen es la mejor n  El margen se define como la ancho que limita los datos (podría no existir) n  ¿Por qué es la mejor? q  Generalización robusta y resistente a los valores atípicos x1 x2 Margen
  • 25. Resolver un Problema Optimización
  • 26. MVS no linealmente separables n  Idea general: Los datos de entrada se puede trasladar a algún espacio de mayor dimensión en el que la Tabla de Entrenamiento sí sea separable: Φ: x → φ(x)
  • 28. Un ejemplo de un árbol de decisión Casado Reembolso Es-Civil Ingresos SÍNO NO NO Sí No Soltero, Divorciado < 80K > 80K Variables de División Id Reembolso Estado Civil Ingresos Anuales Fraude 1 Sí Soltero 125K No 2 No Casado 100K No 3 No Soltero 70K No 4 Sí Casado 120K No 5 No Divorcia do 95K Sí 6 No Casado 60K No 7 Sí Divorcia do 220K No 8 No Soltero 85K Sí 9 No Casado 75K No 10 No Soltero 90K Sí 10 Tabla de Aprendizaje Modelo: Árbol de Decisión
  • 29. Información Ganada à IGSplit ü  Cada vez que se va a hacer una nueva división en el árbol (split the tree) se debe comparar el grado de impureza del nodo padre respecto al grado de impureza de los nodos hijos. ü  Esto se calcula con el índice de Información Ganada (IG), que es la resta de la impureza del nodo padre menos el promedio ponderado de las impurezas de los nodos hijos. ü  La idea en IGSplit sea máximo y esto se logra si el promedio ponderado de las impurezas de los nodos hijos es mínimo. •  Donde I es el índice de GINI, la Entropía o el Error de Clasificación. ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ −==Δ ∑= k i i split iI n n padreIIG 1 )()(
  • 31.
  • 32. Bosques Aleatorios (Random Forest) n  El caso en el que todos los clasificadores del Método de Consenso son Árboles dicho método se denomina Bosques Aleatorios (Random Forest)
  • 33. Bosques Aleatorios (Random Forest) Cada árbol usa m diferentes variables, aleatoriamente escogidas del conjunto de p variables m<p (m=mtry en R)
  • 35. Métodos de Potenciación "Best off-the-shelf classifier in the world” [Breiman, NIPS Workshop, 1996] Breiman Friedman
  • 36. Métodos de Potenciación n  La idea es tomar una muestra aleatoria de los datos originales y aplicar sobre esta un método clasificatorio luego aumentar el peso (potenciar) a los individuos mal clasificados para que en la siguiente aplicación del método clasificatorio se enfoque más en estos individuos mal clasificados, mejorando su clasificación, y así sucesivamente … n  Observación: Solo funciona para problemas de clasificación binarios (de 2 clases).
  • 37. Métodos de Potenciación G(x)= Clasificador Final Tabla de Entrenamiento 1° Muestra con nuevos pesos 2° Muestra con nuevos pesos M° Muestra con nuevos pesos
  • 41. “LASSO” Regression Método LASSO (Propuesto por Robert Tibshirani en 1996)
  • 43. Matricialmente Solución à NO hay solución explícita Lasso Ridge
  • 45. Aplicación a la Detección de Fraudes en Tarjetas de Crédito
  • 46. Proceso de Monitoreo Transacciones Vector Personal Modelos Predictivos Proceso de Análisis (en línea) Problema del Fraude en tarjetas de crédito y débito Reglas de Experto
  • 47. Validación cruzada usando K grupos (K-fold cross-validation) K grupos → K iteraciones
  • 48.
  • 49.
  • 50.