Guía para la elaboración de un artículo científico

Elaboración de un Artículo
Caso
de
Estudio:
Calificación
Crediticia
Análisis Cuantitativo del Riesgo
Economia de Riesgo e Incertidumbre
David Solís

Marco de Referencia
IMRAD (Introducción,
Materiales y Métodos,
Resultados y Discusión)

Macro Estructura de un Artículo
3

Establecer un dominio
Identiﬁcar área de investigación general / revisar
investigación previa
Establecer un nicho
Existencia de gaps / pregunta
Ocuparlo
Propósito de investigación / hallazgos /
esbozo de artículo
Introducción
¿Qué pregunta o
problema fue estudiado?
3

Establecer un nicho
Ocuparlo
esbozo de artículo
Método
Resultados
Introducción
¿Qué pregunta o
¿Cómo se abordó el problema?
¿Cuáles son los hallazgos?
3

Establecer un nicho
Ocuparlo
esbozo de artículo
Resumen de hallazgos
con respecto a las preguntas de la
investigación
Conclusión
recomendaciones
Método
Resultados
Introducción
¿Qué pregunta o
Discusión
¿Qué signiﬁcan?
¿Cómo se abordó el problema?
¿Cuáles son los hallazgos?
3

Revisión de Literatura
4
Revisión amplia de artículos

4
Selección de las fuentes
tratando de no cubrir demasiado

4
Énfasis en la pregunta /
problema de investigación

4
Énfasis en la pregunta /
problema de investigación
Interpretación de resultados
y discusión

Caso de Estudio
Caliﬁcación Crediticia

Definiciones
7
Calificación de comportamiento
Se trata de principios que son similares a
de calificación de solicitudes, con la
diferencia de que se refiere a los clientes
existentes. Estos modelos utilizan los
datos históricos de los clientes.
Solicitud de calificación de
crédito
Se refiere a la evaluación de la solvencia
de los nuevos solicitantes. Cuantifica el
valor predeterminado, asociado con las
solicitudes de crédito, por preguntas en el
formulario de solicitud
Calificación de cobro
Se utiliza para dividir los clientes con
diferentes niveles de insolvencia en
grupos, separando aquellos que requieren
acciones más decisivas de los que no
necesitan ser atendidos de inmediato.
Estos modelos se distinguen en función
del grado de recuperación y permiten una
mejor gestión de los clientes morosos.
Detección de fraudes
Los modelos de calificación de fraude
clasifican los candidatos en función de la
probabilidad relativa de que una solicitud
puede ser fraudulenta.

Modelo Caliﬁcación Crediticia
8
El modelo de caliﬁcación de crédito corresponde a la
relación entre la información histórica y el futuro
desempeño crediticio. Esta relación se puede describir
como

8
como
f(x1, x2, ..., xm) = yn

8
como
f(x1, x2, ..., xm) = yn
Atributos del cliente
(características)

8
como
f(x1, x2, ..., xm) = yn
Tipo de cliente
(calidad crediticia)
(características)

8
como
f(x1, x2, ..., xm) = yn
Tipo de cliente
(calidad crediticia)
(características)
Predecir el valor de yn
conociendo x1, x2, …, xm

9
Límites ideales (convencionales) para la clasiﬁcación

Introducción
Identiﬁcar área de investigación general

11
Problema de Calificación Crediticia
Estos modelos se construyen utilizando la información
histórica de miles de clientes. Para cada aplicación, se
toman un formulario de solicitud y la historia en un
período fijo, y a continuación se decide si su historial es
aceptable o no, es decir, es si es un mal cliente o no.
En concreto, el objetivo de la calificación crediticia es
clasificar a los solicitantes de crédito como buenos o
malos clientes, por lo que se encuentra en el dominio de
un problema de clasificación.

12
Aprendizaje Automático
Se ocupa de predecir un resultado en particular dado algunos datos. Puede
formularse como un modelo probabilístico formal, en general no se preocupa por
las estimaciones de parámetros y se centra en la eficiencia computacional.
Minería de Datos
Consiste en la construcción de modelos con el fin de detectar los patrones que
nos permitan clasificar y predecir situaciones dado una cantidad de hechos o
factores. Por lo general implica cómo organizar y accesar los datos.
Métodos Estadísticos
Regresión Logística. Modelo para clasificación utilizado para predecir el
resultado de una variable dependiente categórica de dos clases, basado en una
o más variables predictoras (características).
Análisis Discriminante. Método para encontrar una combinación de atributos
que caracterizan o separan a dos o más clases de objetos.

Introducción
Revisar investigación previa

Artículo 1
14
A s s e s s i n g C o n s u m e r C r e d i t
Applications by a Genetic Programming
Approach
2013
Salvatore Rampone, Franco Frattolillo, Federica Landolﬁ
Este documento propone un enfoque de programación
genética para la evaluación de riesgos. En particular, el
estudio está establecido con el ﬁn de predecir, en una
colección de datos sobre préstamos, si una solicitud de
crédito debe ser aprobada o rechazada. La tarea consiste
en utilizar los datos existentes para desarrollar reglas para
la colocación de nuevas observaciones.

Artículo 2
15
Quantitative credit risk assessment
using support vector machines: Broad
versus Narrow default definitions
2013
Terry Harris
Este trabajo compara modelos de calificaciones crediticias
basados en máquinas de soporte vectorial (SVM). Este
trabajo buscó crear modelos precisos de clasificación de
crédito de una cooperativa de crédito con sede en
Barbados. En este caso, los resultados de las pruebas
empíricas revelan que la evaluación del riesgo de crédito se
puede mejorar si se utilizan modelos de riesgo de crédito
cuantitativos en comparación con el enfoque discrecional
actual.

Artículo 3
16
Non-parametric Statistical Analysis of
Machine Learning Methods for Credit
Scoring
2012
V. García, A.I. Marqués, and J.S. Sánchez
Se han explorado diversas técnicas de aprendizaje
automático para la caliﬁcación de crédito, pero no hay
conclusiones consistentes sobre qué método muestra el
mejor comportamiento. En este trabajo se presenta un
análisis experimental en cinco bases de datos del mundo
real con varios modelos de caliﬁcación de crédito. En
particular, se analiza el desempeño de este conjunto de
algoritmos por medio de una prueba estadística no
paramétrica.

Artículo 4
17
Data Mining Techniques for Credit Risk
Assessment Task
2013
Adnan Dzelihodzic, Dzenana Donko
Este documento es la revisión del uso actual de la minería
de datos, aprendizaje automático, técnicas estadísticas
(regresión logística, análisis discriminante) y otros
algoritmos para la evaluación del riesgo de crédito. Es difícil
decir qué modelo, clasiﬁcador o técnica de minería de
datos es la mejor. Cada modelo depende de conjunto de
datos en particular o conjunto de atributos, por lo que es
muy importante el desarrollo de modelos ﬂexibles que se
adapten a cada conjunto de datos o conjunto de atributos.

Artículo 5
18
A New Dynamic Credit Scoring Model
Based on the Objective Cluster
Analysis
2014
Gao Wei, Cao Yun-Zhong and Cheng Ming-shu
Este trabajo presenta un nuevo modelo de caliﬁcación de
crédito dinámico basado en el método de análisis objetivo
de clusters (OCA), el conjunto de datos de prueba es
dividido en múltiples sub áreas, y el periodo de observación
es dividido en varios periodos. Los resultados empíricos
muestran que este nuevo modelo disminuye efectivamente
la tasa de errores de clasiﬁcación, e incrementa la
frecuencia precisa para la predicción de los malos clientes.

Artículo 6
19
A Data Driven Ensemble Classifier for
Credit Scoring Analysis
2009
Nan-Chen Hsieh, Lun-Ping Hung, and Chia-Ling Ho
Este estudio se centra en predecir si un solicitante de
crédito puede ser categorizado como bueno, malo o en el
límite a partir de la información suministrada inicialmente.
Se introduce el concepto de clasificación por categorías
como un paso previo de procesamiento para obtener un
conjunto de clasificadores eficiente. El conjunto propuesto
se construye mediante la incorporación de varias técnicas
de minería de datos, redes neuronales, máquinas de
soporte vectorial y redes bayesianas.

Artículo 7
20
Credit rating by hybrid machine
learning techniques
2009
Chih-Fong Tsai, Ming-Lun Chen
Estudios recientes centrados en modelos híbridos
combinando diferentes técnicas de aprendizaje automático
han mostrado resultados prometedores. Se considera un
conjunto de datos de un banco en Taiwán para el
experimento. Los resultados experimentales muestran que
el modelo híbrido de “Clasificación + Clasificación” basado
en la combinación de regresión logística y redes neuronales
puede proporcionar la más alta precisión de la predicción y
maximizar el beneficio.

Artículo 8
21
A Bayesian latent variable model with
classification and regression tree
approach for behavior and credit
scoring
2012
Ling-Jing Kao, Chih-Chou Chiu, Fon-Yu Chiu
Se construye un modelo bayesiano de variables latentes con
enfoque de clasificación y regresión de árboles para enfrentar tres
retos encontrados por un banco en el proceso de otorgamiento
de crédito:(1) interpretar el comportamiento futuro de un solicitante
con precisión; (2) determinar el límite de crédito óptimo dada la
información actual del uso de crédito y comportamiento de pago;
y (3) mejorar su eficiencia mediante la automatización del proceso
de decisiones de concesión de créditos. El historial de crédito de
un titular de la tarjeta ofrece la información más importante en la
calificación de crédito.

Artículo 9
22
Credit risk assessment model for
Jordanian commercial banks: Neural
scoring approach
2014
Hussain Ali Bekhet, Shorouq Fathi Kamel Eletter
Las redes neuronales artificiales representan una nueva familia de
técnicas estadísticas y de herramientas de minería de datos
prometedores que se han utilizado con éxito en problemas de
clasificación en muchos dominios. Este documento propone dos
modelos de evaluación de crédito que utilizan técnicas de minería de
datos para apoyar las decisiones de préstamo de los bancos
comerciales jordanos. Los resultados indican que el modelo de regresión
logística fue ligeramente mejor que el modelo de función de base radial
en términos de la tasa general de exactitud. Sin embargo, la función de
base radial fue superior en la identificación de los clientes que pueden
dejar de pagar.

Artículo 10
23
Data mining feature selection for credit
scoring models
2005
Y Liu, M Schumann
Las características utilizadas pueden tener un efecto importante en el
rendimiento de los modelos de calificación de crédito. El proceso de elegir el
mejor conjunto de características de los modelos de calificación de crédito
suele ser poco sistemático y dominado por el juicio experto.
Este trabajo presenta un estudio empírico de cuatro métodos de aprendizaje
automático para la selección de características. Estos métodos proporcionan
una técnica de minería de datos para reducir el espacio de características. El
estudio muestra cómo cuatro métodos de selección de características
ayudan a mejorar tres aspectos del desempeño de los modelos de
calificación: simplicidad, velocidad y precisión.

Introducción
Encontrar gaps / Elaborar pregunta de Investigación

Resumen
25
E n f o q u e d e
p r o g r a m a c i ó n
genética para la
e v a l u a c i ó n d e l
riesgo de crédito.
Los modelos de
riesgo de crédito
cuantitativos mejoran
la evaluación del
riesgo de crédito.
S e a n a l i z a e l
d e s e m p e ñ o p o r
m e d i o d e u n a
prueba estadística
no paramétrica de
m é t o d o s d e
a p r e n d i z a j e
automático.
E x i s t e u n a a l t a
dependencia de los
datos y el modelo a
utilizar tiene que ser
lo suficientemente
fl e x i b l e p a r a
adaptarse a los
datos.
E l m é t o d o d e
análisis objetivo de
clusters disminuye
efectivamente la tasa
d e e r r o r e s d e
clasificación.
S e i n t ro d u c e e l
c o n c e p t o d e
clasificación por
categorías como un
paso previo para
obtener un conjunto
de clasificadores
eficiente.

Resumen
26
El modelo híbrido
“ C l a s i fi c a c i ó n +
Clasificación” puede
proporcionar la más
alta precisión de la
predicción.
El historial de crédito
del titular ofrece la
información más
importante en la
c a l i fi c a c i ó n d e
crédito.
E l m o d e l o d e
regresión logística
f u e l i g e r a m e n t e
mejor que el modelo
de función de base
radial en términos de
la tasa general de
exactitud.
L o s m o d e l o s
híbridos basados en
regresión logística y
redes neuronales
proporcionan alta
p r e c i s i ó n e n l a
predicción.
El modelo de función
de base radial fue
s u p e r i o r q u e e l
modelo de regresión
l o g í s t i c a e n l a
identificación de los
clientes que pueden
dejar de pagar.
Las características
utilizadas pueden
t e n e r u n e f e c t o
importante en el
rendimiento de los
m o d e l o s d e
c a l i fi c a c i ó n d e
crédito.

Diagrama Ex-ante
28
Datos
Alta dependencia
Características utilizadas
Historial de Crédito
  Métodos Estadísticos 
Vecinos más cercanos
Regresión logística
Análisis discriminante 
Clasificación
+Clasificación
Regresión logistica +
redes neuronales
Clasificación por
categorias
 
Modelos Híbridos
Prueba estadística
no paramétrica
Tasa de errores en
la clasificación
 
Precisión en la
Predicción
Modelo Óptimo
de Calificación
Crediticia

Introducción
Propósito de investigación / Hallazgos / Esbozo de
artículo

30
Objetivo de la Investigación
Generalmente los modelos de calificación crediticia son considerados una
ventaja competitiva para las instituciones financieras, razón por la que no son
totalmente abiertos.
Por la alta dependencia de los datos no es posible definir un modelo general que
sea óptimo y eficiente para todos los casos.
Dado lo anterior, el problema aún no ha sido resuelto, es un tema actual de
investigación y continuamente aparecen nuevos modelos y enfoques.
La hipótesis planteada es que un modelo híbrido para la calificación crediticia
basado en minería de datos y un conjunto de clasificadores es más eficiente que
un modelo basado en regresión logística o análisis discriminante.

Modelo Híbrido
31
Datos
Limpieza de datos
y selección de
características
Regresión
Logistica
GBM
Bayesiano
Red Neuronal
Caliﬁcación
Preliminar
Caliﬁcación Final
Calibración

Modelo Híbrido
31
Agrupación e
Identiﬁcación de
Outliers
Mejor subconjunto
de variables
basado en el valor
Datos
Limpieza de datos
y selección de
características
Regresión
Logistica
GBM
Bayesiano
Red Neuronal
Caliﬁcación
Preliminar
Calibración

Modelo Híbrido
31
Validación cruzada
k iteraciones
Datos
Limpieza de datos
y selección de
características
Regresión
Logistica
GBM
Bayesiano
Red Neuronal
Caliﬁcación
Preliminar
Calibración

Modelo Híbrido
31
Combina
caliﬁcaciones de
regresión logistica,
GBM y bayesiano
Datos
Limpieza de datos
y selección de
características
Regresión
Logistica
GBM
Bayesiano
Red Neuronal
Caliﬁcación
Preliminar
Calibración

32
0 1
0 1
Clasiﬁcación por clase para establecer grupos
conglomerados homogéneos
Muestras no representativas (en la frontera)
Muestras aisladas (atípicas - outliers)
A
B

Materiales y Métodos
Presentar el trabajo realizado, cómo y cuándo, y cómo se
analizaron los datos.

Datos
‣ Primera opción: Banco mexicano
‣ En negociación.
‣ Segunda opción: UCI Machine Learning Repository
‣ El conjunto de datos de crédito consta de un conjunto de
préstamos concedidos a un total de 1,000 solicitantes,
considerando 700 muestras de solicitantes solventes y 300
muestras donde el crédito no debe otorgarse. Para cada
solicitante, 20 variables describen la historia de crédito, saldos de
cuentas, el propósito del préstamo, monto del préstamo, situación
laboral, y la información personal. El conjunto de datos es un reto
porque contiene una mezcla de valores continuos y categóricos,
que confunde a la tarea de aprendizaje en la clasiﬁcación.
35

Método de Evaluación
‣ Curva o análisis ROC (acrónimo de Receiver Operating
Characteristic)
‣ Representación gráﬁca de la tasa de éxito (probabilidad de detectar
correctamente una señal cuando dicha señal está efectivamente presente)
frente a la tasa de falsa alarma (probabilidad de detectar una señal cuando
efectivamente no está presente) para tareas de detección con sólo dos
resultados posibles (sí / no, presente / ausente), según se varía el umbral o
criterio para detectar la señal a lo largo de la escala de valores a partir de los
cuales se hace la detección.
‣ AUC (acrónimo de Area Under Curve)
‣ Métrica de evaluación comúnmente usado para problemas de clasiﬁcación
binarios. La interpretación es que dada una observación positiva al azar y la
observación negativa, el AUC da la proporción de veces en que se acierta
correctamente. Un modelo perfecto marcará una AUC de 1, mientras que
adivinar al azar marcará una AUC de alrededor de 0.5.
36
Conceptos

37
Curva ROC

37
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x
'rocf2.dat'
1 - especiﬁcidad
sensibilidad
Curva ROC Primer Clasiﬁcador

37
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x
'rocf2.dat'
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x
'rocf2.dat'
'rocpsuma.dat'
1 - especiﬁcidad
sensibilidad
Curva ROC Segundo Clasiﬁcador

37
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x
'rocf2.dat'
0
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 1
x
'rocf2.dat'
'rocpsuma.dat'
1 - especiﬁcidad
sensibilidad
Curva ROC
AUC es literalmente el
área bajo la curva ROC,
es decir el porcentaje del
cuadro amarillo que se
encuentra bajo la curva.
Segundo Clasiﬁcador

Curva ROC
38

Curva ROC
38
La curva ROC
muestra todos los
posibles umbrales

Curva ROC
38
Elección al azar
La curva ROC
muestra todos los
posibles umbrales

Curva ROC
38
Clasiﬁcador Perfecto
AUC = 1
Elección al azar
La curva ROC
muestra todos los
posibles umbrales

Curva ROC
38
Clasiﬁcador Perfecto
AUC = 1
Clasiﬁcador Pobre
AUC ≈ 0.5
Elección al azar
La curva ROC
muestra todos los
posibles umbrales

40
Referencias
Otras fuentes
Libros

¿Preguntas? 
¿Más Información?
David
Solís

dsolis@apache.org

Guía para la elaboración de un artículo científico

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Guía para la elaboración de un artículo científico

Similar a Guía para la elaboración de un artículo científico (20)

Más de David Solis

Más de David Solis (20)

Último

Último (20)

Guía para la elaboración de un artículo científico