SlideShare una empresa de Scribd logo
1 de 9
Construcción de Modelos:
Existen varios tipos de modelos. Revisaremos aquí cómo construir algunos de
ellos y luego haremos una comparación. Todas las construcciones aquí
revisadas son hechas con métodos estadísticos. Esto significa que las
variables escogidas y la manera de mezclarlas se realiza con algoritmos bien
definidos, que utilizan la información de la muestra de construcción, y que
pueden ser implementados en el computador.
Modelos invariados:
Un modelo univariado es uno que usa una sola variable. Por ejemplo:
 Si antigüedad menor a 18 meses rechace. Si no, acepte.
Otro ejemplo de modelo univariado:
 Si edad está entre 25 y 65 acepte. Si no rechace.
Para construir estos modelos se puede calcular el KS en la muestra de
construcción tomando para cada variable el mejor punto de corte. Finalmente el
modelo escogido es alguno con buen KS.
Imaginemos que en la base de construcción se calcularon los KS siguientes:
Esto significa que si se escoge Edad y ésta tiene ese KS para el punto de corte
26,3 años, entonces el modelo
Si edad <= 26,3 años rechace. Si no acepte.
Debe ahora correrse este modelo sobre una muestra de testeo. Si el KS en la
muestra de testeo da 15,2, entonces 15,2 es el estimador de KS que tiene el
modelo.
Lo que sigue es muy importante:
Puede ser que jugando con el punto de corte se descubre que en la base de
testeo el punto de corte 23,7 años da un KS mejor, por ejemplo un KS de 17,8.
Sin embargo, si se desea usar ese nuevo punto de corte entonces debe
testearse el modelo en otra muestra independiente para poder estimar el KS. Si
no, no vale el cálculo como estimador de lo que será la capacidad de
discriminación con nuevos clientes o con otra base. Tercera advertencia: es la
misma advertencia que las dos anteriores ante el mismo error. Si no entiende
este error, entonces está preparado para cometer un error grave.
Modelos con puntaje lineal:
Un modelo con puntaje lineal requiere convertir todas las variables a
numéricas, o usar sólo aquellas que se traducen a números. Por ejemplo,
habría que traducir la variable sexo con valores Masculino y Femenino a la
variable sexo_N con valores 0 y 1 respectivamente.
Un modelo de puntaje usa una suma de variables ponderadas. Este tipo de
mezclas se llama combinación lineal. Por ejemplo, un modelo de puntaje es el
siguiente:
Puntaje = 1,2*Edad + 0,5*Antigüedad – 5,4*Cargas
Si Puntaje <= 30 rechace. Si no acepte.
Un modelo de puntaje asume implícitamente que existe una moneda de
intercambio que dice cuánto de una variable es equivalente a cuánto de otra,
cuando el resto de las variables están fijas. Esto significa que si una variable
está complicada, esto puede ser compensado por otras. Esta suposición es
muy discutida, pues hay factores como los de moralidad que si están mal se
debe rechazar el cliente sin importar qué tan bien estén las otras variables. Sin
embargo, si la moralidad está bien, entonces otros factores tienen gran
importancia. Un criterio así, no puede ser puesto como suma ponderada de
factores.
Los métodos de construcción de modelos de puntaje tratan de encontrar los
mejores coeficientes posibles de manera que la capacidad de discriminación
del modelo sea máxima. Para esto, normalmente se calculan para cada
variable promedios de las variables para clientes malos y los promedios de las
variables de los clientes buenos. Además se calculan las dos matrices de
covarianzas, la para clientes malos y las para clientes buenos. Usando los
promedios y las covarianzas puede encontrarse una nueva variable que resulta
ser suma ponderada de las originales. Esa nueva variable es un mecanismo de
puntaje que puede tener un buen KS. Si para todas las variables tanto la
distribución de clientes buenos como malos son normales, y ambos con la
misma covarianza, entonces el mecanismo es óptimo. Existen otra gran
variedad de otros métodos que son variaciones del anterior. No está claro cuál
es el mejor, pero para datos normales (gaussianos), el descrito con la
covarianza es el óptimo.
Modelos con árboles:
La construcción de un árbol se hace por etapas. En cada etapa se selecciona
una de las variables más discriminantes y de acuerdo a ella se segmenta lo
que queda de la muestra en dos.
Tomemos como ejemplo esta mini muestra (sacada de [2]) de construcción con
12 clientes (6 buenos y 6 malos), y cinco variables: Salario, Casa Propia, Auto
Propio, Edad y Estado Civil.
Esta muestra es extremadamente chica como para hacer nada serio, pero
permite ilustrar los conceptos básicos. Además, este ejemplo juguete permite
calcular a mano todo lo que sea necesario, y así asegurarse que uno ha
entendido el algoritmo de construcción de árboles.
Tomemos además esta segunda muestra con 8 clientes (4 buenos y 4 malos),
y las mismas cinco variables. Esta será nuestra muestra para testeo.
Los KS de cada variable junto a su desviación estándar, según la muestra de
construcción, son:
Claramente la desviación es enorme. Esto se debe al tamaño extremadamente
pequeño de la muestra. Aun así, la variable Salario es la más discriminante.
Si escogemos Salario y segmentamos por esa variable, obtenemos el siguiente
árbol
Este es un árbol muy elemental. En el segmento izquierdo están aquellos
clientes con salario <= 150. De la muestra de construcción quedan 6 clientes
(es decir 41,7% de los clientes que están en la muestra), y estos se reparten en
uno bueno y 4 malos. En el segmento derecho están aquellos clientes con
salario mayor a 150. Hay un total de 7, de los cuales 5 son buenos y 2 son
malos. Este modelo tiene un KS de 50%. Ambos segmentos pueden seguir
segmentándose. Sin embargo, dado el error lo dejamos hasta acá.
Ahora, es muy importante medir el KS del modelo y su desviación en la
muestra de testeo. Eso son los valores que importan. Usando la muestra de
testeo, tenemos que cinco casos quedan en el segmento izquierdo y tres en el
derecho:
O sea el KS es sólo de 25%. Esto quiere decir que si tomamos otra muestra
cualquiera de clientes, independiente de la muestra de construcción, el KS
andará alrededor de 25%, pudiendo variar desde 0 hasta 71% en la gran
mayoría de los casos.
Modelos no lineales:
Existen varios tipos de modelos no lineales. Uno de los tipos no lineales es el
de árboles de decisión. Otros son las redes neuronales, los algoritmos
genéticos y muchos otros.
Los modelos de redes neuronales asumen que todas las variables son
numéricas. Si no lo son, o sólo se trabaja con las numéricas o bien se
convierten a numéricas de acuerdo a un criterio especificado. El modelo
neuronal busca una combinación de variables con sumas ponderadas y
funciones umbrales (si el valor es más allá de cierto umbral sale uno, si no sale
cero).
Los modelos genéticos también requieren variables numéricas. Los algoritmos
recombinan criterios creando nuevos a partir de criterios básicos con métodos
similares a la creación de moléculas recombinando partes de moléculas y
haciendo mutaciones. En este caso, se mutan partes de fórmulas y se crean
nuevas juntando fórmulas. Aquellas fórmulas con mejor capacidad de
discriminación van sobreviviendo, y vuelven a mutarse y recombinarse.
Eventualmente se llegan a buenas fórmulas que corresponden a criterios con
buena capacidad de discriminación.
Análisis comparativo de diferentes tipos de modelos y algoritmos
Naturalidad
Un aspecto muy importante de un modelo es que sea natural para la mente
humana. Que exprese en un lenguaje fácil de comprender las características
esenciales de los diferentes patrones de riesgo en la cartera. Muchas veces
este producto de un modelo es el esencial. Permite hacerse un claro
diagnóstico del estado de la cartera, encontrar oportunidades y hacer ajustes a
las políticas. En general, para el análisis de riesgo crediticio, los modelos tipo
árbol son más naturales que otros. Esta mayor naturalidad se debe a que
encontrar un árbol discriminante es equivalente a encontrar segmentos con
diferentes niveles de riesgo, unos bien distintos de los otros. Por ejemplo, el
segmento de los menores a 25 años y sin casa propia no es más que un nodo
de un árbol. Esta manera de concebir el riesgo, describiendo segmentos con su
riesgo asociado, es una manera natural e intuitiva. Es una manera
ecológicamente válida, es decir, está expresada en un formato natural a la
mente.
Capacidad de discriminación
Un estudio internacional, (ver [1]) llevado a cabo durante 4 años por varios
centros estadísticos universitarios e industriales de varios países de la
Comunidad Europea que compararon varias decenas de métodos, concluyó
que los métodos de árboles de decisión son los de mejor capacidad de
discriminación en crédito. De 23 algoritmos probados, de los cuales 5 eran de
árboles de decisión, el mejor resultó ser de árbol de decisión y tres algoritmos
de árboles estaban entre los seis primeros lugares. El estudio concluyó que
“parte de la razón del éxito (de los árboles) en esta área es sin lugar a dudas
que los métodos de árboles de decisión pueden manejar más naturalmente con
una gran cantidad de atributos binarios o categóricos (siempre que el número
de alternativas sea pequeño). Ellos también incorporan términos de interacción
en su desarrollo. Y, quizás más significativamente, ellos son un espejo del
proceso de decisión humana”.
Estabilidad, simplicidad y comunicabilidad
Aparte de la capacidad de discriminación de un modelo, y en particular de un
modelo tipo árbol, es muy importante considerar la estabilidad, simplicidad y
comunicabilidad.
Estabilidad significa que en muestras independientes sus indicadores de
discriminación no varíen mucho. Naturalmente, esto depende del tamaño de la
muestra con que se construyó el modelo. Pero también depende si se intentó
sobre ajustar la información, llegando hasta segmentos con muy pocos
casos. Otra prueba importante de estabilidad es ver cuántos varían los
indicadores medidos en diferentes condiciones de stress (por ejemplo, sacando
clientes malos muy evidentes). Otra prueba adicional de estabilidad es
determinar cómo se comportan los indicadores a través del tiempo.
Simplicidad significa que cada vez que hay dos modelos o árboles con similar
capacidad de discriminación y estabilidad, es preferible el más simple: con
menos variables, menos condiciones, y con segmentos que hagan sentido.
Comunicabilidad significa que el árbol puede resumirse en algunos criterios o
segmentos fáciles de interpretar y relatar a terceros. Esto asegura que si hubo
algún error en el proceso de construcción, o se han producido cambios
macroeconómicos o cambios en el mercado objetivo, entonces será fácil
detectar esos problemas. La comunicabilidad facilita el seguimiento y la
capacidad de hacer ajustes oportunos, mucho antes que errores o desajustes
sean muy evidentes.
Inclusión de variables indirectas
La construcción de un buen modelo, sea éste tipo árbol o no, depende de la
inclusión de variables significativas que no siempre está explícitamente en la
información original. Por ejemplo, variables como:
 Número de veces con mora sobre 30 días en los últimos 6 meses
 Altura máxima de mora en los últimos 3 meses
 Saldo actual / saldo promedio en los últimos 3 meses, etc.
Es importante incluir un gran conjunto de estas variables y echarlas a competir
con las otras. Así el algoritmo de construcción las tendrá en cuenta tanto
separadamente para toda la muestra de construcción como en cada uno de los
segmentos particulares que se vayan definiendo.
Determinación de niveles de riesgo para diferentes segmentos y puntos
de corte según rentabilidad.
Un árbol contiene varios segmentos finales. Cada segmento tiene una
combinación de clientes buenos y clientes malos. El nivel de riesgo de cada
segmento se obtiene contando los clientes buenos y malos que caen en el
segmento, y calculando sus proporciones.
Retomemos el ejemplo 3. En el nodo izquierdo, que corresponde al segmento
edad menor a 25 años hay 400 clientes buenos y 200 malos. Por lo tanto la
tasa de malos es 33,3% y la de buenos es 66,6%. En el nodo del medio
correspondiente al segmento de clientes con edad igual o mayor a 25 años y
solteros, hay 800 buenos clientes y 200 malos. Por lo tanto la tasa de malos es
20%. En el otro nodo, el de la derecha, correspondiente a clientes con edad
igual o mayor a 25 años y casados, hay 8300 clientes buenos y 100 malos. Es
decir, la tasa de malos es 1,2%.
El mismo árbol puede tener varios puntos de corte. Por ejemplo, podemos
 Aceptar todos
 Rechazar a los con edad menor a 25 años
 Rechazar a los con edad menor a 25 años o a los solteros con edad 25
años o más
 Rechazar a todos
Las otras combinaciones no son naturales de acuerdo al árbol. Para cada corte
tendremos un KS, y su correspondiente desviación. El corte óptimo se decide
con la muestra de construcción.
Una vez escogido el corte, se evalúan todos los clientes de la muestra de
testeo. Se cuentan cuántos clientes buenos y malos caen en la zona de
rechazo (menor al corte), y con esos datos se obtiene una estimación del KS.
Ajustes
Inclusión de clientes negados
La información de clientes negados es muy importante para detectar
posibilidades de ampliar los criterios crediticios actuales. Es muy posible que se
hayan estado rechazando clientes que podrían haber tenido un buen
comportamiento. Varios de esos clientes deben tener ciertos perfiles, es decir,
pertenecer a ciertos segmentos bien definidos. El problema es que hay que
detectar cuáles son esos segmentos. Una vez detectados, pueden relajarse
criterios crediticios para pasar a aceptar clientes en esos segmentos.
Información necesaria que debe tenerse para poder usarse la información de
negados
El mayor problema para implementar la estrategia de incluir negados en la
construcción del modelo es la escasez de información sobre los negados. Es
necesario haber dejado almacenada toda la información al momento de la
presentación, tal como con los clientes aceptados. Esto incluye información de
moralidad proveniente de centrales de riesgo, información demográfica y
financiera. Si no está esta información relativamente completa, una estrategia
es intentar conseguirla con terceros. Por ejemplo, con centrales de riesgo.
Por otra parte, es importante conseguir información de comportamiento de esos
clientes con operaciones crediticias similares que pudieran haber conseguido
en esos mismos momentos con terceros. Esta información puede conseguirse
trabajando con centrales de riesgo.
Compra de información de negados almacenada en centrales de riesgo
externas
Para que la adquisición en centrales de riesgo sea efectiva debe tener los
siguientes requisitos:
 Debe ser información de los clientes negados o de una muestra aleatoria
de negados suministrado por el constructor del modelo, no por la central
de riesgo.
 La información de iniciación debe ser al momento (a la misma fecha) en
que se negó el cliente. Este punto es delicado, pues no es
necesariamente fácil para la central de riesgo conseguirla. El trabajo es
no trivial, pues diferentes clientes son negados en diferentes fechas.
Para la central le es fácil conseguir la información de todos lo clientes a
la misma fecha.
 La información de comportamiento de cada clientes es desde el
momento de negación en adelante, y ojalá haciendo seguimiento a una
operación crediticia conseguida con terceros que sea similar a la
negada.
Ajustes según definición de buenos y malos
¿Qué pasa si se cambia la definición de buenos versus malos, después que el
modelo está terminado? ¿Es necesario rehacer todo de nuevo?
Es normal hacer ajustes a la definición de buenos y malos. Por ejemplo, para
iniciación, de una definición de bueno como aquel cliente que durante los dos
años iniciales del crédito nuca pasó de mora de 90 días, cambiar una definición
de bueno como aquel cliente que durante los dos años iniciales del crédito
nuca pasó de mora de 120 días. Otro cambio, es definir como bueno aquel
cliente que durante el primer año inicial del crédito nuca pasó de mora de 90
días.
Todos estos cambios, significan reclasificar la cartera. Luego se pasa toda la
muestra de testeo por el modelo ya construido. Lo único que cambia es la
proporción de buenos y malos en cada segmento final del árbol. Con esa nueva
contabilidad de nuevos y malos se puede calcular directamente el nuevo
estimador de KS.

Más contenido relacionado

La actualidad más candente

6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte Ijpgv84
 
Pruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSPruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSJairo Acosta Solano
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con EviewsRodrigo Paniagua
 
Prueba no paramétrica- Wilcoxon
Prueba no paramétrica- WilcoxonPrueba no paramétrica- Wilcoxon
Prueba no paramétrica- WilcoxonFernanda Alcalá
 
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000Cleto de la Torre
 
Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasGerardo Gomez
 
Conceptos basicos
Conceptos basicosConceptos basicos
Conceptos basicosjavier
 
Econometría Financiera MCRL
Econometría Financiera MCRLEconometría Financiera MCRL
Econometría Financiera MCRLJhon Díaz
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superiorEscuela Militar de Ingeniería (EMI)
 
Distribuciones de Probabilidad
Distribuciones de ProbabilidadDistribuciones de Probabilidad
Distribuciones de ProbabilidadViri_TPerales
 
Manual de uso de eviews vf
Manual de uso de eviews vfManual de uso de eviews vf
Manual de uso de eviews vfHector Argueta
 
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)Álvaro Fierro
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 

La actualidad más candente (19)

Estadistica inferencial
Estadistica inferencialEstadistica inferencial
Estadistica inferencial
 
6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I6 Semana Analisis Multivariante Parte I
6 Semana Analisis Multivariante Parte I
 
Proyecto estadistik listo
Proyecto estadistik listoProyecto estadistik listo
Proyecto estadistik listo
 
Pruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSSPruebas no paramétricas en SPSS
Pruebas no paramétricas en SPSS
 
Compilacion econometria con Eviews
Compilacion econometria con EviewsCompilacion econometria con Eviews
Compilacion econometria con Eviews
 
Manual spss
Manual spssManual spss
Manual spss
 
Prueba no paramétrica- Wilcoxon
Prueba no paramétrica- WilcoxonPrueba no paramétrica- Wilcoxon
Prueba no paramétrica- Wilcoxon
 
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
 
Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricas
 
Conceptos basicos
Conceptos basicosConceptos basicos
Conceptos basicos
 
Econometría Financiera MCRL
Econometría Financiera MCRLEconometría Financiera MCRL
Econometría Financiera MCRL
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superior
 
Pruebas No Parametricas
Pruebas No ParametricasPruebas No Parametricas
Pruebas No Parametricas
 
Comparaciones multiples
Comparaciones multiplesComparaciones multiples
Comparaciones multiples
 
Distribuciones de Probabilidad
Distribuciones de ProbabilidadDistribuciones de Probabilidad
Distribuciones de Probabilidad
 
Manual de uso de eviews vf
Manual de uso de eviews vfManual de uso de eviews vf
Manual de uso de eviews vf
 
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
Qué puede aportar la econometría a mi estrategia de marketing online (parte 1)
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
Compara medias
Compara mediasCompara medias
Compara medias
 

Similar a Construcción de modelo1

TIPOS DE MODELOS MATEMATICOS
TIPOS DE MODELOS MATEMATICOSTIPOS DE MODELOS MATEMATICOS
TIPOS DE MODELOS MATEMATICOSquintomerca
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check themAlex
 
Análisis factorial aplicado en la elaboración de una tesis
Análisis factorial aplicado en la elaboración de una tesisAnálisis factorial aplicado en la elaboración de una tesis
Análisis factorial aplicado en la elaboración de una tesisjuanchojuancho
 
Otras cuestiones sobre el modelo de regresión
Otras cuestiones sobre el modelo de regresiónOtras cuestiones sobre el modelo de regresión
Otras cuestiones sobre el modelo de regresiónMiguel Jerez
 
Inferencia estadistica
Inferencia estadisticaInferencia estadistica
Inferencia estadisticaShouky Delgado
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Jose
 
investigacion de operaciones
investigacion de operacionesinvestigacion de operaciones
investigacion de operacionesManuel Yara
 
4.0 modelos
4.0 modelos4.0 modelos
4.0 modelosjaldanam
 
Análisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialAnálisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialHarold Gamero
 
diagrama de dispersion.pptx
diagrama de dispersion.pptxdiagrama de dispersion.pptx
diagrama de dispersion.pptxEdgarRasgado1
 
Reto Slideshare
Reto SlideshareReto Slideshare
Reto SlideshareMaryliz95
 
Modelo matematico
Modelo matematicoModelo matematico
Modelo matematicoIvanMora35
 

Similar a Construcción de modelo1 (20)

TIPOS DE MODELOS MATEMATICOS
TIPOS DE MODELOS MATEMATICOSTIPOS DE MODELOS MATEMATICOS
TIPOS DE MODELOS MATEMATICOS
 
Estadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSSEstadística: Análisis Factorial con SPSS
Estadística: Análisis Factorial con SPSS
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check them
 
Análisis factorial aplicado en la elaboración de una tesis
Análisis factorial aplicado en la elaboración de una tesisAnálisis factorial aplicado en la elaboración de una tesis
Análisis factorial aplicado en la elaboración de una tesis
 
Otras cuestiones sobre el modelo de regresión
Otras cuestiones sobre el modelo de regresiónOtras cuestiones sobre el modelo de regresión
Otras cuestiones sobre el modelo de regresión
 
Inferencia estadistica
Inferencia estadisticaInferencia estadistica
Inferencia estadistica
 
Informe - Investigacion de Operaciones
Informe - Investigacion de OperacionesInforme - Investigacion de Operaciones
Informe - Investigacion de Operaciones
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación
 
investigacion de operaciones
investigacion de operacionesinvestigacion de operaciones
investigacion de operaciones
 
Path Analysis (Camino de Senderos)
Path Analysis (Camino de Senderos)Path Analysis (Camino de Senderos)
Path Analysis (Camino de Senderos)
 
4.0 modelos
4.0 modelos4.0 modelos
4.0 modelos
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
Análisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialAnálisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística Inferencial
 
Modelos,rf20891189
Modelos,rf20891189Modelos,rf20891189
Modelos,rf20891189
 
Mats.modelos y variables
Mats.modelos y variablesMats.modelos y variables
Mats.modelos y variables
 
diagrama de dispersion.pptx
diagrama de dispersion.pptxdiagrama de dispersion.pptx
diagrama de dispersion.pptx
 
Reto Slideshare
Reto SlideshareReto Slideshare
Reto Slideshare
 
Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3
 
Modelo matematico
Modelo matematicoModelo matematico
Modelo matematico
 

Construcción de modelo1

  • 1. Construcción de Modelos: Existen varios tipos de modelos. Revisaremos aquí cómo construir algunos de ellos y luego haremos una comparación. Todas las construcciones aquí revisadas son hechas con métodos estadísticos. Esto significa que las variables escogidas y la manera de mezclarlas se realiza con algoritmos bien definidos, que utilizan la información de la muestra de construcción, y que pueden ser implementados en el computador. Modelos invariados: Un modelo univariado es uno que usa una sola variable. Por ejemplo:  Si antigüedad menor a 18 meses rechace. Si no, acepte. Otro ejemplo de modelo univariado:  Si edad está entre 25 y 65 acepte. Si no rechace. Para construir estos modelos se puede calcular el KS en la muestra de construcción tomando para cada variable el mejor punto de corte. Finalmente el modelo escogido es alguno con buen KS. Imaginemos que en la base de construcción se calcularon los KS siguientes: Esto significa que si se escoge Edad y ésta tiene ese KS para el punto de corte 26,3 años, entonces el modelo Si edad <= 26,3 años rechace. Si no acepte. Debe ahora correrse este modelo sobre una muestra de testeo. Si el KS en la muestra de testeo da 15,2, entonces 15,2 es el estimador de KS que tiene el modelo. Lo que sigue es muy importante: Puede ser que jugando con el punto de corte se descubre que en la base de testeo el punto de corte 23,7 años da un KS mejor, por ejemplo un KS de 17,8. Sin embargo, si se desea usar ese nuevo punto de corte entonces debe testearse el modelo en otra muestra independiente para poder estimar el KS. Si
  • 2. no, no vale el cálculo como estimador de lo que será la capacidad de discriminación con nuevos clientes o con otra base. Tercera advertencia: es la misma advertencia que las dos anteriores ante el mismo error. Si no entiende este error, entonces está preparado para cometer un error grave. Modelos con puntaje lineal: Un modelo con puntaje lineal requiere convertir todas las variables a numéricas, o usar sólo aquellas que se traducen a números. Por ejemplo, habría que traducir la variable sexo con valores Masculino y Femenino a la variable sexo_N con valores 0 y 1 respectivamente. Un modelo de puntaje usa una suma de variables ponderadas. Este tipo de mezclas se llama combinación lineal. Por ejemplo, un modelo de puntaje es el siguiente: Puntaje = 1,2*Edad + 0,5*Antigüedad – 5,4*Cargas Si Puntaje <= 30 rechace. Si no acepte. Un modelo de puntaje asume implícitamente que existe una moneda de intercambio que dice cuánto de una variable es equivalente a cuánto de otra, cuando el resto de las variables están fijas. Esto significa que si una variable está complicada, esto puede ser compensado por otras. Esta suposición es muy discutida, pues hay factores como los de moralidad que si están mal se debe rechazar el cliente sin importar qué tan bien estén las otras variables. Sin embargo, si la moralidad está bien, entonces otros factores tienen gran importancia. Un criterio así, no puede ser puesto como suma ponderada de factores. Los métodos de construcción de modelos de puntaje tratan de encontrar los mejores coeficientes posibles de manera que la capacidad de discriminación del modelo sea máxima. Para esto, normalmente se calculan para cada variable promedios de las variables para clientes malos y los promedios de las variables de los clientes buenos. Además se calculan las dos matrices de covarianzas, la para clientes malos y las para clientes buenos. Usando los promedios y las covarianzas puede encontrarse una nueva variable que resulta ser suma ponderada de las originales. Esa nueva variable es un mecanismo de puntaje que puede tener un buen KS. Si para todas las variables tanto la distribución de clientes buenos como malos son normales, y ambos con la misma covarianza, entonces el mecanismo es óptimo. Existen otra gran variedad de otros métodos que son variaciones del anterior. No está claro cuál es el mejor, pero para datos normales (gaussianos), el descrito con la covarianza es el óptimo. Modelos con árboles: La construcción de un árbol se hace por etapas. En cada etapa se selecciona una de las variables más discriminantes y de acuerdo a ella se segmenta lo que queda de la muestra en dos.
  • 3. Tomemos como ejemplo esta mini muestra (sacada de [2]) de construcción con 12 clientes (6 buenos y 6 malos), y cinco variables: Salario, Casa Propia, Auto Propio, Edad y Estado Civil. Esta muestra es extremadamente chica como para hacer nada serio, pero permite ilustrar los conceptos básicos. Además, este ejemplo juguete permite calcular a mano todo lo que sea necesario, y así asegurarse que uno ha entendido el algoritmo de construcción de árboles. Tomemos además esta segunda muestra con 8 clientes (4 buenos y 4 malos), y las mismas cinco variables. Esta será nuestra muestra para testeo. Los KS de cada variable junto a su desviación estándar, según la muestra de construcción, son:
  • 4. Claramente la desviación es enorme. Esto se debe al tamaño extremadamente pequeño de la muestra. Aun así, la variable Salario es la más discriminante. Si escogemos Salario y segmentamos por esa variable, obtenemos el siguiente árbol Este es un árbol muy elemental. En el segmento izquierdo están aquellos clientes con salario <= 150. De la muestra de construcción quedan 6 clientes (es decir 41,7% de los clientes que están en la muestra), y estos se reparten en uno bueno y 4 malos. En el segmento derecho están aquellos clientes con salario mayor a 150. Hay un total de 7, de los cuales 5 son buenos y 2 son malos. Este modelo tiene un KS de 50%. Ambos segmentos pueden seguir segmentándose. Sin embargo, dado el error lo dejamos hasta acá.
  • 5. Ahora, es muy importante medir el KS del modelo y su desviación en la muestra de testeo. Eso son los valores que importan. Usando la muestra de testeo, tenemos que cinco casos quedan en el segmento izquierdo y tres en el derecho: O sea el KS es sólo de 25%. Esto quiere decir que si tomamos otra muestra cualquiera de clientes, independiente de la muestra de construcción, el KS andará alrededor de 25%, pudiendo variar desde 0 hasta 71% en la gran mayoría de los casos. Modelos no lineales: Existen varios tipos de modelos no lineales. Uno de los tipos no lineales es el de árboles de decisión. Otros son las redes neuronales, los algoritmos genéticos y muchos otros. Los modelos de redes neuronales asumen que todas las variables son numéricas. Si no lo son, o sólo se trabaja con las numéricas o bien se convierten a numéricas de acuerdo a un criterio especificado. El modelo neuronal busca una combinación de variables con sumas ponderadas y funciones umbrales (si el valor es más allá de cierto umbral sale uno, si no sale cero). Los modelos genéticos también requieren variables numéricas. Los algoritmos recombinan criterios creando nuevos a partir de criterios básicos con métodos similares a la creación de moléculas recombinando partes de moléculas y haciendo mutaciones. En este caso, se mutan partes de fórmulas y se crean nuevas juntando fórmulas. Aquellas fórmulas con mejor capacidad de discriminación van sobreviviendo, y vuelven a mutarse y recombinarse. Eventualmente se llegan a buenas fórmulas que corresponden a criterios con buena capacidad de discriminación. Análisis comparativo de diferentes tipos de modelos y algoritmos Naturalidad Un aspecto muy importante de un modelo es que sea natural para la mente humana. Que exprese en un lenguaje fácil de comprender las características esenciales de los diferentes patrones de riesgo en la cartera. Muchas veces este producto de un modelo es el esencial. Permite hacerse un claro
  • 6. diagnóstico del estado de la cartera, encontrar oportunidades y hacer ajustes a las políticas. En general, para el análisis de riesgo crediticio, los modelos tipo árbol son más naturales que otros. Esta mayor naturalidad se debe a que encontrar un árbol discriminante es equivalente a encontrar segmentos con diferentes niveles de riesgo, unos bien distintos de los otros. Por ejemplo, el segmento de los menores a 25 años y sin casa propia no es más que un nodo de un árbol. Esta manera de concebir el riesgo, describiendo segmentos con su riesgo asociado, es una manera natural e intuitiva. Es una manera ecológicamente válida, es decir, está expresada en un formato natural a la mente. Capacidad de discriminación Un estudio internacional, (ver [1]) llevado a cabo durante 4 años por varios centros estadísticos universitarios e industriales de varios países de la Comunidad Europea que compararon varias decenas de métodos, concluyó que los métodos de árboles de decisión son los de mejor capacidad de discriminación en crédito. De 23 algoritmos probados, de los cuales 5 eran de árboles de decisión, el mejor resultó ser de árbol de decisión y tres algoritmos de árboles estaban entre los seis primeros lugares. El estudio concluyó que “parte de la razón del éxito (de los árboles) en esta área es sin lugar a dudas que los métodos de árboles de decisión pueden manejar más naturalmente con una gran cantidad de atributos binarios o categóricos (siempre que el número de alternativas sea pequeño). Ellos también incorporan términos de interacción en su desarrollo. Y, quizás más significativamente, ellos son un espejo del proceso de decisión humana”. Estabilidad, simplicidad y comunicabilidad Aparte de la capacidad de discriminación de un modelo, y en particular de un modelo tipo árbol, es muy importante considerar la estabilidad, simplicidad y comunicabilidad. Estabilidad significa que en muestras independientes sus indicadores de discriminación no varíen mucho. Naturalmente, esto depende del tamaño de la muestra con que se construyó el modelo. Pero también depende si se intentó sobre ajustar la información, llegando hasta segmentos con muy pocos casos. Otra prueba importante de estabilidad es ver cuántos varían los indicadores medidos en diferentes condiciones de stress (por ejemplo, sacando clientes malos muy evidentes). Otra prueba adicional de estabilidad es determinar cómo se comportan los indicadores a través del tiempo. Simplicidad significa que cada vez que hay dos modelos o árboles con similar capacidad de discriminación y estabilidad, es preferible el más simple: con menos variables, menos condiciones, y con segmentos que hagan sentido.
  • 7. Comunicabilidad significa que el árbol puede resumirse en algunos criterios o segmentos fáciles de interpretar y relatar a terceros. Esto asegura que si hubo algún error en el proceso de construcción, o se han producido cambios macroeconómicos o cambios en el mercado objetivo, entonces será fácil detectar esos problemas. La comunicabilidad facilita el seguimiento y la capacidad de hacer ajustes oportunos, mucho antes que errores o desajustes sean muy evidentes. Inclusión de variables indirectas La construcción de un buen modelo, sea éste tipo árbol o no, depende de la inclusión de variables significativas que no siempre está explícitamente en la información original. Por ejemplo, variables como:  Número de veces con mora sobre 30 días en los últimos 6 meses  Altura máxima de mora en los últimos 3 meses  Saldo actual / saldo promedio en los últimos 3 meses, etc. Es importante incluir un gran conjunto de estas variables y echarlas a competir con las otras. Así el algoritmo de construcción las tendrá en cuenta tanto separadamente para toda la muestra de construcción como en cada uno de los segmentos particulares que se vayan definiendo. Determinación de niveles de riesgo para diferentes segmentos y puntos de corte según rentabilidad. Un árbol contiene varios segmentos finales. Cada segmento tiene una combinación de clientes buenos y clientes malos. El nivel de riesgo de cada segmento se obtiene contando los clientes buenos y malos que caen en el segmento, y calculando sus proporciones. Retomemos el ejemplo 3. En el nodo izquierdo, que corresponde al segmento edad menor a 25 años hay 400 clientes buenos y 200 malos. Por lo tanto la tasa de malos es 33,3% y la de buenos es 66,6%. En el nodo del medio correspondiente al segmento de clientes con edad igual o mayor a 25 años y solteros, hay 800 buenos clientes y 200 malos. Por lo tanto la tasa de malos es 20%. En el otro nodo, el de la derecha, correspondiente a clientes con edad igual o mayor a 25 años y casados, hay 8300 clientes buenos y 100 malos. Es decir, la tasa de malos es 1,2%. El mismo árbol puede tener varios puntos de corte. Por ejemplo, podemos  Aceptar todos  Rechazar a los con edad menor a 25 años  Rechazar a los con edad menor a 25 años o a los solteros con edad 25 años o más  Rechazar a todos
  • 8. Las otras combinaciones no son naturales de acuerdo al árbol. Para cada corte tendremos un KS, y su correspondiente desviación. El corte óptimo se decide con la muestra de construcción. Una vez escogido el corte, se evalúan todos los clientes de la muestra de testeo. Se cuentan cuántos clientes buenos y malos caen en la zona de rechazo (menor al corte), y con esos datos se obtiene una estimación del KS. Ajustes Inclusión de clientes negados La información de clientes negados es muy importante para detectar posibilidades de ampliar los criterios crediticios actuales. Es muy posible que se hayan estado rechazando clientes que podrían haber tenido un buen comportamiento. Varios de esos clientes deben tener ciertos perfiles, es decir, pertenecer a ciertos segmentos bien definidos. El problema es que hay que detectar cuáles son esos segmentos. Una vez detectados, pueden relajarse criterios crediticios para pasar a aceptar clientes en esos segmentos. Información necesaria que debe tenerse para poder usarse la información de negados El mayor problema para implementar la estrategia de incluir negados en la construcción del modelo es la escasez de información sobre los negados. Es necesario haber dejado almacenada toda la información al momento de la presentación, tal como con los clientes aceptados. Esto incluye información de moralidad proveniente de centrales de riesgo, información demográfica y financiera. Si no está esta información relativamente completa, una estrategia es intentar conseguirla con terceros. Por ejemplo, con centrales de riesgo. Por otra parte, es importante conseguir información de comportamiento de esos clientes con operaciones crediticias similares que pudieran haber conseguido en esos mismos momentos con terceros. Esta información puede conseguirse trabajando con centrales de riesgo. Compra de información de negados almacenada en centrales de riesgo externas Para que la adquisición en centrales de riesgo sea efectiva debe tener los siguientes requisitos:  Debe ser información de los clientes negados o de una muestra aleatoria de negados suministrado por el constructor del modelo, no por la central de riesgo.
  • 9.  La información de iniciación debe ser al momento (a la misma fecha) en que se negó el cliente. Este punto es delicado, pues no es necesariamente fácil para la central de riesgo conseguirla. El trabajo es no trivial, pues diferentes clientes son negados en diferentes fechas. Para la central le es fácil conseguir la información de todos lo clientes a la misma fecha.  La información de comportamiento de cada clientes es desde el momento de negación en adelante, y ojalá haciendo seguimiento a una operación crediticia conseguida con terceros que sea similar a la negada. Ajustes según definición de buenos y malos ¿Qué pasa si se cambia la definición de buenos versus malos, después que el modelo está terminado? ¿Es necesario rehacer todo de nuevo? Es normal hacer ajustes a la definición de buenos y malos. Por ejemplo, para iniciación, de una definición de bueno como aquel cliente que durante los dos años iniciales del crédito nuca pasó de mora de 90 días, cambiar una definición de bueno como aquel cliente que durante los dos años iniciales del crédito nuca pasó de mora de 120 días. Otro cambio, es definir como bueno aquel cliente que durante el primer año inicial del crédito nuca pasó de mora de 90 días. Todos estos cambios, significan reclasificar la cartera. Luego se pasa toda la muestra de testeo por el modelo ya construido. Lo único que cambia es la proporción de buenos y malos en cada segmento final del árbol. Con esa nueva contabilidad de nuevos y malos se puede calcular directamente el nuevo estimador de KS.