SlideShare uma empresa Scribd logo
1 de 186
Baixar para ler offline
Modelagem Estat´
                    ıstica
    Para Risco de Cr´dito
                    e




             Carlos Diniz
          Francisco Louzada




ABE - Associa¸˜o Brasileira de Estat´
             ca                     ıstica

                20o SINAPE
               Julho / 2012
Modelagem Estat´
                      ıstica
       Para Risco de Cr´dito
                       e




               Carlos Diniz
                  DEs–UFSCar

           Francisco Louzada
                  ICMC–USP




                Colaboradores

                  H´lio J. Abreu
                   e
                Nat´lia M. Ferreira
                   a
                 Paulo H. Ferreira
                Ricardo F. Rocha
               Agatha S. Rodrigues
             Fernanda N. Scacabarozi
              Anderson L. de Sousa




                  20o SINAPE
Simp´sio Nacional de Probabilidade e Estat´
    o                                     ıstica
               30/07 a 03/08 – 2012
          Hotel Tamba´, Jo˜o Pessoa-PB
                      u    a
Pref´cio
                                     a
         Historicamente, os modelos de Credit Scoring compreendem uma
das principais ferramentas de suporte a concess˜o de cr´dito. O desenvol-
                                        `          a          e
vimento de tais modelos baseia-se, geralmente, na constru¸ao de um pro-
                                                                  c˜
cedimento formal para descrever quais caracter´      ısticas dos clientes est˜o,a
efetivamente, relacionadas com o seu risco de cr´dito e qual a intensidade
                                                    e
e dire¸˜o desse relacionamento. A id´ia central consiste na gera¸˜o de
      ca                                e                                  ca
um escore ou de um grupo de escores atrav´s dos quais clientes potenci-
                                               e
ais possam ser ordenados segundo a sua chance de inadimplˆncia. Nestee
livro apresentamos os procedimentos estat´     ısticos comumente utilizados
na modelagem de Credit Scoring.
         O presente livro tem como base cinco disserta¸˜es de mestrado,
                                                              co
defendidas no Programa de P´s-gradua¸˜o em Estat´
                                  o        ca                ıstica da UFSCar,
um trabalho de conclus˜o de curso do Bacharelado em Estat´
                         a                                              ıstica da
UFSCar e um trabalho de Inicia¸ao Cient´
                                    c˜       ıfica. Trata-se das disserta¸oes   c˜
de Fernanda Nanci Scacabarozi, intitulada Modelagem de Eventos Raros:
Uma Compara¸ao e de Nat´lia Manduca Ferreira, intitulada Presen¸a de
               c             a                                               c
Dados Missing em Modelos de Regress˜o Log´stica, as quais foram orien-
                                         a       ı
tadas pelo Prof. Carlos Diniz; as disserta¸oes de H´lio Jos´ de Abreu, in-
                                            c˜           e        e
titulada Aplica¸˜o de An´lise de Sobrevivˆncia em um Problema de Cre-
                ca        a                  e
dit Scoring e Compara¸˜o com a Regress˜o Log´stica, de Ricardo Ferreira
                       ca                  a       ı
da Rocha, intitulada Combina¸˜o de Classificadores para Inferˆncia dos
                                 ca                                    e
Rejeitados e de Anderson Lu´ de Sousa, intitulada Redes Probabil´sticas
                               ıs                                          ı
de k-Dependˆncia para Problemas de Classifica¸˜o Bin´ria, os quais fo-
             e                                       ca         a
ram orientados pelo Prof. Francisco Louzada; o trabalho de conclus˜o de      a
curso de Agatha Sacramento Rodrigues, intitulado Regress˜o Log´stica a       ı
com Erro de Medida, orientada pelo Prof. Carlos Diniz e o trabalho de
Inicia¸ao Cient´
      c˜        ıfica de Paulo Henrique Ferreira da Silva, intitulado Me-
didas do Valor Preditivo de Modelos de Classifica¸˜o Aplicados a Dados
                                                        ca
de Cr´dito, orientado pelo Prof. Francisco Louzada.
      e
         O livro ´ composto por 9 cap´
                 e                     ıtulos. No Cap´     ıtulo 1 apresentamos
as principais etapas de desenvolvimento de um modelo de Credit Sco-
ring. No Cap´  ıtulo 2 apresentamos a metodologia usualmente utilizada
no contexto de risco de cr´dito, ou seja, modelo de regress˜o log´
                            e                                       a     ıstica e
abordamos tamb´m regress˜o log´
                   e           a   ıstica com erro de medida. No Cap´     ıtulo
3 apresentamos os principais modelos que podem ser utilizados em si-
tua¸oes de eventos raros, tais como fraude e n˜o pagamento da primeira
    c˜                                            a
fatura. No Cap´   ıtulo 4 apresentamos algumas das t´cnicas associadas `
                                                         e                     a
inferˆncia dos rejeitados. No Cap´
      e                             ıtulo 5 apresentamos t´cnicas de com-
                                                             e
bina¸ao de modelos para dados financeiros. O Cap´
     c˜                                               ıtulo 6 trata de an´lise
                                                                          a
de dados financeiros com a presen¸a de dados missing. Modelos alterna-
                                    c
tivos aos modelos usuais de cr´dito s˜o apresentados nos Cap´
                                 e     a                          ıtulos 7 a 9.
No Cap´  ıtulo 7 apresentamos a metodologia de redes probabil´    ısticas. Nos
Cap´ ıtulos 8 e 9 apresentamos a metodologia de an´lise de sobrevivˆncia
                                                       a                 e
e modelos de longa dura¸˜o, respectivamente.
                            ca
          Agradecemos aos alunos do Programa de Doutorado em Estat´          ıs-
tica, DEs -UFSCar, Rubiane Maria Pires, Carolina Costa Mota Para´ e       ıba
Vitor Alex Alves de Marchi, a ex-aluna do Programa de Mestrado Simone
Cristina Obage e aos colegas de Departamento Teresa Cristina Martins
Dias, M´rcio Luis Lanfredi Viola e Luis Ernesto Bueno Salasar, pela
          a
leitura minuciosa e pelas valiosas cr´  ıticas e sugest˜es que contribu´
                                                       o                  ıram
para o enriquecimento do texto. Agradecemos tamb´m ` Associa¸˜o
                                                            e a             ca
                                                                          o
Brasileira de Estat´  ıstica (ABE) e a Comiss˜o Organizadora do 20 SI-
                                     `          a
NAPE pela oportunidade que nos foi proporcionada para ministrarmos
este minicurso.

S˜o Carlos, 20 de abril de 2012.
 a

Carlos Diniz e Francisco Louzada




                                             ii
Sum´rio
   a

1 Introdu¸˜o ` Modelagem de Credit Scoring
           ca a                                                                1
  1.1 Etapas de Desenvolvimento . . . . . . . . . . . .       .   .   .   .    3
  1.2 Planejamento Amostral . . . . . . . . . . . . . . .     .   .   .   .    3
       1.2.1 Descri¸˜o de um problema - Credit Scoring
                   ca                                         .   .   .   .    8
  1.3 Determina¸˜o da Pontua¸ao de Escore . . . . . .
                ca              c˜                            .   .   .   .    9
       1.3.1 Transforma¸˜o e sele¸˜o de vari´veis . . .
                         ca        ca         a               .   .   .   .   11
       1.3.2 Regress˜o log´
                    a      ıstica . . . . . . . . . . . . .   .   .   .   .   12
  1.4 Valida¸ao e Compara¸ao dos Modelos . . . . . . .
             c˜             c˜                                .   .   .   .   15
       1.4.1 A estat´
                    ıstica de Kolmogorov-Smirnov (KS)         .   .   .   .   16
       1.4.2 Curva ROC . . . . . . . . . . . . . . . . .      .   .   .   .   19
       1.4.3 Capacidade de acerto dos modelos . . . . .       .   .   .   .   22

2 Regress˜o Log´
          a       ıstica                                                      25
  2.1 Estima¸ao dos Coeficientes . . . . . . . . . . . . .
             c˜                                               .   .   .   .   26
  2.2 Intervalos de Confian¸a e Sele¸ao de Vari´veis . .
                             c       c˜          a            .   .   .   .   28
  2.3 Interpreta¸˜o dos Coeficientes do Modelo . . . . .
                 ca                                           .   .   .   .   30
  2.4 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . .
            c˜                                                .   .   .   .   31
  2.5 Amostras State-Dependent . . . . . . . . . . . . .      .   .   .   .   34
      2.5.1 M´todo de corre¸˜o a priori . . . . . . . .
                e              ca                             .   .   .   .   36
  2.6 Estudo de Compara¸ao . . . . . . . . . . . . . . .
                            c˜                                .   .   .   .   37
      2.6.1 Medidas de desempenho . . . . . . . . . .         .   .   .   .   37
      2.6.2 Probabilidades de inadimplˆncia estimadas
                                          e                   .   .   .   .   38
  2.7 Regress˜o Log´
              a      ıstica com Erro de Medida . . . . .      .   .   .   .   39
      2.7.1 Fun¸ao de verossimilhan¸a . . . . . . . . .
                  c˜                   c                      .   .   .   .   41
      2.7.2 M´todos de estima¸˜o . . . . . . . . . . .
                e                 ca                          .   .   .   .   42
      2.7.3 Renda presumida . . . . . . . . . . . . . .       .   .   .   .   43

                                        iii
´
SUMARIO


3 Modelagem Para Eventos Raros                                                        45
  3.1 Estimadores KZ para o Modelo de Regress˜o Log´
                                                  a      ıstica                   .   46
      3.1.1 Corre¸˜o nos parˆmetros . . . . . . . . . . . . .
                  ca         a                                                    .   47
      3.1.2 Corre¸˜o nas probabilidades estimadas . . . . .
                  ca                                                              .   48
  3.2 Modelo Logito Limitado . . . . . . . . . . . . . . . . .                    .   50
      3.2.1 Estima¸˜o . . . . . . . . . . . . . . . . . . . . .
                   ca                                                             .   51
      3.2.2 M´todo BFGS . . . . . . . . . . . . . . . . . . .
               e                                                                  .   52
  3.3 Modelo Logito Generalizado . . . . . . . . . . . . . . .                    .   53
      3.3.1 Estima¸˜o . . . . . . . . . . . . . . . . . . . . .
                   ca                                                             .   55
  3.4 Modelo Logito com Resposta de Origem . . . . . . . .                        .   57
      3.4.1 Modelo normal . . . . . . . . . . . . . . . . . .                     .   57
      3.4.2 Modelo exponencial . . . . . . . . . . . . . . . .                    .   59
      3.4.3 Modelo lognormal . . . . . . . . . . . . . . . . .                    .   59
      3.4.4 Estudo de simula¸ao . . . . . . . . . . . . . . .
                             c˜                                                   .   60
  3.5 An´lise de Dados Reais . . . . . . . . . . . . . . . . . .
         a                                                                        .   63

4 Credit Scoring com Inferˆncia dos Rejeitados
                          e                                                           67
  4.1 M´todos de Inferˆncia dos Rejeitados . . . .
         e            e                                   .   .   .   .   .   .   .   68
       4.1.1 M´todo da reclassifica¸˜o . . . . . . .
                 e                  ca                    .   .   .   .   .   .   .   68
       4.1.2 M´todo da pondera¸ao . . . . . . . .
                 e               c˜                       .   .   .   .   .   .   .   69
       4.1.3 M´todo do parcelamento . . . . . . .
                 e                                        .   .   .   .   .   .   .   70
       4.1.4 Outros m´todos . . . . . . . . . . . .
                      e                                   .   .   .   .   .   .   .   71
  4.2 Aplica¸ao . . . . . . . . . . . . . . . . . . .
              c˜                                          .   .   .   .   .   .   .   72

5 Combina¸˜o de Modelos de Credit Scoring
           ca                                                                         76
  5.1 Bagging de Modelos . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   76
  5.2 M´todos de Combina¸˜o . . . . . . . . . .
        e                  ca                         .   .   .   .   .   .   .   .   78
      5.2.1 Combina¸ao via m´dia . . . . . . .
                     c˜         e                     .   .   .   .   .   .   .   .   78
      5.2.2 Combina¸ao via voto . . . . . . . .
                     c˜                               .   .   .   .   .   .   .   .   79
      5.2.3 Combina¸ao via regress˜o log´
                     c˜              a      ıstica    .   .   .   .   .   .   .   .   80
  5.3 Aplica¸ao . . . . . . . . . . . . . . . . . .
            c˜                                        .   .   .   .   .   .   .   .   80

6 Dados Missing em Modelos de Credit Scoring                                          85
  6.1 Dados Missing . . . . . . . . . . . . . . . . . . . . . . .                     86
  6.2 Modelos e Mecanismos Missing . . . . . . . . . . . . . .                        87
      6.2.1 Modelos de valores missing . . . . . . . . . . . .                        88

                                        iv
´
SUMARIO


         6.2.2 Mecanismos de valores missing . . . .        .   .   .   .   .   .    90
   6.3   Modelo Log´ıstico com Missing . . . . . . . . .    .   .   .   .   .   .    93
         6.3.1 Estima¸˜o de m´xima verossimilhan¸a
                       ca      a                      c     .   .   .   .   .   .    94
         6.3.2 Caso completo . . . . . . . . . . . . . .    .   .   .   .   .   .    97
         6.3.3 Caso completo corrigido . . . . . . . .      .   .   .   .   .   .    98
         6.3.4 Imputa¸˜es simples e m´ltipla . . . . .
                        co              u                   .   .   .   .   .   .    99
   6.4   Uso da Quadratura Gaussiana . . . . . . . . .      .   .   .   .   .   .    99
   6.5   Estudo de Simula¸ao . . . . . . . . . . . . . .
                           c˜                               .   .   .   .   .   .   101
         6.5.1 Dados completos . . . . . . . . . . . .      .   .   .   .   .   .   102
         6.5.2 M´todo EMVG . . . . . . . . . . . . .
                 e                                          .   .   .   .   .   .   104
         6.5.3 Resultados . . . . . . . . . . . . . . . .   .   .   .   .   .   .   107

7 Redes Probabil´ ısticas                                                           115
  7.1 Conceitos Probabil´ ısticos . . . . . . . . . . . . . .       .   .   .   .   115
      7.1.1 Teorema de Bayes . . . . . . . . . . . . . .            .   .   .   .   116
      7.1.2 Distribui¸˜es multinomial e Dirichlet . . .
                      co                                            .   .   .   .   116
      7.1.3 Distribui¸˜o normal - uni e multivariada .
                      ca                                            .   .   .   .   118
      7.1.4 Entropia . . . . . . . . . . . . . . . . . . .          .   .   .   .   118
      7.1.5 Informa¸˜o m´tua . . . . . . . . . . . . .
                     ca      u                                      .   .   .   .   119
  7.2 Redes Probabil´ısticas . . . . . . . . . . . . . . . .        .   .   .   .   121
      7.2.1 Elementos b´sicos . . . . . . . . . . . . . .
                           a                                        .   .   .   .   121
      7.2.2 Estruturas de teoria de grafos . . . . . . .            .   .   .   .   121
      7.2.3 Exemplo b´sico de uma rede probabil´
                         a                             ıstica       .   .   .   .   123
      7.2.4 Constru¸˜o de uma rede probabil´
                     ca                           ıstica . .        .   .   .   .   124
  7.3 Inferˆncia . . . . . . . . . . . . . . . . . . . . . .
           e                                                        .   .   .   .   125
      7.3.1 Estima¸˜o de estruturas de classifica¸ao .
                    ca                                c˜            .   .   .   .   125
      7.3.2 Estima¸˜o de parˆmetros . . . . . . . . . .
                    ca            a                                 .   .   .   .   131
  7.4 Compara¸˜o entre os m´todos de classifica¸ao . .
               ca               e                   c˜              .   .   .   .   132

8 An´lise de Sobrevivˆncia
     a                 e                                                            137
  8.1 Algumas Defini¸oes Usuais . . . . . . . . . . . . . . . . .
                     c˜                                                             138
  8.2 Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . .                   142
       8.2.1 Modelo para compara¸ao de dois perfis de clientes
                                 c˜                                                 143
       8.2.2 A generaliza¸˜o do modelo de riscos proporcionais
                         ca                                                         144
       8.2.3 Ajuste de um modelo de riscos proporcionais . . .                      146


                                          v
´
SUMARIO


         8.2.4 Tratamento de empates . . . . . . . . .       .   .   .   .   .   .   151
   8.3   Intervalos de Confian¸a e Sele¸ao de Vari´veis
                              c        c˜           a        .   .   .   .   .   .   154
   8.4   Estima¸ao da Fun¸ao de Risco e Sobrevivˆncia
                c˜         c˜                       e        .   .   .   .   .   .   155
   8.5   Interpreta¸˜o dos Coeficientes . . . . . . . . .
                   ca                                        .   .   .   .   .   .   157
   8.6   Aplica¸ao . . . . . . . . . . . . . . . . . . . .
               c˜                                            .   .   .   .   .   .   159

9 Modelo de Longa Dura¸˜o  ca                                       163
  9.1 Modelo de Mistura Geral . . . . . . . . . . . . . . . . . . 163
  9.2 Estima¸ao do modelo longa dura¸ao geral . . . . . . . . . 165
             c˜                         c˜
  9.3 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . 167
            c˜




                                          vi
Cap´
   ıtulo 1

Introdu¸˜o ` Modelagem de
       ca a
Credit Scoring

          A partir de 1933, ano da publica¸ao do primeiro volume da re-
                                              c˜
vista Econometrica, intensificou-se o desenvolvimento de m´todos es-e
tat´ısticos para, dentre outros objetivos, testar teorias econˆmicas, avaliar
                                                               o
e implementar pol´  ıticas comerciais, estimar rela¸oes econˆmicas e dar su-
                                                   c˜        o
porte ` concess˜o de cr´dito.
        a         a       e
          Os primeiros modelos de Credit Scoring foram desenvolvidos en-
tre os anos 40 e 50 e a metodologia b´sica, aplicada a esse tipo de pro-
                                          a
blema, era orientada por m´todos de discrimina¸ao produzidos por Fisher
                             e                     c˜
(1936). Podemos dizer que foi de Durand (1941) o primeiro trabalho co-
nhecido que utilizou an´lise discriminante para um problema de cr´dito,
                          a                                            e
em que as t´cnicas desenvolvidas por Fisher foram empregadas para dis-
             e
criminar bons e maus empr´stimos.
                              e
          Henry Markowitz (Markowitz, 1952) foi um dos pioneiros na
cria¸ao de um modelo estat´
     c˜                         ıstico para o uso financeiro, o qual foi uti-
lizado para medir o efeito da diversifica¸ao no risco total de uma carteira
                                           c˜
de ativos.
          Fischer Black e Myron Scholes (Black & Scholes, 1973) desenvol-
veram um modelo cl´ssico para a precifica¸˜o de uma op¸˜o, uma das
                        a                       ca              ca
mais importantes f´rmulas usadas no mercado financeiro.
                     o
          Diretores do Citicorp, em 1984, lan¸aram o livro Risco e Recom-
                                               c
pensa: O Neg´cio de Cr´dito ao Consumidor, com as primeiras men¸oes
               o           e                                             c˜

                                            1
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


ao modelo de Credit Scoring, que ´ um tipo de modelo de escore, baseado
                                        e
em dados cadastrais dos clientes, e ´ utilizado nas decis˜es de aceita¸˜o
                                           e                        o                ca
de proponentes a cr´ditos; ao modelo de Behaviour Scoring, que ´ um
                           e                                                     e
modelo de escore, baseado em dados transacionais, utilizado nas decis˜es             o
de manuten¸ao ou renova¸ao de linhas e produtos para os j´ clientes e ao
                 c˜              c˜                                    a
modelo Collection Scoring, que ´ tamb´m um modelo de escore, baseado
                                      e       e
em dados transacionais de clientes inadimplentes, utilizado nas decis˜es             o
de prioriza¸ao de estrat´gias de cobran¸as. Estes e v´rios outros mo-
                c˜              e                c                 a
delos s˜o utilizados como uma das principais ferramentas de suporte a
          a                                                                            `
concess˜o de cr´dito em in´meras institui¸˜es financeiras no mundo.
           a          e           u                co
            Na realidade, os modelos estat´   ısticos passaram a ser um impor-
tante instrumento para ajudar os gestores de risco, gestores de fundos,
bancos de investimento, gestores de cr´ditos e gestores de cobran¸a a
                                                e                                  c
tomarem decis˜es corretas e, por esta raz˜o, as institui¸˜es financeiras
                    o                               a                co
passaram a aprimor´-los continuamente. Em especial, a concess˜o de
                           a                                                     a
cr´dito ganhou for¸a na rentabilidade das empresas do setor financeiro,
   e                     c
se tornando uma das principais fontes de receita e, por isso, rapidamente,
este setor percebeu a necessidade de se aumentar o volume de recursos
concedidos sem perder a agilidade e a qualidade dos empr´stimos, e nesse
                                                                     e
ponto a contribui¸ao da modelagem estat´
                        c˜                         ıstica foi essencial.
            Diferentes tipos de modelos s˜o utilizados no problema de cr´dito,
                                            a                                    e
com o intuito de alcan¸ar melhorias na redu¸˜o do risco e/ou no aumento
                             c                       ca
da rentabilidade. Entre os quais, podemos citar, a regress˜o log´       a      ıstica e
linear, an´lise de sobrevivˆncia, redes probabil´
              a                   e                       ısticas, arvores de classi-
                                                                   ´
fica¸ao, algoritmos gen´ticos e redes neurais. Neste livro tratamos de
      c˜                       e
diferentes problemas presentes na constru¸ao de modelos de regress˜o
                                                     c˜                               a
log´ ıstica para Credit Scoring e sugerimos metodologias estat´           ısticas para
resolvˆ-los. Al´m disso, apresentamos metodologias alternativas de an´lise
         e          e                                                               a
de sobrevivˆncia e redes probabil´
                e                       ısticas.
            O processo de desenvolvimento de um modelo de cr´dito envolve
                                                                        e
v´rias etapas, entre as quais Planejamento Amostral, Determina¸˜o da
  a                                                                             ca
Pontua¸˜o de Escore e Valida¸˜o e Compara¸˜o de Modelos. Apresenta-
           ca                       ca                 ca
mos nas pr´ximas se¸˜es discuss˜es sobre algumas destas etapas.
                o          co          o




                                                 2
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


1.1     Etapas de Desenvolvimento
         O desenvolvimento de um modelo de Credit Scoring consiste, de
uma forma geral, em determinar uma fun¸ao das vari´veis cadastrais
                                             c˜         a
dos clientes que possa auxiliar na tomada de decis˜o para aprova¸˜o de
                                                    a            ca
cr´dito, envolvendo cart˜es de cr´ditos, cheque especial, atribui¸ao de
  e                      o         e                             c˜
limite, financiamento de ve´ıculo, imobili´rio e varejo.
                                         a
         Normalmente esses modelos s˜o desenvolvidos a partir de ba-
                                       a
ses hist´ricas de performance de cr´dito dos clientes e tamb´m de in-
        o                            e                        e
forma¸oes pertinentes ao produto. O desenvolvimento de um modelo de
      c˜
Credit Scoring (Sics´, 1998) compreende nas seguintes etapas:
                    u

   i) Planejamento e defini¸oes;
                          c˜

  ii) Identifica¸ao de vari´veis potenciais;
               c˜         a

 iii) Planejamento amostral;

 iv) Determina¸ao do escore: aplica¸ao da metodologia estat´
              c˜                   c˜                      ıstica;

  v) Valida¸ao e verifica¸˜o de performance do modelo estat´
           c˜           ca                                ıstico;

 vi) Determina¸ao do ponto de corte ou faixas de escore;
              c˜

 vii) Determina¸˜o de regra de decis˜o.
               ca                   a

        As etapas iii), iv) e v), por estarem associadas a modelagem, s˜o
                                                         `             a
apresentadas com mais detalhes nas pr´ximas se¸oes.
                                          o        c˜


1.2     Planejamento Amostral
         Para a obten¸˜o da amostra, na constru¸˜o de um modelo de
                     ca                         ca
Credit Scoring, ´ importante que defini¸˜es como, para qual produto ou
                e                     co
fam´ de produtos e para qual ou quais mercados o modelo ser´ desen-
    ılia                                                       a
volvido, sejam levadas em considera¸ao. A base de dados utilizada para
                                   c˜
a constru¸ao de um modelo ´ formada por clientes cujos cr´ditos foram
          c˜                e                            e
concedidos e seus desempenhos foram observados durante um per´  ıodo de
tempo no passado. Esse passado, cujas informa¸oes s˜o retiradas, deve
                                               c˜   a

                                          3
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


ser o mais recente poss´ a fim de que n˜o se trabalhe com opera¸oes
                         ıvel                  a                           c˜
de cr´dito remotas que n˜o sejam representativas da realidade atual.
       e                   a
          Uma premissa fundamental na constru¸˜o de modelos de Credit
                                                     ca
Scoring, e preditivos em geral, ´ que a forma como as vari´veis cadastrais
                                e                             a
se relacionaram com o desempenho de cr´dito no passado, seja similar
                                               e
no futuro.
          Um fator importante a ser considerado na constru¸˜o do modelo ´
                                                              ca               e
o horizonte de previs˜o, sendo necess´rio estabelecer um espa¸o de tempo
                      a                a                         c
para a previs˜o do Credit Scoring, ou seja, o intervalo entre a solicita¸˜o
               a                                                            ca
do cr´dito e a classifica¸ao como bom ou mau cliente. Esse ser´ tamb´m
       e                 c˜                                         a       e
o intervalo para o qual o modelo permitir´ fazer as previs˜es de quais
                                                a                o
indiv´ ıduos ser˜o mais ou menos prov´veis de se tornarem inadimplentes
                a                       a
ou de serem menos rent´veis. A regra ´ de 12 a 18 meses, por´m na
                           a                 e                          e
pr´tica observamos que um intervalo de 12 meses ´ o mais utilizado.
   a                                                     e
          Thomas et al. (2002) tamb´m prop˜e um per´
                                      e           o         ıodo de 12 meses
para modelos de Credit Scoring, sugerindo que a taxa de inadimplˆncia     e
dos clientes das empresas financeiras em fun¸ao do tempo aumenta no
                                                    c˜
in´
  ıcio, estabilizando somente ap´s 12 meses. Assim, qualquer horizonte
                                  o
mais breve do que esse pode n˜o refletir de forma real o percentual de
                                 a
maus clientes prejudicando uma poss´ associa¸ao entre as caracter´
                                         ıvel          c˜                    ıs-
ticas dos indiv´ ıduos e o evento de interesse modelado, no caso, a ina-
dimplˆncia. Por outro lado, a escolha de um intervalo de tempo muito
        e
longo para o horizonte de previs˜o tamb´m pode n˜o trazer benef´
                                 a         e            a             ıcios, fa-
zendo com que a efic´cia do modelo diminua, uma vez que, pela distˆncia
                      a                                                   a
temporal, os eventos se tornam pouco correlacionados com potenciais
vari´veis cadastrais, normalmente, obtidas no momento da solicita¸˜o do
     a                                                                  ca
cr´dito.
  e
          O fator tempo tem uma importˆncia fundamental na constru¸ao
                                           a                                c˜
de modelos preditivos e, de forma geral, tem trˆs importantes etapas,
                                                        e
como mostra a Figura 1.1. O passado ´ composto pelas opera¸oes para
                                           e                         c˜
as quais j´ foram observados os desempenhos de cr´dito durante um
            a                                              e
horizonte de previs˜o adotado. As informa¸˜es cadastrais dos clientes
                     a                            co
no momento da concess˜o do cr´dito, levantadas no passado mais dis-
                          a        e
tante, s˜o utilizadas como vari´veis de entrada para o desenvolvimento
          a                      a
do modelo e os dados do passado mais recente, as observa¸oes dos de-
                                                                 c˜

                                             4
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


sempenhos de cr´dito dos clientes, default ou n˜o default, inadimplentes
                e                              a
ou adimplentes, s˜o utilizados para a determina¸ao da vari´vel resposta.
                 a                             c˜          a




Figura 1.1: Estrutura temporal das informa¸oes para constru¸ao de mo-
                                          c˜               c˜
delos preditivos.

         ´
         E importante ressaltar que as vari´veis de entrada para a cons-
                                            a
tru¸ao do modelo sejam baseadas em informa¸oes, que necessariamente,
   c˜                                           c˜
ocorreram antes de qualquer informa¸ao utilizada para gerar a vari´vel
                                         c˜                            a
resposta de interesse. Se dividirmos o passado em per´ ıodos de observa¸˜o
                                                                        ca
e desempenho. O per´   ıodo de observa¸˜o compreende o per´
                                       ca                    ıodo de tempo
no qual s˜o obtidas e observadas as informa¸˜es potencialmente relevan-
          a                                  co
tes para o evento de interesse, ou seja, o per´   ıodo em que se constr´io
e obt´m as vari´veis explanat´rias. Em um modelo de Credit Scoring
      e           a              o
esse per´ıodo compreende na realidade um unico instante, sendo o mo-
                                              ´
mento em que um cliente busca obter um produto de cr´dito, podendo
                                                            e
ser chamado de ponto de observa¸˜o. O per´
                                    ca         ıodo de desempenho ´ o in-
                                                                     e
tervalo de tempo em que ´ observado a ocorrˆncia ou n˜o do evento de
                            e                   e         a
interesse. Esse per´ ıodo corresponde a um intervalo de tempo do mesmo
tamanho do horizonte de previs˜o adotado para a constru¸˜o do modelo.
                                  a                         ca
O presente corresponde ao per´    ıodo de desenvolvimento do modelo em
que, normalmente, as informa¸oes referentes a esse per´
                                 c˜                        ıodo ainda n˜oa
est˜o dispon´
   a          ıveis, uma vez que est˜o sendo geradas pelos sistemas das
                                      a
institui¸oes. O futuro ´ o per´
        c˜               e      ıodo de tempo para o qual ser˜o feitas as
                                                                a
predi¸oes, utilizando-se de informa¸˜es do presente, do passado e das
      c˜                               co
rela¸oes entre estas, que foram determinadas na constru¸ao do modelo.
    c˜                                                    c˜
         Um alerta importante ´ que modelos preditivos, constru´
                                  e                                  ıdos a

                                          5
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


partir de dados hist´ricos, podem se ajustar bem no passado, possuindo
                       o
uma boa capacidade preditiva. Por´m, o mesmo n˜o ocorre quando apli-
                                       e               a
cados a dados mais recentes. A performance desses modelos pode ser
afetada tamb´m pela raridade do evento modelado, em que existe difi-
              e
culdade em encontrar indiv´    ıduos com o atributo de interesse. No con-
texto de Credit Scoring isso pode ocorrer quando a amostra ´ selecionada
                                                                  e
pontualmente, em um unico mˆs, semana etc, n˜o havendo n´mero de
                         ´         e                  a               u
indiv´ıduos suficientes para encontrar as diferen¸as de padr˜es desejadas
                                                    c            o
entre bons e maus pagadores. Dessa forma, o dimensionamento da amos-
tra ´ um fator extremamente relevante no desenvolvimento de modelos
    e
de Credit Scoring.
         A utiliza¸˜o de um tratamento estat´
                   ca                          ıstico formal para determinar
o tamanho da amostra seria complexa, dependendo de v´rios fatores a
como o n´mero e o tipo de vari´veis envolvidas no estudo.
          u                        a
         Dividir a amostra em duas partes, treinamento (ou desenvol-
vimento) e teste (ou valida¸ao), ´ conveniente e resulta em benef´
                               c˜     e                                      ıcios
t´cnicos. Isto ´ feito para que possamos verificar o desempenho e com-
 e              e
parar os dispon´                   ´
                  ıveis modelos. E interessante que a amostra seja sufici-
entemente grande de forma que permita uma poss´ divis˜o desse tipo.
                                                       ıvel      a
Por´m, sempre que poss´
    e                       ıvel, essa divis˜o jamais deve substituir a va-
                                            a
lida¸ao de modelos em um conjunto de dados mais recente. Lewis (1994)
    c˜
sugere que, em geral, amostras com tamanhos menores de 1500 clientes
bons e 1500 maus, podem inviabilizar a constru¸˜o de modelos com ca-
                                                     ca
pacidade preditiva aceit´vel para um modelo de Credit Scoring, al´m de
                          a                                                e
n˜o permitir a sua divis˜o.
  a                       a
         Em grande parte das aplica¸oes de modelagem com vari´vel res-
                                        c˜                              a
posta bin´ria, um desbalanceamento significativo, muitas vezes da ordem
          a
de 20 bons para 1 mau, ´ observado entre o n´mero de bons e maus paga-
                         e                      u
dores nas bases de clientes das institui¸oes. Essa situa¸ao pode prejudi-
                                           c˜                c˜
car o desenvolvimento do modelo, uma vez que o n´mero de maus pode
                                                         u
ser muito pequeno e insuficiente para estabelecer perfis com rela¸ao as      c˜ `
vari´veis explanat´rias e tamb´m para observar poss´
    a                o            e                        ıveis diferen¸as em
                                                                          c
rela¸ao aos bons cliente. Dessa forma, uma amostragem aleat´ria sim-
    c˜                                                                 o
ples nem sempre ´ indicada para essa situa¸ao, sendo necess´ria a uti-
                    e                           c˜                   a
liza¸ao de uma metodologia denominada Oversampling ou State Depen-
    c˜

                                               6
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


dent, que consiste em aumentar a propor¸˜o do evento raro, ou, mesmo
                                               ca
n˜o sendo t˜o raro, da categoria que menos aparece na amostra. Esta
  a           a
t´cnica trabalha com diferentes propor¸oes de cada categoria, sendo co-
 e                                          c˜
nhecida tamb´m como amostra aleat´ria estratificada. Mais detalhes a
                 e                       o
respeito da t´cnica State Dependent s˜o apresentados no Cap´
               e                          a                           ıtulo 2.
         Berry & Linoff (2000) expressam, em um problema com a vari´vel        a
resposta assumindo dois resultados poss´      ıveis, a id´ia de se ter na amos-
                                                         e
tra de desenvolvimento para a categoria mais rara ou menos frequente
entre 10% e 40% dos indiv´     ıduos. Thomas et al. (2002) sugere que as
amostras em um modelo de Credit Scoring tendem a estar em uma pro-
por¸ao de 1:1, de bons e maus clientes, ou algo em torno desse valor.
    c˜
Uma situa¸ao t´
             c˜ ıpica de ocorrer ´ selecionar todos os maus pagadores
                                     e
poss´ıveis juntamente com uma amostra de mesmo tamanho de bons pa-
gadores para o desenvolvimento do modelo. Nos casos em que a vari´vel         a
resposta de interesse possui distribui¸˜o dicotˆmica extremamente des-
                                         ca          o
balanceada, algo em torno de 3% ou menos de eventos, comum quando
o evento de interesse ´ fraude, existem alguns estudos que revelam que o
                       e
modelo de regress˜o log´
                   a      ıstica usual subestima a probabilidade do evento
de interesse (King & Zeng, 2001). Al´m disso, os estimadores de m´xima
                                        e                                  a
verossimilhan¸a dos parˆmetros do modelo de regress˜o log´
                c         a                                  a     ıstica s˜o vi-
                                                                           a
ciados nestes casos. O Cap´   ıtulo 3 apresenta uma metodologia espec´        ıfica
para situa¸ao de eventos raros.
            c˜
         A sazonalidade na ocorrˆncia do evento modelado ´ um outro fa-
                                   e                             e
tor a ser considerado no planejamento amostral. Por exemplo, a sele¸ao         c˜
da amostra envolvendo momentos espec´         ıficos no tempo em que o com-
portamento do evento ´ at´
                         e ıpico, pode afetar e comprometer diretamente
o desempenho do modelo. Outro aspecto n˜o menos importante ´ com
                                                  a                        e
rela¸ao a variabilidade da ocorrˆncia do evento, uma vez que pode estar
    c˜                             e
sujeito a fatores externos e n˜o-control´veis, como por exemplo a conjun-
                               a          a
tura econˆmica, que faz com que a sele¸ao da amostra envolva cen´rios
           o                                 c˜                              a
de n˜o-representatividade da mesma com rela¸˜o ao evento e assim uma
     a                                              ca
maior instabilidade do modelo.
         Uma alternativa de delineamento amostral que minimiza o efeito
desses fatores descritos, que podem causar instabilidade nos modelos,
´ compor a amostra de forma que os clientes possam ser selecionados
e

                                               7
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


em v´rios pontos ao longo do tempo, comumente chamado de safras de
     a
clientes. Por exemplo, no contexto de Credit Scoring a escolha de 12
safras ao longo de um ano minimiza consideravelmente a instabilidade
do modelo provocada pelos fatores descritos. A Figura 1.2 mostra um
delineamento com 12 safras para um horizonte de previs˜o tamb´m de
                                                      a       e
12 meses.




Figura 1.2: Delineamento amostral com horizonte de previs˜o 12 meses
                                                         a
e 12 safras de clientes.

         Por fim, podemos salientar que a defini¸˜o do delineamento amos-
                                              ca
tral est´ intimamente relacionado tamb´m com o volume de dados his-
        a                               e
t´ricos e a estrutura de armazenamento dessas informa¸˜es encontradas
 o                                                      co
nas empresas e institui¸oes financeiras, as quais podem permitir ou n˜o
                        c˜                                          a
que a modelagem do evento de interesse se aproxime mais ou menos da
realidade observada.


1.2.1     Descri¸˜o de um problema - Credit Scoring
                ca
        Em problemas de Credit Scoring, as informa¸˜es dispon´
                                                       co         ıveis para
correlacionar com a inadimplˆncia do produto de cr´dito utilizado s˜o as
                               e                       e               a
pr´prias caracter´
  o              ısticas dos clientes e, algumas vezes, do produto. Dessa
forma, um modelo de Credit Scoring consiste em avaliar quais fatores
est˜o associados ao risco de cr´dito dos clientes, assim como a intensidade
   a                           e
e a dire¸ao de cada um desses fatores, gerando um escore final, os quais
        c˜

                                           8
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


potenciais clientes possam ser ordenados e/ou classificados, segundo uma
probabilidade de inadimplˆncia.
                             e
         Como mencionado, uma situa¸˜o comum em problemas de Credit
                                           ca
Scoring ´ a presen¸a do desbalanceamento entre bons e maus clientes.
         e           c
Considere, por exemplo, uma base constitu´ de 600 mil clientes que
                                                    ıda
adquiriram um produto de cr´dito durante 6 meses, envolvendo, assim, 6
                                  e
safras de clientes, com 594 mil bons e 6 mil maus pagadores. A descri¸ao      c˜
das vari´veis presentes no conjunto de dados ´ apresentada na Tabela
         a                                             e
1.1. Estas vari´veis representam as caracter´
               a                                  ısticas cadastrais dos clientes,
os valores referentes aos cr´ditos concedidos juntamente com um flag
                                e
descrevendo seus desempenhos de pagamento nos 12 meses seguintes ao
da concess˜o do cr´dito e informa¸˜o do instante da ocorrˆncia de algum
           a        e                  ca                         e
problema de pagamento do cr´dito. Essas informa¸˜es s˜o referentes aos
                                   e                      co    a
clientes para os quais j´ foram observados os desempenhos de pagamento
                        a
do cr´dito adquirido e servir˜o para a constru¸ao dos modelos preditivos a
      e                        a                    c˜
partir das metodologias regress˜o log´
                                     a    ıstica e/ou an´lise de sobrevivˆncia.
                                                          a                 e
Estes modelos ser˜o aplicadas em futuros potenciais clientes, nos quais
                    a
ser˜o ordenados segundo uma “probabilidade” de inadimplˆncia e a partir
    a                                                             e
da qual as pol´ıticas de cr´dito das institui¸oes possam ser definidas.
                           e                     c˜
         Na constru¸ao dos modelos para este problema, de acordo com a
                     c˜
Figura 1.3, uma amostra de treinamento ´ selecionada utilizando a meto-
                                               e
dologia de Oversampling. Isto pode ser feito considerando uma amostra
balanceada com 50% de bons clientes e 50% de maus clientes. A partir
dessa amostra buscamos atender as quantidades m´            ınimas sugeridas por
Lewis (1994) de 1.500 indiv´   ıduos para cada uma das categorias.




1.3      Determina¸˜o da Pontua¸˜o de Escore
                  ca           ca
         Uma vez determinado o planejamento amostral e obtidas as in-
forma¸oes necess´rias para o desenvolvimento do modelo, o pr´ximo
      c˜         a                                                 o
passo ´ estabelecer qual t´cnica estat´
      e                   e           ıstica ou matem´tica ser´ utilizada
                                                     a        a
para a determina¸ao dos escores. Por´m, antes disso, alguns tratamentos
                 c˜                   e
explorat´rios devem sempre ser realizados para que uma maior familia-
         o

                                               9
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a



         Tabela 1.1: Vari´veis dispon´
                         a           ıveis no banco de dados.
 Vari´veis
     a            Descri¸ao
                        c˜
 ESTCIVIL         Estado civil: solteiro / casado/ divorciado / vi´vo
                                                                  u
 TP CLIENTE       Tipo de cliente
 SEXO             Sexo do cliente: Masc./ Fem.
 SIT RESID        Residˆncia: pr´pria / alugada
                       e         o
 P CARTAO         Possui Cart˜o? (Sim / N˜o)
                              a              a
 IDADE            Idade do cliente (em anos)
 TEMPORES         Tempo de residˆncia (em anos)
                                  e
 TPEMPREG         Tempo de empregol (em meses)
 TEL COMERC       Declarou telefone comercial?
 OP CORRESP       Correspondˆncia: Residencial / Comercial
                              e
 COMP RENDA       Uso da renda: < 10% / 10%-20% / > 20%;
 LIM CRED         Valor do Cr´dito Concedido
                              e
 CEP COM          CEP Comercial (2 posi¸˜es)
                                           co
 CEP RES          CEP Residencial (2 posi¸˜es)
                                            co
 G PROF           Grupo de profiss˜o a
 REGIAO           Regi˜o do Cliente
                      a
 STATUS           Flag: Bom ou Mau
 TEMPO            Tempo at´ observar o evento inadimplˆncia
                           e                              e


riza¸ao com os dados possa ser obtida. Isto permite uma melhor defini¸˜o
    c˜                                                              ca
da t´cnica que ser´ utilizada e, consequentemente, um aprimoramento do
    e             a
desenvolvimento do modelo. Essa an´lise inicial tem alguns objetivos,
                                        a
dentre os quais, destacam-se:

   • identifica¸˜o de eventuais inconsistˆncias e presen¸a de outliers;
              ca                        e              c

   • compara¸ao dos comportamentos das covari´veis, no caso de um
             c˜                                    a
     Credit Scoring, entre a amostra de bons e maus pagadores, iden-
     tificando, assim, potenciais vari´veis correlacionadas com o evento
                                     a
     modelado;

   • defini¸ao de poss´
          c˜          ıveis transforma¸˜es de vari´veis e a cria¸˜o de
                                      co          a             ca
     novas a serem utilizadas nos modelos.



                                          10
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a




Figura 1.3:   Amostra de Desenvolvimento Balanceada - 50% - bons x
50% maus.

1.3.1    Transforma¸˜o e sele¸˜o de vari´veis
                   ca        ca         a
         Uma pr´tica muito comum, quando se desenvolve modelos de
                 a
Credit Scoring, ´ tratar as vari´veis como categ´ricas, independente da
                 e              a                o
natureza cont´ınua ou discreta, buscando, sempre que poss´ ıvel, a simpli-
cidade na interpreta¸ao dos resultados obtidos. Thomas et al. (2002)
                      c˜
sugere que essa categoriza¸ao ou reagrupamento deve ser feito tanto
                            c˜
para vari´veis originalmente cont´
          a                       ınuas como para as categ´ricas. Para as
                                                          o
vari´veis de origem categ´rica, a id´ia ´ que se construa categorias com
    a                     o          e e
n´meros suficientes de indiv´
  u                          ıduos para que se fa¸a uma an´lise robusta,
                                                 c          a
principalmente, quando o n´mero de categorias ´ originalmente elevado
                            u                     e
e, em algumas, a frequˆncia ´ bastante pequena. As vari´veis cont´
                        e    e                           a          ınuas,
uma vez transformadas em categorias, ganham com rela¸˜o a interpreta-
                                                        ca
bilidade dos parˆmetros. Gruenstein (1998) e Thomas et al. (2002) rela-
                 a
tam que esse tipo de transforma¸ao nas vari´veis cont´
                                  c˜         a         ınuas pode trazer
ganhos tamb´m no poder preditivo do modelo, principalmente quando a
             e
covari´vel em quest˜o se relaciona de forma n˜o-linear com o evento de
       a             a                         a
interesse, como por exemplo, no caso de um Credit Scoring.
         Uma forma bastante utilizada para a transforma¸˜o de vari´veis
                                                         ca          a
cont´ınuas em categ´ricas, ou a recategoriza¸˜o de uma vari´vel discreta,
                    o                       ca              a


                                         11
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


´ atrav´s da t´cnica CHAID (Chi-Squared Automatic Interaction Detec-
e        e        e
tor), a qual divide a amostra em grupos menores, a partir da associa¸ao de c˜
uma ou mais covari´veis com a vari´vel resposta. A cria¸ao de categorias
                        a                  a                    c˜
para as covari´veis de natureza cont´
                  a                         ınua ou o reagrupamento das discre-
tas ´ baseada no teste de associa¸ao Qui-Quadrado, buscando a melhor
     e                                   c˜
categoriza¸ao da amostra com rela¸˜o a cada uma dessas covari´veis ou
             c˜                            ca                            a
conjunto delas. Estas “novas” covari´veis podem, ent˜o, ser utilizadas na
                                             a              a
constru¸ao dos modelos, sendo ou n˜o selecionadas, por algum m´todo de
         c˜                                a                            e
sele¸ao de vari´veis, para compor o modelo final. Um m´todo de sele¸˜o
    c˜             a                                             e             ca
de vari´veis muitas vezes utilizado ´ o stepwise. Este m´todo permite
         a                                   e                     e
determinar um conjunto de vari´veis estatisticamente significantes para
                                        a
a ocorrˆncia de problemas de cr´dito dos clientes, atrav´s de entradas
         e                               e                         e
e sa´ıdas das vari´veis potenciais utilizando o teste da raz˜o de veros-
                     a                                               a
similhan¸a. Os n´
           c          ıveis de significˆncia de entrada e sa´ das vari´veis
                                         a                      ıda          a
utilizados pelo m´todo stepwise podem ser valores inferiores a 5%, a fim
                     e
de que a entrada e a permanˆncia de vari´veis “sem efeito pr´tico” sejam
                                   e            a                    a
minimizadas. Outro aspecto a ser considerado na sele¸ao de vari´veis,
                                                                c˜          a
al´m do crit´rio estat´
  e             e          ıstico, ´ que a experiˆncia de especialistas da area
                                   e              e                           ´
de cr´dito juntamente com o bom senso na interpreta¸ao dos parˆmetros
       e                                                     c˜          a
sejam, sempre que poss´      ıvel, utilizados.
           Na constru¸ao de um modelo de Credit Scoring ´ fundamental
                        c˜                                         e
que este seja simples com rela¸ao ` clareza de sua interpreta¸˜o e que
                                      c˜ a                             ca
ainda mantenha um bom ajuste. Esse fato pode ser um ponto chave
para que ocorra um melhor entendimento, n˜o apenas da area de desen-
                                                    a              ´
volvimento dos modelos como tamb´m das demais ´reas das empresas,
                                             e              a
resultando, assim, no sucesso da utiliza¸˜o dessa ferramenta.
                                               ca


1.3.2     Regress˜o log´
                 a     ıstica
        Um modelo de regress˜o log´
                              a     ıstica, com vari´vel resposta, Y , di-
                                                     a
cotˆmica, pode ser utilizado para descrever a rela¸ao entre a ocorrˆncia
   o                                              c˜                e
ou n˜o de um evento de interesse e um conjunto de covari´veis. No
     a                                                         a
contexto de Credit Scoring, o vetor de observa¸oes do cliente envolve
                                                 c˜
seu desempenho credit´ durante um determinado per´
                       ıcio                               ıodo de tempo,
normalmente de 12 meses, um conjunto de caracter´   ısticas observadas no


                                             12
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


momento da solicita¸ao do cr´dito e, as vezes, informa¸oes ` respeito do
                      c˜          e         `              c˜ a
pr´prio produto de cr´dito a ser utilizado, como por exemplo, n´mero de
   o                   e                                            u
parcelas, finalidade, valor do cr´dito entre outros.
                                    e
         Aplicando a metodologia apresentada na amostra de treinamento
e adotando um horizonte de previs˜o de 12 meses, considere como vari´vel
                                      a                                   a
resposta a ocorrˆncia de falta de pagamento, maus clientes, y = 1, den-
                  e
tro desse per´ıodo, n˜o importando o momento exato da ocorrˆncia da
                      a                                              e
inadimplˆncia. Para um cliente que apresentou algum problema de pa-
          e
gamento do cr´dito no in´ desses 12 meses de desempenho, digamos
                e            ıcio
     o
no 3 mˆs, e um outro para o qual foi observado no final desse per´
         e                                                               ıodo,
       o      o
no 10 ou 12 , por exemplo, ambos s˜o considerados da mesma forma
                                             a
como maus pagadores, n˜o importando o tempo decorrido para o acon-
                            a
tecimento do evento. Por outro lado, os clientes para os quais n˜o foi  a
observada a inadimplˆncia, durante os 12 meses do per´
                       e                                   ıodo de desempe-
nho do cr´dito, s˜o considerados como bons pagadores para a constru¸ao
           e       a                                                       c˜
                                          o
do modelo, mesmo aqueles que no 13 mˆs vierem a apresentar a falta de
                                               e
pagamento.
         ´
         E importante ressaltar que adotamos neste livro como evento de
interesse o cliente ser mau pagador. O mercado financeiro, geralmente,
trata como evento de interesse o cliente ser bom pagador.
         O modelo ajustado, a partir da amostra de treinamento, utili-
zando a regress˜o log´
                 a     ıstica, fornece escores tal que, quanto maior o valor
obtido para os clientes, pior o desempenho de cr´dito esperado para eles,
                                                     e
uma vez que o mau pagador foi considerado como o evento de interesse.
Como mencionado, ´ comum no mercado definir como evento de interesse
                     e
o bom pagador, de forma que, quanto maior o escore, melhor ´ o cliente.
                                                                  e
         O modelo de regress˜o log´
                                a      ıstica ´ determinado pela rela¸ao
                                               e                     c˜

                          pi
                  log            = β0 + β1 x1 + . . . + βp xp ,
                        1 − pi

em que pi denota a probabilidade de um cliente com o perfil definido
pelas p covariadas, x1 , x2 , . . . , xp , ser um mau pagador. Estas covari´veis
                                                                           a
s˜o obtidas atrav´s de transforma¸oes, como descritas na se¸ao ante-
 a                e                          c˜                       c˜
rior, sendo portanto consideradas e tratadas como dummies. Os valores
utilizados como escores finais dos clientes s˜o obtidos, geralmente, mul-
                                                    a

                                             13
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


tiplicando por 1.000 os valores estimados das probabilidades de sucesso,
pi .
ˆ
        O modelo final obtido atrav´s da regress˜o log´
                                    e           a     ıstica para a amos-
tra balanceada encontra-se na Tabela 1.2. No Cap´  ıtulo 2 apresentamos
uma nova an´lise de dados em que o modelo de regress˜o log´
             a                                         a      ıstica usual,
sem considerar amostras balanceadas, ´ comparado ao modelo de re-
                                        e
gress˜o log´
      a    ıstica com sele¸˜o de amostras state-dependent.
                          ca

      Tabela 1.2 - Regress˜o log´
                          a     ıstica - amostra de treinamento.




        O odds ratio, no contexto de Credit Scoring, ´ uma m´trica que
                                                     e         e
representa o qu˜o mais prov´vel ´ de se observar a inadimplˆncia, para
                a             a    e                         e
um indiv´ıduo em uma categoria espec´   ıfica da covari´vel em rela¸˜o a
                                                      a            ca
categoria de referˆncia, analisando os resultados do modelo obtido para
                  e
a amostra de treinamento, podemos observar:
        - P CARTAO: o fato do cliente j´ possuir um outro produto
                                            a
de cr´dito reduz sensivelmente a chance de apresentar algum problema
     e
de cr´dito com a institui¸˜o financeira. O valor do odds ratio de 0,369
     e                    ca
indica que a chance de se observar algum problema para os clientes que
possuem um outro produto de cr´dito ´ 36,9% da chance de clientes que
                                  e    e
n˜o possuem;
 a
        - ESTADO CIVIL=vi´vo: essa categoria contribui para o au-
                                u
mento da chance de se observar algum problema de inadimplˆncia dee

                                          14
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


cr´dito. O valor 1,36 indica que a chance de ocorrer problema aumenta
  e
em 36% nesta categoria em rela¸˜o as demais;
                                 ca `
         - CLI ANT: o fato do cliente j´ possuir um relacionamento an-
                                        a
terior com a institui¸ao faz com que chance de ocorrer problema seja
                       c˜
reduzida. O valor do odds ratio de 0,655 indica que a chance de se ob-
servar algum problema para um cliente que j´ possui um relacionamento
                                             a
anterior ´ 65,5% da chance dos que s˜o de primeiro relacionamento;
          e                           a
         - IDADE: para essa vari´vel, fica evidenciado que quanto menor
                                 a
a idade dos clientes maior a chance de inadimplˆncia;
                                                e
         - TEMPO DE EMPREGO: pode-se notar que quanto menor o
tempo que o cliente tem no emprego atual maior a chance de ocorrer
problema de inadimplˆncia;
                        e
         - TELEFONE COMERCIAL: a declara¸˜o do telefone comer-
                                                  ca
cial pelos clientes indica uma chance menor de ocorrer problema de ina-
dimplˆncia;
      e
         - LIM CRED: essa covari´vel mostra que quanto menor o valor
                                   a
concedido maior a chance de inadimplˆncia, sendo que os clientes com
                                        e
valores abaixo de R$410,00 apresentam cerca de 22,5% a mais de chance
de ocorrer problemas do que aqueles com valores acima desse valor;
                                                          ˜
         - CEP RESIDENCIAL, COMERCIAL e PROFISSAO: os CEP´s
indicaram algumas regi˜es de maior chance de problema, o mesmo ocor-
                          o
rendo para as profiss˜es.
                       o


1.4     Valida¸˜o e Compara¸˜o dos Modelos
              ca           ca
        Com o modelo de Credit Scoring constru´    ıdo, surge a seguinte
quest˜o: “Qual a qualidade deste modelo?”. A resposta para essa per-
     a
gunta est´ relacionada com o quanto o escore produzido pelo modelo
          a
consegue distinguir os eventos bons e maus pagadores, uma vez que de-
sejamos identificar previamente esses grupos e trat´-los de forma distinta
                                                  a
atrav´s de diferentes pol´
     e                   ıticas de cr´dito.
                                     e
        Uma das id´ias envolvidas em medir o desempenho dos modelos
                    e
est´ em saber o qu˜o bem estes classificam os clientes. A l´gica e a
   a                 a                                         o
pr´tica sugerem que a avalia¸˜o do modelo na pr´pria amostra, usada
  a                            ca                  o
para o seu desenvolvimento, indica resultados melhores do que se testado

                                         15
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


em uma outra amostra, uma vez que o modelo incorpora peculiaridades
inerentes da amostra utilizada para sua constru¸ao. Por isso, sugerimos,
                                                  c˜
quando o tamanho da amostra permitir e sempre que poss´        ıvel, que o
desempenho do modelo seja verificado em uma amostra distinta de seu
desenvolvimento.
         No contexto de Credit Scoring, muitas vezes o tamanho da amos-
tra, na ordem de milhares de registros, permite que uma nova amostra
seja obtida para a valida¸˜o dos modelos. Um aspecto importante na va-
                           ca
lida¸ao dos modelos ´ o temporal, em que a situa¸˜o ideal para se testar
     c˜               e                             ca
um modelo ´ a obten¸˜o de amostras mais recentes. Isto permite que
             e          ca
uma medida de desempenho mais pr´xima da real e atual utiliza¸˜o do
                                       o                            ca
modelo possa ser alcan¸ada.
                         c
         Em Estat´ıstica existem alguns m´todos padr˜es para descrever
                                           e              o
o quanto duas popula¸˜es s˜o diferentes com rela¸ao a alguma carac-
                         co     a                       c˜ `
ter´
   ıstica medida e observada. Esses m´todos s˜o utilizados no contexto
                                         e       a
de Credit Scoring com o objetivo de descrever o quanto os grupos de
bons e maus pagadores s˜o diferentes com rela¸ao aos escores produzidos
                           a                    c˜
por um modelo constru´ e que necessita ser avaliado. Dessa forma,
                           ıdo
esses m´todos medem o qu˜o bem os escores separam os dois grupos e
         e                     a
uma medida de separa¸ao muito utilizada para avaliar um modelo de
                          c˜
Credit Scoring ´ a estat´
                e         ıstica de Kolmogorov-Smirnov (KS). Os modelos
podem tamb´m ser avaliados e comparados atrav´s da curva ROC (Re-
             e                                       e
ceiver Operating Characteristic), a qual permite comparar o desempenho
de modelos atrav´s da escolha de crit´rios de classifica¸ao dos clientes
                  e                      e                  c˜
em bons e maus pagadores, de acordo com a escolha de diferentes pontos
de corte ao longo das amplitudes dos escores observadas para os modelos
obtidos. Por´m, muitas vezes o interesse est´ em avaliar o desempenho
             e                                a
dos modelos em um unico ponto de corte escolhido, e assim medidas da
                      ´
capacidade preditiva dos mesmos podem ser tamb´m consideradas.
                                                      e


1.4.1    A estat´
                ıstica de Kolmogorov-Smirnov (KS)
        Essa estat´
                  ıstica tem origem no teste de hip´tese n˜o-param´trico
                                                   o      a       e
de Kolmogorov-Smirnov em que se deseja, a partir de duas amostras
retiradas de popula¸oes possivelmente distintas, testar se duas fun¸˜es
                    c˜                                              co


                                         16
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


de distribui¸oes associadas `s duas popula¸˜es s˜o idˆnticas ou n˜o.
            c˜                a             co   a    e          a
          A estat´
                 ıstica KS mede o quanto est˜o separadas as fun¸oes de
                                               a                 c˜
distribui¸oes emp´
         c˜        ıricas dos escores dos grupos de bons e maus pagado-
res. Sendo FB (e) = x≤ e FB (x) e FM (e) = x≤ e FM (x) a fun¸˜o deca
distribui¸ao emp´
         c˜       ırica dos bons e maus pagadores, respectivamente, a es-
tat´
   ıstica de Kolmogorov-Smirnov ´ dada por
                                    e

                     KS = m´x | FB (e) − FM (e) |,
                           a

em que FB (e) e FM (e) correspondem as propor¸˜es de clientes bons e
                                       `          co
maus com escore menor ou igual a e. A estat´  ıstica KS ´ obtida atrav´s
                                                        e             e
da distˆncia m´xima entre essas duas propor¸oes acumuladas ao longo
       a       a                              c˜
dos escores obtidos pelos modelos, representada na Figura 1.4.




Figura 1.4: Fun¸oes distribui¸oes emp´
                 c˜          c˜      ıricas para os bons e maus clientes
e a estat´
         ıstica KS.

         O valor dessa estat´ıstica pode variar de 0% a 100%, sendo que
o valor m´ximo indica uma separa¸ao total dos escores dos bons e maus
           a                         c˜
clientes e o valor m´ınimo sugere uma sobreposi¸ao total das distribui¸˜es
                                                 c˜                   co
dos escores dos dois grupos. Na pr´tica, obviamente, os modelos fornecem
                                    a
valores intermedi´rios entre esses dois extremos. A representa¸˜o da
                   a                                               ca
interpreta¸˜o dessa estat´
           ca             ıstica pode ser vista na Figura 1.5.

                                         17
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a




              Figura 1.5: Interpreta¸ao da estat´
                                    c˜          ıstica KS.

         O valor m´dio da estat´
                    e              ıstica KS para 30 amostras testes com
aproximadamente 200 mil clientes retirados aleatoriamente da base total
de clientes foi 32,26% para a regress˜o log´
                                        a    ıstica.
         No mercado, o KS tamb´m ´ utilizado para verificar se o modelo,
                                  e e
desenvolvido com um p´blico do passado, pode continuar a ser aplicado
                          u
para os novos entrantes. Dois diferentes KS s˜o calculados. O KS1
                                                     a
analisa se o perfil dos novos clientes (ou o perfil dos clientes da base de
teste) ´ semelhante ao perfil dos clientes da base de desenvolvimento do
       e
modelo. Esse ´ ındice ´ usado para comparar a distribui¸˜o acumulada dos
                      e                                  ca
escores dos clientes utilizados para o desenvolvimento do modelo com a
distribui¸ao acumulada dos escores dos novos entrantes (ou dos clientes
         c˜
da base de teste). Quanto menor o valor do KS1 mais semelhante ´ o     e
perfil do p´blico do desenvolvimento com o perfil dos novos clientes. O
           u
KS2 avalia a performance do modelo. Ou seja, mede, para uma dada
safra, a m´xima distˆncia entre a distribui¸ao de frequˆncia acumulada
           a           a                      c˜           e
dos bons clientes em rela¸˜o a distribui¸ao de frequˆncia acumulada dos
                            ca `          c˜           e
maus clientes.
         A interpreta¸˜o do ´
                       ca     ındice para modelos de Credit Scoring segue,
em algumas institui¸˜es, a seguinte regra:
                      co


                                         18
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


   • KS < 10%: indica que n˜o h´ discrimina¸˜o entre os perfis de bons
                           a a             ca
     e maus clientes;

   • 10% < KS < 20%: indica que a discrimina¸ao ´ baixa;
                                            c˜ e

   • KS > 20%: indica que o modelo discrimina o perfil de bons e maus.

1.4.2    Curva ROC
         Os escores obtidos para os modelos de Credit Scoring devem,
normalmente, ser correlacionados com a ocorrˆncia de algum evento de
                                               e
interesse, como por exemplo, a inadimplˆncia, permitindo assim, fazer
                                          e
previs˜es a respeito da ocorrˆncia desse evento para que pol´
      o                       e                                 ıticas de
cr´dito diferenciadas possam ser adotadas pelo n´
  e                                                ıvel de escore obtido
para os indiv´ıduos.
         Uma forma de se fazer previs˜es ´ estabelecer um ponto de corte
                                     o e
no escore produzido pelos modelos. Clientes com valores iguais ou mai-
ores a esse ponto s˜o classificados, por exemplo, como bons e abaixo
                     a
desse valor como maus pagadores. Para estabelecer e visualizar o c´lculo
                                                                    a
dessas medidas podemos utilizar uma tabela 2x2 denominada matriz de
confus˜o, representada na Figura 1.6
       a




                    Figura 1.6: Matriz de Confus˜o.
                                                a

   em que:
   n      : n´mero total de clientes na amostra;
             u
   bB : n´mero de bons clientes que foram classificados como Bons
              u
(acerto);

                                         19
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


    mM : n´mero de maus clientes que foram classificados como Maus
              u
(acerto);
    mB : n´mero de bons clientes que foram classificados como Maus
               u
(erro);
    bM : n´mero de maus clientes que foram classificados como Bons
              u
(erro);
    B     : n´mero total de bons clientes na amostra;
             u
    M : n´mero total de maus clientes na amostra;
             u
    b    : n´mero total de clientes classificados como bons na amostra;
            u
    m : n´mero total de clientes classificados como maus na amostra;
             u
        Na area m´dica, duas medidas muito comuns e bastante utiliza-
             ´     e
das s˜o a sensibilidade e a especificidade. Essas medidas, adaptadas ao
      a
contexto de Credit Scoring, considerando o mau cliente como a categoria
de interesse, s˜o definidas da seguinte forma:
                a
    Sensibilidade: probabilidade de um indiv´   ıduo ser classificado como
mau pagador, dado que realmente ´ mau;
                                     e
    Especificidade: probabilidade de um indiv´    ıduo ser classificado como
bom pagador, dado que realmente ´ bom;
                                     e
        Utilizando as frequˆncias mostradas na matriz de confus˜o, te-
                             e                                        a
                                       mM                          bB
mos que a Sensibilidade ´ dada por M e a Especificidade por B .
                          e
        A curva ROC (Zweig & Campbell, 1993) ´ constru´ variando
                                                      e        ıda
os pontos de corte, cut-off, ao longo da amplitude dos escores fornecidos
pelos modelos, a fim de se obter as diferentes classifica¸˜es dos indiv´
                                                        co              ıduos
e obtendo, consequentemente, os respectivos valores para as medidas
de Sensibilidade e Especificidade para cada ponto de corte estabelecido.
Assim, a curva ROC, ilustrada na Figura 1.7, ´ obtida tendo no seu
                                                    e
eixo horizontal os valores de (1-Especificidade), ou seja, a propor¸˜o de
                                                                      ca
bons clientes que s˜o classificados como maus clientes pelo modelo, e no
                   a
eixo vertical a Sensibilidade, que ´ a propor¸ao de maus clientes que s˜o
                                   e         c˜                            a
classificados realmente como maus. Uma curva ROC obtida ao longo da
diagonal principal corresponde a uma classifica¸ao obtida sem a utiliza¸ao
                                                c˜                        c˜
de qualquer ferramenta preditiva, ou seja, sem a presen¸a de modelos.
                                                            c
Consequentemente, a curva ROC deve ser interpretada de forma que
quanto mais a curva estiver distante da diagonal principal, melhor o
desempenho do modelo em quest˜o. Esse fato sugere que quanto maior
                                   a

                                           20
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


for a area entre a curva ROC produzida e a diagonal principal, melhor o
      ´
desempenho global do modelo.




                 Figura 1.7: Exemplos de curva ROC.

         Os pontos de corte ao longo dos escores fornecidos pelos mode-
los que apresentam bom poder discriminat´rio concentram-se no canto
                                               o
superior esquerdo da curva ROC. A curva ROC apresenta sempre um con-
trabalan¸o entre a Sensibildade e a Especificidade ao se variar os pontos
         c
de corte ao longo dos escores e pode ser usada para auxiliar na decis˜o de
                                                                      a
determinar o melhor ponto de corte. Em geral, o melhor cut-off ao longo
dos escores produz valores para as medidas de Sensibildade e Especifici-
dade que se localiza no “ombro” da curva, ou pr´ximo desse, ou seja, no
                                                   o
ponto mais a esquerda e superior poss´  ıvel, o qual ´ obtido considerando
                                                      e
como ponto de corte o escore que fornece a separa¸ao m´xima no teste
                                                       c˜   a
KS. Vale destacar que em problemas de Credit Scoring, normalmente,
crit´rios financeiros s˜o utilizados na determina¸˜o desse melhor ponto,
    e                 a                            ca
sendo que valores como o quanto se perde em m´dia ao aprovar um cli-
                                                    e
ente que traz problemas de cr´dito e tamb´m o quanto se deixa de ganhar
                               e           e
ao n˜o aprovar o cr´dito para um cliente que n˜o traria problemas para
     a              e                             a
a institui¸ao podem e devem ser considerados.
          c˜
         A partir da curva ROC temos a id´ia do desempenho do modelo
                                             e

                                         21
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


ao longo de toda amplitude dos escores produzidos pelos modelos.


1.4.3     Capacidade de acerto dos modelos
         Em um modelo com vari´vel resposta bin´ria, como ocorre nor-
                                   a                 a
malmente no caso de um Credit Scoring, temos o interesse em classificar
os indiv´ıduos em uma das duas categorias, bons ou maus clientes, e ob-
ter um bom grau de acerto nestas classifica¸oes. Como, geralmente, nas
                                              c˜
amostras testes, em que os modelos s˜o avaliados, se conhece a resposta
                                       a
dos clientes em rela¸˜o a sua condi¸˜o de cr´dito, e estabelecendo crit´rios
                     ca             ca      e                           e
para classificar estes clientes em bons e maus, torna-se poss´ comparar
                                                               ıvel
a classifica¸ao obtida com a verdadeira condi¸˜o credit´ dos clientes.
            c˜                                  ca        ıcia
         A forma utilizada para estabelecer a matriz de confus˜o, Figura
                                                                   a
1.6, ´ determinar um ponto de corte (cutoff ) no escore final dos modelos
     e
tal que, indiv´ ıduos com pontua¸ao acima desse cutoff s˜o classificados
                                 c˜                          a
como bons, por exemplo, e abaixo desse valor como maus clientes e com-
parando essa classifica¸ao com a situa¸˜o real de cada indiv´
                         c˜              ca                       ıduo. Essa
matriz descreve, portanto, uma tabula¸ao cruzada entre a classifica¸˜o
                                         c˜                               ca
predita atrav´s de um unico ponto de corte e a condi¸˜o real e conhe-
               e          ´                               ca
cida de cada indiv´  ıduo, em que a diagonal principal representa as clas-
sifica¸oes corretas e valores fora dessa diagonal correspondem a erros de
      c˜                                                            `
classifica¸ao.
          c˜
         A partir da matriz de confus˜o determinada por um ponto de
                                       a
corte espec´ ıfico e representada pela Figura 1.6, algumas medidas de ca-
pacidade de acerto dos modelos s˜o definidas a seguir:
                                   a
                                               bB +mM
   • Capacidade de Acerto Total (CAT)=             n

                                                            mM
   • Capacidade de Acerto dos Maus Clientes (CAM)=          M
                                                                   (Especifici-
     dade)
                                                              bB
   • Capacidade de Acerto dos Bons Clientes (CAB)=            B
                                                                    (Sensibili-
     dade)
                                            bB
   • Valor Preditivo Positivo (VPP)=      bB +bM

                                              mB
   • Valor Preditivo Negativo (VPN) =       mB +mM


                                          22
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a


                             bB +mB
   • Prevalˆncia (PVL) =
           e                    n

                                                      bB mM −bM mB
   • Correla¸ao de Mathews (MCC) = √
            c˜
                                           (bB +bM )(bB +mB )(mM +bM )(mM +mB )


         A Prevalˆncia, propor¸ao de observa¸oes propensas a caracte-
                    e              c˜            c˜
r´
 ıstica de interesse ou a probabilidade de uma observa¸˜o apresentar a
                                                          ca
caracter´ıstica de interesse antes do modelo ser ajustado, ´ um medida de
                                                           e
extrema importˆncia, principalmente quando tratamos de eventos raros.
                  a
         A Capacidade de Acerto Total ´ tamb´m conhecida como Acur´-
                                           e    e                      a
cia ou Propor¸ao de Acertos de um Modelo de Classifica¸ao. Esta medida
               c˜                                        c˜
tamb´m pode ser vista como uma m´dia ponderada da sensibilidade e
      e                                   e
da especificidade em rela¸ao ao n´mero de observa¸oes que apresentam
                             c˜       u               c˜
ou n˜o a caracter´
      a                                                           ca ´
                     ıstica de interesse de uma determinada popula¸˜o. E
importante ressaltar que a acur´cia n˜o ´ uma medida que deve ser ana-
                                   a      a e
lisada isoladamente na escolha de um modelo, pois ´ influenciada pela
                                                         e
sensibilidade, especificidade e prevalˆncia. Al´m disso, dois modelos com
                                        e        e
sensibilidade e especificidade muito diferentes podem produzir valores se-
melhantes de acur´cia, se forem aplicados a popula¸oes com prevalˆncias
                    a                                c˜              e
muito diferentes.
         Para ilustrar o efeito da prevalˆncia na acur´cia de um modelo,
                                           e            a
podemos supor uma popula¸ao que apresente 5% de seus integrantes com
                              c˜
a caracter´ıstica de interesse. Se um modelo classificar todos os indiv´
                                                                      ıduos
como n˜o portadores da caracter´
        a                            ıstica, temos um percentual de acerto
de 95%, ou seja, a acur´cia ´ alta e o modelo ´ pouco informativo.
                          a    e                   e
         O Valor Preditivo Positivo (VPP) de um modelo ´ a propor¸˜o
                                                             e          ca
de observa¸˜es representando o evento de interesse dentre os indiv´
            co                                                        ıduos
que o modelo identificou como evento. J´ o Valor Preditivo Negativo
                                               a
(VPN) ´ a propor¸˜o de indiv´
         e           ca           ıduos que representam n˜o evento dentre
                                                           a
os identificados como n˜o evento pelo modelo. Estas medidas devem
                           a
ser interpretadas com cautela, pois sofrem a influˆncia da prevalˆncia
                                                      e               e
populacional.
         Caso as estimativas da sensibilidade e da especificidade sejam
confi´veis, o valor preditivo positivo (VPP) pode ser estimado via Teo-
     a
rema de Bayes, utilizando uma estimativa da prevalˆncia (Linnet, 1998)
                                                       e



                                          23
Introdu¸˜o ` Modelagem de Credit Scoring
       ca a



                              SENS × PVL
          V PP =                                       ,
                   SENS × PVL + (1 − SPEC) × (1 − PVL)
com SENS usado para Sensibilidade e SPEC para Especificidade. Da
mesma forma, o valor preditivo negativo (VPN) pode ser estimado por

                            SPEC × (1 − PVL)
             V PN =                                 .
                      SPEC × (1 − PVL) + SENS × PVL
           O MCC, proposto por Matthews (1975), ´ uma medida de desem-
                                                  e
                                                                   ´
penho que pode ser utilizada no caso de prevalˆncias extremas. E uma
                                                 e
adapta¸ao do Coeficiente de Correla¸˜o de Pearson e mede o quanto as
         c˜                            ca
vari´veis que indicam a classifica¸ao original da resposta de interesse e
    a                               c˜
a que corresponde a classifica¸ao do modelo obtida por meio do ponto
                                c˜
de corte adotado, ambas vari´veis assumindo valores 0 e 1, tendem a
                                a
apresentar o mesmo sinal de magnitude ap´s serem padronizadas (Baldi
                                             o
et al., 2000).
           O MCC retorna um valor entre -1 e +1. O valor 1 representa
uma previs˜o perfeita, um acordo total, o valor 0 representa uma pre-
             a
vis˜o completamente aleat´ria e -1 uma previs˜o inversa, ou seja, total
   a                         o                   a
desacordo. Observe que o MCC utiliza as 4 medidas apresentadas na
matriz de confus˜o (bB , bM , mB , mM ).
                    a
           O Custo Relativo, baseado em uma medida apresentada em Ben-
sic et al. (2005), ´ definido por CR = αC1 P1 + (1 − α)C2 P2 , em que α
                     e
representa a probabilidade de um proponente ser mau pagador, C1 ´        e
o custo de aceitar um mau pagador, C2 ´ o custo de rejeitar um bom
                                            e
pagador, P1 ´ a probabilidade de ocorrer um falso negativo e P2 ´ a
               e                                                       e
probabilidade de ocorrer um falso positivo.
           Como na pr´tica n˜o ´ f´cil obter as estimativas de C1 e C2 , o
                       a      a e a
custo ´ calculado considerando diversas propor¸oes entre C1 e C2 , com
        e                                        c˜
a restri¸˜o C1 > C2 , ou seja, a perda em aceitar um mau pagador ´
          ca                                                             e
maior do que o lucro perdido ao rejeitar um bom pagador. Bensic et
al. (2005) considera α como a prevalˆncia amostral, isto ´, sup˜e que
                                         e                   e     o
a prevalˆncia de maus pagadores nos portf´lios representa a prevalˆncia
           e                                 o                       e
real da popula¸˜o de interesse.
                 ca



                                         24
Cap´
   ıtulo 2

Regress˜o Log´
       a     ıstica

         Os modelos de regress˜o s˜o utilizados para estudar e estabe-
                                   a a
lecer uma rela¸ao entre uma vari´vel de interesse, denominada vari´vel
               c˜                   a                                     a
resposta, e um conjunto de fatores ou atributos referentes a cada cliente,
geralmente encontrados na proposta de cr´dito, denominados covari´veis.
                                             e                          a
         No contexto de Credit Scoring, como a vari´vel de interesse ´
                                                         a                    e
bin´ria, a regress˜o log´
   a               a     ıstica ´ um dos m´todos estat´
                                e           e          ısticos utilizado com
bastante frequˆncia. Para uma vari´vel resposta dicotˆmica, o interesse ´
               e                      a                  o                    e
modelar a propor¸ao de resposta de uma das duas categorias, em fun¸˜o
                    c˜                                                     ca
das covari´veis. E
           a       ´ comum adotarmos o valor 1 para a resposta de maior
interesse, denominada “sucesso”, o qual pode ser utilizado no caso de um
proponente ao cr´dito ser um bom ou um mau pagador.
                   e
         Normalmente, quando constru´      ımos um modelo de Credit Sco-
ring, a amostra de desenvolvimento ´ formada pela sele¸˜o dos clientes
                                         e                    ca
contratados durante um per´     ıodo de tempo espec´ ıfico, sendo observado
o desempenho de pagamento desses clientes ao longo de um per´         ıodo de
tempo posterior e pr´-determinado, correspondente ao horizonte de pre-
                       e
vis˜o. Esse tempo ´ escolhido arbitrariamente entre 12 e 18 meses, sendo
   a                 e
na pr´tica 12 meses o intervalo mais utilizado, como j´ mencionado no
       a                                                    a
Cap´ ıtulo 1, em que a vari´vel resposta de interesse ´ classificada, por
                              a                           e
exemplo, em bons (y = 0) e maus (y = 1) pagadores, de acordo com a
      e          a                       e                       ´
ocorrˆncia ou n˜o de problemas de cr´dito nesse intervalo. E importante
chamar a aten¸ao que ambos os per´
               c˜                       ıodos — de sele¸˜o da amostra e de
                                                       ca
desempenho de pagamento — est˜o no passado, portanto a ocorrˆncia
                                     a                                  e

                                            25
Regress˜o Log´
       a     ıstica


ou n˜o do evento modelado j´ deve ter sido observada.
     a                           a
         Sejam x = (x1 , x2 , . . . , xk ) o vetor de valores de atributos que
caracterizam um cliente e π(x) a propor¸ao de maus pagadores em fun¸ao
                                              c˜                           c˜
do perfil dos clientes, definido e caracterizado por x. Neste caso, o modelo
log´
   ıstico ´ adequado para definir uma rela¸˜o entre a probabilidade de
          e                                      ca
um cliente ser mau pagador e um conjunto de fatores ou atributos que
o caracterizam. Esta rela¸ao ´ definida pela fun¸ao ou transforma¸ao
                            c˜ e                        c˜                 c˜
logito dada pela express˜oa

                         π(x)
                 log                = β0 + β1 x1 + . . . + βk xk ,
                       1 − π(x)

em que π(x) ´ definido como
            e

                             exp(β0 + β1 x1 + . . . + βk xk )
                 π(x) =                                         ,
                           1 + exp(β0 + β1 x1 + . . . + βk xk )

e pode ser interpretado como a probabilidade de um proponente ao
cr´dito ser um mau pagador dado as caracter´
  e                                        ısticas que possui, repre-
sentadas por x. No caso da atribui¸ao da categoria bom pagador, as
                                  c˜
interpreta¸˜es s˜o an´logas.
          co    a    a



2.1      Estima¸˜o dos Coeficientes
               ca
             Dada uma amostra de n clientes (yi , xi ), sendo yi a vari´vel res-
                                                                          a
posta — bons e maus pagadores — e xi = (xi1 , xi2 , . . . , xik ) , em que
xi1 , xi2 , . . . , xik s˜o os valores dos k atributos observados do i-´simo cli-
                         a                                              e
ente, i = 1, . . . , n, o ajuste do modelo log´     ıstico consiste em estimar os
parˆmetros βj , j = 1, 2, . . . , k, os quais definem π(x).
     a
             Os parˆmetros s˜o geralmente estimados pelo m´todo de m´xi-
                       a         a                                 e          a
ma verossimilhan¸a (Hosmer & Lemeshow, 2000). Por este m´todo, os
                          c                                              e
coeficientes s˜o estimados de maneira a maximizar a probabilidade de se
                     a
obter o conjunto de dados observados a partir do modelo proposto. Para
o m´todo ser aplicado, primeiramente constru´
      e                                                ımos a fun¸ao de verossimi-
                                                                 c˜
lhan¸a que expressa a probabilidade dos dados observados, como fun¸˜o
       c                                                                       ca


                                              26
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito
Livro risco de credito

Mais conteúdo relacionado

Mais procurados

O monstro das cores
O monstro das coresO monstro das cores
O monstro das coresHaysla Costa
 
10 h u ku m s y i r k a h 1
10 h u ku m  s y i r k a h 110 h u ku m  s y i r k a h 1
10 h u ku m s y i r k a h 1Encep Bahauddin
 
Jual Beli Terlarang Secara Syara’
Jual Beli Terlarang Secara Syara’Jual Beli Terlarang Secara Syara’
Jual Beli Terlarang Secara Syara’Izzuddin Abdul Manaf
 
A rã que queria ser maior do que o boi
A rã que queria ser maior do que o boiA rã que queria ser maior do que o boi
A rã que queria ser maior do que o boiElisangela Terra
 
Riba dalam perspektif islam
Riba dalam perspektif islamRiba dalam perspektif islam
Riba dalam perspektif islamMaisa Rifa
 
Atividade da história "O caso do bolinho - Tatiana Belink"
Atividade da história "O caso do bolinho - Tatiana Belink"Atividade da história "O caso do bolinho - Tatiana Belink"
Atividade da história "O caso do bolinho - Tatiana Belink"malumaschu
 
Paulo moreira stop!disciplina e autocontrolo parte 3
Paulo moreira   stop!disciplina e autocontrolo parte 3Paulo moreira   stop!disciplina e autocontrolo parte 3
Paulo moreira stop!disciplina e autocontrolo parte 3Rosa Carvalho
 
Murabahah salam istishna'
Murabahah salam istishna'Murabahah salam istishna'
Murabahah salam istishna'Marhamah Saleh
 
UU No 21 Tahun 2008 Tentang perbankan syariah
UU No 21 Tahun 2008 Tentang perbankan syariahUU No 21 Tahun 2008 Tentang perbankan syariah
UU No 21 Tahun 2008 Tentang perbankan syariahYesica Adicondro
 
Anna llenas o monstro das cores
Anna llenas   o monstro das coresAnna llenas   o monstro das cores
Anna llenas o monstro das coresPamellaSilveira3
 
DANDARA E A PRINCESA PERDIDA.pdf
DANDARA E A PRINCESA PERDIDA.pdfDANDARA E A PRINCESA PERDIDA.pdf
DANDARA E A PRINCESA PERDIDA.pdfMax Liliane
 

Mais procurados (20)

O monstro das cores
O monstro das coresO monstro das cores
O monstro das cores
 
10 h u ku m s y i r k a h 1
10 h u ku m  s y i r k a h 110 h u ku m  s y i r k a h 1
10 h u ku m s y i r k a h 1
 
Jual Beli Terlarang Secara Syara’
Jual Beli Terlarang Secara Syara’Jual Beli Terlarang Secara Syara’
Jual Beli Terlarang Secara Syara’
 
Molde fantoches
Molde fantochesMolde fantoches
Molde fantoches
 
A rã que queria ser maior do que o boi
A rã que queria ser maior do que o boiA rã que queria ser maior do que o boi
A rã que queria ser maior do que o boi
 
Riba dalam perspektif islam
Riba dalam perspektif islamRiba dalam perspektif islam
Riba dalam perspektif islam
 
Atividade da história "O caso do bolinho - Tatiana Belink"
Atividade da história "O caso do bolinho - Tatiana Belink"Atividade da história "O caso do bolinho - Tatiana Belink"
Atividade da história "O caso do bolinho - Tatiana Belink"
 
Paulo moreira stop!disciplina e autocontrolo parte 3
Paulo moreira   stop!disciplina e autocontrolo parte 3Paulo moreira   stop!disciplina e autocontrolo parte 3
Paulo moreira stop!disciplina e autocontrolo parte 3
 
Mensuração, gestão de performance e risco
Mensuração, gestão de performance e riscoMensuração, gestão de performance e risco
Mensuração, gestão de performance e risco
 
Kesirler
KesirlerKesirler
Kesirler
 
A bonequinha preta
A bonequinha pretaA bonequinha preta
A bonequinha preta
 
Culinária
CulináriaCulinária
Culinária
 
Murabahah salam istishna'
Murabahah salam istishna'Murabahah salam istishna'
Murabahah salam istishna'
 
Minha mãe é Negra Sim.
Minha mãe é Negra Sim.Minha mãe é Negra Sim.
Minha mãe é Negra Sim.
 
Requerimento de alvará e habite-se
Requerimento de alvará e habite-seRequerimento de alvará e habite-se
Requerimento de alvará e habite-se
 
UU No 21 Tahun 2008 Tentang perbankan syariah
UU No 21 Tahun 2008 Tentang perbankan syariahUU No 21 Tahun 2008 Tentang perbankan syariah
UU No 21 Tahun 2008 Tentang perbankan syariah
 
Anna llenas o monstro das cores
Anna llenas   o monstro das coresAnna llenas   o monstro das cores
Anna llenas o monstro das cores
 
59 desenhos e linhas pontilhadas
59 desenhos e linhas pontilhadas59 desenhos e linhas pontilhadas
59 desenhos e linhas pontilhadas
 
DANDARA E A PRINCESA PERDIDA.pdf
DANDARA E A PRINCESA PERDIDA.pdfDANDARA E A PRINCESA PERDIDA.pdf
DANDARA E A PRINCESA PERDIDA.pdf
 
Artes
ArtesArtes
Artes
 

Destaque

Apresentação dia 29 de fevereiro de 2016
Apresentação dia 29 de fevereiro de 2016Apresentação dia 29 de fevereiro de 2016
Apresentação dia 29 de fevereiro de 2016Elvis Lima
 
Dissertação impacto da gestão do risco nas instuições finaceiras.
Dissertação   impacto da gestão do risco nas instuições finaceiras.Dissertação   impacto da gestão do risco nas instuições finaceiras.
Dissertação impacto da gestão do risco nas instuições finaceiras.Manuel Fernandes
 
Testes de estresse em bancos - palestra na Fipe USP
Testes de estresse em bancos - palestra na Fipe USPTestes de estresse em bancos - palestra na Fipe USP
Testes de estresse em bancos - palestra na Fipe USPTroster
 
Apresentação - basileia III
Apresentação - basileia IIIApresentação - basileia III
Apresentação - basileia IIItadeuferreirajr
 
Anatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoAnatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoRenato Vicente
 
Risco de Crédito 3: KMV
Risco de Crédito 3: KMVRisco de Crédito 3: KMV
Risco de Crédito 3: KMVRenato Vicente
 
Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Renato Vicente
 
Gestão e análise de risco de crédito apostila i
Gestão e análise de risco de crédito   apostila iGestão e análise de risco de crédito   apostila i
Gestão e análise de risco de crédito apostila iprofessoredmilson
 

Destaque (14)

V@R Não-Linear
V@R Não-LinearV@R Não-Linear
V@R Não-Linear
 
Testes de Stress
Testes de StressTestes de Stress
Testes de Stress
 
Apresentação dia 29 de fevereiro de 2016
Apresentação dia 29 de fevereiro de 2016Apresentação dia 29 de fevereiro de 2016
Apresentação dia 29 de fevereiro de 2016
 
Dissertação impacto da gestão do risco nas instuições finaceiras.
Dissertação   impacto da gestão do risco nas instuições finaceiras.Dissertação   impacto da gestão do risco nas instuições finaceiras.
Dissertação impacto da gestão do risco nas instuições finaceiras.
 
Testes de estresse em bancos - palestra na Fipe USP
Testes de estresse em bancos - palestra na Fipe USPTestes de estresse em bancos - palestra na Fipe USP
Testes de estresse em bancos - palestra na Fipe USP
 
Apresentação - basileia III
Apresentação - basileia IIIApresentação - basileia III
Apresentação - basileia III
 
Anatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoAnatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de Crédito
 
Backtesting
BacktestingBacktesting
Backtesting
 
Risco de Crédito 3: KMV
Risco de Crédito 3: KMVRisco de Crédito 3: KMV
Risco de Crédito 3: KMV
 
Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+
 
Risco operacional
Risco operacionalRisco operacional
Risco operacional
 
Gestão e análise de risco de crédito apostila i
Gestão e análise de risco de crédito   apostila iGestão e análise de risco de crédito   apostila i
Gestão e análise de risco de crédito apostila i
 
Riscos financeiros
Riscos financeirosRiscos financeiros
Riscos financeiros
 
Risco de Crédito 1
Risco de Crédito 1Risco de Crédito 1
Risco de Crédito 1
 

Semelhante a Livro risco de credito

Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta) Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta) Emanuel Ramos Borges
 
Raciocínio baseado em casos
Raciocínio baseado em casosRaciocínio baseado em casos
Raciocínio baseado em casosPatrick Peyneau
 
DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...
DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...
DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...Arnoldo Schmidt Neto
 
Gustavo Adolfo di Cresci
Gustavo Adolfo di CresciGustavo Adolfo di Cresci
Gustavo Adolfo di Crescigustavocresci
 
I Escola Regional de Alto Desempenho de SP Fórum de Pós-Graduação
I Escola Regional de Alto Desempenho de SP Fórum de Pós-GraduaçãoI Escola Regional de Alto Desempenho de SP Fórum de Pós-Graduação
I Escola Regional de Alto Desempenho de SP Fórum de Pós-GraduaçãoDeivid Martins
 
A Importância da Disciplina de Pesquisa Operacional .pdf
A Importância da Disciplina de Pesquisa Operacional .pdfA Importância da Disciplina de Pesquisa Operacional .pdf
A Importância da Disciplina de Pesquisa Operacional .pdfboinadalvi
 
Dissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho MachadoDissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho MachadoTiago Machado
 
Dissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho MachadoDissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho MachadoTiago Machado
 
Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...Fernando Maia da Mota
 
Gestão de ong de pequeno e médio porte
Gestão de ong de pequeno e médio porteGestão de ong de pequeno e médio porte
Gestão de ong de pequeno e médio portejcfialho
 
Modelação estatística para risco de crédito emanuel de jesus ramos correia ...
Modelação estatística para risco de crédito   emanuel de jesus ramos correia ...Modelação estatística para risco de crédito   emanuel de jesus ramos correia ...
Modelação estatística para risco de crédito emanuel de jesus ramos correia ...Emanuel Ramos Borges
 

Semelhante a Livro risco de credito (20)

Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta) Modelação estatística para risco de crédito (versão incompleta)
Modelação estatística para risco de crédito (versão incompleta)
 
V8n2a07
V8n2a07V8n2a07
V8n2a07
 
Raciocínio baseado em casos
Raciocínio baseado em casosRaciocínio baseado em casos
Raciocínio baseado em casos
 
Revista_Tecnologia_de_Credito_87_WEB
Revista_Tecnologia_de_Credito_87_WEBRevista_Tecnologia_de_Credito_87_WEB
Revista_Tecnologia_de_Credito_87_WEB
 
Analise de projetos
Analise de projetosAnalise de projetos
Analise de projetos
 
Cristiani Passolongo
Cristiani PassolongoCristiani Passolongo
Cristiani Passolongo
 
DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...
DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...
DEMONSTRAÇÃO DE FLUXO DE CAIXA VERSUS DEMONSTRAÇÃO DE ORIGENS E APLICAÇÕES DE...
 
Gustavo Adolfo di Cresci
Gustavo Adolfo di CresciGustavo Adolfo di Cresci
Gustavo Adolfo di Cresci
 
I Escola Regional de Alto Desempenho de SP Fórum de Pós-Graduação
I Escola Regional de Alto Desempenho de SP Fórum de Pós-GraduaçãoI Escola Regional de Alto Desempenho de SP Fórum de Pós-Graduação
I Escola Regional de Alto Desempenho de SP Fórum de Pós-Graduação
 
Fatores psicossociais
Fatores psicossociaisFatores psicossociais
Fatores psicossociais
 
A Importância da Disciplina de Pesquisa Operacional .pdf
A Importância da Disciplina de Pesquisa Operacional .pdfA Importância da Disciplina de Pesquisa Operacional .pdf
A Importância da Disciplina de Pesquisa Operacional .pdf
 
TCC MBA ESAD
TCC MBA ESADTCC MBA ESAD
TCC MBA ESAD
 
Dissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho MachadoDissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho Machado
 
Dissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho MachadoDissertação de Mestrado Tiago Carvalho Machado
Dissertação de Mestrado Tiago Carvalho Machado
 
Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...
Uma Estratégia para Publicação dos Dados da Base do CEB/INEP-MEC no Padrão Li...
 
Gestão de ong de pequeno e médio porte
Gestão de ong de pequeno e médio porteGestão de ong de pequeno e médio porte
Gestão de ong de pequeno e médio porte
 
Ensiso day talks
Ensiso day   talksEnsiso day   talks
Ensiso day talks
 
gusmao_MSc_thesis
gusmao_MSc_thesisgusmao_MSc_thesis
gusmao_MSc_thesis
 
Rumos ebook 00_introducao
Rumos ebook 00_introducaoRumos ebook 00_introducao
Rumos ebook 00_introducao
 
Modelação estatística para risco de crédito emanuel de jesus ramos correia ...
Modelação estatística para risco de crédito   emanuel de jesus ramos correia ...Modelação estatística para risco de crédito   emanuel de jesus ramos correia ...
Modelação estatística para risco de crédito emanuel de jesus ramos correia ...
 

Livro risco de credito

  • 1. Modelagem Estat´ ıstica Para Risco de Cr´dito e Carlos Diniz Francisco Louzada ABE - Associa¸˜o Brasileira de Estat´ ca ıstica 20o SINAPE Julho / 2012
  • 2. Modelagem Estat´ ıstica Para Risco de Cr´dito e Carlos Diniz DEs–UFSCar Francisco Louzada ICMC–USP Colaboradores H´lio J. Abreu e Nat´lia M. Ferreira a Paulo H. Ferreira Ricardo F. Rocha Agatha S. Rodrigues Fernanda N. Scacabarozi Anderson L. de Sousa 20o SINAPE Simp´sio Nacional de Probabilidade e Estat´ o ıstica 30/07 a 03/08 – 2012 Hotel Tamba´, Jo˜o Pessoa-PB u a
  • 3. Pref´cio a Historicamente, os modelos de Credit Scoring compreendem uma das principais ferramentas de suporte a concess˜o de cr´dito. O desenvol- ` a e vimento de tais modelos baseia-se, geralmente, na constru¸ao de um pro- c˜ cedimento formal para descrever quais caracter´ ısticas dos clientes est˜o,a efetivamente, relacionadas com o seu risco de cr´dito e qual a intensidade e e dire¸˜o desse relacionamento. A id´ia central consiste na gera¸˜o de ca e ca um escore ou de um grupo de escores atrav´s dos quais clientes potenci- e ais possam ser ordenados segundo a sua chance de inadimplˆncia. Nestee livro apresentamos os procedimentos estat´ ısticos comumente utilizados na modelagem de Credit Scoring. O presente livro tem como base cinco disserta¸˜es de mestrado, co defendidas no Programa de P´s-gradua¸˜o em Estat´ o ca ıstica da UFSCar, um trabalho de conclus˜o de curso do Bacharelado em Estat´ a ıstica da UFSCar e um trabalho de Inicia¸ao Cient´ c˜ ıfica. Trata-se das disserta¸oes c˜ de Fernanda Nanci Scacabarozi, intitulada Modelagem de Eventos Raros: Uma Compara¸ao e de Nat´lia Manduca Ferreira, intitulada Presen¸a de c a c Dados Missing em Modelos de Regress˜o Log´stica, as quais foram orien- a ı tadas pelo Prof. Carlos Diniz; as disserta¸oes de H´lio Jos´ de Abreu, in- c˜ e e titulada Aplica¸˜o de An´lise de Sobrevivˆncia em um Problema de Cre- ca a e dit Scoring e Compara¸˜o com a Regress˜o Log´stica, de Ricardo Ferreira ca a ı da Rocha, intitulada Combina¸˜o de Classificadores para Inferˆncia dos ca e Rejeitados e de Anderson Lu´ de Sousa, intitulada Redes Probabil´sticas ıs ı de k-Dependˆncia para Problemas de Classifica¸˜o Bin´ria, os quais fo- e ca a ram orientados pelo Prof. Francisco Louzada; o trabalho de conclus˜o de a curso de Agatha Sacramento Rodrigues, intitulado Regress˜o Log´stica a ı com Erro de Medida, orientada pelo Prof. Carlos Diniz e o trabalho de Inicia¸ao Cient´ c˜ ıfica de Paulo Henrique Ferreira da Silva, intitulado Me- didas do Valor Preditivo de Modelos de Classifica¸˜o Aplicados a Dados ca de Cr´dito, orientado pelo Prof. Francisco Louzada. e O livro ´ composto por 9 cap´ e ıtulos. No Cap´ ıtulo 1 apresentamos as principais etapas de desenvolvimento de um modelo de Credit Sco- ring. No Cap´ ıtulo 2 apresentamos a metodologia usualmente utilizada no contexto de risco de cr´dito, ou seja, modelo de regress˜o log´ e a ıstica e
  • 4. abordamos tamb´m regress˜o log´ e a ıstica com erro de medida. No Cap´ ıtulo 3 apresentamos os principais modelos que podem ser utilizados em si- tua¸oes de eventos raros, tais como fraude e n˜o pagamento da primeira c˜ a fatura. No Cap´ ıtulo 4 apresentamos algumas das t´cnicas associadas ` e a inferˆncia dos rejeitados. No Cap´ e ıtulo 5 apresentamos t´cnicas de com- e bina¸ao de modelos para dados financeiros. O Cap´ c˜ ıtulo 6 trata de an´lise a de dados financeiros com a presen¸a de dados missing. Modelos alterna- c tivos aos modelos usuais de cr´dito s˜o apresentados nos Cap´ e a ıtulos 7 a 9. No Cap´ ıtulo 7 apresentamos a metodologia de redes probabil´ ısticas. Nos Cap´ ıtulos 8 e 9 apresentamos a metodologia de an´lise de sobrevivˆncia a e e modelos de longa dura¸˜o, respectivamente. ca Agradecemos aos alunos do Programa de Doutorado em Estat´ ıs- tica, DEs -UFSCar, Rubiane Maria Pires, Carolina Costa Mota Para´ e ıba Vitor Alex Alves de Marchi, a ex-aluna do Programa de Mestrado Simone Cristina Obage e aos colegas de Departamento Teresa Cristina Martins Dias, M´rcio Luis Lanfredi Viola e Luis Ernesto Bueno Salasar, pela a leitura minuciosa e pelas valiosas cr´ ıticas e sugest˜es que contribu´ o ıram para o enriquecimento do texto. Agradecemos tamb´m ` Associa¸˜o e a ca o Brasileira de Estat´ ıstica (ABE) e a Comiss˜o Organizadora do 20 SI- ` a NAPE pela oportunidade que nos foi proporcionada para ministrarmos este minicurso. S˜o Carlos, 20 de abril de 2012. a Carlos Diniz e Francisco Louzada ii
  • 5. Sum´rio a 1 Introdu¸˜o ` Modelagem de Credit Scoring ca a 1 1.1 Etapas de Desenvolvimento . . . . . . . . . . . . . . . . 3 1.2 Planejamento Amostral . . . . . . . . . . . . . . . . . . . 3 1.2.1 Descri¸˜o de um problema - Credit Scoring ca . . . . 8 1.3 Determina¸˜o da Pontua¸ao de Escore . . . . . . ca c˜ . . . . 9 1.3.1 Transforma¸˜o e sele¸˜o de vari´veis . . . ca ca a . . . . 11 1.3.2 Regress˜o log´ a ıstica . . . . . . . . . . . . . . . . . 12 1.4 Valida¸ao e Compara¸ao dos Modelos . . . . . . . c˜ c˜ . . . . 15 1.4.1 A estat´ ıstica de Kolmogorov-Smirnov (KS) . . . . 16 1.4.2 Curva ROC . . . . . . . . . . . . . . . . . . . . . 19 1.4.3 Capacidade de acerto dos modelos . . . . . . . . . 22 2 Regress˜o Log´ a ıstica 25 2.1 Estima¸ao dos Coeficientes . . . . . . . . . . . . . c˜ . . . . 26 2.2 Intervalos de Confian¸a e Sele¸ao de Vari´veis . . c c˜ a . . . . 28 2.3 Interpreta¸˜o dos Coeficientes do Modelo . . . . . ca . . . . 30 2.4 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . c˜ . . . . 31 2.5 Amostras State-Dependent . . . . . . . . . . . . . . . . . 34 2.5.1 M´todo de corre¸˜o a priori . . . . . . . . e ca . . . . 36 2.6 Estudo de Compara¸ao . . . . . . . . . . . . . . . c˜ . . . . 37 2.6.1 Medidas de desempenho . . . . . . . . . . . . . . 37 2.6.2 Probabilidades de inadimplˆncia estimadas e . . . . 38 2.7 Regress˜o Log´ a ıstica com Erro de Medida . . . . . . . . . 39 2.7.1 Fun¸ao de verossimilhan¸a . . . . . . . . . c˜ c . . . . 41 2.7.2 M´todos de estima¸˜o . . . . . . . . . . . e ca . . . . 42 2.7.3 Renda presumida . . . . . . . . . . . . . . . . . . 43 iii
  • 6. ´ SUMARIO 3 Modelagem Para Eventos Raros 45 3.1 Estimadores KZ para o Modelo de Regress˜o Log´ a ıstica . 46 3.1.1 Corre¸˜o nos parˆmetros . . . . . . . . . . . . . ca a . 47 3.1.2 Corre¸˜o nas probabilidades estimadas . . . . . ca . 48 3.2 Modelo Logito Limitado . . . . . . . . . . . . . . . . . . 50 3.2.1 Estima¸˜o . . . . . . . . . . . . . . . . . . . . . ca . 51 3.2.2 M´todo BFGS . . . . . . . . . . . . . . . . . . . e . 52 3.3 Modelo Logito Generalizado . . . . . . . . . . . . . . . . 53 3.3.1 Estima¸˜o . . . . . . . . . . . . . . . . . . . . . ca . 55 3.4 Modelo Logito com Resposta de Origem . . . . . . . . . 57 3.4.1 Modelo normal . . . . . . . . . . . . . . . . . . . 57 3.4.2 Modelo exponencial . . . . . . . . . . . . . . . . . 59 3.4.3 Modelo lognormal . . . . . . . . . . . . . . . . . . 59 3.4.4 Estudo de simula¸ao . . . . . . . . . . . . . . . c˜ . 60 3.5 An´lise de Dados Reais . . . . . . . . . . . . . . . . . . a . 63 4 Credit Scoring com Inferˆncia dos Rejeitados e 67 4.1 M´todos de Inferˆncia dos Rejeitados . . . . e e . . . . . . . 68 4.1.1 M´todo da reclassifica¸˜o . . . . . . . e ca . . . . . . . 68 4.1.2 M´todo da pondera¸ao . . . . . . . . e c˜ . . . . . . . 69 4.1.3 M´todo do parcelamento . . . . . . . e . . . . . . . 70 4.1.4 Outros m´todos . . . . . . . . . . . . e . . . . . . . 71 4.2 Aplica¸ao . . . . . . . . . . . . . . . . . . . c˜ . . . . . . . 72 5 Combina¸˜o de Modelos de Credit Scoring ca 76 5.1 Bagging de Modelos . . . . . . . . . . . . . . . . . . . . . 76 5.2 M´todos de Combina¸˜o . . . . . . . . . . e ca . . . . . . . . 78 5.2.1 Combina¸ao via m´dia . . . . . . . c˜ e . . . . . . . . 78 5.2.2 Combina¸ao via voto . . . . . . . . c˜ . . . . . . . . 79 5.2.3 Combina¸ao via regress˜o log´ c˜ a ıstica . . . . . . . . 80 5.3 Aplica¸ao . . . . . . . . . . . . . . . . . . c˜ . . . . . . . . 80 6 Dados Missing em Modelos de Credit Scoring 85 6.1 Dados Missing . . . . . . . . . . . . . . . . . . . . . . . 86 6.2 Modelos e Mecanismos Missing . . . . . . . . . . . . . . 87 6.2.1 Modelos de valores missing . . . . . . . . . . . . 88 iv
  • 7. ´ SUMARIO 6.2.2 Mecanismos de valores missing . . . . . . . . . . 90 6.3 Modelo Log´ıstico com Missing . . . . . . . . . . . . . . . 93 6.3.1 Estima¸˜o de m´xima verossimilhan¸a ca a c . . . . . . 94 6.3.2 Caso completo . . . . . . . . . . . . . . . . . . . . 97 6.3.3 Caso completo corrigido . . . . . . . . . . . . . . 98 6.3.4 Imputa¸˜es simples e m´ltipla . . . . . co u . . . . . . 99 6.4 Uso da Quadratura Gaussiana . . . . . . . . . . . . . . . 99 6.5 Estudo de Simula¸ao . . . . . . . . . . . . . . c˜ . . . . . . 101 6.5.1 Dados completos . . . . . . . . . . . . . . . . . . 102 6.5.2 M´todo EMVG . . . . . . . . . . . . . e . . . . . . 104 6.5.3 Resultados . . . . . . . . . . . . . . . . . . . . . . 107 7 Redes Probabil´ ısticas 115 7.1 Conceitos Probabil´ ısticos . . . . . . . . . . . . . . . . . . 115 7.1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . 116 7.1.2 Distribui¸˜es multinomial e Dirichlet . . . co . . . . 116 7.1.3 Distribui¸˜o normal - uni e multivariada . ca . . . . 118 7.1.4 Entropia . . . . . . . . . . . . . . . . . . . . . . . 118 7.1.5 Informa¸˜o m´tua . . . . . . . . . . . . . ca u . . . . 119 7.2 Redes Probabil´ısticas . . . . . . . . . . . . . . . . . . . . 121 7.2.1 Elementos b´sicos . . . . . . . . . . . . . . a . . . . 121 7.2.2 Estruturas de teoria de grafos . . . . . . . . . . . 121 7.2.3 Exemplo b´sico de uma rede probabil´ a ıstica . . . . 123 7.2.4 Constru¸˜o de uma rede probabil´ ca ıstica . . . . . . 124 7.3 Inferˆncia . . . . . . . . . . . . . . . . . . . . . . e . . . . 125 7.3.1 Estima¸˜o de estruturas de classifica¸ao . ca c˜ . . . . 125 7.3.2 Estima¸˜o de parˆmetros . . . . . . . . . . ca a . . . . 131 7.4 Compara¸˜o entre os m´todos de classifica¸ao . . ca e c˜ . . . . 132 8 An´lise de Sobrevivˆncia a e 137 8.1 Algumas Defini¸oes Usuais . . . . . . . . . . . . . . . . . c˜ 138 8.2 Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . 142 8.2.1 Modelo para compara¸ao de dois perfis de clientes c˜ 143 8.2.2 A generaliza¸˜o do modelo de riscos proporcionais ca 144 8.2.3 Ajuste de um modelo de riscos proporcionais . . . 146 v
  • 8. ´ SUMARIO 8.2.4 Tratamento de empates . . . . . . . . . . . . . . . 151 8.3 Intervalos de Confian¸a e Sele¸ao de Vari´veis c c˜ a . . . . . . 154 8.4 Estima¸ao da Fun¸ao de Risco e Sobrevivˆncia c˜ c˜ e . . . . . . 155 8.5 Interpreta¸˜o dos Coeficientes . . . . . . . . . ca . . . . . . 157 8.6 Aplica¸ao . . . . . . . . . . . . . . . . . . . . c˜ . . . . . . 159 9 Modelo de Longa Dura¸˜o ca 163 9.1 Modelo de Mistura Geral . . . . . . . . . . . . . . . . . . 163 9.2 Estima¸ao do modelo longa dura¸ao geral . . . . . . . . . 165 c˜ c˜ 9.3 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . 167 c˜ vi
  • 9. Cap´ ıtulo 1 Introdu¸˜o ` Modelagem de ca a Credit Scoring A partir de 1933, ano da publica¸ao do primeiro volume da re- c˜ vista Econometrica, intensificou-se o desenvolvimento de m´todos es-e tat´ısticos para, dentre outros objetivos, testar teorias econˆmicas, avaliar o e implementar pol´ ıticas comerciais, estimar rela¸oes econˆmicas e dar su- c˜ o porte ` concess˜o de cr´dito. a a e Os primeiros modelos de Credit Scoring foram desenvolvidos en- tre os anos 40 e 50 e a metodologia b´sica, aplicada a esse tipo de pro- a blema, era orientada por m´todos de discrimina¸ao produzidos por Fisher e c˜ (1936). Podemos dizer que foi de Durand (1941) o primeiro trabalho co- nhecido que utilizou an´lise discriminante para um problema de cr´dito, a e em que as t´cnicas desenvolvidas por Fisher foram empregadas para dis- e criminar bons e maus empr´stimos. e Henry Markowitz (Markowitz, 1952) foi um dos pioneiros na cria¸ao de um modelo estat´ c˜ ıstico para o uso financeiro, o qual foi uti- lizado para medir o efeito da diversifica¸ao no risco total de uma carteira c˜ de ativos. Fischer Black e Myron Scholes (Black & Scholes, 1973) desenvol- veram um modelo cl´ssico para a precifica¸˜o de uma op¸˜o, uma das a ca ca mais importantes f´rmulas usadas no mercado financeiro. o Diretores do Citicorp, em 1984, lan¸aram o livro Risco e Recom- c pensa: O Neg´cio de Cr´dito ao Consumidor, com as primeiras men¸oes o e c˜ 1
  • 10. Introdu¸˜o ` Modelagem de Credit Scoring ca a ao modelo de Credit Scoring, que ´ um tipo de modelo de escore, baseado e em dados cadastrais dos clientes, e ´ utilizado nas decis˜es de aceita¸˜o e o ca de proponentes a cr´ditos; ao modelo de Behaviour Scoring, que ´ um e e modelo de escore, baseado em dados transacionais, utilizado nas decis˜es o de manuten¸ao ou renova¸ao de linhas e produtos para os j´ clientes e ao c˜ c˜ a modelo Collection Scoring, que ´ tamb´m um modelo de escore, baseado e e em dados transacionais de clientes inadimplentes, utilizado nas decis˜es o de prioriza¸ao de estrat´gias de cobran¸as. Estes e v´rios outros mo- c˜ e c a delos s˜o utilizados como uma das principais ferramentas de suporte a a ` concess˜o de cr´dito em in´meras institui¸˜es financeiras no mundo. a e u co Na realidade, os modelos estat´ ısticos passaram a ser um impor- tante instrumento para ajudar os gestores de risco, gestores de fundos, bancos de investimento, gestores de cr´ditos e gestores de cobran¸a a e c tomarem decis˜es corretas e, por esta raz˜o, as institui¸˜es financeiras o a co passaram a aprimor´-los continuamente. Em especial, a concess˜o de a a cr´dito ganhou for¸a na rentabilidade das empresas do setor financeiro, e c se tornando uma das principais fontes de receita e, por isso, rapidamente, este setor percebeu a necessidade de se aumentar o volume de recursos concedidos sem perder a agilidade e a qualidade dos empr´stimos, e nesse e ponto a contribui¸ao da modelagem estat´ c˜ ıstica foi essencial. Diferentes tipos de modelos s˜o utilizados no problema de cr´dito, a e com o intuito de alcan¸ar melhorias na redu¸˜o do risco e/ou no aumento c ca da rentabilidade. Entre os quais, podemos citar, a regress˜o log´ a ıstica e linear, an´lise de sobrevivˆncia, redes probabil´ a e ısticas, arvores de classi- ´ fica¸ao, algoritmos gen´ticos e redes neurais. Neste livro tratamos de c˜ e diferentes problemas presentes na constru¸ao de modelos de regress˜o c˜ a log´ ıstica para Credit Scoring e sugerimos metodologias estat´ ısticas para resolvˆ-los. Al´m disso, apresentamos metodologias alternativas de an´lise e e a de sobrevivˆncia e redes probabil´ e ısticas. O processo de desenvolvimento de um modelo de cr´dito envolve e v´rias etapas, entre as quais Planejamento Amostral, Determina¸˜o da a ca Pontua¸˜o de Escore e Valida¸˜o e Compara¸˜o de Modelos. Apresenta- ca ca ca mos nas pr´ximas se¸˜es discuss˜es sobre algumas destas etapas. o co o 2
  • 11. Introdu¸˜o ` Modelagem de Credit Scoring ca a 1.1 Etapas de Desenvolvimento O desenvolvimento de um modelo de Credit Scoring consiste, de uma forma geral, em determinar uma fun¸ao das vari´veis cadastrais c˜ a dos clientes que possa auxiliar na tomada de decis˜o para aprova¸˜o de a ca cr´dito, envolvendo cart˜es de cr´ditos, cheque especial, atribui¸ao de e o e c˜ limite, financiamento de ve´ıculo, imobili´rio e varejo. a Normalmente esses modelos s˜o desenvolvidos a partir de ba- a ses hist´ricas de performance de cr´dito dos clientes e tamb´m de in- o e e forma¸oes pertinentes ao produto. O desenvolvimento de um modelo de c˜ Credit Scoring (Sics´, 1998) compreende nas seguintes etapas: u i) Planejamento e defini¸oes; c˜ ii) Identifica¸ao de vari´veis potenciais; c˜ a iii) Planejamento amostral; iv) Determina¸ao do escore: aplica¸ao da metodologia estat´ c˜ c˜ ıstica; v) Valida¸ao e verifica¸˜o de performance do modelo estat´ c˜ ca ıstico; vi) Determina¸ao do ponto de corte ou faixas de escore; c˜ vii) Determina¸˜o de regra de decis˜o. ca a As etapas iii), iv) e v), por estarem associadas a modelagem, s˜o ` a apresentadas com mais detalhes nas pr´ximas se¸oes. o c˜ 1.2 Planejamento Amostral Para a obten¸˜o da amostra, na constru¸˜o de um modelo de ca ca Credit Scoring, ´ importante que defini¸˜es como, para qual produto ou e co fam´ de produtos e para qual ou quais mercados o modelo ser´ desen- ılia a volvido, sejam levadas em considera¸ao. A base de dados utilizada para c˜ a constru¸ao de um modelo ´ formada por clientes cujos cr´ditos foram c˜ e e concedidos e seus desempenhos foram observados durante um per´ ıodo de tempo no passado. Esse passado, cujas informa¸oes s˜o retiradas, deve c˜ a 3
  • 12. Introdu¸˜o ` Modelagem de Credit Scoring ca a ser o mais recente poss´ a fim de que n˜o se trabalhe com opera¸oes ıvel a c˜ de cr´dito remotas que n˜o sejam representativas da realidade atual. e a Uma premissa fundamental na constru¸˜o de modelos de Credit ca Scoring, e preditivos em geral, ´ que a forma como as vari´veis cadastrais e a se relacionaram com o desempenho de cr´dito no passado, seja similar e no futuro. Um fator importante a ser considerado na constru¸˜o do modelo ´ ca e o horizonte de previs˜o, sendo necess´rio estabelecer um espa¸o de tempo a a c para a previs˜o do Credit Scoring, ou seja, o intervalo entre a solicita¸˜o a ca do cr´dito e a classifica¸ao como bom ou mau cliente. Esse ser´ tamb´m e c˜ a e o intervalo para o qual o modelo permitir´ fazer as previs˜es de quais a o indiv´ ıduos ser˜o mais ou menos prov´veis de se tornarem inadimplentes a a ou de serem menos rent´veis. A regra ´ de 12 a 18 meses, por´m na a e e pr´tica observamos que um intervalo de 12 meses ´ o mais utilizado. a e Thomas et al. (2002) tamb´m prop˜e um per´ e o ıodo de 12 meses para modelos de Credit Scoring, sugerindo que a taxa de inadimplˆncia e dos clientes das empresas financeiras em fun¸ao do tempo aumenta no c˜ in´ ıcio, estabilizando somente ap´s 12 meses. Assim, qualquer horizonte o mais breve do que esse pode n˜o refletir de forma real o percentual de a maus clientes prejudicando uma poss´ associa¸ao entre as caracter´ ıvel c˜ ıs- ticas dos indiv´ ıduos e o evento de interesse modelado, no caso, a ina- dimplˆncia. Por outro lado, a escolha de um intervalo de tempo muito e longo para o horizonte de previs˜o tamb´m pode n˜o trazer benef´ a e a ıcios, fa- zendo com que a efic´cia do modelo diminua, uma vez que, pela distˆncia a a temporal, os eventos se tornam pouco correlacionados com potenciais vari´veis cadastrais, normalmente, obtidas no momento da solicita¸˜o do a ca cr´dito. e O fator tempo tem uma importˆncia fundamental na constru¸ao a c˜ de modelos preditivos e, de forma geral, tem trˆs importantes etapas, e como mostra a Figura 1.1. O passado ´ composto pelas opera¸oes para e c˜ as quais j´ foram observados os desempenhos de cr´dito durante um a e horizonte de previs˜o adotado. As informa¸˜es cadastrais dos clientes a co no momento da concess˜o do cr´dito, levantadas no passado mais dis- a e tante, s˜o utilizadas como vari´veis de entrada para o desenvolvimento a a do modelo e os dados do passado mais recente, as observa¸oes dos de- c˜ 4
  • 13. Introdu¸˜o ` Modelagem de Credit Scoring ca a sempenhos de cr´dito dos clientes, default ou n˜o default, inadimplentes e a ou adimplentes, s˜o utilizados para a determina¸ao da vari´vel resposta. a c˜ a Figura 1.1: Estrutura temporal das informa¸oes para constru¸ao de mo- c˜ c˜ delos preditivos. ´ E importante ressaltar que as vari´veis de entrada para a cons- a tru¸ao do modelo sejam baseadas em informa¸oes, que necessariamente, c˜ c˜ ocorreram antes de qualquer informa¸ao utilizada para gerar a vari´vel c˜ a resposta de interesse. Se dividirmos o passado em per´ ıodos de observa¸˜o ca e desempenho. O per´ ıodo de observa¸˜o compreende o per´ ca ıodo de tempo no qual s˜o obtidas e observadas as informa¸˜es potencialmente relevan- a co tes para o evento de interesse, ou seja, o per´ ıodo em que se constr´io e obt´m as vari´veis explanat´rias. Em um modelo de Credit Scoring e a o esse per´ıodo compreende na realidade um unico instante, sendo o mo- ´ mento em que um cliente busca obter um produto de cr´dito, podendo e ser chamado de ponto de observa¸˜o. O per´ ca ıodo de desempenho ´ o in- e tervalo de tempo em que ´ observado a ocorrˆncia ou n˜o do evento de e e a interesse. Esse per´ ıodo corresponde a um intervalo de tempo do mesmo tamanho do horizonte de previs˜o adotado para a constru¸˜o do modelo. a ca O presente corresponde ao per´ ıodo de desenvolvimento do modelo em que, normalmente, as informa¸oes referentes a esse per´ c˜ ıodo ainda n˜oa est˜o dispon´ a ıveis, uma vez que est˜o sendo geradas pelos sistemas das a institui¸oes. O futuro ´ o per´ c˜ e ıodo de tempo para o qual ser˜o feitas as a predi¸oes, utilizando-se de informa¸˜es do presente, do passado e das c˜ co rela¸oes entre estas, que foram determinadas na constru¸ao do modelo. c˜ c˜ Um alerta importante ´ que modelos preditivos, constru´ e ıdos a 5
  • 14. Introdu¸˜o ` Modelagem de Credit Scoring ca a partir de dados hist´ricos, podem se ajustar bem no passado, possuindo o uma boa capacidade preditiva. Por´m, o mesmo n˜o ocorre quando apli- e a cados a dados mais recentes. A performance desses modelos pode ser afetada tamb´m pela raridade do evento modelado, em que existe difi- e culdade em encontrar indiv´ ıduos com o atributo de interesse. No con- texto de Credit Scoring isso pode ocorrer quando a amostra ´ selecionada e pontualmente, em um unico mˆs, semana etc, n˜o havendo n´mero de ´ e a u indiv´ıduos suficientes para encontrar as diferen¸as de padr˜es desejadas c o entre bons e maus pagadores. Dessa forma, o dimensionamento da amos- tra ´ um fator extremamente relevante no desenvolvimento de modelos e de Credit Scoring. A utiliza¸˜o de um tratamento estat´ ca ıstico formal para determinar o tamanho da amostra seria complexa, dependendo de v´rios fatores a como o n´mero e o tipo de vari´veis envolvidas no estudo. u a Dividir a amostra em duas partes, treinamento (ou desenvol- vimento) e teste (ou valida¸ao), ´ conveniente e resulta em benef´ c˜ e ıcios t´cnicos. Isto ´ feito para que possamos verificar o desempenho e com- e e parar os dispon´ ´ ıveis modelos. E interessante que a amostra seja sufici- entemente grande de forma que permita uma poss´ divis˜o desse tipo. ıvel a Por´m, sempre que poss´ e ıvel, essa divis˜o jamais deve substituir a va- a lida¸ao de modelos em um conjunto de dados mais recente. Lewis (1994) c˜ sugere que, em geral, amostras com tamanhos menores de 1500 clientes bons e 1500 maus, podem inviabilizar a constru¸˜o de modelos com ca- ca pacidade preditiva aceit´vel para um modelo de Credit Scoring, al´m de a e n˜o permitir a sua divis˜o. a a Em grande parte das aplica¸oes de modelagem com vari´vel res- c˜ a posta bin´ria, um desbalanceamento significativo, muitas vezes da ordem a de 20 bons para 1 mau, ´ observado entre o n´mero de bons e maus paga- e u dores nas bases de clientes das institui¸oes. Essa situa¸ao pode prejudi- c˜ c˜ car o desenvolvimento do modelo, uma vez que o n´mero de maus pode u ser muito pequeno e insuficiente para estabelecer perfis com rela¸ao as c˜ ` vari´veis explanat´rias e tamb´m para observar poss´ a o e ıveis diferen¸as em c rela¸ao aos bons cliente. Dessa forma, uma amostragem aleat´ria sim- c˜ o ples nem sempre ´ indicada para essa situa¸ao, sendo necess´ria a uti- e c˜ a liza¸ao de uma metodologia denominada Oversampling ou State Depen- c˜ 6
  • 15. Introdu¸˜o ` Modelagem de Credit Scoring ca a dent, que consiste em aumentar a propor¸˜o do evento raro, ou, mesmo ca n˜o sendo t˜o raro, da categoria que menos aparece na amostra. Esta a a t´cnica trabalha com diferentes propor¸oes de cada categoria, sendo co- e c˜ nhecida tamb´m como amostra aleat´ria estratificada. Mais detalhes a e o respeito da t´cnica State Dependent s˜o apresentados no Cap´ e a ıtulo 2. Berry & Linoff (2000) expressam, em um problema com a vari´vel a resposta assumindo dois resultados poss´ ıveis, a id´ia de se ter na amos- e tra de desenvolvimento para a categoria mais rara ou menos frequente entre 10% e 40% dos indiv´ ıduos. Thomas et al. (2002) sugere que as amostras em um modelo de Credit Scoring tendem a estar em uma pro- por¸ao de 1:1, de bons e maus clientes, ou algo em torno desse valor. c˜ Uma situa¸ao t´ c˜ ıpica de ocorrer ´ selecionar todos os maus pagadores e poss´ıveis juntamente com uma amostra de mesmo tamanho de bons pa- gadores para o desenvolvimento do modelo. Nos casos em que a vari´vel a resposta de interesse possui distribui¸˜o dicotˆmica extremamente des- ca o balanceada, algo em torno de 3% ou menos de eventos, comum quando o evento de interesse ´ fraude, existem alguns estudos que revelam que o e modelo de regress˜o log´ a ıstica usual subestima a probabilidade do evento de interesse (King & Zeng, 2001). Al´m disso, os estimadores de m´xima e a verossimilhan¸a dos parˆmetros do modelo de regress˜o log´ c a a ıstica s˜o vi- a ciados nestes casos. O Cap´ ıtulo 3 apresenta uma metodologia espec´ ıfica para situa¸ao de eventos raros. c˜ A sazonalidade na ocorrˆncia do evento modelado ´ um outro fa- e e tor a ser considerado no planejamento amostral. Por exemplo, a sele¸ao c˜ da amostra envolvendo momentos espec´ ıficos no tempo em que o com- portamento do evento ´ at´ e ıpico, pode afetar e comprometer diretamente o desempenho do modelo. Outro aspecto n˜o menos importante ´ com a e rela¸ao a variabilidade da ocorrˆncia do evento, uma vez que pode estar c˜ e sujeito a fatores externos e n˜o-control´veis, como por exemplo a conjun- a a tura econˆmica, que faz com que a sele¸ao da amostra envolva cen´rios o c˜ a de n˜o-representatividade da mesma com rela¸˜o ao evento e assim uma a ca maior instabilidade do modelo. Uma alternativa de delineamento amostral que minimiza o efeito desses fatores descritos, que podem causar instabilidade nos modelos, ´ compor a amostra de forma que os clientes possam ser selecionados e 7
  • 16. Introdu¸˜o ` Modelagem de Credit Scoring ca a em v´rios pontos ao longo do tempo, comumente chamado de safras de a clientes. Por exemplo, no contexto de Credit Scoring a escolha de 12 safras ao longo de um ano minimiza consideravelmente a instabilidade do modelo provocada pelos fatores descritos. A Figura 1.2 mostra um delineamento com 12 safras para um horizonte de previs˜o tamb´m de a e 12 meses. Figura 1.2: Delineamento amostral com horizonte de previs˜o 12 meses a e 12 safras de clientes. Por fim, podemos salientar que a defini¸˜o do delineamento amos- ca tral est´ intimamente relacionado tamb´m com o volume de dados his- a e t´ricos e a estrutura de armazenamento dessas informa¸˜es encontradas o co nas empresas e institui¸oes financeiras, as quais podem permitir ou n˜o c˜ a que a modelagem do evento de interesse se aproxime mais ou menos da realidade observada. 1.2.1 Descri¸˜o de um problema - Credit Scoring ca Em problemas de Credit Scoring, as informa¸˜es dispon´ co ıveis para correlacionar com a inadimplˆncia do produto de cr´dito utilizado s˜o as e e a pr´prias caracter´ o ısticas dos clientes e, algumas vezes, do produto. Dessa forma, um modelo de Credit Scoring consiste em avaliar quais fatores est˜o associados ao risco de cr´dito dos clientes, assim como a intensidade a e e a dire¸ao de cada um desses fatores, gerando um escore final, os quais c˜ 8
  • 17. Introdu¸˜o ` Modelagem de Credit Scoring ca a potenciais clientes possam ser ordenados e/ou classificados, segundo uma probabilidade de inadimplˆncia. e Como mencionado, uma situa¸˜o comum em problemas de Credit ca Scoring ´ a presen¸a do desbalanceamento entre bons e maus clientes. e c Considere, por exemplo, uma base constitu´ de 600 mil clientes que ıda adquiriram um produto de cr´dito durante 6 meses, envolvendo, assim, 6 e safras de clientes, com 594 mil bons e 6 mil maus pagadores. A descri¸ao c˜ das vari´veis presentes no conjunto de dados ´ apresentada na Tabela a e 1.1. Estas vari´veis representam as caracter´ a ısticas cadastrais dos clientes, os valores referentes aos cr´ditos concedidos juntamente com um flag e descrevendo seus desempenhos de pagamento nos 12 meses seguintes ao da concess˜o do cr´dito e informa¸˜o do instante da ocorrˆncia de algum a e ca e problema de pagamento do cr´dito. Essas informa¸˜es s˜o referentes aos e co a clientes para os quais j´ foram observados os desempenhos de pagamento a do cr´dito adquirido e servir˜o para a constru¸ao dos modelos preditivos a e a c˜ partir das metodologias regress˜o log´ a ıstica e/ou an´lise de sobrevivˆncia. a e Estes modelos ser˜o aplicadas em futuros potenciais clientes, nos quais a ser˜o ordenados segundo uma “probabilidade” de inadimplˆncia e a partir a e da qual as pol´ıticas de cr´dito das institui¸oes possam ser definidas. e c˜ Na constru¸ao dos modelos para este problema, de acordo com a c˜ Figura 1.3, uma amostra de treinamento ´ selecionada utilizando a meto- e dologia de Oversampling. Isto pode ser feito considerando uma amostra balanceada com 50% de bons clientes e 50% de maus clientes. A partir dessa amostra buscamos atender as quantidades m´ ınimas sugeridas por Lewis (1994) de 1.500 indiv´ ıduos para cada uma das categorias. 1.3 Determina¸˜o da Pontua¸˜o de Escore ca ca Uma vez determinado o planejamento amostral e obtidas as in- forma¸oes necess´rias para o desenvolvimento do modelo, o pr´ximo c˜ a o passo ´ estabelecer qual t´cnica estat´ e e ıstica ou matem´tica ser´ utilizada a a para a determina¸ao dos escores. Por´m, antes disso, alguns tratamentos c˜ e explorat´rios devem sempre ser realizados para que uma maior familia- o 9
  • 18. Introdu¸˜o ` Modelagem de Credit Scoring ca a Tabela 1.1: Vari´veis dispon´ a ıveis no banco de dados. Vari´veis a Descri¸ao c˜ ESTCIVIL Estado civil: solteiro / casado/ divorciado / vi´vo u TP CLIENTE Tipo de cliente SEXO Sexo do cliente: Masc./ Fem. SIT RESID Residˆncia: pr´pria / alugada e o P CARTAO Possui Cart˜o? (Sim / N˜o) a a IDADE Idade do cliente (em anos) TEMPORES Tempo de residˆncia (em anos) e TPEMPREG Tempo de empregol (em meses) TEL COMERC Declarou telefone comercial? OP CORRESP Correspondˆncia: Residencial / Comercial e COMP RENDA Uso da renda: < 10% / 10%-20% / > 20%; LIM CRED Valor do Cr´dito Concedido e CEP COM CEP Comercial (2 posi¸˜es) co CEP RES CEP Residencial (2 posi¸˜es) co G PROF Grupo de profiss˜o a REGIAO Regi˜o do Cliente a STATUS Flag: Bom ou Mau TEMPO Tempo at´ observar o evento inadimplˆncia e e riza¸ao com os dados possa ser obtida. Isto permite uma melhor defini¸˜o c˜ ca da t´cnica que ser´ utilizada e, consequentemente, um aprimoramento do e a desenvolvimento do modelo. Essa an´lise inicial tem alguns objetivos, a dentre os quais, destacam-se: • identifica¸˜o de eventuais inconsistˆncias e presen¸a de outliers; ca e c • compara¸ao dos comportamentos das covari´veis, no caso de um c˜ a Credit Scoring, entre a amostra de bons e maus pagadores, iden- tificando, assim, potenciais vari´veis correlacionadas com o evento a modelado; • defini¸ao de poss´ c˜ ıveis transforma¸˜es de vari´veis e a cria¸˜o de co a ca novas a serem utilizadas nos modelos. 10
  • 19. Introdu¸˜o ` Modelagem de Credit Scoring ca a Figura 1.3: Amostra de Desenvolvimento Balanceada - 50% - bons x 50% maus. 1.3.1 Transforma¸˜o e sele¸˜o de vari´veis ca ca a Uma pr´tica muito comum, quando se desenvolve modelos de a Credit Scoring, ´ tratar as vari´veis como categ´ricas, independente da e a o natureza cont´ınua ou discreta, buscando, sempre que poss´ ıvel, a simpli- cidade na interpreta¸ao dos resultados obtidos. Thomas et al. (2002) c˜ sugere que essa categoriza¸ao ou reagrupamento deve ser feito tanto c˜ para vari´veis originalmente cont´ a ınuas como para as categ´ricas. Para as o vari´veis de origem categ´rica, a id´ia ´ que se construa categorias com a o e e n´meros suficientes de indiv´ u ıduos para que se fa¸a uma an´lise robusta, c a principalmente, quando o n´mero de categorias ´ originalmente elevado u e e, em algumas, a frequˆncia ´ bastante pequena. As vari´veis cont´ e e a ınuas, uma vez transformadas em categorias, ganham com rela¸˜o a interpreta- ca bilidade dos parˆmetros. Gruenstein (1998) e Thomas et al. (2002) rela- a tam que esse tipo de transforma¸ao nas vari´veis cont´ c˜ a ınuas pode trazer ganhos tamb´m no poder preditivo do modelo, principalmente quando a e covari´vel em quest˜o se relaciona de forma n˜o-linear com o evento de a a a interesse, como por exemplo, no caso de um Credit Scoring. Uma forma bastante utilizada para a transforma¸˜o de vari´veis ca a cont´ınuas em categ´ricas, ou a recategoriza¸˜o de uma vari´vel discreta, o ca a 11
  • 20. Introdu¸˜o ` Modelagem de Credit Scoring ca a ´ atrav´s da t´cnica CHAID (Chi-Squared Automatic Interaction Detec- e e e tor), a qual divide a amostra em grupos menores, a partir da associa¸ao de c˜ uma ou mais covari´veis com a vari´vel resposta. A cria¸ao de categorias a a c˜ para as covari´veis de natureza cont´ a ınua ou o reagrupamento das discre- tas ´ baseada no teste de associa¸ao Qui-Quadrado, buscando a melhor e c˜ categoriza¸ao da amostra com rela¸˜o a cada uma dessas covari´veis ou c˜ ca a conjunto delas. Estas “novas” covari´veis podem, ent˜o, ser utilizadas na a a constru¸ao dos modelos, sendo ou n˜o selecionadas, por algum m´todo de c˜ a e sele¸ao de vari´veis, para compor o modelo final. Um m´todo de sele¸˜o c˜ a e ca de vari´veis muitas vezes utilizado ´ o stepwise. Este m´todo permite a e e determinar um conjunto de vari´veis estatisticamente significantes para a a ocorrˆncia de problemas de cr´dito dos clientes, atrav´s de entradas e e e e sa´ıdas das vari´veis potenciais utilizando o teste da raz˜o de veros- a a similhan¸a. Os n´ c ıveis de significˆncia de entrada e sa´ das vari´veis a ıda a utilizados pelo m´todo stepwise podem ser valores inferiores a 5%, a fim e de que a entrada e a permanˆncia de vari´veis “sem efeito pr´tico” sejam e a a minimizadas. Outro aspecto a ser considerado na sele¸ao de vari´veis, c˜ a al´m do crit´rio estat´ e e ıstico, ´ que a experiˆncia de especialistas da area e e ´ de cr´dito juntamente com o bom senso na interpreta¸ao dos parˆmetros e c˜ a sejam, sempre que poss´ ıvel, utilizados. Na constru¸ao de um modelo de Credit Scoring ´ fundamental c˜ e que este seja simples com rela¸ao ` clareza de sua interpreta¸˜o e que c˜ a ca ainda mantenha um bom ajuste. Esse fato pode ser um ponto chave para que ocorra um melhor entendimento, n˜o apenas da area de desen- a ´ volvimento dos modelos como tamb´m das demais ´reas das empresas, e a resultando, assim, no sucesso da utiliza¸˜o dessa ferramenta. ca 1.3.2 Regress˜o log´ a ıstica Um modelo de regress˜o log´ a ıstica, com vari´vel resposta, Y , di- a cotˆmica, pode ser utilizado para descrever a rela¸ao entre a ocorrˆncia o c˜ e ou n˜o de um evento de interesse e um conjunto de covari´veis. No a a contexto de Credit Scoring, o vetor de observa¸oes do cliente envolve c˜ seu desempenho credit´ durante um determinado per´ ıcio ıodo de tempo, normalmente de 12 meses, um conjunto de caracter´ ısticas observadas no 12
  • 21. Introdu¸˜o ` Modelagem de Credit Scoring ca a momento da solicita¸ao do cr´dito e, as vezes, informa¸oes ` respeito do c˜ e ` c˜ a pr´prio produto de cr´dito a ser utilizado, como por exemplo, n´mero de o e u parcelas, finalidade, valor do cr´dito entre outros. e Aplicando a metodologia apresentada na amostra de treinamento e adotando um horizonte de previs˜o de 12 meses, considere como vari´vel a a resposta a ocorrˆncia de falta de pagamento, maus clientes, y = 1, den- e tro desse per´ıodo, n˜o importando o momento exato da ocorrˆncia da a e inadimplˆncia. Para um cliente que apresentou algum problema de pa- e gamento do cr´dito no in´ desses 12 meses de desempenho, digamos e ıcio o no 3 mˆs, e um outro para o qual foi observado no final desse per´ e ıodo, o o no 10 ou 12 , por exemplo, ambos s˜o considerados da mesma forma a como maus pagadores, n˜o importando o tempo decorrido para o acon- a tecimento do evento. Por outro lado, os clientes para os quais n˜o foi a observada a inadimplˆncia, durante os 12 meses do per´ e ıodo de desempe- nho do cr´dito, s˜o considerados como bons pagadores para a constru¸ao e a c˜ o do modelo, mesmo aqueles que no 13 mˆs vierem a apresentar a falta de e pagamento. ´ E importante ressaltar que adotamos neste livro como evento de interesse o cliente ser mau pagador. O mercado financeiro, geralmente, trata como evento de interesse o cliente ser bom pagador. O modelo ajustado, a partir da amostra de treinamento, utili- zando a regress˜o log´ a ıstica, fornece escores tal que, quanto maior o valor obtido para os clientes, pior o desempenho de cr´dito esperado para eles, e uma vez que o mau pagador foi considerado como o evento de interesse. Como mencionado, ´ comum no mercado definir como evento de interesse e o bom pagador, de forma que, quanto maior o escore, melhor ´ o cliente. e O modelo de regress˜o log´ a ıstica ´ determinado pela rela¸ao e c˜ pi log = β0 + β1 x1 + . . . + βp xp , 1 − pi em que pi denota a probabilidade de um cliente com o perfil definido pelas p covariadas, x1 , x2 , . . . , xp , ser um mau pagador. Estas covari´veis a s˜o obtidas atrav´s de transforma¸oes, como descritas na se¸ao ante- a e c˜ c˜ rior, sendo portanto consideradas e tratadas como dummies. Os valores utilizados como escores finais dos clientes s˜o obtidos, geralmente, mul- a 13
  • 22. Introdu¸˜o ` Modelagem de Credit Scoring ca a tiplicando por 1.000 os valores estimados das probabilidades de sucesso, pi . ˆ O modelo final obtido atrav´s da regress˜o log´ e a ıstica para a amos- tra balanceada encontra-se na Tabela 1.2. No Cap´ ıtulo 2 apresentamos uma nova an´lise de dados em que o modelo de regress˜o log´ a a ıstica usual, sem considerar amostras balanceadas, ´ comparado ao modelo de re- e gress˜o log´ a ıstica com sele¸˜o de amostras state-dependent. ca Tabela 1.2 - Regress˜o log´ a ıstica - amostra de treinamento. O odds ratio, no contexto de Credit Scoring, ´ uma m´trica que e e representa o qu˜o mais prov´vel ´ de se observar a inadimplˆncia, para a a e e um indiv´ıduo em uma categoria espec´ ıfica da covari´vel em rela¸˜o a a ca categoria de referˆncia, analisando os resultados do modelo obtido para e a amostra de treinamento, podemos observar: - P CARTAO: o fato do cliente j´ possuir um outro produto a de cr´dito reduz sensivelmente a chance de apresentar algum problema e de cr´dito com a institui¸˜o financeira. O valor do odds ratio de 0,369 e ca indica que a chance de se observar algum problema para os clientes que possuem um outro produto de cr´dito ´ 36,9% da chance de clientes que e e n˜o possuem; a - ESTADO CIVIL=vi´vo: essa categoria contribui para o au- u mento da chance de se observar algum problema de inadimplˆncia dee 14
  • 23. Introdu¸˜o ` Modelagem de Credit Scoring ca a cr´dito. O valor 1,36 indica que a chance de ocorrer problema aumenta e em 36% nesta categoria em rela¸˜o as demais; ca ` - CLI ANT: o fato do cliente j´ possuir um relacionamento an- a terior com a institui¸ao faz com que chance de ocorrer problema seja c˜ reduzida. O valor do odds ratio de 0,655 indica que a chance de se ob- servar algum problema para um cliente que j´ possui um relacionamento a anterior ´ 65,5% da chance dos que s˜o de primeiro relacionamento; e a - IDADE: para essa vari´vel, fica evidenciado que quanto menor a a idade dos clientes maior a chance de inadimplˆncia; e - TEMPO DE EMPREGO: pode-se notar que quanto menor o tempo que o cliente tem no emprego atual maior a chance de ocorrer problema de inadimplˆncia; e - TELEFONE COMERCIAL: a declara¸˜o do telefone comer- ca cial pelos clientes indica uma chance menor de ocorrer problema de ina- dimplˆncia; e - LIM CRED: essa covari´vel mostra que quanto menor o valor a concedido maior a chance de inadimplˆncia, sendo que os clientes com e valores abaixo de R$410,00 apresentam cerca de 22,5% a mais de chance de ocorrer problemas do que aqueles com valores acima desse valor; ˜ - CEP RESIDENCIAL, COMERCIAL e PROFISSAO: os CEP´s indicaram algumas regi˜es de maior chance de problema, o mesmo ocor- o rendo para as profiss˜es. o 1.4 Valida¸˜o e Compara¸˜o dos Modelos ca ca Com o modelo de Credit Scoring constru´ ıdo, surge a seguinte quest˜o: “Qual a qualidade deste modelo?”. A resposta para essa per- a gunta est´ relacionada com o quanto o escore produzido pelo modelo a consegue distinguir os eventos bons e maus pagadores, uma vez que de- sejamos identificar previamente esses grupos e trat´-los de forma distinta a atrav´s de diferentes pol´ e ıticas de cr´dito. e Uma das id´ias envolvidas em medir o desempenho dos modelos e est´ em saber o qu˜o bem estes classificam os clientes. A l´gica e a a a o pr´tica sugerem que a avalia¸˜o do modelo na pr´pria amostra, usada a ca o para o seu desenvolvimento, indica resultados melhores do que se testado 15
  • 24. Introdu¸˜o ` Modelagem de Credit Scoring ca a em uma outra amostra, uma vez que o modelo incorpora peculiaridades inerentes da amostra utilizada para sua constru¸ao. Por isso, sugerimos, c˜ quando o tamanho da amostra permitir e sempre que poss´ ıvel, que o desempenho do modelo seja verificado em uma amostra distinta de seu desenvolvimento. No contexto de Credit Scoring, muitas vezes o tamanho da amos- tra, na ordem de milhares de registros, permite que uma nova amostra seja obtida para a valida¸˜o dos modelos. Um aspecto importante na va- ca lida¸ao dos modelos ´ o temporal, em que a situa¸˜o ideal para se testar c˜ e ca um modelo ´ a obten¸˜o de amostras mais recentes. Isto permite que e ca uma medida de desempenho mais pr´xima da real e atual utiliza¸˜o do o ca modelo possa ser alcan¸ada. c Em Estat´ıstica existem alguns m´todos padr˜es para descrever e o o quanto duas popula¸˜es s˜o diferentes com rela¸ao a alguma carac- co a c˜ ` ter´ ıstica medida e observada. Esses m´todos s˜o utilizados no contexto e a de Credit Scoring com o objetivo de descrever o quanto os grupos de bons e maus pagadores s˜o diferentes com rela¸ao aos escores produzidos a c˜ por um modelo constru´ e que necessita ser avaliado. Dessa forma, ıdo esses m´todos medem o qu˜o bem os escores separam os dois grupos e e a uma medida de separa¸ao muito utilizada para avaliar um modelo de c˜ Credit Scoring ´ a estat´ e ıstica de Kolmogorov-Smirnov (KS). Os modelos podem tamb´m ser avaliados e comparados atrav´s da curva ROC (Re- e e ceiver Operating Characteristic), a qual permite comparar o desempenho de modelos atrav´s da escolha de crit´rios de classifica¸ao dos clientes e e c˜ em bons e maus pagadores, de acordo com a escolha de diferentes pontos de corte ao longo das amplitudes dos escores observadas para os modelos obtidos. Por´m, muitas vezes o interesse est´ em avaliar o desempenho e a dos modelos em um unico ponto de corte escolhido, e assim medidas da ´ capacidade preditiva dos mesmos podem ser tamb´m consideradas. e 1.4.1 A estat´ ıstica de Kolmogorov-Smirnov (KS) Essa estat´ ıstica tem origem no teste de hip´tese n˜o-param´trico o a e de Kolmogorov-Smirnov em que se deseja, a partir de duas amostras retiradas de popula¸oes possivelmente distintas, testar se duas fun¸˜es c˜ co 16
  • 25. Introdu¸˜o ` Modelagem de Credit Scoring ca a de distribui¸oes associadas `s duas popula¸˜es s˜o idˆnticas ou n˜o. c˜ a co a e a A estat´ ıstica KS mede o quanto est˜o separadas as fun¸oes de a c˜ distribui¸oes emp´ c˜ ıricas dos escores dos grupos de bons e maus pagado- res. Sendo FB (e) = x≤ e FB (x) e FM (e) = x≤ e FM (x) a fun¸˜o deca distribui¸ao emp´ c˜ ırica dos bons e maus pagadores, respectivamente, a es- tat´ ıstica de Kolmogorov-Smirnov ´ dada por e KS = m´x | FB (e) − FM (e) |, a em que FB (e) e FM (e) correspondem as propor¸˜es de clientes bons e ` co maus com escore menor ou igual a e. A estat´ ıstica KS ´ obtida atrav´s e e da distˆncia m´xima entre essas duas propor¸oes acumuladas ao longo a a c˜ dos escores obtidos pelos modelos, representada na Figura 1.4. Figura 1.4: Fun¸oes distribui¸oes emp´ c˜ c˜ ıricas para os bons e maus clientes e a estat´ ıstica KS. O valor dessa estat´ıstica pode variar de 0% a 100%, sendo que o valor m´ximo indica uma separa¸ao total dos escores dos bons e maus a c˜ clientes e o valor m´ınimo sugere uma sobreposi¸ao total das distribui¸˜es c˜ co dos escores dos dois grupos. Na pr´tica, obviamente, os modelos fornecem a valores intermedi´rios entre esses dois extremos. A representa¸˜o da a ca interpreta¸˜o dessa estat´ ca ıstica pode ser vista na Figura 1.5. 17
  • 26. Introdu¸˜o ` Modelagem de Credit Scoring ca a Figura 1.5: Interpreta¸ao da estat´ c˜ ıstica KS. O valor m´dio da estat´ e ıstica KS para 30 amostras testes com aproximadamente 200 mil clientes retirados aleatoriamente da base total de clientes foi 32,26% para a regress˜o log´ a ıstica. No mercado, o KS tamb´m ´ utilizado para verificar se o modelo, e e desenvolvido com um p´blico do passado, pode continuar a ser aplicado u para os novos entrantes. Dois diferentes KS s˜o calculados. O KS1 a analisa se o perfil dos novos clientes (ou o perfil dos clientes da base de teste) ´ semelhante ao perfil dos clientes da base de desenvolvimento do e modelo. Esse ´ ındice ´ usado para comparar a distribui¸˜o acumulada dos e ca escores dos clientes utilizados para o desenvolvimento do modelo com a distribui¸ao acumulada dos escores dos novos entrantes (ou dos clientes c˜ da base de teste). Quanto menor o valor do KS1 mais semelhante ´ o e perfil do p´blico do desenvolvimento com o perfil dos novos clientes. O u KS2 avalia a performance do modelo. Ou seja, mede, para uma dada safra, a m´xima distˆncia entre a distribui¸ao de frequˆncia acumulada a a c˜ e dos bons clientes em rela¸˜o a distribui¸ao de frequˆncia acumulada dos ca ` c˜ e maus clientes. A interpreta¸˜o do ´ ca ındice para modelos de Credit Scoring segue, em algumas institui¸˜es, a seguinte regra: co 18
  • 27. Introdu¸˜o ` Modelagem de Credit Scoring ca a • KS < 10%: indica que n˜o h´ discrimina¸˜o entre os perfis de bons a a ca e maus clientes; • 10% < KS < 20%: indica que a discrimina¸ao ´ baixa; c˜ e • KS > 20%: indica que o modelo discrimina o perfil de bons e maus. 1.4.2 Curva ROC Os escores obtidos para os modelos de Credit Scoring devem, normalmente, ser correlacionados com a ocorrˆncia de algum evento de e interesse, como por exemplo, a inadimplˆncia, permitindo assim, fazer e previs˜es a respeito da ocorrˆncia desse evento para que pol´ o e ıticas de cr´dito diferenciadas possam ser adotadas pelo n´ e ıvel de escore obtido para os indiv´ıduos. Uma forma de se fazer previs˜es ´ estabelecer um ponto de corte o e no escore produzido pelos modelos. Clientes com valores iguais ou mai- ores a esse ponto s˜o classificados, por exemplo, como bons e abaixo a desse valor como maus pagadores. Para estabelecer e visualizar o c´lculo a dessas medidas podemos utilizar uma tabela 2x2 denominada matriz de confus˜o, representada na Figura 1.6 a Figura 1.6: Matriz de Confus˜o. a em que: n : n´mero total de clientes na amostra; u bB : n´mero de bons clientes que foram classificados como Bons u (acerto); 19
  • 28. Introdu¸˜o ` Modelagem de Credit Scoring ca a mM : n´mero de maus clientes que foram classificados como Maus u (acerto); mB : n´mero de bons clientes que foram classificados como Maus u (erro); bM : n´mero de maus clientes que foram classificados como Bons u (erro); B : n´mero total de bons clientes na amostra; u M : n´mero total de maus clientes na amostra; u b : n´mero total de clientes classificados como bons na amostra; u m : n´mero total de clientes classificados como maus na amostra; u Na area m´dica, duas medidas muito comuns e bastante utiliza- ´ e das s˜o a sensibilidade e a especificidade. Essas medidas, adaptadas ao a contexto de Credit Scoring, considerando o mau cliente como a categoria de interesse, s˜o definidas da seguinte forma: a Sensibilidade: probabilidade de um indiv´ ıduo ser classificado como mau pagador, dado que realmente ´ mau; e Especificidade: probabilidade de um indiv´ ıduo ser classificado como bom pagador, dado que realmente ´ bom; e Utilizando as frequˆncias mostradas na matriz de confus˜o, te- e a mM bB mos que a Sensibilidade ´ dada por M e a Especificidade por B . e A curva ROC (Zweig & Campbell, 1993) ´ constru´ variando e ıda os pontos de corte, cut-off, ao longo da amplitude dos escores fornecidos pelos modelos, a fim de se obter as diferentes classifica¸˜es dos indiv´ co ıduos e obtendo, consequentemente, os respectivos valores para as medidas de Sensibilidade e Especificidade para cada ponto de corte estabelecido. Assim, a curva ROC, ilustrada na Figura 1.7, ´ obtida tendo no seu e eixo horizontal os valores de (1-Especificidade), ou seja, a propor¸˜o de ca bons clientes que s˜o classificados como maus clientes pelo modelo, e no a eixo vertical a Sensibilidade, que ´ a propor¸ao de maus clientes que s˜o e c˜ a classificados realmente como maus. Uma curva ROC obtida ao longo da diagonal principal corresponde a uma classifica¸ao obtida sem a utiliza¸ao c˜ c˜ de qualquer ferramenta preditiva, ou seja, sem a presen¸a de modelos. c Consequentemente, a curva ROC deve ser interpretada de forma que quanto mais a curva estiver distante da diagonal principal, melhor o desempenho do modelo em quest˜o. Esse fato sugere que quanto maior a 20
  • 29. Introdu¸˜o ` Modelagem de Credit Scoring ca a for a area entre a curva ROC produzida e a diagonal principal, melhor o ´ desempenho global do modelo. Figura 1.7: Exemplos de curva ROC. Os pontos de corte ao longo dos escores fornecidos pelos mode- los que apresentam bom poder discriminat´rio concentram-se no canto o superior esquerdo da curva ROC. A curva ROC apresenta sempre um con- trabalan¸o entre a Sensibildade e a Especificidade ao se variar os pontos c de corte ao longo dos escores e pode ser usada para auxiliar na decis˜o de a determinar o melhor ponto de corte. Em geral, o melhor cut-off ao longo dos escores produz valores para as medidas de Sensibildade e Especifici- dade que se localiza no “ombro” da curva, ou pr´ximo desse, ou seja, no o ponto mais a esquerda e superior poss´ ıvel, o qual ´ obtido considerando e como ponto de corte o escore que fornece a separa¸ao m´xima no teste c˜ a KS. Vale destacar que em problemas de Credit Scoring, normalmente, crit´rios financeiros s˜o utilizados na determina¸˜o desse melhor ponto, e a ca sendo que valores como o quanto se perde em m´dia ao aprovar um cli- e ente que traz problemas de cr´dito e tamb´m o quanto se deixa de ganhar e e ao n˜o aprovar o cr´dito para um cliente que n˜o traria problemas para a e a a institui¸ao podem e devem ser considerados. c˜ A partir da curva ROC temos a id´ia do desempenho do modelo e 21
  • 30. Introdu¸˜o ` Modelagem de Credit Scoring ca a ao longo de toda amplitude dos escores produzidos pelos modelos. 1.4.3 Capacidade de acerto dos modelos Em um modelo com vari´vel resposta bin´ria, como ocorre nor- a a malmente no caso de um Credit Scoring, temos o interesse em classificar os indiv´ıduos em uma das duas categorias, bons ou maus clientes, e ob- ter um bom grau de acerto nestas classifica¸oes. Como, geralmente, nas c˜ amostras testes, em que os modelos s˜o avaliados, se conhece a resposta a dos clientes em rela¸˜o a sua condi¸˜o de cr´dito, e estabelecendo crit´rios ca ca e e para classificar estes clientes em bons e maus, torna-se poss´ comparar ıvel a classifica¸ao obtida com a verdadeira condi¸˜o credit´ dos clientes. c˜ ca ıcia A forma utilizada para estabelecer a matriz de confus˜o, Figura a 1.6, ´ determinar um ponto de corte (cutoff ) no escore final dos modelos e tal que, indiv´ ıduos com pontua¸ao acima desse cutoff s˜o classificados c˜ a como bons, por exemplo, e abaixo desse valor como maus clientes e com- parando essa classifica¸ao com a situa¸˜o real de cada indiv´ c˜ ca ıduo. Essa matriz descreve, portanto, uma tabula¸ao cruzada entre a classifica¸˜o c˜ ca predita atrav´s de um unico ponto de corte e a condi¸˜o real e conhe- e ´ ca cida de cada indiv´ ıduo, em que a diagonal principal representa as clas- sifica¸oes corretas e valores fora dessa diagonal correspondem a erros de c˜ ` classifica¸ao. c˜ A partir da matriz de confus˜o determinada por um ponto de a corte espec´ ıfico e representada pela Figura 1.6, algumas medidas de ca- pacidade de acerto dos modelos s˜o definidas a seguir: a bB +mM • Capacidade de Acerto Total (CAT)= n mM • Capacidade de Acerto dos Maus Clientes (CAM)= M (Especifici- dade) bB • Capacidade de Acerto dos Bons Clientes (CAB)= B (Sensibili- dade) bB • Valor Preditivo Positivo (VPP)= bB +bM mB • Valor Preditivo Negativo (VPN) = mB +mM 22
  • 31. Introdu¸˜o ` Modelagem de Credit Scoring ca a bB +mB • Prevalˆncia (PVL) = e n bB mM −bM mB • Correla¸ao de Mathews (MCC) = √ c˜ (bB +bM )(bB +mB )(mM +bM )(mM +mB ) A Prevalˆncia, propor¸ao de observa¸oes propensas a caracte- e c˜ c˜ r´ ıstica de interesse ou a probabilidade de uma observa¸˜o apresentar a ca caracter´ıstica de interesse antes do modelo ser ajustado, ´ um medida de e extrema importˆncia, principalmente quando tratamos de eventos raros. a A Capacidade de Acerto Total ´ tamb´m conhecida como Acur´- e e a cia ou Propor¸ao de Acertos de um Modelo de Classifica¸ao. Esta medida c˜ c˜ tamb´m pode ser vista como uma m´dia ponderada da sensibilidade e e e da especificidade em rela¸ao ao n´mero de observa¸oes que apresentam c˜ u c˜ ou n˜o a caracter´ a ca ´ ıstica de interesse de uma determinada popula¸˜o. E importante ressaltar que a acur´cia n˜o ´ uma medida que deve ser ana- a a e lisada isoladamente na escolha de um modelo, pois ´ influenciada pela e sensibilidade, especificidade e prevalˆncia. Al´m disso, dois modelos com e e sensibilidade e especificidade muito diferentes podem produzir valores se- melhantes de acur´cia, se forem aplicados a popula¸oes com prevalˆncias a c˜ e muito diferentes. Para ilustrar o efeito da prevalˆncia na acur´cia de um modelo, e a podemos supor uma popula¸ao que apresente 5% de seus integrantes com c˜ a caracter´ıstica de interesse. Se um modelo classificar todos os indiv´ ıduos como n˜o portadores da caracter´ a ıstica, temos um percentual de acerto de 95%, ou seja, a acur´cia ´ alta e o modelo ´ pouco informativo. a e e O Valor Preditivo Positivo (VPP) de um modelo ´ a propor¸˜o e ca de observa¸˜es representando o evento de interesse dentre os indiv´ co ıduos que o modelo identificou como evento. J´ o Valor Preditivo Negativo a (VPN) ´ a propor¸˜o de indiv´ e ca ıduos que representam n˜o evento dentre a os identificados como n˜o evento pelo modelo. Estas medidas devem a ser interpretadas com cautela, pois sofrem a influˆncia da prevalˆncia e e populacional. Caso as estimativas da sensibilidade e da especificidade sejam confi´veis, o valor preditivo positivo (VPP) pode ser estimado via Teo- a rema de Bayes, utilizando uma estimativa da prevalˆncia (Linnet, 1998) e 23
  • 32. Introdu¸˜o ` Modelagem de Credit Scoring ca a SENS × PVL V PP = , SENS × PVL + (1 − SPEC) × (1 − PVL) com SENS usado para Sensibilidade e SPEC para Especificidade. Da mesma forma, o valor preditivo negativo (VPN) pode ser estimado por SPEC × (1 − PVL) V PN = . SPEC × (1 − PVL) + SENS × PVL O MCC, proposto por Matthews (1975), ´ uma medida de desem- e ´ penho que pode ser utilizada no caso de prevalˆncias extremas. E uma e adapta¸ao do Coeficiente de Correla¸˜o de Pearson e mede o quanto as c˜ ca vari´veis que indicam a classifica¸ao original da resposta de interesse e a c˜ a que corresponde a classifica¸ao do modelo obtida por meio do ponto c˜ de corte adotado, ambas vari´veis assumindo valores 0 e 1, tendem a a apresentar o mesmo sinal de magnitude ap´s serem padronizadas (Baldi o et al., 2000). O MCC retorna um valor entre -1 e +1. O valor 1 representa uma previs˜o perfeita, um acordo total, o valor 0 representa uma pre- a vis˜o completamente aleat´ria e -1 uma previs˜o inversa, ou seja, total a o a desacordo. Observe que o MCC utiliza as 4 medidas apresentadas na matriz de confus˜o (bB , bM , mB , mM ). a O Custo Relativo, baseado em uma medida apresentada em Ben- sic et al. (2005), ´ definido por CR = αC1 P1 + (1 − α)C2 P2 , em que α e representa a probabilidade de um proponente ser mau pagador, C1 ´ e o custo de aceitar um mau pagador, C2 ´ o custo de rejeitar um bom e pagador, P1 ´ a probabilidade de ocorrer um falso negativo e P2 ´ a e e probabilidade de ocorrer um falso positivo. Como na pr´tica n˜o ´ f´cil obter as estimativas de C1 e C2 , o a a e a custo ´ calculado considerando diversas propor¸oes entre C1 e C2 , com e c˜ a restri¸˜o C1 > C2 , ou seja, a perda em aceitar um mau pagador ´ ca e maior do que o lucro perdido ao rejeitar um bom pagador. Bensic et al. (2005) considera α como a prevalˆncia amostral, isto ´, sup˜e que e e o a prevalˆncia de maus pagadores nos portf´lios representa a prevalˆncia e o e real da popula¸˜o de interesse. ca 24
  • 33. Cap´ ıtulo 2 Regress˜o Log´ a ıstica Os modelos de regress˜o s˜o utilizados para estudar e estabe- a a lecer uma rela¸ao entre uma vari´vel de interesse, denominada vari´vel c˜ a a resposta, e um conjunto de fatores ou atributos referentes a cada cliente, geralmente encontrados na proposta de cr´dito, denominados covari´veis. e a No contexto de Credit Scoring, como a vari´vel de interesse ´ a e bin´ria, a regress˜o log´ a a ıstica ´ um dos m´todos estat´ e e ısticos utilizado com bastante frequˆncia. Para uma vari´vel resposta dicotˆmica, o interesse ´ e a o e modelar a propor¸ao de resposta de uma das duas categorias, em fun¸˜o c˜ ca das covari´veis. E a ´ comum adotarmos o valor 1 para a resposta de maior interesse, denominada “sucesso”, o qual pode ser utilizado no caso de um proponente ao cr´dito ser um bom ou um mau pagador. e Normalmente, quando constru´ ımos um modelo de Credit Sco- ring, a amostra de desenvolvimento ´ formada pela sele¸˜o dos clientes e ca contratados durante um per´ ıodo de tempo espec´ ıfico, sendo observado o desempenho de pagamento desses clientes ao longo de um per´ ıodo de tempo posterior e pr´-determinado, correspondente ao horizonte de pre- e vis˜o. Esse tempo ´ escolhido arbitrariamente entre 12 e 18 meses, sendo a e na pr´tica 12 meses o intervalo mais utilizado, como j´ mencionado no a a Cap´ ıtulo 1, em que a vari´vel resposta de interesse ´ classificada, por a e exemplo, em bons (y = 0) e maus (y = 1) pagadores, de acordo com a e a e ´ ocorrˆncia ou n˜o de problemas de cr´dito nesse intervalo. E importante chamar a aten¸ao que ambos os per´ c˜ ıodos — de sele¸˜o da amostra e de ca desempenho de pagamento — est˜o no passado, portanto a ocorrˆncia a e 25
  • 34. Regress˜o Log´ a ıstica ou n˜o do evento modelado j´ deve ter sido observada. a a Sejam x = (x1 , x2 , . . . , xk ) o vetor de valores de atributos que caracterizam um cliente e π(x) a propor¸ao de maus pagadores em fun¸ao c˜ c˜ do perfil dos clientes, definido e caracterizado por x. Neste caso, o modelo log´ ıstico ´ adequado para definir uma rela¸˜o entre a probabilidade de e ca um cliente ser mau pagador e um conjunto de fatores ou atributos que o caracterizam. Esta rela¸ao ´ definida pela fun¸ao ou transforma¸ao c˜ e c˜ c˜ logito dada pela express˜oa π(x) log = β0 + β1 x1 + . . . + βk xk , 1 − π(x) em que π(x) ´ definido como e exp(β0 + β1 x1 + . . . + βk xk ) π(x) = , 1 + exp(β0 + β1 x1 + . . . + βk xk ) e pode ser interpretado como a probabilidade de um proponente ao cr´dito ser um mau pagador dado as caracter´ e ısticas que possui, repre- sentadas por x. No caso da atribui¸ao da categoria bom pagador, as c˜ interpreta¸˜es s˜o an´logas. co a a 2.1 Estima¸˜o dos Coeficientes ca Dada uma amostra de n clientes (yi , xi ), sendo yi a vari´vel res- a posta — bons e maus pagadores — e xi = (xi1 , xi2 , . . . , xik ) , em que xi1 , xi2 , . . . , xik s˜o os valores dos k atributos observados do i-´simo cli- a e ente, i = 1, . . . , n, o ajuste do modelo log´ ıstico consiste em estimar os parˆmetros βj , j = 1, 2, . . . , k, os quais definem π(x). a Os parˆmetros s˜o geralmente estimados pelo m´todo de m´xi- a a e a ma verossimilhan¸a (Hosmer & Lemeshow, 2000). Por este m´todo, os c e coeficientes s˜o estimados de maneira a maximizar a probabilidade de se a obter o conjunto de dados observados a partir do modelo proposto. Para o m´todo ser aplicado, primeiramente constru´ e ımos a fun¸ao de verossimi- c˜ lhan¸a que expressa a probabilidade dos dados observados, como fun¸˜o c ca 26