SlideShare una empresa de Scribd logo
1 de 65
Introdução à Regressão Linear

               Célia M. D. Sales - UAL
Conceitos básicos
Notação nos modelos estatísticos
     Letras gregas
       parâmetros, i.e., valores « verdadeiros » na população, que não
       conhecemos e que pretendemos estimar com o modelo
       Ex: β
     Letras minúsculas
       estimativas dos parâmetros, que são calculadas a partir dos dados e
       que fazem parte da equação linear do modelo
       Ex: b
     Letras maiúsculas
       variáveis (ex :Y, X1)
     Y é sempre a variável que o modelo procura estimar (VD)
     X são sempre os preditores (VI) de Y
     O « chapéu » do Y indica que é uma estimativa do valor de Y

 2                                     Célia M. D. Sales - UAL
O que é a Regressão
    Regressão linear
     Modelo para predizer o valor de uma variável (v. dependente),
     a partir de outra (v. independente ou preditor)
    Regressão múltipla
     Extensão da regressão linear
     Usa vários preditores, para estimar o valor da variável
     dependente
    Modelos lineares
     A relação entre as variáveis é descrita por uma recta




3                                  Célia M. D. Sales - UAL
Lógica da análise de regressão
    Objectivo
     Predizer uma variável dependente (Y), a partir do
     conhecimento de uma ou mais variáveis independentes
     Criar um modelo estatístico da relação entre essas variáveis
    Lógica de comparação de modelos
     Para sabermos se o modelo criado é útil (é bom para prever
     Y), vamos compará-lo com outro modelo mais simples
     O melhor modelo é o que tiver menor erro
    Qual o melhor modelo estatístico para prever o valor de
    Y, a partir dos dados da amostra, sem usar variáveis
    independentes?
      A média do próprio Y


4                                  Célia M. D. Sales - UAL
Comparação de modelos
                          12                                                 Modelo (predição de Y)
                          10

     Nº Cartões Crédito    8

                           6

                           4

                           2

                           0
                               0   1   2    3      4      5       6     7      8     9
                                                Tamanho Família             Erro de predição (ei)



                                           Yi = β0 + εi
                                   VD
                                                  Modelo              Erro
                               (resultados)
5                                                          Célia M. D. Sales - UAL
Comparação de modelos
                                                                                                      Outro modelo mais complexo
                                        Modelo (nossa predição b0)
                                                                                             12
                       12




                                                                        Nº Cartões Crédito
  Nº Cartões Crédito




                                                                                             10
                       10
                                                                                              8
                        8
                                                                                              6
                        6
                                                                                              4
                        4
                                                                                              2
                        2
                                                                                              0
                        0
                                                                                                  0    2     4       6       8   10
                            0      2     4       6       8   10
                                                                                                           Tamanho Família
                                       Tamanho Família




                                       Yi = β0 + εi                                                    Yi = β0 + β1 X i 1 + εi


Número de parâmetros a estimar = 1                                     Número de parâmetros a estimar = 2


                                Modelo Contraído                                                      Modelo Aumentado

                        6                                            Célia M. D. Sales - UAL
Exemplo (Hair et al, 2010)
    Estudo sobre o uso do cartão de crédito
      Objectivo: Determinar os factores que afectam o nº de cartões de
      crédito usados pelas famílias
      3 potenciais factores: O tamanho da família, o rendimento familiar e
      o nº de automóveis possuídos pela família
      Dados recolhidos em 8 famílias

    Variável dependente (y)
      Nº de cartões de crédito
    Variáveis independentes (X)
      Tamanho da família (v1)
      Rendimento (v2)
      Nº de automóveis (v3)


7                                     Célia M. D. Sales - UAL
1) Relação linear entre Y e X?
    A inspecção visual dos diagramas de dispersão revela que
    existe uma relação linear entre o nº de cartões de
    crédito das famílias (Y) e o tamanho da família (v1), o
    rendimento (v2) e o nº de automóveis possuídos pela
    família




8                               Célia M. D. Sales - UAL
2) Análise da Matriz R
    Caso procuremos apenas uma variável preditora
     A variável que melhor prediz Y será aquela com correlação
     mais elevada




     Neste caso, escolheríamos “dimensão da família”
9                                 Célia M. D. Sales - UAL
Recta de regressão com 1 predictor


                                              Mudança no uso do
                                              cartão de crédito (y)
                                              quando se aumenta 1
                                              unidade na família (v1)

                                              b1 na equação da recta
                                              Coeficiente de
                                              regressão de v1




b0
Valor de y quando x=0

   10                   Célia M. D. Sales - UAL
Representação matemática da recta

                                    0            1 1
 b0
     Ordenada na origem (intercept)
       Ponto em que a recta de regressão cruza o eixo das ordenadas Y
       valor de Y quando X = 0


 b1
     Coeficiente de regressão de X
       Declive (gradient) da recta de regressão
       Mudança em Y, quando X muda 1 unidade
       Indica direcção (+ ou -) e força (valor absoluto) da relação

11                                      Célia M. D. Sales - UAL
Ordenadas na origem e coeficientes de
regressão. Representação gráfica.




                 (Field, 2010)

12                       Célia M. D. Sales - UAL
Exercício
                                  1 ) Escreva a equação de
                                  predição de Y em função de v1



                                   2 ) Numa família de 7
                                   pessoas, qual o nº estimado
                                   de cartões de crédito?
              b1 = 0,97




b0 = 2,87



   13              Célia M. D. Sales - UAL
Significância estatística do modelo
 Depois de criar um modelo, precisamos avaliar até que ponto ele é bom
 (se é capaz de predizer Y e se é generalizável)
     Comparação modelo contraído vs. modelo aumentado

 Três procedimentos básicos:
     R2
          Quanto da variação de Y é explicada pelo modelo aumentado?
          O modelo é preciso a predizer Y?

     F ANOVA
          A variação de Y explicada (pelo modelo aumentado) é significativamente maior do que
          variação de Y que não é explicada (pelo modelo aumentado)?
          Globalmente, o modelo é generalizável?

     t-Student
          Cada parâmetro do modelo é significativamente diferente de zero?
          O impacto de cada preditor na equação é significativo?
          O impacto de cada preditor é generalizável?

14                                              Célia M. D. Sales - UAL
Modelo contraído                                               Modelo aumentado
                                                                                         12
                     12




                                                                    Nº Cartões Crédito
Nº Cartões Crédito
                                                                                         10
                     10
                                                                                          8
                     8
                                                                                          6
                     6
                                                                                          4
                     4
                                                                                          2
                     2
                                                                                          0
                     0
                                                                                              0   2      4       6       8    10
                          0        2     4       6       8   10
                                                                                                       Tamanho Família
                                       Tamanho Família




                          Que modelo é melhor para predizer Y? O que tiver menor erro (desvios ou resíduos)




                      Erro do modelo contraído (média)
                         Variação total de Y                       Erro do modelo aumentado (regressão)
                         SSt                                                             Variação de Y não explicada pelo modelo
                              15                                    Célia M. D. Sales - UAL
                                                                                         SSr
R2
 Variação total de Y           Variação de Y não                Variação de Y explicada
        SSt            -      explicada pelo modelo       =            pelo modelo
                                      SSr                                SSm

           No nosso exemplo:

 Quanto da variação total de Y é explicada pelo modelo?


                       Variação de Y explicada
                              pelo modelo
                                SSm                             16,5
          R2     =                                       =                 = 0,75
                           Variação total de Y                       22,0 O modelo explica
Coeficiente de                 para explicar
determinação                                                             75% da variação de Y
    16                            SSt        Célia M. D. Sales - UAL
R2
 Varia entre 0-1
     R2 = 0, o modelo não é melhor do que a média, a prever o
     valor de Y
     R2 = 1, o modelo oferece uma predição perfeita de Y
 Dá-nos informação sobre o rigor global da predição do
 nosso modelo
     Quanto maior o seu valor, melhor!




17                               Célia M. D. Sales - UAL
No SPSS




18        Célia M. D. Sales - UAL
Regressão linear simples no SPSS




         r                                            R2 ajustado
   Coeficiente de              R2
 correlação linear de   Quanta variação de Y
 Pearson, entre Y e X    é explicada pelo
                             modelo



19                                    Célia M. D. Sales - UAL
F - ANOVA
 Uma outra forma de avaliarmos a qualidade do nosso modelo
 é comparando a variação de Y que é explicada pelo modelo,
 com a variação de Y que não é explicada pelo modelo
     O modelo será tanto melhor, quanto maior seja a variação explicada,
     proporcionalmente à não explicada


                          Variação de Y explicada
                                 pelo modelo
                                   SSm

                             Variação de Y não
                            explicada pelo modelo
                                    SSr

20                                    Célia M. D. Sales - UAL
F - ANOVA
 Médias dos desvios quadrados
     Dado que as somas dos quadrados (SS) dependem do nº de
     resíduos somados, utiliza-se a sua média: Mean Squares (MS)
     A média calcula-se dividindo as somas dos quadrados pelos
     graus de liberdade




                   F=            MS M
                                 MS R
 Estatística
  ANOVA


21                                Célia M. D. Sales - UAL
F - ANOVA
 O teste de ANOVA
     Verifica se a variância explicada pelo modelo (SSm) é
     significativamente maior do que o erro do modelo (SSr)
 p<0.05
     Globalmente, o modelo de regressão (modelo aumentado) é
     significativamente melhor do que a média (modelo contraído),
     para predizer os valores de Y
     O modelo é generalizável a outras amostra
     Significância estatística do modelo global




22                                Célia M. D. Sales - UAL
ANOVA no SPSS

        SSM     SSR                  MSM




                                            Significância
                  MSR                       estatística do
        SST                                 modelo global




23                Célia M. D. Sales - UAL
t-Student
 A ANOVA diz-nos se, globalmente o modelo é bom para
 predizer Y (comparando com a média)
     Não nos informa acerca da contribuição individual de cada
     variável independente (preditor) na equação



 V1 não tem impacto em Y, se b1= 0
     Para que um preditor tenha impacto na predição de Y, o seu
     coeficiente de correlação (b) tem que ser significativamente
     diferente de zero
 t-Student testa a hipótese nula de que b=0
     Calcula-se para cada preditor da equação

24                                 Célia M. D. Sales - UAL
t-Student no SPSS

                                           Significância
                                         estatística de b1




           b0
            b1      b1 em unidades de
                      desvio-padrão


25                   Célia M. D. Sales - UAL
REGRESSÃO LINEAR MÚLTIPLA




26               Célia M. D. Sales - UAL
Regressão Múltipla: Representação
matemática
 Regression variate
     Combinação linear das variáveis independentes que melhor
     prediz a variável dependente


               0          1 1
 b0
     Ordenada na origem
     Valor de Y quando todos os Xs = 0
 b1
     Coeficiente de regressão da variável 1

27                                 Célia M. D. Sales - UAL
Modelo com 2 preditores




                                                b2



     b0
                 b1




28                    Célia M. D. Sales - UAL
Da correlação bivariada à correlação
multivariada




29                    Célia M. D. Sales - UAL
Principais passos da regressão linear
múltipla
1)    Escolha das variáveis
2)    Construção de um modelo inicial significativo
        Escolha do método de construção do modelo
3)    Validação do modelo inicial
4)    Procura do “melhor modelo”
        Construir modelos alternativos significativos
        Validar
        Comparar
5)    Construção e interpretação do modelo final
6)    Reportar resultados

 30                                 Célia M. D. Sales - UAL
Escolha de variáveis

                                  Requisitos




31      Célia M. D. Sales - UAL
Critérios de escolha das variáveis
 Orientados pela teoria
 Devem obedecer aos requisitos da análise




32                          Célia M. D. Sales - UAL
Requisitos das variáveis
 Tipos de variáveis
     Y deve ser variável contínua
     Preditores contínuos (podem ser dicotómicos)
 Medidas independentes
     Todos os valores Y correspondem a diferentes pessoas
 Variância
     Todos os preditores têm variância diferente de zero




33                                Célia M. D. Sales - UAL
Construção de modelo inicial
                    significativo
       Métodos de (construção de modelos de) regressão




34                      Célia M. D. Sales - UAL
Métodos de regressão
3 métodos:
1.  Regressão Múltipla Standard
           Todos os preditores entram simultaneamente na equação de regressão
2.        Regressão Múltipla Sequencial ou Hierárquica
           Investigador decide a ordem pela qual as variáveis entram no modelo
3.        Regressão Múltipla Estatística (Stepwise)
           Preditores são seleccionados com base em critérios matemáticos
           (correlação semi-parcial com Y)

Diferença entre os métodos:
    O que acontece à variabilidade devida ao efeito comum das VI
    (quando estão correlacionadas entre si)
    Critérios da ordem de entrada das VI na equação


     35                                   Célia M. D. Sales - UAL
Regressão Standard
 Todas as VI entram ao mesmo tempo na análise
 Cada VI é avaliada quanto
     “what it adds to the prediction of the DV that is different from
     predictability afforded by all other IV” (Tabachnick & Fidell
     (2007, p.136)
     A sua contribuição única




36                                 Célia M. D. Sales - UAL
Regressão Standard
Interpretação
 Se houver grande sobreposição entre VI’s
     A correlação bivariada entre VD e VI pode ser
     elevada
     No entanto, no modelo, a contribuição é pequena
     Exemplo:VI 2
 A interpretação tem que ter em conta:
     correlação total entre a VI e a VD (dada pela correlação
     bivariada)
     correlação única (dada pelo coeficiente de regressão no
     modelo)



37                                 Célia M. D. Sales - UAL
Regressão sequencial ou hierárquica
 Ordem de entrada na equação, decidida pelo investigador
 Exemplo: Introdução pela seguinte ordem - em 1º lugar,
 VI1, depois VI2, e por último VI3
     VI1 “fica com o crédito” das áreas a e b
     VI2 “fica com o crédito” de c e d
     VI3 “fica com o “crédito” de e




38                                 Célia M. D. Sales - UAL
Regressão sequencial ou hierárquica
 Cada variável é avaliada quanto
     A sua contribuição única (para explicar a variabilidade da VD)
     A sobreposição de contribuições que ainda não foi explicada




 A interpretação dependerá da ordem de entrada!

39                                 Célia M. D. Sales - UAL
Regressão sequencial ou hierárquica
Ordem de entrada de variáveis
 Pode realizar-se
     Variável a variável, uma de cada vez
     Por blocos de variáveis


 Critérios de entrada
     Critérios teóricos, de acordo com as perguntas de
     investigação.


 Exemplos de opções



40                                 Célia M. D. Sales - UAL
Regressão sequencial ou hierárquica
Ordem de entrada de variáveis


     Colocar em 1º lugar as VI que têm maior importância teórica,
     ou que são preditores mais importantes (de acordo com
     investigação anterior), ou as variáveis manipuladas (em
     desenhos experimentais).

     Ex: Para predizer o sucesso como jogador de basquetebol,
     sabe-se que a altura é mais importante que o treino; então a
     variável altura tem prioridade de entrada.




41                                 Célia M. D. Sales - UAL
Regressão sequencial ou hierárquica
Ordem de entrada de variáveis

     Colocar em 1º lugar as VI menos importantes, ou “de ruído”; colocar no final as
     mais importantes

                                          Exemplo:

     Estudo para predizer a velocidade de leitura (VD), a partir de 3 VI’s: Intensidade e
     duração de um curso de leitura (variáveis importantes) e velocidade inicial de
     leitura antes do curso (variável “parasita”).

     Interessa saber se, para além da velocidade inicial, a intensidade e duração do
     curso são capazes de predizer a velocidade de leitura.

     1ª variável a entrar na equação:Velocidade inicial (modelo 1 prediz a velocidade
     de leitura em função da velocidade inicial de leitura na amostra)
     Depois, as VI importantes (por exemplo, em bloco): modelo 2 prediz a velocidade
     de leitura
42                                           Célia M. D. Sales - UAL
Regressão estatística
 A ordem de entrada das variáveis, dada pela ordem das
 correlações semi-parciais (mais elevada, entra em 1º
 lugar)
     Computador “decide”
 Opção menos usada em Ciências Sociais; controversa.




43                          Célia M. D. Sales - UAL
Comparação dos três
                               métodos de
                               regressão



                               (b) Regressão standard

                               (c) Regressão hierárquica

                               (d) Regressão estatística




                               Tabachnick & Fidell,

                               2007, p. 127


44   Célia M. D. Sales - UAL
Que método escolher?
(Tabachnick & Fidell, 2007, p. 143)
 “Para simplesmente medir relações entre variáveis e
 responder à questão básica da correlação múltipla, o
 método a eleger é a Regressão Múltipla Standard
 No entanto, a Regressão Múltipla Standard é “ateórica”
 (…)
 Razões para usar a regressão hierárquica são teóricas ou
 para testar hipóteses explícitas”
     Testar hipóteses sobre a proporção de variância atribuída a
     algumas VI’s para além da variância devida às VI’s já incluídas na
     equação



45                                   Célia M. D. Sales - UAL
Exemplo de adequação do método de
regressão às perguntas de investigação
 VD= Compreensão exame de licenciatura(COMPR)
 Preditores: Motivação Profissional (MOTIV), qualificações técnicas (QUAL)
 e performance nas cadeiras do curso (GRADE)

                    Regressão Múltipla Standard
 1.    Qual a intensidade da relação global entre COMPR e o conjunto das
       VI’s MOTIV, QUAL e GRAD?
 2.    Qual a contribuição única de cada VI para essa relação?

               Regressão Sequencial ou hierárquica
      (ordem de entrada: QUAL e GRADE primeiro, MOTIV depois)
       Será que, eliminando estatisticamente as diferenças entre os
       estudantes em QUAL e em GRADE, a variável MOTIV acresce
       significativamente a predição de COMPR?

                           (Tabachnick & Fidell, 2007)


46                                       Célia M. D. Sales - UAL
Validação do modelo de
            regressão linear
                                     Model fit
                     Análise dos pressupostos




47         Célia M. D. Sales - UAL
Validação do modelo
  Depois de estimarmos os coeficientes de regressão,
  precisamos de avaliar dois aspectos:
1. Model fit
       O modelo ajusta-se bem aos dados, ou é influenciado por
       alguns casos?
2.    Generalização
       O modelo pode-se generalizar a outras amostras?
       Implica verificar o cumprimento dos pressupostos da análise
       de regressão




 48                               Célia M. D. Sales - UAL
Diagnóstico do Model fit
 O Modelo ajusta-se bem aos dados da amostra?

 Dois procedimentos:
     Análise dos resíduos estandardizados
      Diagnóstico de outliers
     Cook’s distance
      Diagnóstico de influential cases




49                           Célia M. D. Sales - UAL
Model fit e outliers
 Outlier
     Caso que difere substancialmente da maior parte dos restantes
     dados
     Afecta os coeficientes de correlação estimados pelo modelo




                          Field (2010)
50                                  Célia M. D. Sales - UAL
Model fit e outliers
 Como detectar um outlier?
     O modelo fará uma “má” estimativa de um outlier, i.e., com
     maior erro
     Um caso com um resíduo elevado, pode ser um outlier
 Resíduos estardardizados
     Resíduos transformados em Z-Scores
     Em média, 95% dos resíduos estandardizados situam-se entre
     ±2
     99% dos resíduos estandardizados situa-se entre ± 2,5
 Outlier
     Qualquer caso que tenha resíduos estandardizados com valor
     absoluto igual ou superior a 3, é provavelmente um outlier


51                                Célia M. D. Sales - UAL
Model fit e influencial cases

                      Exemplo de influencial case
                      (Field, 2010)
                        A recta a tracejado teria um
                        ajustamento óptimo aos
                        dados
                        A existência de um único
                        caso, altera a recta de
                        regressão, que piora o
                        ajustamento
                      Este caso é detectado pela
                      análise de resíduos?
                        Não!
                      Há algum caso que, se fosse
                      apagado, melhoraria
                      substancialmente o modelo?
Model fit: Diagnóstico de influencial cases
 Cook’s Distance
     Mede a influência de um caso único no modelo global
       Influência de um caso sobre a capacidade do modelo para predizer
       todos os casos


     Valores absolutos maiores que 1 podem reflectir a existência
     desta influência




                                 (Field, 2010)


53                                    Célia M. D. Sales - UAL
No SPSS
        Resíduos
     estandardizados
                       Cook’s distance




54                       Célia M. D. Sales - UAL
O que fazer quando existem problemas de
ajustamento? (Field, 2010)
 Estes diagnósticos permitem-nos saber se o modelo se
 ajusta bem aos dados da amostra
 NÃO são uma forma de justificar a remoção de casos
 para conseguir um modelo melhor!

 Outlier significativo com Cook’s distance <1
     Não apagar, porque não tem efeito mt grande no modelo
     Convém estudar esses pontos para compreender porque não
     se ajustam ao modelo




55                             Célia M. D. Sales - UAL
Generalização
  Validação dos pressupostos
1. Relação entre as variáveis independentes
    Não existência de multicolinearidade
        Os preditores não podem ter correlações elevadas

2.    Pressupostos respeitantes aos resíduos
      Homocedasticidade
        Para cada valor dos preditores, a variância do erro deve ser
        constante
      Independência dos erros
        Para cada par de observações, os erros não estão
        correlacionados
      Erros seguem uma distribuição normal

 56                                  Célia M. D. Sales - UAL
Multicolinearidade
 Existe multicolinearidade quando os preditores estão
 altamente correlacionados
 Verifica-se através do diagnóstico da colinearidade:
     Tolerância
     VIF




57                           Célia M. D. Sales - UAL
• A tolerâcia deve ser superior a 0.2 (Menard,
       1995)

     • VIF deve ser inferior a 10 (Myers, 1990)
                      Field (2010)
58                            Célia M. D. Sales - UAL
Análise dos pressupostos dos resíduos
     Inspecção gráfica dos resíduos

1.    Homocedasticidade / Independência de erros
       Gráfico ZRESID vs. ZPRED

2.    Normalidade dos erros
       Gráfico Normal Probability




 59                                 Célia M. D. Sales - UAL
No SPSS




60        Célia M. D. Sales - UAL
Homoscedasticidade
ZRESID vs. ZPRED




     Bom                                              Mau
               Fonte: Field (2009)
61                          Célia M. D. Sales - UAL
Normalidade dos erros: Histogramas




     Bom                                             Mau
              Fonte: Field (2009)
62                         Célia M. D. Sales - UAL
Normalidade dos erros: Gráfico Normal
Probability

                                                                   Normal P-P Plot of Regression
                                                                   Standardized Residual
                                                                   Dependent Variable: Outcome
                                                            1.00



                                                             .75




                                        Expected Cum Prob
                                                             .50



                                                             .25


                                                            0.00
                                                               0.00     .25    .50     .75   1.00


                                                                   Observed Cum Prob




       Bom                                                                    Mau
                  Fonte: Field (2009)
63                        Célia M. D. Sales - UAL
Procura do “melhor modelo”




64             Célia M. D. Sales - UAL
Métodos de regressão
 Hierárquico (block enter)

 Enter
     Entrada simultânea
 Stepwise:
     Entrada sequencial com critério matemático




65                               Célia M. D. Sales - UAL

Más contenido relacionado

La actualidad más candente

Correlacao
CorrelacaoCorrelacao
Correlacao
jon024
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
Antonio Mankumbani Chora
 
Distribuição Amostral da Média
Distribuição Amostral da MédiaDistribuição Amostral da Média
Distribuição Amostral da Média
Anderson Pinho
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
Rosario Cação
 
amostragem
amostragemamostragem
amostragem
socram01
 

La actualidad más candente (20)

Análise de Componentes Principais
Análise de Componentes PrincipaisAnálise de Componentes Principais
Análise de Componentes Principais
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 
Pesquisa Correlacional
Pesquisa CorrelacionalPesquisa Correlacional
Pesquisa Correlacional
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Conceitos Básicos de Estatística I
Conceitos Básicos de Estatística IConceitos Básicos de Estatística I
Conceitos Básicos de Estatística I
 
Anova spss
Anova spssAnova spss
Anova spss
 
Correlacao
CorrelacaoCorrelacao
Correlacao
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 
Multivariate data analysis
Multivariate data analysisMultivariate data analysis
Multivariate data analysis
 
Aula 30 testes de hipóteses
Aula 30   testes de hipótesesAula 30   testes de hipóteses
Aula 30 testes de hipóteses
 
Distribuição Amostral da Média
Distribuição Amostral da MédiaDistribuição Amostral da Média
Distribuição Amostral da Média
 
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA02   tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
02 tópico 1 - regressão linear simples 01 - Econometria - Graduação - UFPA
 
Distribuição normal
Distribuição normalDistribuição normal
Distribuição normal
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
 
Regressao Linear Simples - Pessupostos
Regressao Linear Simples - PessupostosRegressao Linear Simples - Pessupostos
Regressao Linear Simples - Pessupostos
 
Teste t student
Teste t studentTeste t student
Teste t student
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
Séries temporais
Séries temporaisSéries temporais
Séries temporais
 
amostragem
amostragemamostragem
amostragem
 

Destacado (11)

Regressão Logística
Regressão LogísticaRegressão Logística
Regressão Logística
 
Regressão Linear Simples
Regressão Linear SimplesRegressão Linear Simples
Regressão Linear Simples
 
Calculo numérico
Calculo numéricoCalculo numérico
Calculo numérico
 
ajuste de curva
ajuste de curvaajuste de curva
ajuste de curva
 
Ajuste de historico_assistido_de_modelos_de_simulacao_de_reservatorios
Ajuste de historico_assistido_de_modelos_de_simulacao_de_reservatoriosAjuste de historico_assistido_de_modelos_de_simulacao_de_reservatorios
Ajuste de historico_assistido_de_modelos_de_simulacao_de_reservatorios
 
Ajuste de curvas
Ajuste de curvasAjuste de curvas
Ajuste de curvas
 
Apostila matematica basica
Apostila matematica basica Apostila matematica basica
Apostila matematica basica
 
Cap9 - Parte 4 - Regressão Linear
Cap9 - Parte 4 - Regressão LinearCap9 - Parte 4 - Regressão Linear
Cap9 - Parte 4 - Regressão Linear
 
Ajuste de Curvas - @professorenan
Ajuste de Curvas - @professorenanAjuste de Curvas - @professorenan
Ajuste de Curvas - @professorenan
 
Exercicio de Regressao Linear Simples
Exercicio de Regressao Linear SimplesExercicio de Regressao Linear Simples
Exercicio de Regressao Linear Simples
 
Regressao linear multipla
Regressao linear multiplaRegressao linear multipla
Regressao linear multipla
 

Más de Célia M. D. Sales

Más de Célia M. D. Sales (17)

Testes hipoteses nao-parametricos
Testes hipoteses nao-parametricosTestes hipoteses nao-parametricos
Testes hipoteses nao-parametricos
 
Qui quadrado
Qui quadradoQui quadrado
Qui quadrado
 
Anova a 1 factor
Anova a 1 factorAnova a 1 factor
Anova a 1 factor
 
Testes hipoteses introducao
Testes hipoteses introducaoTestes hipoteses introducao
Testes hipoteses introducao
 
Testes hipot parametricos_pressupostos
Testes hipot parametricos_pressupostosTestes hipot parametricos_pressupostos
Testes hipot parametricos_pressupostos
 
Distrib probab
Distrib probabDistrib probab
Distrib probab
 
Estatistica descritivaunivariada
Estatistica descritivaunivariadaEstatistica descritivaunivariada
Estatistica descritivaunivariada
 
Definicao estatistica
Definicao estatisticaDefinicao estatistica
Definicao estatistica
 
Combining metric and qualitative approach in a measure of similarity for ill-...
Combining metric and qualitative approach in a measure of similarity for ill-...Combining metric and qualitative approach in a measure of similarity for ill-...
Combining metric and qualitative approach in a measure of similarity for ill-...
 
Questionar 2010
Questionar 2010Questionar 2010
Questionar 2010
 
Da populacao a amostra
Da populacao a amostraDa populacao a amostra
Da populacao a amostra
 
Desenhos Ex Post Facto 2010
Desenhos Ex Post Facto 2010Desenhos Ex Post Facto 2010
Desenhos Ex Post Facto 2010
 
Desenhos Experimentais (MIP 6)
Desenhos Experimentais (MIP 6)Desenhos Experimentais (MIP 6)
Desenhos Experimentais (MIP 6)
 
Causalidade Aleatorizacao Validade Interna (MIP 5)
Causalidade Aleatorizacao Validade Interna (MIP 5)Causalidade Aleatorizacao Validade Interna (MIP 5)
Causalidade Aleatorizacao Validade Interna (MIP 5)
 
Principios Eticos Publicacao Apa (MIP 4)
Principios Eticos Publicacao Apa (MIP 4)Principios Eticos Publicacao Apa (MIP 4)
Principios Eticos Publicacao Apa (MIP 4)
 
Apa Artigo Empirico 2010 (MIP 2)
Apa Artigo Empirico 2010 (MIP 2)Apa Artigo Empirico 2010 (MIP 2)
Apa Artigo Empirico 2010 (MIP 2)
 
Delimitacao Tema Investigacao (MIP 1)
Delimitacao Tema Investigacao (MIP 1)Delimitacao Tema Investigacao (MIP 1)
Delimitacao Tema Investigacao (MIP 1)
 

Último

19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
marlene54545
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptx
TailsonSantos1
 
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
RavenaSales1
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
LeloIurk1
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
rosenilrucks
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
NarlaAquino
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
WagnerCamposCEA
 

Último (20)

PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
Projeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptx
Projeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptxProjeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptx
Projeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptx
 
Antero de Quental, sua vida e sua escrita
Antero de Quental, sua vida e sua escritaAntero de Quental, sua vida e sua escrita
Antero de Quental, sua vida e sua escrita
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptx
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
Camadas da terra -Litosfera conteúdo 6º ano
Camadas da terra -Litosfera  conteúdo 6º anoCamadas da terra -Litosfera  conteúdo 6º ano
Camadas da terra -Litosfera conteúdo 6º ano
 
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxSlides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
P P P 2024 - *CIEJA Santana / Tucuruvi*
P P P 2024  - *CIEJA Santana / Tucuruvi*P P P 2024  - *CIEJA Santana / Tucuruvi*
P P P 2024 - *CIEJA Santana / Tucuruvi*
 
migração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenosmigração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenos
 
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffffSSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
SSE_BQ_Matematica_4A_SR.pdfffffffffffffffffffffffffffffffffff
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
 

Introdução à Regressão Linear Simples e Múltipla

  • 1. Introdução à Regressão Linear Célia M. D. Sales - UAL
  • 2. Conceitos básicos Notação nos modelos estatísticos Letras gregas parâmetros, i.e., valores « verdadeiros » na população, que não conhecemos e que pretendemos estimar com o modelo Ex: β Letras minúsculas estimativas dos parâmetros, que são calculadas a partir dos dados e que fazem parte da equação linear do modelo Ex: b Letras maiúsculas variáveis (ex :Y, X1) Y é sempre a variável que o modelo procura estimar (VD) X são sempre os preditores (VI) de Y O « chapéu » do Y indica que é uma estimativa do valor de Y 2 Célia M. D. Sales - UAL
  • 3. O que é a Regressão Regressão linear Modelo para predizer o valor de uma variável (v. dependente), a partir de outra (v. independente ou preditor) Regressão múltipla Extensão da regressão linear Usa vários preditores, para estimar o valor da variável dependente Modelos lineares A relação entre as variáveis é descrita por uma recta 3 Célia M. D. Sales - UAL
  • 4. Lógica da análise de regressão Objectivo Predizer uma variável dependente (Y), a partir do conhecimento de uma ou mais variáveis independentes Criar um modelo estatístico da relação entre essas variáveis Lógica de comparação de modelos Para sabermos se o modelo criado é útil (é bom para prever Y), vamos compará-lo com outro modelo mais simples O melhor modelo é o que tiver menor erro Qual o melhor modelo estatístico para prever o valor de Y, a partir dos dados da amostra, sem usar variáveis independentes? A média do próprio Y 4 Célia M. D. Sales - UAL
  • 5. Comparação de modelos 12 Modelo (predição de Y) 10 Nº Cartões Crédito 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Tamanho Família Erro de predição (ei) Yi = β0 + εi VD Modelo Erro (resultados) 5 Célia M. D. Sales - UAL
  • 6. Comparação de modelos Outro modelo mais complexo Modelo (nossa predição b0) 12 12 Nº Cartões Crédito Nº Cartões Crédito 10 10 8 8 6 6 4 4 2 2 0 0 0 2 4 6 8 10 0 2 4 6 8 10 Tamanho Família Tamanho Família Yi = β0 + εi Yi = β0 + β1 X i 1 + εi Número de parâmetros a estimar = 1 Número de parâmetros a estimar = 2 Modelo Contraído Modelo Aumentado 6 Célia M. D. Sales - UAL
  • 7. Exemplo (Hair et al, 2010) Estudo sobre o uso do cartão de crédito Objectivo: Determinar os factores que afectam o nº de cartões de crédito usados pelas famílias 3 potenciais factores: O tamanho da família, o rendimento familiar e o nº de automóveis possuídos pela família Dados recolhidos em 8 famílias Variável dependente (y) Nº de cartões de crédito Variáveis independentes (X) Tamanho da família (v1) Rendimento (v2) Nº de automóveis (v3) 7 Célia M. D. Sales - UAL
  • 8. 1) Relação linear entre Y e X? A inspecção visual dos diagramas de dispersão revela que existe uma relação linear entre o nº de cartões de crédito das famílias (Y) e o tamanho da família (v1), o rendimento (v2) e o nº de automóveis possuídos pela família 8 Célia M. D. Sales - UAL
  • 9. 2) Análise da Matriz R Caso procuremos apenas uma variável preditora A variável que melhor prediz Y será aquela com correlação mais elevada Neste caso, escolheríamos “dimensão da família” 9 Célia M. D. Sales - UAL
  • 10. Recta de regressão com 1 predictor Mudança no uso do cartão de crédito (y) quando se aumenta 1 unidade na família (v1) b1 na equação da recta Coeficiente de regressão de v1 b0 Valor de y quando x=0 10 Célia M. D. Sales - UAL
  • 11. Representação matemática da recta 0 1 1 b0 Ordenada na origem (intercept) Ponto em que a recta de regressão cruza o eixo das ordenadas Y valor de Y quando X = 0 b1 Coeficiente de regressão de X Declive (gradient) da recta de regressão Mudança em Y, quando X muda 1 unidade Indica direcção (+ ou -) e força (valor absoluto) da relação 11 Célia M. D. Sales - UAL
  • 12. Ordenadas na origem e coeficientes de regressão. Representação gráfica. (Field, 2010) 12 Célia M. D. Sales - UAL
  • 13. Exercício 1 ) Escreva a equação de predição de Y em função de v1 2 ) Numa família de 7 pessoas, qual o nº estimado de cartões de crédito? b1 = 0,97 b0 = 2,87 13 Célia M. D. Sales - UAL
  • 14. Significância estatística do modelo Depois de criar um modelo, precisamos avaliar até que ponto ele é bom (se é capaz de predizer Y e se é generalizável) Comparação modelo contraído vs. modelo aumentado Três procedimentos básicos: R2 Quanto da variação de Y é explicada pelo modelo aumentado? O modelo é preciso a predizer Y? F ANOVA A variação de Y explicada (pelo modelo aumentado) é significativamente maior do que variação de Y que não é explicada (pelo modelo aumentado)? Globalmente, o modelo é generalizável? t-Student Cada parâmetro do modelo é significativamente diferente de zero? O impacto de cada preditor na equação é significativo? O impacto de cada preditor é generalizável? 14 Célia M. D. Sales - UAL
  • 15. Modelo contraído Modelo aumentado 12 12 Nº Cartões Crédito Nº Cartões Crédito 10 10 8 8 6 6 4 4 2 2 0 0 0 2 4 6 8 10 0 2 4 6 8 10 Tamanho Família Tamanho Família Que modelo é melhor para predizer Y? O que tiver menor erro (desvios ou resíduos) Erro do modelo contraído (média) Variação total de Y Erro do modelo aumentado (regressão) SSt Variação de Y não explicada pelo modelo 15 Célia M. D. Sales - UAL SSr
  • 16. R2 Variação total de Y Variação de Y não Variação de Y explicada SSt - explicada pelo modelo = pelo modelo SSr SSm No nosso exemplo: Quanto da variação total de Y é explicada pelo modelo? Variação de Y explicada pelo modelo SSm 16,5 R2 = = = 0,75 Variação total de Y 22,0 O modelo explica Coeficiente de para explicar determinação 75% da variação de Y 16 SSt Célia M. D. Sales - UAL
  • 17. R2 Varia entre 0-1 R2 = 0, o modelo não é melhor do que a média, a prever o valor de Y R2 = 1, o modelo oferece uma predição perfeita de Y Dá-nos informação sobre o rigor global da predição do nosso modelo Quanto maior o seu valor, melhor! 17 Célia M. D. Sales - UAL
  • 18. No SPSS 18 Célia M. D. Sales - UAL
  • 19. Regressão linear simples no SPSS r R2 ajustado Coeficiente de R2 correlação linear de Quanta variação de Y Pearson, entre Y e X é explicada pelo modelo 19 Célia M. D. Sales - UAL
  • 20. F - ANOVA Uma outra forma de avaliarmos a qualidade do nosso modelo é comparando a variação de Y que é explicada pelo modelo, com a variação de Y que não é explicada pelo modelo O modelo será tanto melhor, quanto maior seja a variação explicada, proporcionalmente à não explicada Variação de Y explicada pelo modelo SSm Variação de Y não explicada pelo modelo SSr 20 Célia M. D. Sales - UAL
  • 21. F - ANOVA Médias dos desvios quadrados Dado que as somas dos quadrados (SS) dependem do nº de resíduos somados, utiliza-se a sua média: Mean Squares (MS) A média calcula-se dividindo as somas dos quadrados pelos graus de liberdade F= MS M MS R Estatística ANOVA 21 Célia M. D. Sales - UAL
  • 22. F - ANOVA O teste de ANOVA Verifica se a variância explicada pelo modelo (SSm) é significativamente maior do que o erro do modelo (SSr) p<0.05 Globalmente, o modelo de regressão (modelo aumentado) é significativamente melhor do que a média (modelo contraído), para predizer os valores de Y O modelo é generalizável a outras amostra Significância estatística do modelo global 22 Célia M. D. Sales - UAL
  • 23. ANOVA no SPSS SSM SSR MSM Significância MSR estatística do SST modelo global 23 Célia M. D. Sales - UAL
  • 24. t-Student A ANOVA diz-nos se, globalmente o modelo é bom para predizer Y (comparando com a média) Não nos informa acerca da contribuição individual de cada variável independente (preditor) na equação V1 não tem impacto em Y, se b1= 0 Para que um preditor tenha impacto na predição de Y, o seu coeficiente de correlação (b) tem que ser significativamente diferente de zero t-Student testa a hipótese nula de que b=0 Calcula-se para cada preditor da equação 24 Célia M. D. Sales - UAL
  • 25. t-Student no SPSS Significância estatística de b1 b0 b1 b1 em unidades de desvio-padrão 25 Célia M. D. Sales - UAL
  • 26. REGRESSÃO LINEAR MÚLTIPLA 26 Célia M. D. Sales - UAL
  • 27. Regressão Múltipla: Representação matemática Regression variate Combinação linear das variáveis independentes que melhor prediz a variável dependente 0 1 1 b0 Ordenada na origem Valor de Y quando todos os Xs = 0 b1 Coeficiente de regressão da variável 1 27 Célia M. D. Sales - UAL
  • 28. Modelo com 2 preditores b2 b0 b1 28 Célia M. D. Sales - UAL
  • 29. Da correlação bivariada à correlação multivariada 29 Célia M. D. Sales - UAL
  • 30. Principais passos da regressão linear múltipla 1) Escolha das variáveis 2) Construção de um modelo inicial significativo Escolha do método de construção do modelo 3) Validação do modelo inicial 4) Procura do “melhor modelo” Construir modelos alternativos significativos Validar Comparar 5) Construção e interpretação do modelo final 6) Reportar resultados 30 Célia M. D. Sales - UAL
  • 31. Escolha de variáveis Requisitos 31 Célia M. D. Sales - UAL
  • 32. Critérios de escolha das variáveis Orientados pela teoria Devem obedecer aos requisitos da análise 32 Célia M. D. Sales - UAL
  • 33. Requisitos das variáveis Tipos de variáveis Y deve ser variável contínua Preditores contínuos (podem ser dicotómicos) Medidas independentes Todos os valores Y correspondem a diferentes pessoas Variância Todos os preditores têm variância diferente de zero 33 Célia M. D. Sales - UAL
  • 34. Construção de modelo inicial significativo Métodos de (construção de modelos de) regressão 34 Célia M. D. Sales - UAL
  • 35. Métodos de regressão 3 métodos: 1. Regressão Múltipla Standard Todos os preditores entram simultaneamente na equação de regressão 2. Regressão Múltipla Sequencial ou Hierárquica Investigador decide a ordem pela qual as variáveis entram no modelo 3. Regressão Múltipla Estatística (Stepwise) Preditores são seleccionados com base em critérios matemáticos (correlação semi-parcial com Y) Diferença entre os métodos: O que acontece à variabilidade devida ao efeito comum das VI (quando estão correlacionadas entre si) Critérios da ordem de entrada das VI na equação 35 Célia M. D. Sales - UAL
  • 36. Regressão Standard Todas as VI entram ao mesmo tempo na análise Cada VI é avaliada quanto “what it adds to the prediction of the DV that is different from predictability afforded by all other IV” (Tabachnick & Fidell (2007, p.136) A sua contribuição única 36 Célia M. D. Sales - UAL
  • 37. Regressão Standard Interpretação Se houver grande sobreposição entre VI’s A correlação bivariada entre VD e VI pode ser elevada No entanto, no modelo, a contribuição é pequena Exemplo:VI 2 A interpretação tem que ter em conta: correlação total entre a VI e a VD (dada pela correlação bivariada) correlação única (dada pelo coeficiente de regressão no modelo) 37 Célia M. D. Sales - UAL
  • 38. Regressão sequencial ou hierárquica Ordem de entrada na equação, decidida pelo investigador Exemplo: Introdução pela seguinte ordem - em 1º lugar, VI1, depois VI2, e por último VI3 VI1 “fica com o crédito” das áreas a e b VI2 “fica com o crédito” de c e d VI3 “fica com o “crédito” de e 38 Célia M. D. Sales - UAL
  • 39. Regressão sequencial ou hierárquica Cada variável é avaliada quanto A sua contribuição única (para explicar a variabilidade da VD) A sobreposição de contribuições que ainda não foi explicada A interpretação dependerá da ordem de entrada! 39 Célia M. D. Sales - UAL
  • 40. Regressão sequencial ou hierárquica Ordem de entrada de variáveis Pode realizar-se Variável a variável, uma de cada vez Por blocos de variáveis Critérios de entrada Critérios teóricos, de acordo com as perguntas de investigação. Exemplos de opções 40 Célia M. D. Sales - UAL
  • 41. Regressão sequencial ou hierárquica Ordem de entrada de variáveis Colocar em 1º lugar as VI que têm maior importância teórica, ou que são preditores mais importantes (de acordo com investigação anterior), ou as variáveis manipuladas (em desenhos experimentais). Ex: Para predizer o sucesso como jogador de basquetebol, sabe-se que a altura é mais importante que o treino; então a variável altura tem prioridade de entrada. 41 Célia M. D. Sales - UAL
  • 42. Regressão sequencial ou hierárquica Ordem de entrada de variáveis Colocar em 1º lugar as VI menos importantes, ou “de ruído”; colocar no final as mais importantes Exemplo: Estudo para predizer a velocidade de leitura (VD), a partir de 3 VI’s: Intensidade e duração de um curso de leitura (variáveis importantes) e velocidade inicial de leitura antes do curso (variável “parasita”). Interessa saber se, para além da velocidade inicial, a intensidade e duração do curso são capazes de predizer a velocidade de leitura. 1ª variável a entrar na equação:Velocidade inicial (modelo 1 prediz a velocidade de leitura em função da velocidade inicial de leitura na amostra) Depois, as VI importantes (por exemplo, em bloco): modelo 2 prediz a velocidade de leitura 42 Célia M. D. Sales - UAL
  • 43. Regressão estatística A ordem de entrada das variáveis, dada pela ordem das correlações semi-parciais (mais elevada, entra em 1º lugar) Computador “decide” Opção menos usada em Ciências Sociais; controversa. 43 Célia M. D. Sales - UAL
  • 44. Comparação dos três métodos de regressão (b) Regressão standard (c) Regressão hierárquica (d) Regressão estatística Tabachnick & Fidell, 2007, p. 127 44 Célia M. D. Sales - UAL
  • 45. Que método escolher? (Tabachnick & Fidell, 2007, p. 143) “Para simplesmente medir relações entre variáveis e responder à questão básica da correlação múltipla, o método a eleger é a Regressão Múltipla Standard No entanto, a Regressão Múltipla Standard é “ateórica” (…) Razões para usar a regressão hierárquica são teóricas ou para testar hipóteses explícitas” Testar hipóteses sobre a proporção de variância atribuída a algumas VI’s para além da variância devida às VI’s já incluídas na equação 45 Célia M. D. Sales - UAL
  • 46. Exemplo de adequação do método de regressão às perguntas de investigação VD= Compreensão exame de licenciatura(COMPR) Preditores: Motivação Profissional (MOTIV), qualificações técnicas (QUAL) e performance nas cadeiras do curso (GRADE) Regressão Múltipla Standard 1. Qual a intensidade da relação global entre COMPR e o conjunto das VI’s MOTIV, QUAL e GRAD? 2. Qual a contribuição única de cada VI para essa relação? Regressão Sequencial ou hierárquica (ordem de entrada: QUAL e GRADE primeiro, MOTIV depois) Será que, eliminando estatisticamente as diferenças entre os estudantes em QUAL e em GRADE, a variável MOTIV acresce significativamente a predição de COMPR? (Tabachnick & Fidell, 2007) 46 Célia M. D. Sales - UAL
  • 47. Validação do modelo de regressão linear Model fit Análise dos pressupostos 47 Célia M. D. Sales - UAL
  • 48. Validação do modelo Depois de estimarmos os coeficientes de regressão, precisamos de avaliar dois aspectos: 1. Model fit O modelo ajusta-se bem aos dados, ou é influenciado por alguns casos? 2. Generalização O modelo pode-se generalizar a outras amostras? Implica verificar o cumprimento dos pressupostos da análise de regressão 48 Célia M. D. Sales - UAL
  • 49. Diagnóstico do Model fit O Modelo ajusta-se bem aos dados da amostra? Dois procedimentos: Análise dos resíduos estandardizados Diagnóstico de outliers Cook’s distance Diagnóstico de influential cases 49 Célia M. D. Sales - UAL
  • 50. Model fit e outliers Outlier Caso que difere substancialmente da maior parte dos restantes dados Afecta os coeficientes de correlação estimados pelo modelo Field (2010) 50 Célia M. D. Sales - UAL
  • 51. Model fit e outliers Como detectar um outlier? O modelo fará uma “má” estimativa de um outlier, i.e., com maior erro Um caso com um resíduo elevado, pode ser um outlier Resíduos estardardizados Resíduos transformados em Z-Scores Em média, 95% dos resíduos estandardizados situam-se entre ±2 99% dos resíduos estandardizados situa-se entre ± 2,5 Outlier Qualquer caso que tenha resíduos estandardizados com valor absoluto igual ou superior a 3, é provavelmente um outlier 51 Célia M. D. Sales - UAL
  • 52. Model fit e influencial cases Exemplo de influencial case (Field, 2010) A recta a tracejado teria um ajustamento óptimo aos dados A existência de um único caso, altera a recta de regressão, que piora o ajustamento Este caso é detectado pela análise de resíduos? Não! Há algum caso que, se fosse apagado, melhoraria substancialmente o modelo?
  • 53. Model fit: Diagnóstico de influencial cases Cook’s Distance Mede a influência de um caso único no modelo global Influência de um caso sobre a capacidade do modelo para predizer todos os casos Valores absolutos maiores que 1 podem reflectir a existência desta influência (Field, 2010) 53 Célia M. D. Sales - UAL
  • 54. No SPSS Resíduos estandardizados Cook’s distance 54 Célia M. D. Sales - UAL
  • 55. O que fazer quando existem problemas de ajustamento? (Field, 2010) Estes diagnósticos permitem-nos saber se o modelo se ajusta bem aos dados da amostra NÃO são uma forma de justificar a remoção de casos para conseguir um modelo melhor! Outlier significativo com Cook’s distance <1 Não apagar, porque não tem efeito mt grande no modelo Convém estudar esses pontos para compreender porque não se ajustam ao modelo 55 Célia M. D. Sales - UAL
  • 56. Generalização Validação dos pressupostos 1. Relação entre as variáveis independentes Não existência de multicolinearidade Os preditores não podem ter correlações elevadas 2. Pressupostos respeitantes aos resíduos Homocedasticidade Para cada valor dos preditores, a variância do erro deve ser constante Independência dos erros Para cada par de observações, os erros não estão correlacionados Erros seguem uma distribuição normal 56 Célia M. D. Sales - UAL
  • 57. Multicolinearidade Existe multicolinearidade quando os preditores estão altamente correlacionados Verifica-se através do diagnóstico da colinearidade: Tolerância VIF 57 Célia M. D. Sales - UAL
  • 58. • A tolerâcia deve ser superior a 0.2 (Menard, 1995) • VIF deve ser inferior a 10 (Myers, 1990) Field (2010) 58 Célia M. D. Sales - UAL
  • 59. Análise dos pressupostos dos resíduos Inspecção gráfica dos resíduos 1. Homocedasticidade / Independência de erros Gráfico ZRESID vs. ZPRED 2. Normalidade dos erros Gráfico Normal Probability 59 Célia M. D. Sales - UAL
  • 60. No SPSS 60 Célia M. D. Sales - UAL
  • 61. Homoscedasticidade ZRESID vs. ZPRED Bom Mau Fonte: Field (2009) 61 Célia M. D. Sales - UAL
  • 62. Normalidade dos erros: Histogramas Bom Mau Fonte: Field (2009) 62 Célia M. D. Sales - UAL
  • 63. Normalidade dos erros: Gráfico Normal Probability Normal P-P Plot of Regression Standardized Residual Dependent Variable: Outcome 1.00 .75 Expected Cum Prob .50 .25 0.00 0.00 .25 .50 .75 1.00 Observed Cum Prob Bom Mau Fonte: Field (2009) 63 Célia M. D. Sales - UAL
  • 64. Procura do “melhor modelo” 64 Célia M. D. Sales - UAL
  • 65. Métodos de regressão Hierárquico (block enter) Enter Entrada simultânea Stepwise: Entrada sequencial com critério matemático 65 Célia M. D. Sales - UAL