Aula de Métodos e Técnicas de Análise da Informação para Planejamento, julho de 2017, UFABC
Apresentação disponível em: https://youtu.be/cQ8ZfzL3SfI
Bases de dados disponíveis em:https://app.box.com/s/4yl70hj73c9mqyh1jb0l8skics4xf8i1
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
Prática de Regressão no SPSS
1. REGRESSÃO LINEAR
Prática no SPSS
Vitor Vieira Vasconcelos
Flávia da Fonseca Feitosa
BH1350 – Métodos e Técnicas de Análise da Informação para o Planejamento
Julho de 2017
3. Arquivo: Agua_Rede2010_SNIS.sav
Variáveis
Y CONSUMO 1: Consumo Residencial de Água per Capita
(M3/hab/ano), SNIS 2010
X1 RENDAPIT: Renda per Capita (reais), IBGE 2010
X2 PROPREDE: Proporção de domicílios servidos por rede de
água, IBGE 2010
SELECIONAR VARIÁVEIS
5. Diagramas de Dispersão:
Por que são tão importantes?
Quarteto de Anscombe: Esses quatro conjuntos de dados
possuem as mesmas propriedades estatísticas...
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89
Propriedade Valor
Média de x 9,00
Variância de x 10,00
Média de y 7,50
Variância de y 3,75
Correlação 0,898
Regressão
linear
y = 2,50 + 0,500x
Slides: Marcos Pó
F.J. Anscombe, "Graphs in Statistical Analysis,"
American Statistician, 27 (February 1973), 17-21.
6. Diagramas de Dispersão:
Por que são tão importantes?
Slides:
Marcos Pó
... mas são bem diferentes graficamente.
7. ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples
Faça um gráfico para o par Consumo1 (Y) vs Rendapit (X)
e outro para Consumo1 (Y) X Proprede (X)
8. ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples
Faça um gráfico para o par Consumo1 X Rendapit
e outro para Consumo1 X Proprede
As relações parecem lineares?
Se não, transformações podem ser necessárias
11. ANÁLISE EXPLORATÓRIA
Verificar Correlações e Diagramas de Dispersão
Gráficos -> Caixa de Diálogo Legadas -> Dispersão/Ponto -> Dispersão Simples
Faça um gráfico para o par Consumo1 (Y) vs EXP_REDE (X)
e outro para Consumo1 (Y) X SQ_REDE (X)
15. Variáveis
Y CONSUMO 1: Consumo Residencial de Água per Capita
(M3/hab/ano), SNIS 2010
X1 RENDAPIT: Renda per Capita, IBGE 2010
X2 SQ_REDE: Quadrado da Proporção de domicílios servidos
por rede de água, IBGE 2010
VARIÁVEIS SELECIONADAS
16. Analisar > Regressão > Linear
MODELO 1 Inclusão da variável “RENDAPIT”
Regressão Múltipla
18. Se estiver executando um
trabalho mais exploratório,
pode escolher um método
passo-a-passo: Stepwise,
Remove, Backward e
Forward
Método
Neste exemplo usamos um método hierárquico, selecionando as
variáveis do primeiro bloco da hierarquia e do segundo bloco. Para
cada modelo da nossa “hierarquia”, utilizaremos o método “Enter”
20. Estatísticas
Estimativas: [Default] Fornece os
coeficientes estimados do modelo
de regressão (betas). A estatística
teste e sua significância são
fornecidas para cada coeficiente.
Intervalos de Confiança: Mostra os
intervalos de confiança para os
coeficientes.
Matriz de covariância: Mostra a matriz de covariância, os
coeficientes de correlação e as variâncias entre os coeficientes de
regressão para cada variável do modelo.
21. Estatísticas
Ajuste do Modelo: Teste F, R
(ou R múltiplo), R2, R2 ajustado.
Alterações no R2: Mostra
alterações que ocorrem no R2
resultantes da inclusão de um
novo previsor
Descritivas: Tabela com média, desvio padrão e número de
observações de todas as variáveis incluídas na análise. Também
apresenta a matriz de correlações
22. Estatísticas
Correlação Parcial e Por Partes:
Mostram estatísticas que
medem o relacionamento único
entre um previsor e a saída
(controlado por todos os outros
previsores no modelo)
Diagnóstico de Colinearidade:
Mostra as estatísticas de multicolinearidade (FIV, etc.)
23. Estatísticas
RESÍDUOS
Durbin-Watson: Estatística teste de
Durbin-Watson, que testa a
suposição de independência dos
erros.
Diagnósticos por casos : Lista os
valores de saída observados, valores
de saída previstos e a diferença
entre os dois (resíduos).
Podem ser listados para todos os casos, ou apenas para os casos
onde o resíduo padronizado for maior do que n (no exemplo, 3).
25. Gráficos
Permite especificar vários gráficos
que auxiliam na verificação da
validade de algumas premissas da
regressão.
Variáveis:
DEPENDNT: Variável de Saída (Y)
*ZPRED: Valores previstos padronizados da variável Y com base no modelo
*ZRESID: Resíduos (erros) padronizados
*SRESID: Resíduos estudentizados
*DRESID: Resíduos excluídos
*ADJPRED: Valores previstos ajustados
*SDRESID: Resíduos estudentizados excluídos
26. Gráficos
“Produzir todos os diagramas parciais”
Diagrama de dispersão dos resíduos e
cada um dos previsores (X) quando
ambas as variáveis são analisadas
separamente com os previsores
restantes.
Histograma dos resíduos padronizados
(ajuda a verificar a hipótese de
normalidade dos erros)
Diagrama de probabilidade normal
(também ajuda a verificar a hipótese de
normalidade dos erros)
Ao final, clique em “Continuar”
27. Salvando os Diagnósticos da Regressão no
Editor de Dados
Selecione as versões padronizadas das estatísticas
de influência (é mais fácil interpretar)
31. Estatísticas
Atenção aqui, pois X1 (renda per capita) e X2 (Quad. proporção de domicílios
com rede de água) também apresentam correlação significativa
(COLINEARIDADE).
32. Resumo do Modelo
R Coeficiente de Correlação Múltipla
R2 Coeficiente de Determinação: Medida do quanto a variabilidade do Y pode
ser explicada pelo modelo com as variáveis X. No modelo 1, que considera
apenas a variável “renda”, 36% da variabilidade do consumo de água per capita
pode ser explicada pelo modelo. Já no modelo 2, que inclui também PROPREDE,
este valor aumentou para 52,5% !!! Assim, a inclusão da segunda variável parece
ter melhorado o poder explicativo do modelo!
33. Resumo do Modelo
R2 ajustado Medida alternativa ao R2, que penaliza a inclusão de variáveis
independentes (X) pouco explicativas. É importante considerá-la em modelos de
regressão múltiplos, visto que a inclusão de inúmeras variáveis independentes
tendem a aumentar o valor de R2, mesmo que estas variáveis tenham muito pouco
poder explicativo.
34. Resumo do Modelo
Durbin-Watson Estatística que nos informa se a hipótese de INDEPENDÊNCIA
DOS ERROS é satisfeita.
Regra “Conservadora”: Valores menores do que 1 ou maiores do que 3 devem
ser motivo de preocupação. Quanto mais próximo de 2, melhor.
35. ANOVA
ANÁLISE DE VARIÂNCIA
Testa se o modelo é significativamente melhor para prever a saída do que utilizar a
média como um “bom palpite”
F representa a razão de melhoria na previsão que resulta do ajuste do modelo em
comparação com a imprecisão que ainda existe no modelo. Se a melhoria devido ao
ajuste do modelo de regressão for muito maior do a variação no interior do modelo,
então o valor de F será maior do que 1.
Em ambos os modelos, os valores de F são significativos. Note que a razão de F é
muito parecida em ambos os modelos.
36. PARÂMETROS DO MODELO
COEFICIENTES NÃO PADRONIZADOS NO MODELO
Modelo 1 CONSUMO = 4,252 + 0,041.RENDA
Modelo 2 CONSUMO = -6.037 + 0,027.RENDA + 31,886.REDE2
Nos informam como cada previsor afeta a saída se todos os demais
previsores permanecem constantes
No Modelo 2, por exemplo, o b= 0,027 indica que um incremento de uma
unidade (R$ 1,00) na renda per capita do município está associado a um
aumento do consumo de água de 0,027 m3/hab./ano (27 litros/hab/ano).
Esta interpretação só é verdadeira se a variável “quadrado da proporção de
domicílios servidos por rede de água” (SQ_REDE) for mantida constante.
37. PARÂMETROS DO MODELO
ERRO PADRÃO
Cada um dos valores “b” está associado um erro padrão indicando até que ponto
esses valores podem variar entre amostras, e esses erros são utilizados para
determinar se os valores b diferem significativamente de zero.
ESTATÍSTICA t
Um valor significativo de t revela que a inclinação da linha de regressão é
significativamente diferente de uma linha horizontal. Ou seja, que b é
significativamente diferente de zero.
Se o valor rotulado como “Sig” for menor do que 0,05; então o previsor X está
fazendo uma contribuição significativa para o modelo.
38. PARÂMETROS DO MODELO
COEFICIENTES PADRONIZADOS
São mais fáceis de interpretar, pois não são dependentes das unidades de medida
das variáveis.
Representam o número de desvios padrão que o Y irá mudar como resultado de
uma alteração de 1 desvio padrão de X
Como são mensurados em termos de unidades desvios padrão, os valores de beta
padronizados são comparáveis diretamente.
No modelo 2, observamos que as duas variáveis apresentam um grau de
importância comparável no modelo.
39. PARÂMETROS DO MODELO
INTERVALOS DE CONFIANÇA PARA B
Imagine que coletamos 100 amostras de dados
Os intervalos de confiança para beta são limites construídos tais que em 95%
dessas amostras esses limites irão conter os verdadeiros valores de beta.
Temos, portanto, uma confiança de 95% de que esses intervalos conterão os
verdadeiros valores dos coeficientes b.
Um bom modelo apresentará IC pequenos, indicando que os valores de b nessa
amostra estão próximos do verdadeiro valor de beta na população.
O sinal de beta nos revela se o relacionamento entre X e Y é negativo/positivo.
40. COLINEARIDADE
FIV (Fator de Inflação da Variância)
Se o FIV for maior do que 10, há motivos para preocupação.
Idealmente, deve ficar próximo de 1
Tolerância (1 dividido pelo FIV): deve ficar acima de 0,2
Como temos um FIV próximo de 1, podemos assumir que a colinearidade não
é um problema neste modelo.
41. VARIÁVEIS EXCLUÍDAS
No modelo hierárquico, este resumo apresenta detalhes das variáveis que
foram especificadas para entrar no modelo em passos subsequentes, no caso,
a variável “PROPREDE” (foi excluída no modelo 1).
Podemos observar o estimador beta do previsor se ele entrar na equação, um
teste t para este valor, correlação parcial e as estatísticas de colinearidade.
42. DIAGNÓSTICOS POR CASOS
Tabela mostra casos com
resíduo padronizado menor
que -3 e maior do que +3
Estes casos merecem
atenção! Como pedimos para
que o SPSS salve esta
estatística ( e outras!),
podemos checá-las
individualmente.
É esperado que 95% dos casos
tenham resíduos padronizados
entre -1,96 e +1,96
43. ESTATÍSTICAS SALVAS
Valores previstos não-padronizados valores previstos para Y (CONSUMO)
Valores previstos ajustados valores previstos para Y, caso esta observação
fosse excluída (o ideal é que a diferença não seja grande. Se for grande,
assumimos que estamos diante de um caso influente)
44. ESTATÍSTICAS SALVAS
Valores previstos padronizados valores previstos padronizados para Y
(CONSUMO) – ou seja, em unidades de desvio padrão
Resíduos padronizados (em unidades de desvio padrão). Somente 5% das
observações devem ter resíduos padronizados mais extremos que -1,96/+1,96
46. ESTATÍSTICAS DE INFLUÊNCIA
Distância de Cook
Se organizarmos os dados em ordem decrescente na tabela,
observaremos que não temos nenhuma distância superior a 1.
47. ESTATÍSTICAS DE INFLUÊNCIA
Valor Leverage Considera o nr. de observações/casos
Influência média esperada -- (nr. de parâmetros + 1)/n = (2 + 1)/4417 = 0,0007
Procuraremos casos com valores 2X (0,0014) ou 3X (0,0021) maiores do que isto.
48. ESTATÍSTICAS DE INFLUÊNCIA
Valor Leverage
Influência média esperada -- (nr. de
parametros + 1)/n = (2 + 1)/4417 =
0,0007
Procuraremos casos com valores 2X
(0,0014) ou 3X (0,0021) maiores do
que isto.
No exemplo, temos 161 casos com
valores maiores que 0,0021
Entre eles: Niterói, Vitória, Brasília,
Florianópolis, Porto Alegre
TOP da lista? São Caetano do Sul!!!
49. ESTATÍSTICAS DE INFLUÊNCIA
DFFIT [padronizado] Diferença entre valor previsto ajustado e valor previsto
original
DFBETA [padronizado] Calculado para cada beta. Diferença entre 1
parâmetro estimado utilizando todos os casos e estimado quando um caso é
excluído. Valor absoluto maior do que 1 será um problema.
50. CONFERINDO AS HIPÓTESES
JÁ CHECAMOS:
- COLINEARIDADE (FIV, Tolerância): Ok!
- Independência dos Resíduos – Teste de Durbin-Watson: Ok!
Vamos checar agora os gráficos!
51. CONFERINDO AS HIPÓTESES
NORMALIDADE DOS RESÍDUOS:
HISTOGRAMA DOS RESÍDUOS PADRONIZADOS
Podemos, depois, realizar um
teste formal (Shapiro-Wilk,
Kolmogorov-Smirnov)
52. CONFERINDO AS HIPÓTESES
NORMALIDADE DOS RESÍDUOS:
P-P Plot DOS RESÍDUOS PADRONIZADOS
Podemos, depois, realizar um
teste formal (Shapiro-Wilk,
Kolmogorov-Smirnov)
54. Análise dos Resíduos
Quais dessas plotagens mostram normalidade dos resíduos?
Quais os problemas das outras?
Bussab;Morettin,2002:456
Slide: Marcos Pó
59. Exercício
• Em Grupo
• Realize uma regressão múltipla no SPSS com ao menos 3 variáveis do seu
trabalho de curso
• Faça diagramas de dispersão e análise de correlação para cada par de
variáveis
• Avalie a necessidade de transformar variáveis para que a variável predita
(Y) adquira uma distribuição mais próxima de uma distribuição normal, e
para “linearizar” a relação entre os preditores (X) e a variável predita (Y)
• Rode uma regressão múltipla pelo método hierárquico
• Interprete os coeficientes, R2, e os testes F e t
• Analise os valores atípicos (por diagramas e estatísticas teste)
• Analise as suposições de generalização
• Analise o diagrama de resíduos e o teste Durbin-Watson