1) O documento descreve um modelo de regressão linear simples, apresentando a equação, o método dos mínimos quadrados ordinários para estimar os parâmetros, e os testes de significância dos parâmetros e da regressão como um todo.
2) É apresentado um exemplo numérico ilustrando os cálculos para estimar a reta de regressão e os testes.
3) A regressão é validada através dos testes F e t, indicando que os parâmetros são estatisticamente significativos.
2. ECONOMETRIA
‡ REFERÊNCIAS:
‡ Introdução à Econometria ± Uma abordagem Moderna.
Jeffrey M. Wooldridge 2ª edição ± 2006
‡ Estatística e Introdução a Econometria ± Alexandre Sartoris ± Ed.Saraiva.
1ªedição - 2004
3. ECONOMETRIA
‡ Regressão: Processo o qual tenta se estimar a relação entre duas ou mais
variáveis
‡ Regressão Linear Simples: ocorre quando a regressão apresenta apenas
uma variável independente.
4. ECONOMETRIA
‡ Regressão Linear Simples(RLS)
‡ Formalmente a RLS se apresenta no seguinte formato:
‡ Sendo:
‡ equação da reta.
‡ : termo de erro.
‡ O termo , deve ser incluído na regressão, pois como mostra o gráfico, o
valor de Y não será exatamente dado pelo ponto da reta. Em segundo, o
termo , se refere diretamente a imprecisão de medidas, por mais preciso
que este seja.
iii exY ! FE
ixFE
ie
ie
ie
y
y
y
y
y
y
y
y
y
y
iY
y
y
ix
y
y
y y
y
y
y
y
y
y y
y
y
5. ECONOMETRIA
‡ Por fim, o erro da conta de todos os eventos de difíceis mensuração, mas
que são (supostamente) aleatórios. Se o modelo que estivermos trabalhando
estiver corretamente especificado, podemos supor, que em média o erro tem
valor zero, isto é, a probabilidade do erro ser x unidades acima da reta é a
mesma de ser x unidades abaixo da reta.
‡ Com isso, temos a primeira hipótese sobre o modelo de regressão:
‡ 1. , os erros tem média zero.
7. ECONOMETRIA
‡ Método dos Mínimos Quadrados Ordinários (OLS)
‡ Estimar a reta de regressão significa na verdade, encontrar os
estimadores para Į e ȕ (pois estamos trabalhando com uma
amostra). Para isso, podemos reordenar as variáveis x e y da
seguinte forma:
‡ x e y são variáveis centradas na média.
Xx '!
Yy 9!
8. ECONOMETRIA
‡ Assim:
‡ (1)
‡ Como por hipótese
‡ (2)
‡ Ao subtrairmos (2) de (1):
‡ Logo:
‡ (3)
‡ Tal metodologia pressupõe que queremos estimar uma reta que tenha o menor
erro possível. Mas somar erros não acrescenta muito, pois há erros negativos e
positivos, que irão se cancelar.
10. ECONOMETRIA
‡ Para resolvermos isto, basta elevarmos ao quadrado, eliminando os
negativos. Então a melhor reta será aquela cuja a soma dos quadrados dos
erros for mínima. Daí: MQO ou OLS (ordinary least squares).
‡ De (3), usando as variáveis centradas na média:
‡ A soma dos quadrados dos erros:
‡ ou;
‡ Pelas propriedades da soma e como ȕ é uma constante:
xye F!
)²()²(
11
§§ !!
!
n
i
n
i
i xye F )2²²()²(
1
2
1
yxxye
n
i
n
i
i §§ !!
! FF
§ §§§ ! !!!
!
n
i
n
i
n
i
n
i
i xyxye
1 111
2²²²)²( FF
11. ECONOMETRIA
‡ Para Encontrar o valor de ȕ que dê o minimize essa soma, o procedimento é
derivar e igualar a zero. Como o valor de ȕ é um estimador, utilizaremos logo
. .
‡ Derivando em relação a ȕ e igualando a zero:
‡ Dividindo por dois em ambos os lados:
‡ Assim :
‡ (4)
FÖ
§ § ! 02²Ö2 xyxF
0²Ö !§ §xyxF
0
²
Ö !!
§
§
x
xy
F
12. ECONOMETRIA
‡ E o estimador para :
‡ Substituindo pelos respectivos estimadores:
‡
‡ portanto:
‡ (5)
E
XY FE !
XY FE ÖÖ !
XY FE ÖÖ !
14. ECONOMETRIA
‡ Agora podemos facilmente estimar a reta de regressão que na
tabela representa os valores em negrito:
‡ = 1684.09 /1353.56 = 1.244
‡ E para o intercepto, utilizamos os valores em vermelho:
‡ = 212.57 ± 1.244 x 153.75 = 21.28
‡ A reta a ser estimada é dada por:
‡ = 21.28 + 1.244.
‡ Significando que se x = 150:
‡ = 21.28 + 1.244. 150 = 207.88
FÖ
XY FE ÖÖ !
YÖ XÖ
YÖ
15. ECONOMETRIA
‡ Devemos verificar se a regressão é boa e a maneira mais formal é calcular
a diferença entre os dados no exemplo e o da reta de regressão:
‡ = 21.28 + 1.244. 103 = 149.42
‡ = 21.28 + 1.244. 123 = 174.29
‡ = 21.28 + 1.244. 145 = 201.08
‡ = 177.52
‡ = 255.64
‡ = 282.92
‡ = 242.71
2ÖY
1ÖY
3ÖY
4ÖY
5ÖY
6ÖY
7ÖY
17. ECONOMETRIA
‡ Essas diferenças não são os erros, é quase isso. Os erros são as diferenças
entre os valores de Y e a reta verdadeira, isto é, a reta oriunda de valores
populacionais de e (que não são conhecidos).
‡ As diferenças que encontramos são entre os valores de Y e os dados com os
valores amostrais de e . São, portanto, não os erros, mas os
estimadores dos erros, ou simplesmente os resíduos da regressão.
‡ Analisaremos, agora o quadro dos resíduos e sua variância, a análise da
variância é conhecido como ANOVA.
F
FE
E
18. ECONOMETRIA
‡
Soma/méd Resíduos Quadrado dos resíduos
149.42 10.59 112.78
174.29 -7.29 53.14
201.08 3.92 15.36
177.52 -4.52 20.43
255.64 0.36 0.129
282.92 7.08 50.12
242 -5 25
™ 1481.86 0 276.04
média 211.59 0 39.56
YÖ
A análise da variância consiste em dividir a variável Y em duas partes:
i) a explicada pela regressão
ii) não explicada (resíduos)
Então o primeiro passo é calcular a soma dos quadrados da variável Y e de
suas partes explicada e não explicada.
19. ECONOMETRIA
‡ Calculamos, logo:
‡ 1) SQT Soma dos Quadrados Totais de Y(centrado);
‡ 2) SQE Soma dos Quadrados Explicativos (Y estimado);
‡ 3) SQR Soma dos Quadrados dos Resíduos.
‡ Com tais informações, já é possível tirar uma conclusão a respeito da
regressão, dado que SQR é uma parcela pequena do total ou podemos dizer
que SQE tem uma parcela importante.
‡
20. ECONOMETRIA
‡ SQT = 14941.68 = ™y².
‡ Para a SQE há duas maneiras:
‡ 1 ± Calcular um a um tirando a média e elevando ao quadrado.
‡ 2 ± Ou usarmos a equação da reta:
‡ SQE =
‡ = 1.244² . 9474.92 = 14662.62
‡ e SQR que já foi calculado:
‡ SQR = 276.92
‡ Notando que: SQT = SQR + SQE = 14662.62 + 276.96 = 14941.68
iXY FÖÖ !
iXY FÖÖ !
§§ § !! ²²Ö)²Ö()²Ö( ii XXY FF
21. ECONOMETRIA
‡ Essa proporção é conhecida como poder explicativo, coeficiente de
determinação ou simplesmente R²:
‡ R² = SQE/ SQT = 14665.62/ 14941.68 = 0.9814 = 98.14%
‡ Note que é impossível SQE SQT e este também não pode ser negativo. Logo
0 ” R² ” 1.
‡ Como R² = 98.14%, dizemos que 98.14% da variância de Y é explicada por X,
indicando que a regressão de Y por X indicou um bom resultado.
‡
22. ECONOMETRIA
‡ Contudo, a análise continua. Colocaremos os Graus de Liberdade(G.L)
‡ ( lembrando que G.L é adquirido através da variância amostral que é dada
por porque seu estimador é uma soma de n ± 1
variáveis normais padronizadas, dado que S² é obtido de uma variável cuja a
distribuição é normal.). Para SQT, os Graus de Liberdade são os mesmos p/
variância amostral normal, ou seja, 7 ± 1 = 6.
1/²)(²
1
!§!
nXXS
n
i
23. ECONOMETRIA
‡ SQR são os resíduos de uma reta e para uma reta são necessários dois pontos. Mas
com dois pontos, não temos variação nenhuma. Assim, devemos ter n ± 2 G.L para os
resíduos, ou seja, 7 ± 2 = 5.
‡ Para SQE, há dois modos:
‡ - diferença( 6 ± 5 = 1)
‡ - o fato de que há apenas uma variável explicativa.
‡ Utilizando de uma tabela temos:
‡
Soma dos Quadrados G.L Quadrados Médios
SQE = 14662.62 1 14662.62
SQR = 276.96 5 55.39
SQT = 14941.68 6 2489.93
24. ECONOMETRIA
‡ Os quadrados médios são as variâncias propriamente ditas. Iremos testar,
estatisticamente falando, se a variância explicada é maior do que a variância
dos resíduos, ou seja, faremos a comparação de variâncias.
‡ O Teste F é feito,dividindo-se uma variância pela outra. Mas para tal teste, é
necessário que as variáveis das quais foram obtidas as variâncias sejam
normais, isto é, Y é normalmente distribuído: Como ela é uma reta, mais um
erro aleatório, a variância de Y será dada pela variância do erro. Portanto,
criaremos uma hipótese adicional sobre o erro, a de que ele segue uma
distribuição normal. Então:
‡
Soma dos
Quadrados
G.L Quadrados
Médios
Teste F
SQE =
14662.62
1 14662.62 264.71
SQR = 276.96 5 55.39
SQT =
14941.68
6 2489.93
25. ECONOMETRIA
‡ Consultando a Tabela de distribuição F, acharemos o valor limite da distribuição
para o teste, com 1 G.L para o numerador e 5 para o denominador, a 5% de
significância:
‡ F1,5 = 6.61 FTABELADO
‡ FCALCULADO = 264.71
‡ Logo Fc FT. Na regressão, temos a hipótese nula de que as variâncias são
iguais. Se rejeitarmos H0, isso significa que a regressão explica mais do que
não explica, considerando a regressão válida. No nosso caso, Fc FT, por isso
a regressão é valida a 5% de significância.
26. ECONOMETRIA
‡ Teste de Significância dos Parâmetros.
‡ Testar a significância dos parâmetros significa testar H0 de que e são, na
verdade, iguais a zero. Isto é, será que os parâmetros não existem de fato, e o
valor que encontramos é apenas resultados da amostra?
‡ Isto equivale a testar as seguintes hipóteses p/ (assim como p/ ):
E F
F E
0:
0:
1
0
{
!
F
F
H
H
27. ECONOMETRIA
‡ Como são variáveis normalmente distribuídas, cuja a variância não
conhecemos ao certo, a distribuição a ser utilizada é a t de Student. Os valores
tabelados com 5 (= n -2) G.L, com 1%, 5% e 10% (bicaudais) são:
‡ E o valor calculado da estatística t é dado por:
‡ Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão.
31. ECONOMETRIA
‡ A questão, agora, é encontrar o dp de . Sabemos que:
‡ Então:
‡
‡ O estimador dessa variância (amostral)será:
‡
‡ Onde var(yi) = var(resíduos)
FÖ
36. ECONOMETRIA
‡ Já que a variância de Y dado X, ou seja, a variância de Y no modelo de
regressão, é a própria variância dos resíduos, que já calculamos na ANOVA é
igual a 55,39 e foi obtida por meio da expressão SQR/(n-2):
‡ O cálculo da estatística é, então:
‡ Como o valor calculado é superior aos tabelados, rejeitamos H0 de que .
‡ Dizemos então que é estatisticamente diferente de zero ou significante a 1%.
28,16
0764,0
244,1Ö
0764,000584,0
92,9474
39,55
Ö
Ö
2
Ö
!!
! !!
F
FF
F
S
SS
39. ECONOMETRIA
‡ O Procedimento para é quase o mesmo. A diferença está no cálculo de seu
desvio padrão. Sabemos que:
‡ Cujo o estimador será dado por:
‡ Logo também é estatisticamente
significante a 1%
E
49. ECONOMETRIA
‡ Ex: Uma amostra de 16 observações de duas variáveis Y e X, foram obtidos os
seguintes resultados:
‡ Estimemos os parâmetros da reta de regressão e testemos sua significância,
assim como a validade da regressão. Os parâmetros da regressão serão dados
por:
§§
§§
§§
§§
!!
!!
!!
!!
59,587.234,764.127
12,567.5843,553.10
35,511.288751.57
1,1891869
22
22
xyXY
yx
YX
YX
51,1
16
869
235,2
16
1,918.1ÖÖ
e235,2
43,553.10
59,587.23Ö
2
!™!!
!!!
§
§
XY
x
xy
i
FE
F
50. ECONOMETRIA
‡ O modelo encontrado é então:
‡ Para testar a validade da regressão, montamos uma ANOVA. Para isso,
calculamos as somas dos quadrados:
XY ™! 235.251.1Ö
37,847.5
75,719.52Ö
12,567.58
22
2
!!
!!
!!
§
§
SQESQTSQR
xSQE
ySQT
F
Soma dos Qdos G.L Qdos Médios Teste F
SQE= 52.719,75
SQR= 5.847,37
1
14
52.719,75
417,67
126,22
SQT= 58.567,12 15 3.904,47
51. ECONOMETRIA
‡ Usando a Tabela com GL1,14 a 5%, valor encontrado é 4,60. Com isso,
aceitamos a validade da regressão. O poder explicativo é:
‡ Quanto a significância dos parâmetros, temos que seus desvios-padrão são:
‡ As estatísticas t serão, portanto:
9002,0
12,567.58
75,719.522
!!R
199,0e95,11 ÖÖ !! FE SS
2.11
199,0
235,2Ö
13.0
95,11
51.1Ö
Ö
Ö
!!
$
!
F
E
F
E
S
S
52. ECONOMETRIA
‡ Os valores críticos para a distribuição t , com 14 G.L são:
‡ Como o valor encontrado para é superior a todos esses valores, temos que
ele é significante a 1%.
‡ Já para , ocorre o contrário, portanto, concluímos que não é significante,
o que vale dizer que não podemos rejeitar a hipótese de que é zero.
Poderíamos, também, dizer que o intercepto não existe.
‡ O procedimento agora seria, logo, retirar o intercepto, isto é, estimar novamente
a regressão sem o coeficiente , o que é feito no exemplo seguinte.
‡
56. ECONOMETRIA
‡ Tendo em vista que o intercepto da regressão do exemplo anterior era não
significante estatisticamente, estimemos novamente a regressão, só que sem
intercepto:
‡ (reta que passa pela origem)
‡ Quando encontramos o estimador de M.Q.O, havíamos substituímos as
variáveis originais ( X e Y) por variáveis centradas na média. O objetivo era,
exatamente, eliminar o intercepto da equação. Como ele agora não existe
mesmo, o estimador de MQO será o mesmo, exceto pelo fato de que não
usaremos mais variáveis centradas.
IF ! ii XY
²
Ö
i
ii
X
YX§!F
57. ECONOMETRIA
‡ Substituindo pelos valores dados no ex. anterior:
‡ O modelo será:
‡ E, para o teste do coeficiente encontrado, precisaremos de seu dp. Temos que o SQE
pela regressão é dada por:
‡ A soma dos quadrados dos resíduos será, portanto:
‡ E, assim, podemos encontrar a variância dos resíduos (que é a própria variância da
regressão):
212,2
751.57
4,764.127Ö !!F
XY 212,2Ö !
3,657.282Ö 22
$! §XS E F
05,854.53,657.28235,511.288Ö 222
!!!! §§ XYSQESQTSQR F
59. ECONOMETRIA
‡ Repare que usamos n ± 1 e não n ± 2, como fazíamos quando a regressão
incluía o intercepto. Isso é fácil de entender já que, ao excluir o intercepto,
implicitamente supomos conhecer a existência de pelo menos um ponto da
reta, que é a origem, o que nos faz ganhar um grau de liberdade.
‡ Para calcular a variância ( e o dp) do coeficiente , usamos a mesma fórmula
já usada anteriormente, apenas trocando o x (centrado) pelo X:
‡ Portanto, a estatística t será:
‡
FÖ
61. ECONOMETRIA
‡ O que, evidentemente, é maior do que os valores tabelados. Em todo caso,
esses valores, para 15 GL, são:
‡ E, obviamente, o valor encontrado, 27, é maior do que os tabelados, sendo
então, significante a 1%.
65. ECONOMETRIA
‡ O R², tb deve ser visto com reservas qdo se trata de uma regressão sem
intercepto. Isso porque, na medida em que usamos variáveis não centradas, ele
é diferente do R² usual e ambos não podem ser comparados ( pois se usarmos
o R² c/as variáveis centradas, o resultado poderá ser negativo).
‡ Esse R² especial p/modelos sem intercepto é conhecido como R² não centrado
ou R² bruto. Nesse caso:
9797,0
35,511.288
3,657.2822
!!NCR
66. ECONOMETRIA
‡ Quando comparamos os resultados obtidos nos dois modelos ( com e sem
intercepto), verificamos que as diferenças entre os coeficientes são muito
pequenas. O dp, quando a estimação foi realizada sem intercepto, foi menor ( o
q é uma vantagem).
‡ De fato, se a reta realmente passa pela origem, é razoável que uma estimação
que leve isso em conta seja mais precisa.
‡ Obs: Devido a relação custo ± benefício (devido a erros de especificação e
avaliação no modelo) a estimação sem intercepto só é recomendável se existir
uma razão muito forte em se acreditar que a reta passe pela origem.
F
67. ECONOMETRIA
‡ Hipótese de Normalidade:
‡ As hipóteses até o momento para regressão:
‡ 1) E(İi) = 0, os erros tem média zero.
‡ 2) İi são normalmente distribuídos.
68. ECONOMETRIA
‡ Propriedades dos estimadores de mínimos quadrados:
‡ O estimador de ȕ é não viesado?
‡
‡ Como a esperança da soma é a soma das esperanças:
‡ e como ȕ é uma constante:
‡
§
§)!)
²
)Ö(
i
ii
x
yx
F
¼
¼
½
»
¬
¬
«
)!)
§
§
²
)(
)Ö(
i
iii
x
xx IF
F
¼
¼
½
»
¬
¬
«
)!)
§
§
²
)²(
)Ö(
i
iii
x
xx IF
F
¼
¼
½
»
¬
¬
«
)
¼
¼
½
»
¬
¬
«
)!)
§
§
§
§
²²
²
)Ö(
i
ii
i
i
x
x
x
x IF
F
¼
¼
½
»
¬
¬
«
)
¼
¼
½
»
¬
¬
«
)!)
§
§
§
§
²²
²
)Ö(
i
ii
i
i
x
x
x
x I
FF ? A
¼
¼
½
»
¬
¬
«
))!)
§
§
²
)Ö(
i
ii
x
x I
FF
¼
¼
½
»
¬
¬
«
)!)
§
§
²
)Ö(
i
ii
x
x I
FF
69. ECONOMETRIA
‡ Olhando o termo dentro da esperança, vemos que os valores xi são fixos, ou para ser
mais preciso, fixos em amostras repetidas. Ex: Imóveis.
‡ Um imóvel é sorteado na amostra e este tem uma área(m²).Se por acaso este for
novamente sorteado, ele irá apresentar a mesma área, ou seja, valor fixo, e que não
depende de Pbdd. Logo, a área de um imóvel se enquadra nesta hipótese.
‡ Isto não se aplicaria se: ex: nota de um aluno.
‡ P1 8,0
‡ P2 não necessariamente tiraria a mesma nota, então, dependeríamos de uma
distribuição de Pbdd e neste caso x é uma variável estocástica.
‡ Se x for fixa então xi pode ser estimado como uma constante:
‡
§
§!)
²
)Ö(
i
ii
x
xI
FF
71. ECONOMETRIA
‡ Já que , logo:
‡ Dessa forma, , é um estimador não viesado do coeficiente
‡ Assim:
‡
0)( !) iI
F
I
FF !!)
§
§
²
)Ö(
i
ii
x
x
FÖ F
os)estocástic(nãofixossão.3
osdistribuídenormalmentsão.2
0)(.1
i
i
i
x
I
I !)
72. ECONOMETRIA
‡ Isso significa que, se for estocástica o coeficiente não será viesado se mantivermos a
condição de que , o que equivale a dizer que
Já que , podemos garantir que o estimador é não viesado, ou seja,
‡
‡ EFICIÊNCIA E BLUE Se além das hipóteses 1 e 3 os tiverem variância constante e
forem não autocorrelacionados (erros independentes) o Teorema de Gauss-Markov
mostra que o estimador de MQO apresenta a menor variância entre todos, que são
lineares e não viesados, portanto um BLUE:
‡ 4. (constante)
‡ 5. (os erros não são autocorrelacionados).
‡ Se ainda levarmos em conta a hipótese de normalidade, é possível demonstrar
(desigualdade de Cramer-Rao) que o estimador tem a menor variância entre todos os
estimadores não viesados de , isto é, é um estimador eficiente.