SlideShare una empresa de Scribd logo
1 de 56
Descargar para leer sin conexión
ECO 4272 : Introduction `a l’´econom´etrie
Notes sur le mod`ele de r´egression simple
Steve Ambler∗
D´epartement des sciences ´economiques
´Ecole des sciences de la gestion
Universit´e du Qu´ebec `a Montr´eal
c 2013 : Steve Ambler
Automne 2013
∗
Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour
les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a
ambler.steven@uqam.ca.
1
Table des mati`eres
1 Introduction 4
2 Objectifs du cours 4
3 Le mod`ele de r´egression simple 4
4 Estimateur moindres carr´es ordinaires (MCO) 5
4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9
4.1.1 La somme des r´esidus est z´ero . . . . . . . . . . . . . . . . . . . . . . . . 10
4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne
´echantillonnale de la variable d´ependante . . . . . . . . . . . . . . . . . . 10
4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus . . . . . . . . . . . 11
4.2 La notion de l’ajustement statistique (R2
) . . . . . . . . . . . . . . . . . . . . . . 12
4.3 L’´ecart type de la r´egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Hypoth`eses statistiques de base du mod`ele 17
5.1 Esp´erance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 18
5.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6 Propri´et´es statistiques de l’estimateur 20
6.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.1 ˆβ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.1.2 ˆβ0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3.1 Th´eor`eme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7 Propri´et´es ´echantillonnales de l’estimateur 34
7.1 Estimateur convergent de σ2
ˆβ1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.2 Estimateur convergent de σ2
ˆβ1
en cas d’homosc´edasticit´e . . . . . . . . . . . . . . . 38
7.3 D´etecter l’h´et´erosc´edasticit´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
8 Tests d’hypoth`ese 41
8.1 Approche g´eneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
8.2 Hypoth`ese alternative bilat´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.3 Hypoth`ese alternative unilat´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
9 Intervalles de confiance pour les coefficients 43
9.1 Intervalles de confiance pour les pr´edictions . . . . . . . . . . . . . . . . . . . . . 44
10 Un exemple d’estimation du mod`ele de r´egression simple avec R 45
2
11 Le mod`ele de r´egression simple lorsque X est une variable dichotomique 51
12 Concepts `a retenir 55
13 R´ef´erences 56
3
1 Introduction
2 Objectifs du cours
– Pr´esenter le mod`ele de r´egression simple.
– D´eriver l’estimateur moindres carr´es ordinaires (MCO).
– ´Etudier les propri´et´es alg´ebriques de cet estimateur.
– ´Etudier la mesure habituelle de l’ajustement statistique, le R2
.
– Regarder les hypoth`eses statistiques derri`ere le mod`ele et analyser leurs cons´equences pour
l’estimateur MCO (absence de biais, convergence, efficience).
– Montrer l’absence de biais de l’estimateur MCO.
– D´eriver les propri´et´es ´echantillonnales de l’estimateur MCO et montrer sa convergence.
– Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques.
– Montrer, sous les hypoth`eses d’homosc´edasticit´e et normalit´e, l’efficience de l’estimateur
MCO (th´eor`eme Gauss-Markov).
– Analyser les tests d’hypoth`ese concernant les param`etres estim´es du mod`ele.
– Analyser le calcul d’intervalles de confiance pour les param`etres estim´es dans le cadre du
mod`ele.
3 Le mod`ele de r´egression simple
– Le mod`ele de base peut s’´ecrire
Yi = β0 + β1Xi + ui.
L’id´ee de base est qu’une variable ´economique Yi peut ˆetre pr´edite ou expliqu´e par une autre va-
riable ´economique Xi. La relation entre les deux variables est lin´eaire. Sans le terme ui, l’´equation
est l’´equation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonn´ee `a l’origine et β1 est
4
la pente de la droite. On peut penser au param`etre β0 comme ´etant associ´e `a une deuxi`eme variable
explicative qui est une constante qu’on normalise pour ˆetre ´egale `a un. Autrement dit, on aurait pu
´ecrire le mod`ele comme
Yi = β0 × 1 + β1 × Xi + ui.
Le mod`ele de r´egression simple contient une constante par d´efaut. Il est possible aussi d’´etudier le
mod`ele suivant :
Yi = βXi + ui.
Ce mod`ele, sans constante, a des propri´et´es statistiques assez diff´erentes. Pour ceux qui s’int´eressent
`a poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle commun´ement Yi la variable d´ependante du mod`ele de r´egression, et on appelle
Xi la variable explicative du mod`ele de r´egression.
4 Estimateur moindres carr´es ordinaires (MCO)
– Nous consid´erons le probl`eme de pr´edire la valeur de la variable d´ependante Yi, ´etant donn´ee
la valeur de Xi.
– L’erreur de pr´evision peut s’´ecrire Yi − β0 − β1Xi.
– Le probl`eme `a r´esoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la
somme des erreurs de pr´evision au carr´e :
– Notez que le crit`ere de minimiser la somme des erreurs au carr´e n’est pas le seul crit`ere
possible. Par exemple, on pourrait d´ecider de minimiser la somme des erreurs en valeur
absolue.
– Il y a deux raisons fondamentales pour la popularit´e et l’importance de l’estimateur MCO
dans l’histoire de la statistique et de l’´econom´etrie.
1. D’abord, l’alg`ebre est relativement simple. Le crit`ere est une expression quadratique
(du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme
5
d’´equations lin´eaires. Il est tr`es facile de r´esoudre un syst`eme de deux ´equations lin´eaires.
2. Deuxi`ement, sous certaines conditions (`a voir plus tard), l’estimateur MCO des coef-
ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs
lin´eaires et non biais´es – autrement dit, il est l’estimateur le plus efficient parmi les
estimateur lin´eaires non biais´es.
– Le probl`eme de minimisation peut s’´ecrire comme suit.
min
β0,β1
n
i=1
(Yi − β0 − β1Xi)2
.
– Les conditions du premier ordre (CPOs) pour ce probl`eme sont comme suit. D’abord par
rapport au choix de β0 :
−2
n
i=1
Yi − ˆβ0 − ˆβ1Xi = 0.
Ensuite, par rapport au choix de β1 :
−2
n
i=1
Yi − ˆβ0 − ˆβ1Xi Xi = 0,
o`u j’ai ´ecrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs
MCO, c’est `a dire les solutions au probl`eme de minimisation. 1
– Il s’agit de deux ´equations o`u les deux inconnus sont ˆβ0 et ˆβ1.
– Il est facile d’isoler ˆβ0 en fonction de ˆβ1 et par la suite de trouver la solution pour ˆβ1.
– Nous avons `a partir de la premi`ere CPO :
n
i=1
Yi − ˆβ0 − ˆβ1Xi = 0
⇒
n
i=1
ˆβ0 = n ˆβ0 =
n
i=1
Yi − ˆβ1Xi
1. En principe, il faudrait v´erifier les conditions du deuxi`eme ordre pour savoir que nous avons trouv´e un minimum
et non un maximum. Nous n’allons pas faire cet exercice ici.
6
⇒ ˆβ0 =
1
n
n
i=1
Yi − ˆβ1
1
n
n
i=1
Xi
⇒ ˆβ0 = ¯Y − ˆβ1
¯X.
Nous venons de trouver la solution pour ˆβ0 en fonction des moyennes ´echantillonnales ¯X et
¯Y et de la solution pour ˆβ1.
– Maintenant, substituant cette solution dans la deuxi`eme CPO, nous avons :
n
i=1
Yi − ¯Y + ˆβ1
¯X − ˆβ1Xi Xi = 0.
– Multipliant des deux cˆot´es de l’´equation par 1
n
et r´earrangeant, nous obtenons
1
n
n
i=1
YiXi −
1
n
n
i=1
¯Y Xi −
1
n
n
i=1
ˆβ1 (Xi)2
+
1
n
n
i=1
ˆβ1
¯XXi = 0
⇒
1
n
n
i=1
YiXi − ¯Y
1
n
n
i=1
Xi
−ˆβ1
1
n
n
i=1
(Xi)2
− ¯X
1
n
n
i=1
Xi = 0
⇒
1
n
n
i=1
YiXi − ¯Y ¯X
−ˆβ1
1
n
n
i=1
(Xi)2
− ¯X ¯X = 0
⇒ ˆβ1 =
1
n
n
i=1 YiXi − ¯X ¯Y
1
n
n
i=1 (Xi)2
− ¯X2
⇒ ˆβ1 =
1
n
n
i=1 Yi − ¯Y Xi − ¯X
1
n
n
i=1 Xi − ¯X
2 .
Cette solution d´epend des identit´es
1
n
n
i=1
YiXi − ¯X ¯Y =
1
n
n
i=1
Yi − ¯Y Xi − ¯X
7
et
1
n
n
i=1
(Xi)2
− ¯X2
=
1
n
n
i=1
Xi − ¯X
2
.
Ceci est facile `a montrer. Nous avons
1
n
n
i=1
Yi − ¯Y Xi − ¯X
1
n
n
i=1
YiXi − Yi
¯X − Xi
¯Y + ¯X ¯Y
=
1
n
n
i=1
YiXi −
1
n
n
i=1
Yi
¯X −
1
n
n
i=1
Xi
¯Y +
1
n
n
i=1
¯X ¯Y
=
1
n
n
i=1
YiXi − ¯X
1
n
n
i=1
Yi − ¯Y
1
n
n
i=1
Xi +
n
n
¯X ¯Y
=
1
n
n
i=1
YiXi − ¯X ¯Y − ¯Y ¯X + ¯X ¯Y
=
1
n
n
i=1
YiXi − ¯X ¯Y .
La preuve pour le d´enominateur est semblable.
C’est une premi`ere fac¸on d’exprimer la solution. Multipliant num´erateur et d´enominateur
par n nous avons aussi
ˆβ1 =
n
i=1 Yi − ¯Y Xi − ¯X
n
i=1 Xi − ¯X
2 .
C’est une deuxi`eme fac¸on d’exprimer la solution. Maintenant, divisant num´erateur et d´enominateur
par (n − 1) nous avons aussi
ˆβ1 =
1
(n−1)
n
i=1 Yi − ¯Y Xi − ¯X
1
(n−1)
n
i=1 Xi − ¯X
2 .
– Donc, nous avons trois expressions ´equivalentes pour la solution pour ˆβ1.
– Comme aide-m´emoire, la derni`ere expression est peut-ˆetre la plus utile. Elle dit que l’estima-
8
teur MCO de β1 est le ratio entre la covariance ´echantillonnale entre X et Y et la variance
´echantillonnale de X (voir le chapitre sur la th´eorie des probabilit´es pour les d´efinitions de
covariance ´echantillonnale et variance ´echantillonnale).
– Pour r´ep´eter ceci en notation alg´ebrique :
ˆβ1 =
Cov (X , Y )
Var (X)
.
– Je crois qu’il n’est pas trop difficile de se souvenir de cette fac¸on d’´ecrire la solution pour
ˆβ1, et de se souvenir de la solution pour ˆβ0 en termes des moyennes ´echantillonnales ¯X et ¯Y
et ˆβ1.
4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO
– L’estimateur MCO poss`ede quelques propri´et´es de base que nous allons d´emontrer dans cette
section.
– Nous allons par la suite nous servir de ces propri´et´es `a maintes reprises par la suite pour
trouver d’autres propri´et´es de l’estimateur MCO.
– J’appelle ces propri´et´es les propri´et´es alg´ebriques puisqu’elles ne d´ependent pas d’hy-
poth`eses concernant les propri´et´es statistiques des variables al´eatoires Y , X ou u.
– Autrement dit, pour n’importe quelles s´eries de donn´ees sur deux variables X et Y , ces
propri´et´es doivent tenir. On n’a mˆeme pas besoin de supposer que X et Y sont des variables
al´eatoires en bonne et due forme.
– Plusieurs de ces propri´et´es d´ependent du fait que le mod`ele de r´egression inclut une constante.
– Pour le cas de mod`eles qui n’incluent pas une constante, voir l’article de Windmeijer (1994),
ou encore celui d’Eisenhauer (2003).
9
4.1.1 La somme des r´esidus est z´ero
– D´efinissons
ˆui ≡ Yi − ˆβ0 − ˆβ1Xi,
le r´esidu de la r´egression pour l’observation i.
– Nous voulons montrer que :
1
n
n
i=1
ˆui = 0.
– Voici la preuve.
1
n
n
i=1
ˆui =
1
n
n
i=1
Yi − ¯Y + ˆβ1
¯X − ˆβ1Xi
=
1
n
n
i=1
Yi − ¯Y − ˆβ1
1
n
n
i=1
Xi − ¯X = 0.
4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale
de la variable d´ependante
– D´efinissons
ˆYi ≡ ˆβ0 + ˆβ1Xi,
la valeur pr´edite de Yi.
– Nous voulons montrer que :
1
n
n
i=1
ˆYi = ¯Y .
– Voici la preuve :
ˆYi ≡ Yi − ˆui
⇒
1
n
n
i=1
ˆYi =
1
n
n
i=1
Yi −
1
n
n
i=1
ˆui =
1
n
n
i=1
Yi ≡ ¯Y .
10
4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus
– Nous voulons montrer que :
n
i=1
Xi ˆui = 0.
– Ceci est la d´efinition de l’orthogonalit´e entre deux variables.
– Puisque nous allons utiliser l’alg`ebre lin´eaire dans le chapitre sur le mod`ele de r´egression
multiple, c’est peut-ˆetre opportun d’introduire ici le concept d’orthogonalit´e entre deux vec-
teurs. Nous pouvons r´e´ecrire cette ´equation en notation vectorielle comme
n
i=1
Xi ˆui = X1 X2 . . . Xn









ˆu1
ˆu2
...
ˆun









≡ X ˆU = 0.
– Donc c’est la d´efinition habituelle d’orthogonalit´e entre deux vecteurs en alg`ebre lin´eaire.
– Nous verrons plus loin qu’il y a aussi une interpr´etation g´eom´etrique.
– Voici la preuve :
n
i=1
Xi ˆui =
n
i=1
Xi ˆui − ¯X
n
i=1
ˆui
=
n
i=1
Xi − ¯X ˆui
=
n
i=1
Xi − ¯X Yi − ¯Y + ˆβ1
¯X − ˆβ1Xi
=
n
i=1
Xi − ¯X Yi − ¯Y − ˆβ1 Xi − ¯X
=
n
i=1
Xi − ¯X Yi − ¯Y − ˆβ1
n
i=1
Xi − ¯X
2
=
n
i=1
Xi − ¯X Yi − ¯Y
11
−
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2
n
i=1
Xi − ¯X
2
=
n
i=1
Xi − ¯X Yi − ¯Y −
n
i=1
Xi − ¯X Yi − ¯Y
= 0.
– L’orthogonalit´e est reli´ee `a l’interpr´etation g´eom´etrique de la m´ethode des MCO. Estimer
un mod`ele par MCO revient `a projeter la variable d´ependante dans l’espace travers´e par la
variable explicative (ou les variables explicatives dans le cas de la r´egression multiple).
– Le principe est illustr´e par la Figure 1 ci-dessous. Nous constatons sur le graphique que si
nous prenons la ligne de r´egression comme un vecteur, la ligne pointill´ee sur le graphique
est un vecteur dont la longueur ´egale la valeur de ˆui `a ce point. Il forme un angle droit par
rapport `a la ligne de r´egression, d’o`u le terme orthogonal .
– Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in-
terpr´etation g´eom´etrique de la r´egression simple se trouve dans l’article de Davidson et Mac-
Kinnon (1999).
Figure 1
4.2 La notion de l’ajustement statistique (R2
)
– D´efinissons :
TSS ≡
n
i=1
Yi − ¯Y
2
,
12
la somme totale des carr´es ( total sum of squares en anglais) ;
SSR ≡
n
i=1
Yi − ˆYi
2
,
la somme des r´esidus au carr´e ( residual sum of squares en anglais) ;
ESS ≡
n
i=1
ˆYi − ¯Y
2
,
la somme expliqu´ee des carr´es ( explained sum of squares en anglais).
– Nous pouvons montrer que :
TSS = ESS + SSR.
– Voici la preuve :
TSS =
n
i=1
Yi − ¯Y
2
=
n
i=1
Yi − ˆYi + ˆYi − ¯Y
2
=
n
i=1
Yi − ˆYi
2
+
n
i=1
ˆYi − ¯Y
2
+2
n
i=1
Yi − ˆYi
ˆYi − ¯Y
= SSR + ESS + 2
n
i=1
ˆui
ˆYi − ¯Y
= SSR + ESS + 2
n
i=1
ˆui
ˆYi − 2¯Y
n
i=1
ˆui
= SSR + ESS + 2
n
i=1
ˆui
ˆYi
= SSR + ESS + 2
n
i=1
ˆui
ˆβ0 + ˆβ1Xi
13
= SSR + ESS + 2ˆβ0
n
i=1
ˆui + 2ˆβ1
n
i=1
ˆuiXi
= SSR + ESS.
Notez que nous avons invoqu´e `a quelques reprises les propri´et´es alg´ebriques de l’estimateur
MCO que nous avons d´ej`a d´emontr´ees.
– Maintenant, d´efinissons
R2
≡
ESS
TSS
.
– Puisque TSS, ESS et SSR sont la somme de termes au carr´e (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :
0 ≤ R2
≤ 1.
– Il faut aussi que
R2
= 1 −
SSR
TSS
.
– L’ajustement statistique s’appelle aussi le coefficient de d´etermination de la r´egression.
– L’ajustement statistique est d´efini ind´ependamment des propri´et´es statistiques du mod`ele de
r´egression. Il a l’interpr´etation du pourcentage de la variation de la variable d´ependante Y
autour de sa moyenne qui peut ˆetre expliqu´e par les variations de la variable explicative X.
– Pour le mod`ele de r´egression simple, il y a une relation alg´ebrique exacte entre le R2
et le
coefficient de corr´elation entre les variables X et Y . La relation est
R2
= Corr (X, Y ) .
– Je montre ce r´esultat dans l’encadr´e qui suit.
– La lecture de l’encadr´e est facultative, mais je vous encourage `a retenir le r´esultat (´egalit´e
entre la mesure R2
et le coefficient de corr´elation entre X et Y au carr´e).
14
Je d´emontre ici que l’ajustement statistique (dans le mod`ele de r´egression simple) doit ˆetre ´egal
au carr´e du coefficient de corr´elation entre X et Y . Nous avons
R2
≡
n
i=1
ˆYi − ¯Y
2
n
i=1 Yi − ¯Y
2
Nous avons aussi (en multipliant le num´erateur et le d´enominateur dans la d´efinition de la
corr´elation ´echantillonnale par (n − 1))
Corr (X , Y )
2
≡


n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2 n
i=1 Yi − ¯Y
2


2
=
n
i=1 Xi − ¯X Yi − ¯Y
2
n
i=1 Xi − ¯X
2 n
i=1 Yi − ¯Y
2
Donc, il faut montrer que
n
i=1
ˆYi − ¯Y
2
n
i=1 Yi − ¯Y
2 =
n
i=1 Xi − ¯X Yi − ¯Y
2
n
i=1 Xi − ¯X
2 n
i=1 Yi − ¯Y
2
⇔
n
i=1
ˆYi − ¯Y
2
n
i=1
Xi − ¯X
2
=
n
i=1
Xi − ¯X Yi − ¯Y
2
.
Travaillant avec le bras gauche de cette ´equation, nous avons
n
i=1
ˆYi − ¯Y
2
n
i=1
Xi − ¯X
2
=
n
i=1
ˆβ0 + ˆβ1Xi − ¯Y
2
n
i=1
Xi − ¯X
2
=
n
i=1
¯Y − ˆβ1
¯X + ˆβ1Xi − ¯Y
2
n
i=1
Xi − ¯X
2
15
=
n
i=1
ˆβ1Xi − ˆβ1
¯X
2
n
i=1
Xi − ¯X
2
= ˆβ2
1
n
i=1
Xi − ¯X
2
n
i=1
Xi − ¯X
2
=
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2
2 n
i=1
Xi − ¯X
2
2
=
n
i=1
Xi − ¯X Yi − ¯Y
2
,
ce qui fut `a d´emontrer.
Donc, mˆeme si nous sommes en train de discuter des propri´et´es alg´ebriques du mod`ele
de r´egression simple, et mˆeme si la notion du R2
est d´efinie ind´ependamment des propri´et´es
statistiques des variables X et Y , nous voyons que le R2
est reli´e au concept statistique de
corr´elation. Il existe des tests d’hypoth`ese de la significativit´e de corr´elations entre variables
al´eatoires (que nous n’allons pas explorer dans ce cours).
– Tel qu’indiqu´e plus tˆot, l’ajustement statistique R2
est d´efini ind´ependamment des hy-
poth`eses statistiques derri`ere le mod`ele.
– Nous venons de voir (dans l’encadr´e pr´ec´edant) qu’il y a un lien stricte dans le mod`ele de
r´egression simple entre le R2
et le coefficient de corr´elation entre la variable d´ependante
Y et la variable explicative X.
– Le R2
a aussi une autre interpr´etation statistique. On peut l’utiliser pour tester l’hy-
poth`ese nulle de l’absence de relation entre la variable explicative (les variables expli-
catives `a part la constante dans le mod`ele de r´egression multiple). Voir Giles (2013b,
2013c). Selon Giles, le R2
suit, sous l’hypoth`ese nulle (et sous l’hypoth`ese de l’ho-
mosc´edasticit´e), une distribution Beta.
– Nous allons voir dans le chapitre sur la r´egression multiple qu’on peut construire une
16
autre statistique pour tester la mˆeme hypoth`ese qui suit une distribution F de Fisher.
4.3 L’´ecart type de la r´egression
– D´efinissons :
s2
ˆu =
1
(n − 2)
n
i=1
(ˆui)2
=
SSR
(n − 2)
.
– Dans le cas o`u nous supposons une variance constante du terme d’erreur du mod`ele (voir la
section suivante concernant les hypoth`eses statistiques du mod`ele), c’est un estimateur non
biais´e de la variance du terme d’erreur.
– Il s’agit du cas o`u les erreurs sont homosc´edastiques, o`u donc Var (ui) = σ2
u, une variance
constante.
– Notez que cette hypoth`ese (variance constante des erreurs) ne fera pas partie des hypoth`eses
statistiques de base que nous adopterons.
– Nous divison par (n − 2) afint d’obtenir un estimateur non biais´e.
– Il y a une autre raison pour la division par (n − 2). On perd deux degr´es de libert´e car il faut
estimer deux param`etres inconnus (β0 et β1) afin de calculer les r´esidus de la r´egression.
– Maintenant, d´efinissons :
sˆu ≡ s2
ˆu.
– sˆu est l’´ecart type de la r´egression.
– L’´ecart type de la r´egression est un des r´esultats d’estimation que fournissent automatique-
ment la plupart des logiciels ´econom´etriques.
5 Hypoth`eses statistiques de base du mod`ele
– `A partir de ce point, nous ´elaborons quelques propri´et´es statistiques de l’estimateur MCO.
Elles d´ependront de certaines hypoth`eses statistiques de base, que voici.
17
– Ces hypoth`eses seront cruciales pour montrer les propri´et´es d’absence de biais et de conver-
gence.
– Nous en aurons besoin aussi (avec une hypoth`ese additionnelle) pour montrer l’efficience de
l’estimateur MCO.
5.1 Esp´erance conditionnelle nulle de l’erreur
– Nous supposons que :
E (ui|X = Xi) = 0.
– Intuitivement, l’hypoth`ese nous dit que le fait de connaˆıtre la valeur r´ealis´ee de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.
5.2 Observations i.i.d.
– Nous supposons que :
(Xi , Yi) , i = 1, 2, . . . , n i.i.d.
– Nous avons d´ej`a vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont ind´ependantes et qu’elles sont identiquement distribu´ees.
– Notez que nous ne faisons pas une hypoth`ese concernant le type de distribution qui g´en`ere
les observations (normale, exponentielle, par´etienne stable, etc.). Tout ce qu’on suppose c’est
que les observations sont toujours g´en´er´ees par la mˆeme distribution.
5.3 Les observations aberrantes sont peu probables
– Nous supposons que :
0 < E X4
< ∞;
0 < E Y 4
< ∞;
18
– Cette hypoth`ese sert `a nous rappeler que l’estimateur MCO peut ˆetre sensible aux observa-
tions aberrantes.
– Il est toujours bon d’examiner les r´esidus afin de d´etecter la pr´esence de ces observations,
qui pourraient indiquer des probl`emes comme des erreurs de transcription des valeurs dans
les donn´ees, etc.
– Il est important de noter qu’en pr´esence d’observations aberrantes importantes, la valeur de
ˆβ1 peut ˆetre tr`es sensible `a cette ou `a ces valeurs, mˆeme si elles sont peu nombreuses. Intui-
tement, mˆeme un nombre tr`es faible de ces observations aberrantes peut avoir une influence
pr´epond´erantes sur les valeurs estim´ees des param`etres. Dans un tel cas, les estimateurs
MCO ne seront pas convergents puisqu’ils d´ependent d’un petit nombre d’observations.
5.4 Notre approche
Par rapport `a l’approche dans certains manuels de base en ´econom´etrie, nous adoptons une
approche plus g´en´erale.
1. Souvent, la premi`ere fois qu’on pr´esente le mod`ele de r´egression simple, on suppose que
les observations sur la variable explicative X sont constantes `a travers des ´echantillons
diff´erents. Pour d´eriver les propri´et´es statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des r´ealisations d’une
variable al´eatoire. L’alg`ebre est plus facile, mais c’est beaucoup moins r´ealiste.
2. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose aussi que la variance condition-
nelle du terme d’erreur est ´egale `a sa variance non conditionnelle et qu’elle est constante.
Autrement dit,
Var (ui|X = Xi) = Var (ui) = σ2
u.
L’avantage de ces hypoth`eses simplificatrices est de simplifier l’alg`ebre. On arrive `a une
expression plus simple pour la variance ´echantillonnale de nos estimateurs MCO. Malheu-
reusement, ce sont des hypoth`eses qui tiennent rarement dans les donn´ees utilis´ees par les
19
´econom`etres appliqu´es. Cette hypoth`ese n’est pas retenue ici, ce qui va mener `a une expres-
sion plus compliqu´ee mais plus g´en´erale pour la variance ´echantillonnale de nos estimateurs.
3. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose que le terme d’erreur est distribu´e
selon une loi normale. Ceci permet de faire de l’inf´erence exacte (voir le chapitre sur les tests
d’hypoth`ese pour une d´efinition). Cette hypoth`ese n’est pas retenue ici.
4. Au lieu de supposer la normalit´e, nous allons faire l’hypoth`ese que les ´echantillons de
donn´ees que nous avons `a notre disposition sont assez grandes pour que les statistiques
utilis´ees pour faire des tests d’hypoth`ese soient approximatiement distribu´ees selon une loi
normale.
6 Propri´et´es statistiques de l’estimateur
6.1 Absence de biais de l’estimateur
6.1.1 ˆβ1
– Nous avons :
ˆβ1 =
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2
=
n
i=1 Xi − ¯X β0 + β1Xi + ui − β0 − β1
¯X − ¯u
n
i=1 Xi − ¯X
2
=
β1
n
i=1 Xi − ¯X
2
+ n
i=1 Xi − ¯X (ui − ¯u)
n
i=1 Xi − ¯X
2
= β1 +
n
i=1 Xi − ¯X (ui − ¯u)
n
i=1 Xi − ¯X
2
= β1 +
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 .
– Ceci montre que l’estimateur est ´egal `a sa vraie valeur plus un terme qui d´epend du produit
des erreurs avec les ´ecarts des Xi par rapport `a leurs moyennes ´echantillonnales.
20
– Notez ce que l’on fait pour passer de la premi`ere ligne `a la deuxi`eme. On substitut Yi utili-
sant sa valeur si le mod`ele de r´egression est lit´eralement vrai. Cela fait apparaˆıtre les vraies
valeurs de β0 et de β1, et fait apparaˆıtre aussi l’erreur (la vraie et non le r´esidu). On fera
souvent une substitution semblable lorsqu’on veut analyser les propri´et´es statistiques d’un
estimateur.
– Maintenant, il s’agit de calculer la valeur esp´er´ee de cette expression :
E ˆβ1 = β1 + E
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2
= β1 + E E
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 |X1, X2, . . . Xn
= β1 + E
n
i=1 Xi − ¯X E (ui|X1, X2, . . . Xn)
n
i=1 Xi − ¯X
2
= β1 + E
n
i=1 Xi − ¯X E (ui|Xi)
n
i=1 Xi − ¯X
2
= β1.
– Pour passer de la premi`ere ligne `a la deuxi`eme dans cette suite d’´egalit´es, nous avons utilis´e
la loi des esp´erances it´er´ees, qui dit que pour n’importe quelle variable al´eatoire Y ,
E (E (Yi|Xi)) = E (Yi) .
Nous l’avons tout simplement appliqu´e `a la variable al´eatoire qui est
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 .
– Pour passer de la deuxi`eme `a la troisi`eme ligne, il faut noter que les esp´erances des X condi-
tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des
constantes et les ´ecrire du cˆot´e gauche de l’op´erateur d’esp´erance conditionnelle. Ce faisant,
21
l’op´erateur d’esp´erance conditionnelle s’applique uniquement au terme d’erreur ui.
– La derni`ere ´egalit´e suit directement de nos hypoth`eses de base concernant le mod`ele, dont
une stipule que E (ui|Xi) = 0.
6.1.2 ˆβ0
– Nous avons :
E ˆβ0 = E ¯Y − ˆβ1
¯X
= E β0 + β1
¯X +
1
n
n
i=1
ui − ˆβ1
¯X
= β0 + E β1 − ˆβ1
¯X +
1
n
n
i=1
E (ui)
= β0 +
1
n
n
i=1
E (E (ui|Xi))
= β0,
o`u encore une fois nous avons utilis´e la loi des esp´erances it´er´ees :
E (ui) = E (E (ui|Xi)) .
– Ici, j’ai suivi la r´eponse `a la question 4.7 du manuel. Il n’est pas forc´ement ´evident que
E β1 − ˆβ1
¯X = 0,
puisque ¯X doit ˆetre consid´er´e comme une variable al´eatoire. Il faut remonter `a l’absence de
biais de ˆβ1, o`u on a montr´e que
β1 − ˆβ1 = −
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 .
22
Donc, on a
E β1 − ˆβ1
¯X = −E
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2
¯X
= −E ¯X
n
i=1 Xi − ¯X E (ui|Xi)
n
i=1 Xi − ¯X
2
= 0.
Encore une fois, nous avons utilis´e la loi des esp´erances it´er´ees.
6.2 Convergence de l’estimateur
– Nous allons remettre ce sujet `a un peu plus tard. En calculant les propri´etes ´echantillonnales
de l’estimateur, nous allons montrer que sa variance d´ecroˆıt avec la taille de l’´echantillon n.
– Si c’est le cas, nous avons `a toutes fins pratiques montr´e sa convergence. Nous avons montr´e
l’absence de biais, et la variance converge `a z´ero lorsque n tend vers l’infini.
6.3 Efficience de l’estimateur
– Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypoth`ese addi-
tionnelle, que le terme d’erreur du mod`ele de r´egression est homosc´edastique, ce qui veut
dire a une variance constante.
– Si ce n’est pas le cas, et si nous connaissons de quoi d´epend la variance du terme d’erreur,
il peut ˆetre possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carr´es g´en´eralis´es (generalised least squares ou GLS en anglais),
que nous n’aurons pas l’occasion d’´etudier en d´etail dans ce cours. Voir le chapitre 15 du
manuel.
– Une preuve d´etaill´ee du th´eor`eme Gauss-Markov se trouve dans l’ecadr´e qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en d´etail dans le cours. Je vous
invite fortement `a la lire et `a la comprendre.
23
6.3.1 Th´eor`eme Gauss-Markov
– Il s’agit d’une preuve que l’estimateur ˆβ1 est l’estimateur le plus efficient parmi les
estimateurs qui sont lin´eaires en Yi.
– Rappelons d’abord les hypoth`eses qui doivent tenir pour d´emontrer le th´eor`eme Gauss-
Markov.
1. E (ui|X1, . . . , Xn) = 0 .
2. Var (ui|X1, . . . , Xn) = σ2
u, 0 < σ2
u < ∞.
3. E (uiuj|X1, . . . , Xn) = 0, i = j.
– La derni`ere hypoth`ese dit que les erreurs ne sont pas corr´el´ees entre elles.
– D’abord, montrons que ˆβ1 est un estimateur lin´eaire en Yi. Nous avons
ˆβ1 =
n
i=1 Yi − ¯Y Xi − ¯X
n
i=1 Xi − ¯X
2
=
n
i=1 Yi Xi − ¯X − ¯Y n
i=1 Xi − ¯X
n
i=1 Xi − ¯X
2
=
n
i=1 Yi Xi − ¯X
n
i=1 Xi − ¯X
2
=
n
i=1
Xi − ¯X
n
i=1 Xi − ¯X
2 Yi
≡
n
i=1
ˆaiYi,
o`u donc
ˆai ≡
Xi − ¯X
n
i=1 Xi − ¯X
2
– Les poids ˆai ne d´ependent pas des Yi, et donc l’estimateur est lin´eaire en Yi.
– Nous avons vu que sous l’hypoth`ese de l’homosc´edasticit´e, la variance conditionnelle de
24
ˆβ1 est donn´ee par
Var ˆβ1|X1, . . . , Xn =
σ2
u
n
i=1 Xi − ¯X
2 .
– Nous avons aussi montr´e que l’estimateur ˆβ1 est conditionnellement non biais´e.
– Maintenant, consid´erons n’importe quel estimateur lin´eaire
˜β1 =
n
i=1
aiYi
et qui satisfait la propri´et´e
E ˜β1|X1, . . . , Xn = β1.
– Nous avons
˜β1 =
n
i=1
aiYi
=
n
i=1
ai (β0 + β1Xi + ui)
= β0
n
i=1
ai + β1
n
i=1
aiXi +
n
i=1
aiui.
– Nous avons aussi
E
n
i=1
aiui|X1, . . . , Xn =
n
i=1
aiE (ui|X1, . . . , Xn) = 0.
– De cette fac¸on, nous avons
E ˜β1|X1, . . . , Xn = β0
n
i=1
ai + β1
n
i=1
aiXi .
25
– Par hypoth`ese, notre estimateur est conditionnellement non biais´e et donc il faut que
β0
n
i=1
ai + β1
n
i=1
aiXi = β1.
– Pour que cette ´egalit´e tienne pour des valeurs quelconques de β0 et de β1 il faut que
n
i=1
ai = 0
et
n
i=1
aiXi = 1.
– Nous avons donc
˜β1 = β0
n
i=1
ai + β1
n
i=1
aiXi +
n
i=1
aiui = β1 +
n
i=1
aiui.
– Calculons la variance conditionnelle de ˜β1. Nous avons
Var ˜β1|X1, . . . , Xn = Var
n
i=1
aiui|X1, . . . , Xn
=
n
i=1
Var (aiui|X1, . . . , Xn) + 2
i<j
Cov (aiui , ajuj|X1, . . . , Xn)
=
n
i=1
Var (aiui|X1, . . . , Xn)
= σ2
u
n
i=1
ai
2
.
– Les covariances disparaissent `a cause de la troisi`eme hypoth`ese ci-dessus.
– Maintenant, il suffit de montrer que la variance conditionnelle de ˜β1 doit ˆetre sup´erieure
`a la variance conditionnelle de ˆβ1.
26
– D´efinissons
di ≡ ai − ˆai
– Nous avons
n
i=1
ai
2
=
n
i=1
(ˆai + di)2
=
n
i=1
ˆa2
i + 2
n
i=1
ˆaidi +
n
i=1
di
2
.
– Maintenant, il faut utiliser la d´efinition des ˆai qui est donn´ee ci-dessus. Nous avons
n
i=1
ˆaidi =
n
i=1 Xi − ¯X di
n
i=1 Xi − ¯X
2
=
n
i=1 Xidi − ¯X n
i=1 di
n
i=1 Xi − ¯X
2
=
n
i=1 Xi (ai − ˆai) − ¯X n
i=1 (ai − ˆai)
n
i=1 Xi − ¯X
2
=
( n
i=1 Xiai − n
i=1 Xiˆai) − ¯X ( n
i=1 ai − n
i=1 ˆai)
n
i=1 Xi − ¯X
2
= 0.
– La derni`ere ´egalit´e tient puisque les deux estimateurs ˜β1 et ˆβ1 sont conditionnellement
non biais´es et pour cette raison il faut que
n
i=1
Xiai −
n
i=1
Xiˆai =
n
i=1
ai =
n
i=1
ˆai = 0.
– Finalement, nous avons donc
Var ˜β1|X1, . . . , Xn
= σ2
u
n
i=1
ai
2
27
= σ2
u
n
i=1
ˆa2
i +
n
i=1
di
2
= Var ˆβ1|X1, . . . , Xn + σ2
u
n
i=1
di
2
⇒ Var ˜β1|X1, . . . , Xn − Var ˆβ1|X1, . . . , Xn
= σ2
u
n
i=1
di
2
> 0
si ∃i tel que di = 0. Si di = 0, ∀i, l’estimateur ˜β1 est tout simplement l’estimateur MCO.
– Il y a aussi une preuve du th´eor`eme Gauss-Markov dans le cadre du mod`ele de r´egression
multiple dans le chapitre suivant. Vous allez constater (j’esp`ere) que la preuve, qui utilise
une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas
d´emontr´e l’efficience de l’estimateur ˆβ0.
6.4 Erreur quadratique moyenne
– Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
– Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus
efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance
moins ´elev´ee que le deuxi`eme.
– Une autre fac¸on de comparer deux estimateurs est de comparer leurs erreurs quadratiques
moyennes. Nous avons d´ej`a vu ce concept dans le chapitre sur la statistique.
– Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconque ˜β :
EQM ˜β ≡ E ˜β − β
2
.
– Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur.
– C’est une mesure assez intuitive de la pr´ecision d’un estimateur.
28
– Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de
l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,
EQM ˜β = Var ˜β + E ˜β − β
2
.
– Voici la preuve. Nous savons que pour une variable al´eatoire quelconque X,
Var (X) = E X2
− (E (X))2
.
Cette formule s’applique aussi `a la variable al´eatoire ˜β − β . Donc nous avons
Var ˜β − β = E ˜β − β
2
− E ˜β − β
2
⇒ E ˜β − β
2
= Var ˜β − β + E ˜β − β
2
⇒ E ˜β − β
2
= Var ˜β + E ˜β − β
2
,
ce qui fut `a montrer, puisque
Var ˜β − β = Var ˜β
dˆu au fait que β n’est pas une variable al´eatoire.
– Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont
pas forc´ement non biais´es.
– Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le
biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus
grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins
une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement
parce qu’ils ont une variance tr`es faible.
29
– Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du
mod`ele de r´egression lin´eaire et l’estimateur MCO, le concept d’efficience est plus au centre
de l’analyse puisque, sous des hypoth`eses relativement faibles, l’estimateur MCO est non
biais´e.
– Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du mod`ele de r´egression simple.
– Il ´etudie le mod`ele de r´egression simple sans constante :
Yi = βXi + ui,
o`u les Xi sont non al´eatoires et o`u on a ui ∼ i.i.d. (0, σ2
) (les erreurs sont
ind´ependamment et identiquement distribu´ees avec moyenne nulle et variance ´egale `a
σ2
). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypoth`ese
concernant l’esp´erance non conditionnelle des erreurs simplifie l’analyse.)
– Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on
obtient d´epend de β lui-mˆeme, qui est non observable. Donc, c’est un estimateur qui est
non op´erationnel , c’est `a dire que nous pouvons mˆeme pas calculer.
– Dans son deuxi`eme article (2013e), Giles montre qu’il est possible de trouver un estima-
teur op´erationnel (que nous pouvons calculer) si on minimise une combinaison lin´eaire
de la variance et du biais de l’estimateur. Le probl`eme peut s’´ecrire
min
β
Q =


α


Var β
σ2

 + (1 − α)


E ˜β − β
β


2


 .
– La fonction objectif est une somme pond´er´ee de la variance relative (par rapport `a la
variance de l’erreur) et du biais au carr´e relatif (par rapport `a la vraie valeur de β) de
l’estimateur β.
30
– La solution `a ce probl`eme (que nous allons calculer un peu plus loin) est
β = β
(1 − α) n
i=1 Xi
2
α + (1 − α) n
i=1 Xi
2
o`u β est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donn´ee de α.
– Pour α = 0 nous avons β = β. Autrement dit, si on met tout le poids sur la minimisation
du biais au carr´e, on obtient l’estimateur MCO, qui n’est pas biais´e.
– Pour α > 0, |β| < |β|. L’estimateur β est plus pr`es de z´ero. (C’est un exemple de ce
qu’on appelle un shrinkage estimator en anglais.)
– Cette solution est un peu difficile `a montrer. Commenc¸ons par d´efinir β comme un esti-
mateur lin´eaire quelconque :
β ≡
n
i=1
aiYi
pour des constantes quelconques ai.
– Cette d´efinition nous donne imm´ediatement
E β = E
n
i=1
ai (βXi + ui)
= β
n
i=1
aiXi + E
n
i=1
aiui
= β
n
i=1
aiXi
⇒ E β − β = β
n
i=1
aiXi − 1
puisque nous avons fait l’hypoth`ese que les Xi sont non stochastiques et que E (ui) = 0.
31
– La variance de l’estimateur est donn´ee par
Var β =
n
i=1
ai
2
Var (Yi) = σ2
n
i=1
ai
2
pusque nous faisons l’hypoth`ese que la variance des erreurs est constante.
– Notre probl`eme de minimisation peut donc s’´ecrire
min
ai
Q = α
σ2 n
i=1 ai
2
σ2
+ (1 − α)
β n
i=1 (aiXi − 1)
β
2
ou bien
min
ai
Q = α
n
i=1
ai
2
+ (1 − α)
n
i=1
(aiXi − 1)
2
.
– Les variables de choix du probl`eme sont les ai et non β lui-mˆeme.
– En choisissant notre fonction objectif comme une somme pond´er´ee de la variance rela-
tive de l’estimateur et du biais au carr´e relatif, nous avons r´eussi `a ´eliminer les param`etres
non observables (β et σ2
) du probl`eme.
– Pour un ai quelconque la condition du premier ordre s’´ecrit
∂Q
∂ai
= 0 = 2αai + 2 (1 − α) Xi
n
j=1
ajXj − 1
⇒ αai + (1 − α) Xi
n
j=1
ajXj − 1 = 0.
– Multiplions cette expression par Yi et calculons la somme `a travers les n termes en ai.
Nous obtenons
αaiYi + (1 − α) XiYi
n
j=1
ajXj − 1 = 0
⇒ α
n
i=1
aiYi + (1 − α)
n
i=1
XiYi
n
j=1
ajXj − 1 = 0
32
⇒ αβ + (1 − α)
n
i=1
XiYi
n
j=1
ajXj − 1 = 0 (1)
puisque nous avons d´efini au d´epart notre estimateur comme β ≡ n
i=1 aiYi.
– Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme `a travers les n
termes, ce qui donne
αaiXi + (1 − α) Xi
2
n
j=1
ajXj − 1 = 0
⇒ α
n
i=1
aiXi + (1 − α)
n
i=1
Xi
2
n
j=1
ajXj − 1 = 0
⇒ α
n
j=1
ajXj + (1 − α)
n
i=1
Xi
2
n
j=1
ajXj − 1 = 0
(par un simple changement d’indice)
⇒ α
n
j=1
ajXj + (1 − α)
n
i=1
Xi
2
n
j=1
ajXj − (1 − α)
n
i=1
Xi
2
= 0
⇒
n
j=1
ajXj α + (1 − α)
n
i=1
Xi
2
= (1 − α)
n
i=1
Xi
2
⇒
n
j=1
ajXj =
(1 − α) n
i=1 Xi
2
α + (1 − α) n
i=1 Xi
2
.
– Maintenant, substituons cette solution pour n
j=1 ajXj dans l´equation (1) et simpli-
fions :
⇒ αβ + (1 − α)
n
i=1
XiYi
(1 − α) 2
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
.
− 1 = 0
⇒ αβ = (1 − α)
n
i=1
XiYi
α + (1 − α) n
i=1 Xi
2
− (1 − α) n
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
33
⇒ αβ = (1 − α)
n
i=1
XiYi
α
α + (1 − α) 2
i=1 Xi
2
⇒ β =
n
i=1
XiYi
(1 − α)
α + (1 − α) 2
i=1 Xi
2
⇒ β =
n
i=1 XiYi
n
i=1 Xi
2
(1 − α) n
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
= β
(1 − α) n
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
.
– Ceci est le cas puisque pour ce mod`ele l’estimateur MCO β est donn´e par (exercice)
β =
n
i=1 XiYi
n
i=1 Xi
2 .
7 Propri´et´es ´echantillonnales de l’estimateur
– Dans cette section, le but principal de l’exercice est de d´eriver la variance (et par extension
l’´ecart type) de nos estimateurs MCO ˆβ0 et ˆβ1.
– Les ´ecarts types de ˆβ0 et de ˆβ1 font partie de l’output standard de n’importe quel logiciel de
r´egression.
– Cet exercice est crucial afin de pouvoir effectuer des tests d’hypoth`ese concernant les coef-
ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estim´es.
– Nous avons :
ˆβ1 = β1 +
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2
= β1 +
1
n
n
i=1 Xi − ¯X ui
1
n
n
i=1 Xi − ¯X
2 .
– D’abord, travaillons avec le num´erateur.
34
– Nous avons d´ej`a vu que
¯X
p
−→ µX,
ce qui veut dire que la moyenne ´echantillonnale converge en probabilit´e `a la moyenne dans
la population. Donc, pour des ´echantillons assez grands, nous avons
1
n
n
i=1
Xi − ¯X ui ≈
1
n
n
i=1
(Xi − µX) ui ≡ ¯v ≡
1
n
n
i=1
vi.
– La variable al´eatoire vi que nous venons de d´efinir satisfait les propri´et´es suivantes :
1. E (vi) = 0 ;
2. vi est i.i.d. ;
3. σ2
v < ∞ .
– La variable satisfait les hypoth`eses pour pouvoir invoquer le th´eor`eme de la limite centrale.
Donc, nous avons
¯v
σ¯v
d
−→ N (0 , 1) ,
o`u σ2
¯v = σ2
v/n.
– Maintenant, travaillons avec le d´enominateur. Nous avons d´ej`a vu `a la fin du chapitre sur la
statistique que la variance ´echantillonnale est un estimateur convergent de la variance d’une
variable al´eatoire. Donc nous avons :
1
n − 1
n
i=1
Xi − ¯X
2
≈
1
n
n
i=1
Xi − ¯X
2 p
−→ σ2
X.
– Mettant ensemble num´erateur et d´enominateur, nous avons
Var ˆβ1 − β1 =
σ2
v
n (σ2
X)
2
et,
ˆβ1 − β1
d
−→ N 0 ,
σ2
v
n (σ2
X)
2
35
– Notez tr`es bien ce que nous venons de faire. Nous avons montr´e la convergence en distri-
bution du num´erateur, et la convergence en probabilit´e du d´enominateur, et par la suite nous
avons saut´e tout de suite `a la convergence en distribution du ratio des deux.
– Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-
pri´et´es asymptotiques (propri´et´es en grand ´echantillon) de nos statistiques. Notez que nous
ne pouvons pas le faire lorsqu’il s’agit d’esp´erances. Par exemple,
E
X
Y
=
E(X)
E(Y )
sauf dans le cas de variables al´eatoires ind´ependantes.
– Par contre, sous certaines hypoth`eses, nous avons
¯X
p
−→ µX, ¯Y
p
−→ µY ⇒
¯X
¯Y
p
−→
µX
µY
,
et
¯X
d
−→ N µX , σ2
¯X , ¯Y
p
−→ µY ⇒
¯X
¯Y
d
−→ N
µX
µY
,
1
µY
2
σ2
¯X .
– Nous avons utilis´e le Th´eor`eme de Slutsky, un des th´eor`emes les plus utiles en th´eorie
des probabilit´es. Il permet de scinder des expressions compliqu´ees de variables al´eatoires
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la
convergence de l’expression suit imm´ediatement.
– Nous aurons fr´equemment l’occasion d’utiliser une version de ce th´eor`eme. Pour plus de
d´etails, voir le chapitre des notes sur le mod`ele de r´egresson multiple.
– Notez que la variance de ˆβ1 d´ecroˆıt avec n et tend vers z´ero lorsque n tend vers l’infini. Lors-
qu’on parle de convergence en distribution, on utilise normalement une variable al´eatoire
normalis´ee de telle fac¸on `a ce sa variance ne diminue pas avec la taille de l’´echantillon. Pour
36
cette raison, il serait conventionnel de dire que :
√
n ˆβ1 − β1
d
−→ N 0 ,
σ2
v
(σ2
X)
2
– Maintenant, d´efinissons
σ2
ˆβ1
≡
σ2
v
n (σ2
X)
2 .
– Maintenant, si nous divisons ˆβ1 − β1 par la racine carr´ee de σ2
ˆβ1
, nous obtenons une sta-
tistique qui converge en distribution vers une loi normale centr´ee r´eduite :
ˆβ1 − β1
σ2
ˆβ1
≡
ˆβ1 − β1
σˆβ1
d
−→ N (0 , 1) .
– Notez que nous venons de montrer `a toutes fins pratiques la convergence de l’estimateur
MCO de ˆβ1. Nous avions d´ej`a montr´e que l’estimateur MCO est non biais´e. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers z´ero lorsque la taille
de l’´echantillon tend vers l’infini. Autrement dit,
lim
n→∞
σ2
ˆβ1
= 0.
– Nous avons tous les pr´erequis pour conclure que l’estimateur MCO de β1 converge en pro-
babilit´e `a sa vraie valeur.
7.1 Estimateur convergent de σ2
ˆβ1
– La variance de la variable al´eatoire ¯v d´efinie ci-dessus n’est g´en´eralement pas connue, la
variance de X non plus.
– Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population
par un estimateur convergent de ce moment.
37
– D´efinissons :
ˆσ2
ˆβ1
≡
1
n
1
n−2
n
i=1 Xi − ¯X
2
(ˆui)2
1
n
n
i=1 Xi − ¯X
2 2
– Ensuite, d´efinissons l’´ecart type estim´e de ˆβ1 comme
SE ˆβ1 ≡ ˆσ2
ˆβ1
.
– La plupart des logiciels de r´egression calculent cet ´ecart type. Il faut, par contre, v´erifier si
l’option par d´efaut est de calculer cet ´ecart type robuste (robuste `a la pr´esence de l’h´et´ero-
sc´edasticit´e) ou plutˆot de calculer l’´ecart type qui suppose l’homosc´edasticit´e.
7.2 Estimateur convergent de σ2
ˆβ1
en cas d’homosc´edasticit´e
– Si nous sommes prˆets `a supposer que
Var (ui|X = Xi) = Var (ui) = σ2
u,
nous pouvons remplacer l’estimateur convergent de σ2
ˆβ1
par
˜σ2
ˆβ1
≡
1
n
1
n−1
n
i=1 (ˆui)2
1
n
n
i=1 Xi − ¯X
2 .
– J’ai utilis´e la notation l´eg`erement diff´erente ˜σ2
ˆβ1
pour distinguer entre le cas g´en´eral (lors-
qu’on ne suppose pas l’homosc´edasticit´e) o`u on utilise un estimateur robuste de la
variance et le cas particulier o`u on suppose l’homosc´edasticit´e.
– Le manuel est parmi les seuls `a utiliser l’estimateur robuste comme l’estimateur par d´efaut.
Beaucoup de manuels pr´esentent le cas homosc´edastique comme le cas de base et montre
par la suite qu’est-ce qui arrive si l’hypoth`ese d’homosc´edasticit´e ne tient pas. Je partage
l’opinion des auteurs que l’homosc´edasticit´e est une hypoth`ese forte qui risque de ne pas
tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien
38
d’enseigner le cas g´en´eral et l’estimateur robuste comme l’option par d´efaut d’un ´econom`etre
appliqu´e.
– Lorsqu’on utilise un logiciel de r´egression comme R, STATA ou GRETL, il faut lire atten-
tivement la documentation pour savoir quelle est l’option par d´efaut utilis´ee pour estimer
la matrice variance-covariance des coefficients estim´es. Dans la plupart des cas l’option par
d´efaut suppose l’homosc´edasticit´e et il faut sp´ecifier l’option robuste ou l’´equivalent si
vous n’ˆetes pas prˆets `a supposer l’homosc´edasticit´e, ce qui sera g´en´eralement le cas.
Les ´ecarts types robustes peuvent ˆetre plus grands ou plus petits que les ´ecarts types non ro-
bustes. Pour une explication plus d´etaill´ee et une illustration dans un cas tr`es simple, voir Auld
(2012). Auld d´emontre les points suivants.
1. En pr´esence d’h´et´erosc´edasticit´e, si la variance des erreurs n’est pas fortement corr´el´ee
avec la variable explicative du mod`ele (X), il y aura peu de diff´erence entre l’´ecart
type calcul´e avec la m´ethode robuste et l’´ecart type calcul´e sous l’hypoth`ese de l’ho-
mosc´edasticit´e.
2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne
´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant l’ho-
mosc´edasticit´e) sera biais´e vers z´ero (trop petit). L’´ecart type calcul´e avec la m´ethode
robuste sera en g´en´eral plus grand que l’´ecart type non robuste.
3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont pr`es de leur
moyenne ´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant
l’homosc´edasticit´e) sera biais´e et sera en moyenne trop grand. L’´ecart type calcul´e avec
la m´ethode robuste sera en g´en´eral plus petit que l’´ecart type non robuste.
4. Avec les donn´ees r´eeles on rencontre plus souvent le cas o`u l’´ecart type non robuste est
baisi´e vers z´ero (est trop petit). Donc, typiquement les ´ecarts types robustes sont plus
´elev´es que les ´ecarts types non robustes.
39
7.3 D´etecter l’h´et´erosc´edasticit´e
– Il peut ˆetre important de pouvoir d´etecter la pr´esence d’erreurs h´et´erosc´edastiques. Il y a des
tests formels, 2
mais il y a aussi des m´ethodes moins formelles que les chercheurs appliqu´es
peuvent utiliser.
– Une fac¸on simple serait de cr´eer, une fois le mod`ele estim´e, un graphique avec les Xi sur
l’axe horizontal et les r´esidus carr´es ˆu2
i sur l’axe vertical.
– Une relation ´evidente entre les deux (par exemple, des valeurs de ˆu2
i qui semblent augmenter
avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi) est un signe clair de la
pr´esence d’h´et´erosc´edasticit´e.
– Une autre fac¸on serait, une fois le mod`ele estim´e, d’estimer une r´egression o`u on prend
les r´esidus carr´es comme variable d´ependante et Xi comme variable explicative, ou des
fonctions non lin´eaires des Xi. Par exemple,
ˆu2
i = γ0 + γ1Xi + i
ou encore
ˆu2
i = γ0 + γ1Xi
2
+ i.
– L’id´ee est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit ˆγ1 la valeur estim´ee du coef-
ficient γ1 Une valeur significative de ˆγ1 (voir la section suivante sur les tests d’hypoth`ese)
serait un indice clair de la pr´esence d’h´et´erosc´edasticit´e. 3
Nous allons revenir sur cette ques-
tion et sur quelques tests formels pour d´etecter l’homosc´edasticit´e dans le chapitre sur la
r´egression multiple.
2. Nous verrons certains de ces tests formels dans le chapitre sur le mod`ele de r´egression multiple.
3. Notez qu’il ne s’agit pas d’un test formel avec des propri´et´es statistiques connues. Il faut interpr´eter le r´esultat
du test `a titre indicatif seulement. Par contre, le test formel appel´e test Breusch-Pagan est essentiellement bas´e sur une
r´egression de ce type.
40
8 Tests d’hypoth`ese
8.1 Approche g´eneral
– Le principe de base pour tester des hypoth`eses simples est presqu’identique `a ce que nous
avons vu dans le chapitre sur l’inf´erence statistique.
– L’hypoth`ese nulle sp´ecifie g´en´eralement que le coefficient d’int´erˆet (qui peut ˆetre ˆβ0 ou
ˆβ1 prend une certaine valeur. L’hypoth`ese alternative peut ˆetre bilat´erale ou unilat´erale,
d´ependant du contexte.
– D’abord, il faut cr´eer une statistique normalis´ee qui a une moyenne nulle et une variance
unitaire sous l’hypoth`ese nulle. Il s’agit d’une statistique t mˆeme si en g´en´eral elle
n’ob´eit pas `a une loi t de Student. Par exemple :
t ≡
ˆβ1 − β1,0
SE ˆβ1
o`u SE ˆβ1 est un estimateur convergent de l’´ecart type du coefficient β1 et β1,0 est la valeur
que prend le coefficient β1 sous l’hypoth`ese nulle.
– Si nous sommes prˆets `a faire l’hypoth`ese que le terme d’erreur du mod`ele ui ob´eit `a une loi
normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de
Student. Dans ce cas, bien sˆur, il est pr´ef´erable d’utiliser la forme homosc´edastique pour le
calcul de l’´ecart type de l’estimateur ˆβ1.
– Si non, sous les hypoth`eses du mod`ele de r´egression, la statistique t ob´eit en grand ´echantillon
`a une loi normale centr´ee r´eduite. Voir la section pr´ec´edente sur les propri´et´es ´echantillonnales
de l’estimateur.
– Comme il est habituellement le cas, nous remplac¸ons l’´ecart type dans le d´enominateur par
un estimateur convergent.
– Maintenant, nous proc´edons exactement comme dans le chapitre sur la statistique.
41
8.2 Hypoth`ese alternative bilat´erale
– D’abord, si l’hypoth`ese alternative est bilat´erale :
H1 : β1 = β1,0,
nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment loin de z´ero. La
p-value du test est donn´ee par :
p-value = Pr |z| > |tact
| = 2Φ −|tact
|
o`u tact
est la valeur calcul´ee de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centr´ee r´eduite cumul´ee `a z.
– On appelle appelle commun´ement un test de significativit´e un test de l’hypoth`ese nulle
que la variable explicative n’est pas significative, et donc n’aide pas `a expliquer la variabilit´e
de la variable d´ependante. Dans, ce cas, l’hypoth`ese nulle est H0 : ˆβ1 = 0 et l’hypoth`ese
alternative est bilat´erale. On peut aussi parler d’un test de significativit´e de la constante
dans le mod`ele de r´egression simple. Les tests de significativit´e sont tellement r´epandus que,
si l’output fourni par un logiciel d’´econom´etrie donne les statistiques t associ´ees aux
coefficients estim´es, il s’agit de statistiques appropri´ees pour tester l’hypoth`ese nulle que le
coefficient est ´egal `a z´ero.
8.3 Hypoth`ese alternative unilat´erale
– Ensuite, si l’hypoth`ese alternative est unilat´erale, il faut distinguer entre les deux cas pos-
sibles.
1. D’abord,
H1 : β1 > β1,0.
Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment positive. La
42
p-value du test est donn´ee par :
p-value = Pr z > tact
= 1 − Φ tact
.
2. La deuxi`eme possibilit´e est :
H1 : β1 < β1,0.
Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment n´egative. La
p-value du test est donn´ee par :
p-value = Pr z < tact
= Φ tact
.
9 Intervalles de confiance pour les coefficients
– Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inf´erence statistique.
– Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la
valeur de z > 0 tel que
Φ(−z) =
1 − X/100
2
.
Donc, on cherche la valeur de z > 0 pour laquelle (100−X)
2
% de la distribution normale
centr´ee r´eduite se trouve `a gauche de −z. Cela veut dire bien sˆur que (100−X)
2
% de la distri-
bution normale centr´ee r´eduite se trouve `a droite de z.
– Nous avons (pour ˆβ1 : le principe pour ˆβ0 est identique) :
X
100
= Pr −z ≤
ˆβ1 − β1
ˆσˆβ1
≤ z
= Pr −zˆσˆβ1
≤ ˆβ1 − β1 ≤ zˆσˆβ1
43
= Pr −zˆσˆβ1
≤ β1 − ˆβ1 ≤ zˆσˆβ1
= Pr ˆβ1 − zˆσˆβ1
≤ β1 ≤ ˆβ1 + zˆσˆβ1
,
o`u ˆσˆβ1
≡ SE ˆβ1 , notre estimateur convergent de l’´ecart type de β1.
– Cela implique que l’intervalle de confiance de X% autour de ˆβ1 peut ˆetre ´ecrit de la fac¸on
suivante :
ˆβ1 ± zˆσˆβ1
,
o`u
Φ(−z) =
1 − X/100
2
.
9.1 Intervalles de confiance pour les pr´edictions
Souvent, on estime un mod`ele de r´egression pour pr´edire l’impact du changement de la variable
explicative sur la variable d´ependante. Par exemple, dans le cadre du mod`ele d´evelopp´e en d´etail
dans le manuel, on pourrait vouloir pr´edire l’impact sur le rendement scolaire d’une r´eduction de
la taille moyenne des classes de deux ´eleves. Soit ∆X le changement propos´e de la valeur de la
variable explicative. On a tout de suite
∆ˆYi = ˆβ1∆Xi,
o`u ∆ˆYi est le changement pr´edit de la variable d´ependante. D´evelopper un intervalle de confiance
dans ce cas est facile. Le changement pos´e ∆X est connue. On peut le traiter comme une constante,
et donc nous avons
Var ∆ˆYi = Var ˆβ1∆Xi
= (∆Xi)2
Var ˆβ1
44
Donc, proc´edant de la mˆeme mani`ere que pour l’intervalle de confiance pour ˆβ1 lui-mˆeme on a
X
100
= Pr

−z ≤
∆Xi
ˆβ1 − β1
(∆Xi) σˆβ1
≤ z


= Pr −z (∆Xi) σˆβ1
≤ ∆Xi
ˆβ1 − β1 ≤ z (∆Xi) σˆβ1
= Pr −z (∆Xi) σˆβ1
≤ ∆Xi β1 − ˆβ1 ≤ z (∆Xi) σˆβ1
= Pr −z (∆Xi) σˆβ1
+ ∆Xi
ˆβ1 ≤ ∆Xiβ1 ≤ z (∆Xi) σˆβ1
+ ∆Xi
ˆβ1 .
Donc, l’intervalle de confiance pour le changement pr´edit est donn´e par
∆Xi
ˆβ1 ± z (∆Xi) σˆβ1
Si nous remplac¸ons l’´ecart type de ˆβ1 par un estimateur convergent (notre truc habituel), l’intervalle
de confiance peut s’´ecrire
∆Xi
ˆβ1 ± z (∆Xi) ˆσˆβ1
10 Un exemple d’estimation du mod`ele de r´egression simple
avec R
Voici un exemple de comment estimer un mod`ele de r´egression simple avec le logiciel R.
L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus
de d´etaill´ee. Vous pouvez facilement jouer avec le code une fois que le logiciel est install´e. Le but
du mod`ele est de pr´edire la demande pour les abonnements `a des revues scientifiques (abonnements
par des biblioth`eques universitaires) o`u la variable explicative est le prix par nombre de citations.
Le mod`ele est
ln (subsi) = β0 + β1 ln (citepricei) + ui,
45
o`u la variable d´ependante subsi est le nombre d’abonnements `a la revue i (mesur´e en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divis´e par le nombre de citations
annuel d’articles publi´es dans la revue (mesur´e aussi en logs). Notez que le choix de mesurer les
deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre
sur les mod`eles de r´egression non lin´eaires. 4
Les donn´ees sont dans une banque de donn´ees qui s’appelle Journals . Il s’agit de
donn´ees (avec n = 180) sur les abonnements par des biblioth`eques universitaires `a des revues
scientifiques. La taille de l’´echantillon est le nombre de revues dans l’´echantillon.
Afin d’effectuer l’estimation d’un mod`ele de r´egression simple de base et afin d’effec-
tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais
aussi les packages AER (qui contient les donn´ees utilis´ees pour estimer le mod`ele),
lmtest, sandwich et zoo (ces trois packages permettent de calculer les ´ecarts types ro-
bustes du mod`ele estim´e et d’effectuer des tests d’hypoth`ese utilisant les ´ecarts types ro-
bustes). Si les packages ne sont pas d´ej`a install´es, il faut les installer avec la commande
install.packages(·) :
install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")
Notez que sous Linux il est pr´ef´erable d’installer le package comme administrateur du syst`eme
ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages install´es, on peut proc´eder `a charger les donn´ees et estimer le mod`ele
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les
4. Entretemps, `a moins d’avis contraire, je vous demande d’utiliser des variables non transform´ees dans les exer-
cices empiriques.
46
commandes. Les lignes pr´ec´ed´ees par # sont des commentaires.
R> # Charger les donn´ees.
R> library("AER")
R> data("Journals")
R> # Permettre d’appeler les variables directement par leurs
noms.
R> attach(Journals)
R> # Calculer des statistiques descriptives concernant les
variables.
R> # summary(Journals)
R> # Cr´eer une base de donn´ees avec un sous-ensemble des
variables.
R> journals <- Journals[, c("subs", "price")]
R> # Ajouter le prix par citation `a la base de donn´ees
restreinte.
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre d’appeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) ∼ log(citeprice), data = journals)
R> # Estimer le mod`ele par MCO utilisant la commande lm(·).
R> # Les r´esultats sont stock´es dans l’objet jour lm.
R> jour lm <- lm(log(subs) ∼ log(citeprice))
R> # Ajouter la ligne de r´egression estim´ee au nuage de
47
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est regumm.out .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)
R´esumons ce que nous avons fait avec ces commandes.
– La commande data(·) charge la banque de donn´ees en m´emoire.
– La commande journals<- cr´ee une plus petite banque de donn´ees en extrayant les
variables subs (combien d’abonnements) et price (prix de l’abonnement).
– La commande journals$citeprice<- ajoute une nouvelle variable `a la banque
journals qui est le prix par citation.
– La commande plot(·) cr´ee un graphique avec les observations, avec subs (en loga-
rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)
– La commande lm(·) estime le mod`ele de r´egression simple par MCO, et la commande
jour lm<- place les r´esultats dans la variable jour lm.
– La commande abline(·) utilise les r´esultats pour placer la ligne de r´egression sur le
graphique qui a d´ej`a ´et´e cr´e´e.
– La commande summary(·) imprime les r´esultats de la r´egression `a l’´ecran.
– La commande outfile<- cr´ee un fichier texte o`u on peut envoyer les r´esultats.
– La commande capture.output(·) envoie les r´esultats dans le fichier qui a ´et´e cr´e´e.
48
– La commande close(·) ferme le fichier.
Les r´esultats de l’estimation sont comme suit.
Call:
lm(formula = log(subs) ∼ log(citeprice), data = journals)
Residuals:
Min 1Q Median 3Q Max
-2.72478 -0.53609 0.03721 0.46619 1.84808
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.76621 0.05591 85.25 <2e-16 ***
log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7497 on 178 degrees of freedom
Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548
F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16
Vous ˆetes d´ej`a en mesure de comprendre tous les ´el´ements de l’output, sauf `a la toute fin lors-
qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement
statistique R2
que nous avons ´etudi´ee est ce qu’on appelle Multiple R-squared dans
l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le mod`ele de r´egression
multiple.
En ce qui concerne les r´esidus, le logiciel nous donne la valeur minimale parmi les r´esidus,
49
la valeur associ´ee au premier quartile (la valeur pour laquelle 25% des r´esidus on une valeur
inf´erieure), la valeur m´ediane (qui n’est pas forc´ement ´egale `a la moyenne), la valeur associ´ee
au troisi`eme quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-
male) peuvent ˆetre utiles pour rep´erer des observations aberrantes.
Une mise en garde : le code ci-dessus estime le mod`ele par MCO utilisant les options
par d´efaut. La fonction lm utilise par d´efaut une hypoth`ese d’homosc´edasticit´e. Donc, les
´ecarts types des deux coefficients (ˆβ0 et ˆβ1 dans notre notation) ne sont pas des ´ecarts types
robustes. Afin d’obtenir des ´ecarts types robustes `a la pr´esence de l’h´et´erosc´edasticit´e, il faut
utiliser la commande suivante :
R> coeftest(jour lm, vcov=vcovHC)
Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intall´es, tel qu’indiqu´e ci-dessus. Il faut aussi charger en m´emoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com-
mande coeftest(·), avec les commandes suivantes :
R> library("lmtest")
R> library("sandwich")
Les r´esultats de cette commande sont comme suit :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16
Ce mod`ele est un exemple d’un mod`ele o`u il n’y a pas une diff´erence ´enorme entre les ´ecarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les ´ecarts types en
une fraction de seconde, il coˆute presque rien de les calculer des deux fac¸ons afin de v´erifier si
50
les r´esultats sont semblables ou non.
Un graphique avec les donn´ees (variable d´ependante sur l’axe vertical et variable explica-
tive sur l’axe horizontal) et la ligne de r´egression est la Figure 2 ci-dessous.
Figure 2
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2
1234567
log(citeprice)
log(subs)
11 Le mod`ele de r´egression simple lorsque X est une variable
dichotomique
Jusqu’ici, nous avons suppos´e que la variable explicative dans le mod`ele de r´egression simple,
X, est une variable al´eatoire continue. Il es souvent le cas que la variable explicative est une
variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, pr´esent ou
51
absent, etc.
On peux repr´esenter ces deux valeurs possibles de la variable explicative variable dichotomi-
que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donn´ees sur la taille des
classes o`u Di = 1 pour des ratios ´el`eves/professeurs inf´erieurs `a 20 est Di = 0 pour des ratios
´el`eves/professeurs au moins ´egaux `a 20.
Dans ces cas, β1 n’a pas l’interpr´etation d’un coefficient de pente. Il a l’interpr´etation de la
moyenne conditionnelle de la variable d´ependante Y lorsque Di = 1. L’ordonn´ee β0 a l’in-
terpr´etation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interpr´etation de
la diff´erence entre les moyennes de deux populations ou plutˆot de sous-populations.
Alg´ebriquement, nous avons
Yi = β0 + β1Xi + ui
⇒ E (Yi|Xi = 0) = β0 + β1 × 0 + E (ui|Xi = 0) = β0
et
⇒ E (Yi|Xi = 1) = β0 + β1 × 1 + E (ui|Xi = 1) = β0 + β1.
On ´ecrit dans le manuel qu’il y a ´equivalence entre d’une part estimer le mod`ele de r´egression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes ´echantillon-
nales des sous-´echantillons. Dans l’encadr´e qui suit, je montre cette ´equivalence. Je montre aussi
l’´equivalence entre tester la significativit´e du coefficient estim´e ˆβ1 et tester la significativit´e de la
diff´erence entre deux moyennes.
Le mod`ele avec une variable explicative dichotomique peut s’´ecire
Yi = β0 + β1Di + ui,
o`u Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les-
52
quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que
¯D ≡
1
n
n
i=1
Di =
n1
n
.
L’estimateur ˆβ0 est donn´e par la formule habituelle
ˆβ0 = ¯Y − ˆβ1
¯D.
L’estimateur ˆβ1 est donn´e par la formule habituelle
ˆβ1 =
n
i=1 Yi − ¯Y Di − ¯D
n
i=1 Di − ¯D
2 .
Dans ce cas, avec Di une variable dichotomique, nous avons
n
i=1
Di − ¯D
2
=
n0
i=1
¯D2
+
n1
i=1
1 − ¯D
2
= n0
n1
n
2
+ n1 1 −
n1
n
2
= n0
n1
n
2
+ n1
n0
n
2
=
n0n1
2
+ n1n0
2
n2
=
n0n1 (n0 + n1)
n2
=
n0n1
n
.
D´efinissons Y 1
i la valeur de Yi dans le cas o`u Di = 1. D´efinissons Y 0
i la valeur de Yi dans le
53
cas o`u Di = 0. Nous avons
ˆβ1 =
n
i=1 Yi − ¯Y Di − ¯D
n0n1/n
=
n1
i=1 Y 1
i − ¯Y (1 − n1/n) − n0
i=1 Y 0
i − ¯Y (n1/n)
n0n1/n
=
n1
i=1 Y 1
i − ¯Y (n0/n) − n0
i=1 Y 0
i − ¯Y (n1/n)
n0n1/n
=
1
n1
n1
i=1
Y 1
i − ¯Y −
1
n0
n0
i=1
Y 0
i − ¯Y
=
1
n1
n1
i=1
Y 1
i −
1
n1
¯Y
n1
i=1
1 −
1
n0
n0
i=1
Y 0
i +
1
n0
¯Y
n0
i=1
1
=
1
n1
n1
i=1
Y 1
i −
n1
n1
¯Y −
1
n0
n0
i=1
Y 0
i +
n0
n0
¯Y
=
1
n1
n1
i=1
Y 1
i −
1
n0
n0
i=1
Y 0
i .
Ceci est tout simplement la diff´erence entre la moyenne ´echantillonnale de Y pour le sous-
´echantillon o`u Di = 1 et sa moyenne ´echantillonnale pour le sous-´echantillon o`u Di = 0.
Il faut maintenant montrer que ˆβ0 est tout simplement ´egal `a la moyenne ´echantillonnale
de Y pour le sous-´echantillon o`u Di = 0. Nous avons
ˆβ0 = ¯Y −
n1
n
n
i=1 Yi − ¯Y Di − ¯D
n0n1/n
= ¯Y −
n1
n
n1
i=1 Y 1
i − ¯Y (1 − n1/n) − n0
i=1 Y 0
i − ¯Y (n1/n)
n0n1/n
= ¯Y −
n1
n
n0
n
n1
i=1 Y 1
i − n1
n
n0
i=1 Y 0
i − ¯Y n0n1
n
+ ¯Y n0n1
n
n0n1/n
= ¯Y −
n1
n
n0
n
n1
i=1 Y 1
i − n1
n
n0
i=1 Y 0
i
n0n1/n
54
=
1
n
n
i=1
Yi −
1
n
n1
i=1
Y 1
i +
n1
n0n
n0
i=1
Y 0
i
=
1
n
n1
i=1
Y 1
i +
n0
i=1
Y 0
i −
1
n
n1
i=1
Y 1
i +
n1
n0n
n0
i=1
Y 0
i
=
1
n
+
n1
n0n
n0
i=1
Y 0
i
=
1
n0
n0
i=1
Y 0
i ,
ce qui fut `a d´emontrer. La statistique t pour tester la significativit´e du coefficient estim´e ˆβ1 est
donn´ee par la formule habituelle :
t =
ˆβ1
SE ˆβ1
.
Dans ce cas, nous avons
t =
¯Y 1
− ¯Y 0
Var ¯Y 1 − ¯Y 0
,
=
¯Y 1
− ¯Y 0
Var ¯Y 1 + Var ¯Y 0
,
=
¯Y 1
− ¯Y 0
− 0
σ2
Y 1
n1
+
σ2
Y 0
n0
,
o`u
¯Y 1
≡
1
n1
n1
i=1
Y 1
i , ¯Y 0
≡
1
n0
n0
i=1
Y 0
i .
Cette formule correspond exactement `a la formule d´eriv´ee dans le chapitre sur la statistique
et les tests d’hypoth`eses pour tester la diff´erence entre les moyennes de deux populations
diff´erentes.
Ici, l’hypoth`ese d’h´et´erosc´edasticit´e permet `a la variance de l’erreur du mod`ele de
r´egression de d´ependre des deux valeurs diff´erentes possibles de Di.
55
12 Concepts `a retenir
– Comment ´ecrire le mod`ele de r´egression simple.
– Le probl`eme de minimisation auquel l’estimateur MCO est une solution.
– Les propri´et´es alg´ebriques de l’estimateur MCO. Il est important de pouvoir suivre les
d´emonstrations de ces propri´et´es et de les comprendre, mais il n’est pas n´ecessaire d’ˆetre
capable de les reproduire.
– Le concept du R2
, et les concepts de somme totale des carr´es, somme expliqu´ee des carr´es,
et somme des r´esidus carr´es et la relation entre ces sommes.
– Les hypoth`eses statistiques de base du mod`ele de r´egression simple qui sont requises pour
montrer l’absence de biais et la convergence.
– Les hypoth`eses additionnelles n´ecessaires pour montrer l’efficience de l’estimateur MCO
(th´eor`eme Gauss-Markov).
– Il faut avoir suivi et compris la d´erivation des propri´et´es ´echantillonnales des coefficients
estim´es.
– Comment tester des hypoth`eses concernant les coefficients estim´es du mod`ele, contre des
hypoth`eses alternatives bilat´erales ou unilat´erales.
– Comment calculer un intervalle de confiance pour les coefficients du mod`ele.
– Comment calculer un intervalle de confiance pour un changement pr´edit.
13 R´ef´erences
Voir ce lien :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf
Derni`ere modification : 12/10/2013
56

Más contenido relacionado

Destacado

La Guerre au Pays de Fouesnant - k-ljhfc
La Guerre au Pays de Fouesnant -  k-ljhfcLa Guerre au Pays de Fouesnant -  k-ljhfc
La Guerre au Pays de Fouesnant - k-ljhfcFoenizella.com
 
Alain bergala 19juin
Alain bergala 19juinAlain bergala 19juin
Alain bergala 19juinmarkreid1895
 
Egipte. Joan i Laia
Egipte. Joan i LaiaEgipte. Joan i Laia
Egipte. Joan i Laiacilamerce
 
44ème session des formations Internationales sur l’approche du Financement Ba...
44ème session des formations Internationales sur l’approche du Financement Ba...44ème session des formations Internationales sur l’approche du Financement Ba...
44ème session des formations Internationales sur l’approche du Financement Ba...Dr. Adidja AMANI, MD MPH
 
Diapopresse4 problematique
Diapopresse4 problematiqueDiapopresse4 problematique
Diapopresse4 problematiqueClaire Rafin
 
Sistema de evaluacion 07
Sistema de evaluacion 07Sistema de evaluacion 07
Sistema de evaluacion 07Adalberto
 
Nedelec au Pays de Fouesnant - -phpg tmdpk
Nedelec au Pays de Fouesnant - -phpg tmdpkNedelec au Pays de Fouesnant - -phpg tmdpk
Nedelec au Pays de Fouesnant - -phpg tmdpkFoenizella.com
 
La Guerre au Pays de Fouesnant - -php8q272e
La Guerre au Pays de Fouesnant - -php8q272eLa Guerre au Pays de Fouesnant - -php8q272e
La Guerre au Pays de Fouesnant - -php8q272eFoenizella.com
 
Ley De Licencia Asueto Y Vacaciones Sept. 2008
Ley De Licencia  Asueto Y Vacaciones Sept. 2008Ley De Licencia  Asueto Y Vacaciones Sept. 2008
Ley De Licencia Asueto Y Vacaciones Sept. 2008Adalberto
 
Slide oral axe3
Slide oral axe3Slide oral axe3
Slide oral axe3rem_pou
 
Nedelec au Pays de Fouesnant - php odaxbk
Nedelec au Pays de Fouesnant - php odaxbkNedelec au Pays de Fouesnant - php odaxbk
Nedelec au Pays de Fouesnant - php odaxbkFoenizella.com
 
El arte para el cerebro
El arte para el cerebroEl arte para el cerebro
El arte para el cerebroAdalberto
 

Destacado (20)

La Guerre au Pays de Fouesnant - k-ljhfc
La Guerre au Pays de Fouesnant -  k-ljhfcLa Guerre au Pays de Fouesnant -  k-ljhfc
La Guerre au Pays de Fouesnant - k-ljhfc
 
Introduccion a OpenData
Introduccion a OpenDataIntroduccion a OpenData
Introduccion a OpenData
 
Alain bergala 19juin
Alain bergala 19juinAlain bergala 19juin
Alain bergala 19juin
 
Egipte. Joan i Laia
Egipte. Joan i LaiaEgipte. Joan i Laia
Egipte. Joan i Laia
 
44ème session des formations Internationales sur l’approche du Financement Ba...
44ème session des formations Internationales sur l’approche du Financement Ba...44ème session des formations Internationales sur l’approche du Financement Ba...
44ème session des formations Internationales sur l’approche du Financement Ba...
 
Diapopresse4 problematique
Diapopresse4 problematiqueDiapopresse4 problematique
Diapopresse4 problematique
 
100 ans à Fouesnant
100 ans à Fouesnant100 ans à Fouesnant
100 ans à Fouesnant
 
MARSEILLE
MARSEILLEMARSEILLE
MARSEILLE
 
100 ans à Fouesnant
100 ans à Fouesnant100 ans à Fouesnant
100 ans à Fouesnant
 
MONTPELLIER
MONTPELLIERMONTPELLIER
MONTPELLIER
 
Serious games mohamed yassine kharbouch
Serious games mohamed yassine kharbouchSerious games mohamed yassine kharbouch
Serious games mohamed yassine kharbouch
 
Sistema de evaluacion 07
Sistema de evaluacion 07Sistema de evaluacion 07
Sistema de evaluacion 07
 
Nedelec au Pays de Fouesnant - -phpg tmdpk
Nedelec au Pays de Fouesnant - -phpg tmdpkNedelec au Pays de Fouesnant - -phpg tmdpk
Nedelec au Pays de Fouesnant - -phpg tmdpk
 
Diapopresse3
Diapopresse3Diapopresse3
Diapopresse3
 
La Guerre au Pays de Fouesnant - -php8q272e
La Guerre au Pays de Fouesnant - -php8q272eLa Guerre au Pays de Fouesnant - -php8q272e
La Guerre au Pays de Fouesnant - -php8q272e
 
Ley De Licencia Asueto Y Vacaciones Sept. 2008
Ley De Licencia  Asueto Y Vacaciones Sept. 2008Ley De Licencia  Asueto Y Vacaciones Sept. 2008
Ley De Licencia Asueto Y Vacaciones Sept. 2008
 
Slide oral axe3
Slide oral axe3Slide oral axe3
Slide oral axe3
 
Nedelec au Pays de Fouesnant - php odaxbk
Nedelec au Pays de Fouesnant - php odaxbkNedelec au Pays de Fouesnant - php odaxbk
Nedelec au Pays de Fouesnant - php odaxbk
 
Semlex Hardware
Semlex HardwareSemlex Hardware
Semlex Hardware
 
El arte para el cerebro
El arte para el cerebroEl arte para el cerebro
El arte para el cerebro
 

Similar a Regsimple

Projet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_DauphineProjet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_DauphineAli Sana
 
Cours analyse-num source1
Cours analyse-num source1Cours analyse-num source1
Cours analyse-num source1Lacina Zina
 
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdfJeanPhilippeTurcotte5
 
Reduction de modele_et_controle_de_lecou (1)
Reduction de modele_et_controle_de_lecou (1)Reduction de modele_et_controle_de_lecou (1)
Reduction de modele_et_controle_de_lecou (1)Boughraraanis
 
Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...
Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...
Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...AlexanderABANOBI
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveAlilo Mabhoour
 
Thèse Quantification sur cône de lumière
Thèse Quantification sur cône de lumièreThèse Quantification sur cône de lumière
Thèse Quantification sur cône de lumièreStéphane Salmons
 
cours_statistique_descriptive.pdf
cours_statistique_descriptive.pdfcours_statistique_descriptive.pdf
cours_statistique_descriptive.pdfBoukarOudraogo3
 
Box Methode M2 R
Box Methode M2 RBox Methode M2 R
Box Methode M2 Rguestb16e95
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)YoussefTrimech
 
Electrocinetiqu mpsi
Electrocinetiqu mpsiElectrocinetiqu mpsi
Electrocinetiqu mpsinada laboudi
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveMouna Ettahiri
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomialeCONFITURE
 
Dynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL MultiphysicsDynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL MultiphysicsAlexanderABANOBI
 

Similar a Regsimple (20)

METHODES NUMERIQUES.pdf
METHODES NUMERIQUES.pdfMETHODES NUMERIQUES.pdf
METHODES NUMERIQUES.pdf
 
Projet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_DauphineProjet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_Dauphine
 
Cours analyse-num source1
Cours analyse-num source1Cours analyse-num source1
Cours analyse-num source1
 
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
1_PDFsam_MQG804_NotesDeCours_A23_1.pdf
 
Reduction de modele_et_controle_de_lecou (1)
Reduction de modele_et_controle_de_lecou (1)Reduction de modele_et_controle_de_lecou (1)
Reduction de modele_et_controle_de_lecou (1)
 
Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...
Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...
Analysis and Modelisation of Fluid Transport, the Euler Problem and Common Ap...
 
Recherches opérationnelles
Recherches opérationnellesRecherches opérationnelles
Recherches opérationnelles
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
Thèse Quantification sur cône de lumière
Thèse Quantification sur cône de lumièreThèse Quantification sur cône de lumière
Thèse Quantification sur cône de lumière
 
cours_statistique_descriptive.pdf
cours_statistique_descriptive.pdfcours_statistique_descriptive.pdf
cours_statistique_descriptive.pdf
 
Rapport final-FIROZI-V2
Rapport final-FIROZI-V2Rapport final-FIROZI-V2
Rapport final-FIROZI-V2
 
Optimisation
OptimisationOptimisation
Optimisation
 
Box Methode M2 R
Box Methode M2 RBox Methode M2 R
Box Methode M2 R
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)
 
Electrocinetiqu mpsi
Electrocinetiqu mpsiElectrocinetiqu mpsi
Electrocinetiqu mpsi
 
Krigeage
KrigeageKrigeage
Krigeage
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomiale
 
Dynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL MultiphysicsDynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
Dynamic Analysis of an Elbow Bracket in COMSOL Multiphysics
 

Más de mohamedchaouche

219146492 algebre-lineaire
219146492 algebre-lineaire219146492 algebre-lineaire
219146492 algebre-lineairemohamedchaouche
 
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02mohamedchaouche
 
Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_mohamedchaouche
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009mohamedchaouche
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multmohamedchaouche
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unmohamedchaouche
 
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)mohamedchaouche
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 

Más de mohamedchaouche (17)

219146492 algebre-lineaire
219146492 algebre-lineaire219146492 algebre-lineaire
219146492 algebre-lineaire
 
Un
UnUn
Un
 
Correlation econometrie
Correlation econometrieCorrelation econometrie
Correlation econometrie
 
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
 
Econometrie
EconometrieEconometrie
Econometrie
 
Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_
 
Series temporelles
Series temporellesSeries temporelles
Series temporelles
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
 
Tadti crs3-n
Tadti crs3-nTadti crs3-n
Tadti crs3-n
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 
Ch02 seance01-diapos
Ch02 seance01-diaposCh02 seance01-diapos
Ch02 seance01-diapos
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 

Regsimple

  • 1. ECO 4272 : Introduction `a l’´econom´etrie Notes sur le mod`ele de r´egression simple Steve Ambler∗ D´epartement des sciences ´economiques ´Ecole des sciences de la gestion Universit´e du Qu´ebec `a Montr´eal c 2013 : Steve Ambler Automne 2013 ∗ Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a ambler.steven@uqam.ca. 1
  • 2. Table des mati`eres 1 Introduction 4 2 Objectifs du cours 4 3 Le mod`ele de r´egression simple 4 4 Estimateur moindres carr´es ordinaires (MCO) 5 4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO . . . . . . . . . . . . . . . . . . 9 4.1.1 La somme des r´esidus est z´ero . . . . . . . . . . . . . . . . . . . . . . . . 10 4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale de la variable d´ependante . . . . . . . . . . . . . . . . . . 10 4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus . . . . . . . . . . . 11 4.2 La notion de l’ajustement statistique (R2 ) . . . . . . . . . . . . . . . . . . . . . . 12 4.3 L’´ecart type de la r´egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5 Hypoth`eses statistiques de base du mod`ele 17 5.1 Esp´erance conditionnelle nulle de l’erreur . . . . . . . . . . . . . . . . . . . . . . 18 5.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 18 5.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6 Propri´et´es statistiques de l’estimateur 20 6.1 Absence de biais de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6.1.1 ˆβ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 6.1.2 ˆβ0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 6.2 Convergence de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6.3 Efficience de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 6.3.1 Th´eor`eme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 6.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7 Propri´et´es ´echantillonnales de l’estimateur 34 7.1 Estimateur convergent de σ2 ˆβ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 7.2 Estimateur convergent de σ2 ˆβ1 en cas d’homosc´edasticit´e . . . . . . . . . . . . . . . 38 7.3 D´etecter l’h´et´erosc´edasticit´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 8 Tests d’hypoth`ese 41 8.1 Approche g´eneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 8.2 Hypoth`ese alternative bilat´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 8.3 Hypoth`ese alternative unilat´erale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 9 Intervalles de confiance pour les coefficients 43 9.1 Intervalles de confiance pour les pr´edictions . . . . . . . . . . . . . . . . . . . . . 44 10 Un exemple d’estimation du mod`ele de r´egression simple avec R 45 2
  • 3. 11 Le mod`ele de r´egression simple lorsque X est une variable dichotomique 51 12 Concepts `a retenir 55 13 R´ef´erences 56 3
  • 4. 1 Introduction 2 Objectifs du cours – Pr´esenter le mod`ele de r´egression simple. – D´eriver l’estimateur moindres carr´es ordinaires (MCO). – ´Etudier les propri´et´es alg´ebriques de cet estimateur. – ´Etudier la mesure habituelle de l’ajustement statistique, le R2 . – Regarder les hypoth`eses statistiques derri`ere le mod`ele et analyser leurs cons´equences pour l’estimateur MCO (absence de biais, convergence, efficience). – Montrer l’absence de biais de l’estimateur MCO. – D´eriver les propri´et´es ´echantillonnales de l’estimateur MCO et montrer sa convergence. – Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques. – Montrer, sous les hypoth`eses d’homosc´edasticit´e et normalit´e, l’efficience de l’estimateur MCO (th´eor`eme Gauss-Markov). – Analyser les tests d’hypoth`ese concernant les param`etres estim´es du mod`ele. – Analyser le calcul d’intervalles de confiance pour les param`etres estim´es dans le cadre du mod`ele. 3 Le mod`ele de r´egression simple – Le mod`ele de base peut s’´ecrire Yi = β0 + β1Xi + ui. L’id´ee de base est qu’une variable ´economique Yi peut ˆetre pr´edite ou expliqu´e par une autre va- riable ´economique Xi. La relation entre les deux variables est lin´eaire. Sans le terme ui, l’´equation est l’´equation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonn´ee `a l’origine et β1 est 4
  • 5. la pente de la droite. On peut penser au param`etre β0 comme ´etant associ´e `a une deuxi`eme variable explicative qui est une constante qu’on normalise pour ˆetre ´egale `a un. Autrement dit, on aurait pu ´ecrire le mod`ele comme Yi = β0 × 1 + β1 × Xi + ui. Le mod`ele de r´egression simple contient une constante par d´efaut. Il est possible aussi d’´etudier le mod`ele suivant : Yi = βXi + ui. Ce mod`ele, sans constante, a des propri´et´es statistiques assez diff´erentes. Pour ceux qui s’int´eressent `a poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003). On appelle commun´ement Yi la variable d´ependante du mod`ele de r´egression, et on appelle Xi la variable explicative du mod`ele de r´egression. 4 Estimateur moindres carr´es ordinaires (MCO) – Nous consid´erons le probl`eme de pr´edire la valeur de la variable d´ependante Yi, ´etant donn´ee la valeur de Xi. – L’erreur de pr´evision peut s’´ecrire Yi − β0 − β1Xi. – Le probl`eme `a r´esoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la somme des erreurs de pr´evision au carr´e : – Notez que le crit`ere de minimiser la somme des erreurs au carr´e n’est pas le seul crit`ere possible. Par exemple, on pourrait d´ecider de minimiser la somme des erreurs en valeur absolue. – Il y a deux raisons fondamentales pour la popularit´e et l’importance de l’estimateur MCO dans l’histoire de la statistique et de l’´econom´etrie. 1. D’abord, l’alg`ebre est relativement simple. Le crit`ere est une expression quadratique (du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme 5
  • 6. d’´equations lin´eaires. Il est tr`es facile de r´esoudre un syst`eme de deux ´equations lin´eaires. 2. Deuxi`ement, sous certaines conditions (`a voir plus tard), l’estimateur MCO des coef- ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs lin´eaires et non biais´es – autrement dit, il est l’estimateur le plus efficient parmi les estimateur lin´eaires non biais´es. – Le probl`eme de minimisation peut s’´ecrire comme suit. min β0,β1 n i=1 (Yi − β0 − β1Xi)2 . – Les conditions du premier ordre (CPOs) pour ce probl`eme sont comme suit. D’abord par rapport au choix de β0 : −2 n i=1 Yi − ˆβ0 − ˆβ1Xi = 0. Ensuite, par rapport au choix de β1 : −2 n i=1 Yi − ˆβ0 − ˆβ1Xi Xi = 0, o`u j’ai ´ecrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs MCO, c’est `a dire les solutions au probl`eme de minimisation. 1 – Il s’agit de deux ´equations o`u les deux inconnus sont ˆβ0 et ˆβ1. – Il est facile d’isoler ˆβ0 en fonction de ˆβ1 et par la suite de trouver la solution pour ˆβ1. – Nous avons `a partir de la premi`ere CPO : n i=1 Yi − ˆβ0 − ˆβ1Xi = 0 ⇒ n i=1 ˆβ0 = n ˆβ0 = n i=1 Yi − ˆβ1Xi 1. En principe, il faudrait v´erifier les conditions du deuxi`eme ordre pour savoir que nous avons trouv´e un minimum et non un maximum. Nous n’allons pas faire cet exercice ici. 6
  • 7. ⇒ ˆβ0 = 1 n n i=1 Yi − ˆβ1 1 n n i=1 Xi ⇒ ˆβ0 = ¯Y − ˆβ1 ¯X. Nous venons de trouver la solution pour ˆβ0 en fonction des moyennes ´echantillonnales ¯X et ¯Y et de la solution pour ˆβ1. – Maintenant, substituant cette solution dans la deuxi`eme CPO, nous avons : n i=1 Yi − ¯Y + ˆβ1 ¯X − ˆβ1Xi Xi = 0. – Multipliant des deux cˆot´es de l’´equation par 1 n et r´earrangeant, nous obtenons 1 n n i=1 YiXi − 1 n n i=1 ¯Y Xi − 1 n n i=1 ˆβ1 (Xi)2 + 1 n n i=1 ˆβ1 ¯XXi = 0 ⇒ 1 n n i=1 YiXi − ¯Y 1 n n i=1 Xi −ˆβ1 1 n n i=1 (Xi)2 − ¯X 1 n n i=1 Xi = 0 ⇒ 1 n n i=1 YiXi − ¯Y ¯X −ˆβ1 1 n n i=1 (Xi)2 − ¯X ¯X = 0 ⇒ ˆβ1 = 1 n n i=1 YiXi − ¯X ¯Y 1 n n i=1 (Xi)2 − ¯X2 ⇒ ˆβ1 = 1 n n i=1 Yi − ¯Y Xi − ¯X 1 n n i=1 Xi − ¯X 2 . Cette solution d´epend des identit´es 1 n n i=1 YiXi − ¯X ¯Y = 1 n n i=1 Yi − ¯Y Xi − ¯X 7
  • 8. et 1 n n i=1 (Xi)2 − ¯X2 = 1 n n i=1 Xi − ¯X 2 . Ceci est facile `a montrer. Nous avons 1 n n i=1 Yi − ¯Y Xi − ¯X 1 n n i=1 YiXi − Yi ¯X − Xi ¯Y + ¯X ¯Y = 1 n n i=1 YiXi − 1 n n i=1 Yi ¯X − 1 n n i=1 Xi ¯Y + 1 n n i=1 ¯X ¯Y = 1 n n i=1 YiXi − ¯X 1 n n i=1 Yi − ¯Y 1 n n i=1 Xi + n n ¯X ¯Y = 1 n n i=1 YiXi − ¯X ¯Y − ¯Y ¯X + ¯X ¯Y = 1 n n i=1 YiXi − ¯X ¯Y . La preuve pour le d´enominateur est semblable. C’est une premi`ere fac¸on d’exprimer la solution. Multipliant num´erateur et d´enominateur par n nous avons aussi ˆβ1 = n i=1 Yi − ¯Y Xi − ¯X n i=1 Xi − ¯X 2 . C’est une deuxi`eme fac¸on d’exprimer la solution. Maintenant, divisant num´erateur et d´enominateur par (n − 1) nous avons aussi ˆβ1 = 1 (n−1) n i=1 Yi − ¯Y Xi − ¯X 1 (n−1) n i=1 Xi − ¯X 2 . – Donc, nous avons trois expressions ´equivalentes pour la solution pour ˆβ1. – Comme aide-m´emoire, la derni`ere expression est peut-ˆetre la plus utile. Elle dit que l’estima- 8
  • 9. teur MCO de β1 est le ratio entre la covariance ´echantillonnale entre X et Y et la variance ´echantillonnale de X (voir le chapitre sur la th´eorie des probabilit´es pour les d´efinitions de covariance ´echantillonnale et variance ´echantillonnale). – Pour r´ep´eter ceci en notation alg´ebrique : ˆβ1 = Cov (X , Y ) Var (X) . – Je crois qu’il n’est pas trop difficile de se souvenir de cette fac¸on d’´ecrire la solution pour ˆβ1, et de se souvenir de la solution pour ˆβ0 en termes des moyennes ´echantillonnales ¯X et ¯Y et ˆβ1. 4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO – L’estimateur MCO poss`ede quelques propri´et´es de base que nous allons d´emontrer dans cette section. – Nous allons par la suite nous servir de ces propri´et´es `a maintes reprises par la suite pour trouver d’autres propri´et´es de l’estimateur MCO. – J’appelle ces propri´et´es les propri´et´es alg´ebriques puisqu’elles ne d´ependent pas d’hy- poth`eses concernant les propri´et´es statistiques des variables al´eatoires Y , X ou u. – Autrement dit, pour n’importe quelles s´eries de donn´ees sur deux variables X et Y , ces propri´et´es doivent tenir. On n’a mˆeme pas besoin de supposer que X et Y sont des variables al´eatoires en bonne et due forme. – Plusieurs de ces propri´et´es d´ependent du fait que le mod`ele de r´egression inclut une constante. – Pour le cas de mod`eles qui n’incluent pas une constante, voir l’article de Windmeijer (1994), ou encore celui d’Eisenhauer (2003). 9
  • 10. 4.1.1 La somme des r´esidus est z´ero – D´efinissons ˆui ≡ Yi − ˆβ0 − ˆβ1Xi, le r´esidu de la r´egression pour l’observation i. – Nous voulons montrer que : 1 n n i=1 ˆui = 0. – Voici la preuve. 1 n n i=1 ˆui = 1 n n i=1 Yi − ¯Y + ˆβ1 ¯X − ˆβ1Xi = 1 n n i=1 Yi − ¯Y − ˆβ1 1 n n i=1 Xi − ¯X = 0. 4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale de la variable d´ependante – D´efinissons ˆYi ≡ ˆβ0 + ˆβ1Xi, la valeur pr´edite de Yi. – Nous voulons montrer que : 1 n n i=1 ˆYi = ¯Y . – Voici la preuve : ˆYi ≡ Yi − ˆui ⇒ 1 n n i=1 ˆYi = 1 n n i=1 Yi − 1 n n i=1 ˆui = 1 n n i=1 Yi ≡ ¯Y . 10
  • 11. 4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus – Nous voulons montrer que : n i=1 Xi ˆui = 0. – Ceci est la d´efinition de l’orthogonalit´e entre deux variables. – Puisque nous allons utiliser l’alg`ebre lin´eaire dans le chapitre sur le mod`ele de r´egression multiple, c’est peut-ˆetre opportun d’introduire ici le concept d’orthogonalit´e entre deux vec- teurs. Nous pouvons r´e´ecrire cette ´equation en notation vectorielle comme n i=1 Xi ˆui = X1 X2 . . . Xn          ˆu1 ˆu2 ... ˆun          ≡ X ˆU = 0. – Donc c’est la d´efinition habituelle d’orthogonalit´e entre deux vecteurs en alg`ebre lin´eaire. – Nous verrons plus loin qu’il y a aussi une interpr´etation g´eom´etrique. – Voici la preuve : n i=1 Xi ˆui = n i=1 Xi ˆui − ¯X n i=1 ˆui = n i=1 Xi − ¯X ˆui = n i=1 Xi − ¯X Yi − ¯Y + ˆβ1 ¯X − ˆβ1Xi = n i=1 Xi − ¯X Yi − ¯Y − ˆβ1 Xi − ¯X = n i=1 Xi − ¯X Yi − ¯Y − ˆβ1 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y 11
  • 12. − n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y − n i=1 Xi − ¯X Yi − ¯Y = 0. – L’orthogonalit´e est reli´ee `a l’interpr´etation g´eom´etrique de la m´ethode des MCO. Estimer un mod`ele par MCO revient `a projeter la variable d´ependante dans l’espace travers´e par la variable explicative (ou les variables explicatives dans le cas de la r´egression multiple). – Le principe est illustr´e par la Figure 1 ci-dessous. Nous constatons sur le graphique que si nous prenons la ligne de r´egression comme un vecteur, la ligne pointill´ee sur le graphique est un vecteur dont la longueur ´egale la valeur de ˆui `a ce point. Il forme un angle droit par rapport `a la ligne de r´egression, d’o`u le terme orthogonal . – Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in- terpr´etation g´eom´etrique de la r´egression simple se trouve dans l’article de Davidson et Mac- Kinnon (1999). Figure 1 4.2 La notion de l’ajustement statistique (R2 ) – D´efinissons : TSS ≡ n i=1 Yi − ¯Y 2 , 12
  • 13. la somme totale des carr´es ( total sum of squares en anglais) ; SSR ≡ n i=1 Yi − ˆYi 2 , la somme des r´esidus au carr´e ( residual sum of squares en anglais) ; ESS ≡ n i=1 ˆYi − ¯Y 2 , la somme expliqu´ee des carr´es ( explained sum of squares en anglais). – Nous pouvons montrer que : TSS = ESS + SSR. – Voici la preuve : TSS = n i=1 Yi − ¯Y 2 = n i=1 Yi − ˆYi + ˆYi − ¯Y 2 = n i=1 Yi − ˆYi 2 + n i=1 ˆYi − ¯Y 2 +2 n i=1 Yi − ˆYi ˆYi − ¯Y = SSR + ESS + 2 n i=1 ˆui ˆYi − ¯Y = SSR + ESS + 2 n i=1 ˆui ˆYi − 2¯Y n i=1 ˆui = SSR + ESS + 2 n i=1 ˆui ˆYi = SSR + ESS + 2 n i=1 ˆui ˆβ0 + ˆβ1Xi 13
  • 14. = SSR + ESS + 2ˆβ0 n i=1 ˆui + 2ˆβ1 n i=1 ˆuiXi = SSR + ESS. Notez que nous avons invoqu´e `a quelques reprises les propri´et´es alg´ebriques de l’estimateur MCO que nous avons d´ej`a d´emontr´ees. – Maintenant, d´efinissons R2 ≡ ESS TSS . – Puisque TSS, ESS et SSR sont la somme de termes au carr´e (et pour cette raison sont des termes positifs sinon strictement positifs), il faut que : 0 ≤ R2 ≤ 1. – Il faut aussi que R2 = 1 − SSR TSS . – L’ajustement statistique s’appelle aussi le coefficient de d´etermination de la r´egression. – L’ajustement statistique est d´efini ind´ependamment des propri´et´es statistiques du mod`ele de r´egression. Il a l’interpr´etation du pourcentage de la variation de la variable d´ependante Y autour de sa moyenne qui peut ˆetre expliqu´e par les variations de la variable explicative X. – Pour le mod`ele de r´egression simple, il y a une relation alg´ebrique exacte entre le R2 et le coefficient de corr´elation entre les variables X et Y . La relation est R2 = Corr (X, Y ) . – Je montre ce r´esultat dans l’encadr´e qui suit. – La lecture de l’encadr´e est facultative, mais je vous encourage `a retenir le r´esultat (´egalit´e entre la mesure R2 et le coefficient de corr´elation entre X et Y au carr´e). 14
  • 15. Je d´emontre ici que l’ajustement statistique (dans le mod`ele de r´egression simple) doit ˆetre ´egal au carr´e du coefficient de corr´elation entre X et Y . Nous avons R2 ≡ n i=1 ˆYi − ¯Y 2 n i=1 Yi − ¯Y 2 Nous avons aussi (en multipliant le num´erateur et le d´enominateur dans la d´efinition de la corr´elation ´echantillonnale par (n − 1)) Corr (X , Y ) 2 ≡   n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 n i=1 Yi − ¯Y 2   2 = n i=1 Xi − ¯X Yi − ¯Y 2 n i=1 Xi − ¯X 2 n i=1 Yi − ¯Y 2 Donc, il faut montrer que n i=1 ˆYi − ¯Y 2 n i=1 Yi − ¯Y 2 = n i=1 Xi − ¯X Yi − ¯Y 2 n i=1 Xi − ¯X 2 n i=1 Yi − ¯Y 2 ⇔ n i=1 ˆYi − ¯Y 2 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y 2 . Travaillant avec le bras gauche de cette ´equation, nous avons n i=1 ˆYi − ¯Y 2 n i=1 Xi − ¯X 2 = n i=1 ˆβ0 + ˆβ1Xi − ¯Y 2 n i=1 Xi − ¯X 2 = n i=1 ¯Y − ˆβ1 ¯X + ˆβ1Xi − ¯Y 2 n i=1 Xi − ¯X 2 15
  • 16. = n i=1 ˆβ1Xi − ˆβ1 ¯X 2 n i=1 Xi − ¯X 2 = ˆβ2 1 n i=1 Xi − ¯X 2 n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 2 n i=1 Xi − ¯X 2 2 = n i=1 Xi − ¯X Yi − ¯Y 2 , ce qui fut `a d´emontrer. Donc, mˆeme si nous sommes en train de discuter des propri´et´es alg´ebriques du mod`ele de r´egression simple, et mˆeme si la notion du R2 est d´efinie ind´ependamment des propri´et´es statistiques des variables X et Y , nous voyons que le R2 est reli´e au concept statistique de corr´elation. Il existe des tests d’hypoth`ese de la significativit´e de corr´elations entre variables al´eatoires (que nous n’allons pas explorer dans ce cours). – Tel qu’indiqu´e plus tˆot, l’ajustement statistique R2 est d´efini ind´ependamment des hy- poth`eses statistiques derri`ere le mod`ele. – Nous venons de voir (dans l’encadr´e pr´ec´edant) qu’il y a un lien stricte dans le mod`ele de r´egression simple entre le R2 et le coefficient de corr´elation entre la variable d´ependante Y et la variable explicative X. – Le R2 a aussi une autre interpr´etation statistique. On peut l’utiliser pour tester l’hy- poth`ese nulle de l’absence de relation entre la variable explicative (les variables expli- catives `a part la constante dans le mod`ele de r´egression multiple). Voir Giles (2013b, 2013c). Selon Giles, le R2 suit, sous l’hypoth`ese nulle (et sous l’hypoth`ese de l’ho- mosc´edasticit´e), une distribution Beta. – Nous allons voir dans le chapitre sur la r´egression multiple qu’on peut construire une 16
  • 17. autre statistique pour tester la mˆeme hypoth`ese qui suit une distribution F de Fisher. 4.3 L’´ecart type de la r´egression – D´efinissons : s2 ˆu = 1 (n − 2) n i=1 (ˆui)2 = SSR (n − 2) . – Dans le cas o`u nous supposons une variance constante du terme d’erreur du mod`ele (voir la section suivante concernant les hypoth`eses statistiques du mod`ele), c’est un estimateur non biais´e de la variance du terme d’erreur. – Il s’agit du cas o`u les erreurs sont homosc´edastiques, o`u donc Var (ui) = σ2 u, une variance constante. – Notez que cette hypoth`ese (variance constante des erreurs) ne fera pas partie des hypoth`eses statistiques de base que nous adopterons. – Nous divison par (n − 2) afint d’obtenir un estimateur non biais´e. – Il y a une autre raison pour la division par (n − 2). On perd deux degr´es de libert´e car il faut estimer deux param`etres inconnus (β0 et β1) afin de calculer les r´esidus de la r´egression. – Maintenant, d´efinissons : sˆu ≡ s2 ˆu. – sˆu est l’´ecart type de la r´egression. – L’´ecart type de la r´egression est un des r´esultats d’estimation que fournissent automatique- ment la plupart des logiciels ´econom´etriques. 5 Hypoth`eses statistiques de base du mod`ele – `A partir de ce point, nous ´elaborons quelques propri´et´es statistiques de l’estimateur MCO. Elles d´ependront de certaines hypoth`eses statistiques de base, que voici. 17
  • 18. – Ces hypoth`eses seront cruciales pour montrer les propri´et´es d’absence de biais et de conver- gence. – Nous en aurons besoin aussi (avec une hypoth`ese additionnelle) pour montrer l’efficience de l’estimateur MCO. 5.1 Esp´erance conditionnelle nulle de l’erreur – Nous supposons que : E (ui|X = Xi) = 0. – Intuitivement, l’hypoth`ese nous dit que le fait de connaˆıtre la valeur r´ealis´ee de la variable explicative ne donne pas d’information concernant la valeur de l’erreur. 5.2 Observations i.i.d. – Nous supposons que : (Xi , Yi) , i = 1, 2, . . . , n i.i.d. – Nous avons d´ej`a vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On suppose que nos observations sont ind´ependantes et qu’elles sont identiquement distribu´ees. – Notez que nous ne faisons pas une hypoth`ese concernant le type de distribution qui g´en`ere les observations (normale, exponentielle, par´etienne stable, etc.). Tout ce qu’on suppose c’est que les observations sont toujours g´en´er´ees par la mˆeme distribution. 5.3 Les observations aberrantes sont peu probables – Nous supposons que : 0 < E X4 < ∞; 0 < E Y 4 < ∞; 18
  • 19. – Cette hypoth`ese sert `a nous rappeler que l’estimateur MCO peut ˆetre sensible aux observa- tions aberrantes. – Il est toujours bon d’examiner les r´esidus afin de d´etecter la pr´esence de ces observations, qui pourraient indiquer des probl`emes comme des erreurs de transcription des valeurs dans les donn´ees, etc. – Il est important de noter qu’en pr´esence d’observations aberrantes importantes, la valeur de ˆβ1 peut ˆetre tr`es sensible `a cette ou `a ces valeurs, mˆeme si elles sont peu nombreuses. Intui- tement, mˆeme un nombre tr`es faible de ces observations aberrantes peut avoir une influence pr´epond´erantes sur les valeurs estim´ees des param`etres. Dans un tel cas, les estimateurs MCO ne seront pas convergents puisqu’ils d´ependent d’un petit nombre d’observations. 5.4 Notre approche Par rapport `a l’approche dans certains manuels de base en ´econom´etrie, nous adoptons une approche plus g´en´erale. 1. Souvent, la premi`ere fois qu’on pr´esente le mod`ele de r´egression simple, on suppose que les observations sur la variable explicative X sont constantes `a travers des ´echantillons diff´erents. Pour d´eriver les propri´et´es statistiques de notre estimateur MCO, on peut traiter les observations comme des constantes au lieu de les traiter comme des r´ealisations d’une variable al´eatoire. L’alg`ebre est plus facile, mais c’est beaucoup moins r´ealiste. 2. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose aussi que la variance condition- nelle du terme d’erreur est ´egale `a sa variance non conditionnelle et qu’elle est constante. Autrement dit, Var (ui|X = Xi) = Var (ui) = σ2 u. L’avantage de ces hypoth`eses simplificatrices est de simplifier l’alg`ebre. On arrive `a une expression plus simple pour la variance ´echantillonnale de nos estimateurs MCO. Malheu- reusement, ce sont des hypoth`eses qui tiennent rarement dans les donn´ees utilis´ees par les 19
  • 20. ´econom`etres appliqu´es. Cette hypoth`ese n’est pas retenue ici, ce qui va mener `a une expres- sion plus compliqu´ee mais plus g´en´erale pour la variance ´echantillonnale de nos estimateurs. 3. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose que le terme d’erreur est distribu´e selon une loi normale. Ceci permet de faire de l’inf´erence exacte (voir le chapitre sur les tests d’hypoth`ese pour une d´efinition). Cette hypoth`ese n’est pas retenue ici. 4. Au lieu de supposer la normalit´e, nous allons faire l’hypoth`ese que les ´echantillons de donn´ees que nous avons `a notre disposition sont assez grandes pour que les statistiques utilis´ees pour faire des tests d’hypoth`ese soient approximatiement distribu´ees selon une loi normale. 6 Propri´et´es statistiques de l’estimateur 6.1 Absence de biais de l’estimateur 6.1.1 ˆβ1 – Nous avons : ˆβ1 = n i=1 Xi − ¯X Yi − ¯Y n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X β0 + β1Xi + ui − β0 − β1 ¯X − ¯u n i=1 Xi − ¯X 2 = β1 n i=1 Xi − ¯X 2 + n i=1 Xi − ¯X (ui − ¯u) n i=1 Xi − ¯X 2 = β1 + n i=1 Xi − ¯X (ui − ¯u) n i=1 Xi − ¯X 2 = β1 + n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 . – Ceci montre que l’estimateur est ´egal `a sa vraie valeur plus un terme qui d´epend du produit des erreurs avec les ´ecarts des Xi par rapport `a leurs moyennes ´echantillonnales. 20
  • 21. – Notez ce que l’on fait pour passer de la premi`ere ligne `a la deuxi`eme. On substitut Yi utili- sant sa valeur si le mod`ele de r´egression est lit´eralement vrai. Cela fait apparaˆıtre les vraies valeurs de β0 et de β1, et fait apparaˆıtre aussi l’erreur (la vraie et non le r´esidu). On fera souvent une substitution semblable lorsqu’on veut analyser les propri´et´es statistiques d’un estimateur. – Maintenant, il s’agit de calculer la valeur esp´er´ee de cette expression : E ˆβ1 = β1 + E n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 = β1 + E E n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 |X1, X2, . . . Xn = β1 + E n i=1 Xi − ¯X E (ui|X1, X2, . . . Xn) n i=1 Xi − ¯X 2 = β1 + E n i=1 Xi − ¯X E (ui|Xi) n i=1 Xi − ¯X 2 = β1. – Pour passer de la premi`ere ligne `a la deuxi`eme dans cette suite d’´egalit´es, nous avons utilis´e la loi des esp´erances it´er´ees, qui dit que pour n’importe quelle variable al´eatoire Y , E (E (Yi|Xi)) = E (Yi) . Nous l’avons tout simplement appliqu´e `a la variable al´eatoire qui est n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 . – Pour passer de la deuxi`eme `a la troisi`eme ligne, il faut noter que les esp´erances des X condi- tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des constantes et les ´ecrire du cˆot´e gauche de l’op´erateur d’esp´erance conditionnelle. Ce faisant, 21
  • 22. l’op´erateur d’esp´erance conditionnelle s’applique uniquement au terme d’erreur ui. – La derni`ere ´egalit´e suit directement de nos hypoth`eses de base concernant le mod`ele, dont une stipule que E (ui|Xi) = 0. 6.1.2 ˆβ0 – Nous avons : E ˆβ0 = E ¯Y − ˆβ1 ¯X = E β0 + β1 ¯X + 1 n n i=1 ui − ˆβ1 ¯X = β0 + E β1 − ˆβ1 ¯X + 1 n n i=1 E (ui) = β0 + 1 n n i=1 E (E (ui|Xi)) = β0, o`u encore une fois nous avons utilis´e la loi des esp´erances it´er´ees : E (ui) = E (E (ui|Xi)) . – Ici, j’ai suivi la r´eponse `a la question 4.7 du manuel. Il n’est pas forc´ement ´evident que E β1 − ˆβ1 ¯X = 0, puisque ¯X doit ˆetre consid´er´e comme une variable al´eatoire. Il faut remonter `a l’absence de biais de ˆβ1, o`u on a montr´e que β1 − ˆβ1 = − n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 . 22
  • 23. Donc, on a E β1 − ˆβ1 ¯X = −E n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 ¯X = −E ¯X n i=1 Xi − ¯X E (ui|Xi) n i=1 Xi − ¯X 2 = 0. Encore une fois, nous avons utilis´e la loi des esp´erances it´er´ees. 6.2 Convergence de l’estimateur – Nous allons remettre ce sujet `a un peu plus tard. En calculant les propri´etes ´echantillonnales de l’estimateur, nous allons montrer que sa variance d´ecroˆıt avec la taille de l’´echantillon n. – Si c’est le cas, nous avons `a toutes fins pratiques montr´e sa convergence. Nous avons montr´e l’absence de biais, et la variance converge `a z´ero lorsque n tend vers l’infini. 6.3 Efficience de l’estimateur – Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypoth`ese addi- tionnelle, que le terme d’erreur du mod`ele de r´egression est homosc´edastique, ce qui veut dire a une variance constante. – Si ce n’est pas le cas, et si nous connaissons de quoi d´epend la variance du terme d’erreur, il peut ˆetre possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit de l’estimateur moindres carr´es g´en´eralis´es (generalised least squares ou GLS en anglais), que nous n’aurons pas l’occasion d’´etudier en d´etail dans ce cours. Voir le chapitre 15 du manuel. – Une preuve d´etaill´ee du th´eor`eme Gauss-Markov se trouve dans l’ecadr´e qui suit. Nous n’aurons probablement pas le temps de voir cette preuve en d´etail dans le cours. Je vous invite fortement `a la lire et `a la comprendre. 23
  • 24. 6.3.1 Th´eor`eme Gauss-Markov – Il s’agit d’une preuve que l’estimateur ˆβ1 est l’estimateur le plus efficient parmi les estimateurs qui sont lin´eaires en Yi. – Rappelons d’abord les hypoth`eses qui doivent tenir pour d´emontrer le th´eor`eme Gauss- Markov. 1. E (ui|X1, . . . , Xn) = 0 . 2. Var (ui|X1, . . . , Xn) = σ2 u, 0 < σ2 u < ∞. 3. E (uiuj|X1, . . . , Xn) = 0, i = j. – La derni`ere hypoth`ese dit que les erreurs ne sont pas corr´el´ees entre elles. – D’abord, montrons que ˆβ1 est un estimateur lin´eaire en Yi. Nous avons ˆβ1 = n i=1 Yi − ¯Y Xi − ¯X n i=1 Xi − ¯X 2 = n i=1 Yi Xi − ¯X − ¯Y n i=1 Xi − ¯X n i=1 Xi − ¯X 2 = n i=1 Yi Xi − ¯X n i=1 Xi − ¯X 2 = n i=1 Xi − ¯X n i=1 Xi − ¯X 2 Yi ≡ n i=1 ˆaiYi, o`u donc ˆai ≡ Xi − ¯X n i=1 Xi − ¯X 2 – Les poids ˆai ne d´ependent pas des Yi, et donc l’estimateur est lin´eaire en Yi. – Nous avons vu que sous l’hypoth`ese de l’homosc´edasticit´e, la variance conditionnelle de 24
  • 25. ˆβ1 est donn´ee par Var ˆβ1|X1, . . . , Xn = σ2 u n i=1 Xi − ¯X 2 . – Nous avons aussi montr´e que l’estimateur ˆβ1 est conditionnellement non biais´e. – Maintenant, consid´erons n’importe quel estimateur lin´eaire ˜β1 = n i=1 aiYi et qui satisfait la propri´et´e E ˜β1|X1, . . . , Xn = β1. – Nous avons ˜β1 = n i=1 aiYi = n i=1 ai (β0 + β1Xi + ui) = β0 n i=1 ai + β1 n i=1 aiXi + n i=1 aiui. – Nous avons aussi E n i=1 aiui|X1, . . . , Xn = n i=1 aiE (ui|X1, . . . , Xn) = 0. – De cette fac¸on, nous avons E ˜β1|X1, . . . , Xn = β0 n i=1 ai + β1 n i=1 aiXi . 25
  • 26. – Par hypoth`ese, notre estimateur est conditionnellement non biais´e et donc il faut que β0 n i=1 ai + β1 n i=1 aiXi = β1. – Pour que cette ´egalit´e tienne pour des valeurs quelconques de β0 et de β1 il faut que n i=1 ai = 0 et n i=1 aiXi = 1. – Nous avons donc ˜β1 = β0 n i=1 ai + β1 n i=1 aiXi + n i=1 aiui = β1 + n i=1 aiui. – Calculons la variance conditionnelle de ˜β1. Nous avons Var ˜β1|X1, . . . , Xn = Var n i=1 aiui|X1, . . . , Xn = n i=1 Var (aiui|X1, . . . , Xn) + 2 i<j Cov (aiui , ajuj|X1, . . . , Xn) = n i=1 Var (aiui|X1, . . . , Xn) = σ2 u n i=1 ai 2 . – Les covariances disparaissent `a cause de la troisi`eme hypoth`ese ci-dessus. – Maintenant, il suffit de montrer que la variance conditionnelle de ˜β1 doit ˆetre sup´erieure `a la variance conditionnelle de ˆβ1. 26
  • 27. – D´efinissons di ≡ ai − ˆai – Nous avons n i=1 ai 2 = n i=1 (ˆai + di)2 = n i=1 ˆa2 i + 2 n i=1 ˆaidi + n i=1 di 2 . – Maintenant, il faut utiliser la d´efinition des ˆai qui est donn´ee ci-dessus. Nous avons n i=1 ˆaidi = n i=1 Xi − ¯X di n i=1 Xi − ¯X 2 = n i=1 Xidi − ¯X n i=1 di n i=1 Xi − ¯X 2 = n i=1 Xi (ai − ˆai) − ¯X n i=1 (ai − ˆai) n i=1 Xi − ¯X 2 = ( n i=1 Xiai − n i=1 Xiˆai) − ¯X ( n i=1 ai − n i=1 ˆai) n i=1 Xi − ¯X 2 = 0. – La derni`ere ´egalit´e tient puisque les deux estimateurs ˜β1 et ˆβ1 sont conditionnellement non biais´es et pour cette raison il faut que n i=1 Xiai − n i=1 Xiˆai = n i=1 ai = n i=1 ˆai = 0. – Finalement, nous avons donc Var ˜β1|X1, . . . , Xn = σ2 u n i=1 ai 2 27
  • 28. = σ2 u n i=1 ˆa2 i + n i=1 di 2 = Var ˆβ1|X1, . . . , Xn + σ2 u n i=1 di 2 ⇒ Var ˜β1|X1, . . . , Xn − Var ˆβ1|X1, . . . , Xn = σ2 u n i=1 di 2 > 0 si ∃i tel que di = 0. Si di = 0, ∀i, l’estimateur ˜β1 est tout simplement l’estimateur MCO. – Il y a aussi une preuve du th´eor`eme Gauss-Markov dans le cadre du mod`ele de r´egression multiple dans le chapitre suivant. Vous allez constater (j’esp`ere) que la preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas d´emontr´e l’efficience de l’estimateur ˆβ0. 6.4 Erreur quadratique moyenne – Cette section est une peu plus ardue que les autres. Sa lecture est facultative. – Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance moins ´elev´ee que le deuxi`eme. – Une autre fac¸on de comparer deux estimateurs est de comparer leurs erreurs quadratiques moyennes. Nous avons d´ej`a vu ce concept dans le chapitre sur la statistique. – Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconque ˜β : EQM ˜β ≡ E ˜β − β 2 . – Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur. – C’est une mesure assez intuitive de la pr´ecision d’un estimateur. 28
  • 29. – Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit, EQM ˜β = Var ˜β + E ˜β − β 2 . – Voici la preuve. Nous savons que pour une variable al´eatoire quelconque X, Var (X) = E X2 − (E (X))2 . Cette formule s’applique aussi `a la variable al´eatoire ˜β − β . Donc nous avons Var ˜β − β = E ˜β − β 2 − E ˜β − β 2 ⇒ E ˜β − β 2 = Var ˜β − β + E ˜β − β 2 ⇒ E ˜β − β 2 = Var ˜β + E ˜β − β 2 , ce qui fut `a montrer, puisque Var ˜β − β = Var ˜β dˆu au fait que β n’est pas une variable al´eatoire. – Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont pas forc´ement non biais´es. – Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement parce qu’ils ont une variance tr`es faible. 29
  • 30. – Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du mod`ele de r´egression lin´eaire et l’estimateur MCO, le concept d’efficience est plus au centre de l’analyse puisque, sous des hypoth`eses relativement faibles, l’estimateur MCO est non biais´e. – Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le contexte du mod`ele de r´egression simple. – Il ´etudie le mod`ele de r´egression simple sans constante : Yi = βXi + ui, o`u les Xi sont non al´eatoires et o`u on a ui ∼ i.i.d. (0, σ2 ) (les erreurs sont ind´ependamment et identiquement distribu´ees avec moyenne nulle et variance ´egale `a σ2 ). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypoth`ese concernant l’esp´erance non conditionnelle des erreurs simplifie l’analyse.) – Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on obtient d´epend de β lui-mˆeme, qui est non observable. Donc, c’est un estimateur qui est non op´erationnel , c’est `a dire que nous pouvons mˆeme pas calculer. – Dans son deuxi`eme article (2013e), Giles montre qu’il est possible de trouver un estima- teur op´erationnel (que nous pouvons calculer) si on minimise une combinaison lin´eaire de la variance et du biais de l’estimateur. Le probl`eme peut s’´ecrire min β Q =   α   Var β σ2   + (1 − α)   E ˜β − β β   2    . – La fonction objectif est une somme pond´er´ee de la variance relative (par rapport `a la variance de l’erreur) et du biais au carr´e relatif (par rapport `a la vraie valeur de β) de l’estimateur β. 30
  • 31. – La solution `a ce probl`eme (que nous allons calculer un peu plus loin) est β = β (1 − α) n i=1 Xi 2 α + (1 − α) n i=1 Xi 2 o`u β est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur donn´ee de α. – Pour α = 0 nous avons β = β. Autrement dit, si on met tout le poids sur la minimisation du biais au carr´e, on obtient l’estimateur MCO, qui n’est pas biais´e. – Pour α > 0, |β| < |β|. L’estimateur β est plus pr`es de z´ero. (C’est un exemple de ce qu’on appelle un shrinkage estimator en anglais.) – Cette solution est un peu difficile `a montrer. Commenc¸ons par d´efinir β comme un esti- mateur lin´eaire quelconque : β ≡ n i=1 aiYi pour des constantes quelconques ai. – Cette d´efinition nous donne imm´ediatement E β = E n i=1 ai (βXi + ui) = β n i=1 aiXi + E n i=1 aiui = β n i=1 aiXi ⇒ E β − β = β n i=1 aiXi − 1 puisque nous avons fait l’hypoth`ese que les Xi sont non stochastiques et que E (ui) = 0. 31
  • 32. – La variance de l’estimateur est donn´ee par Var β = n i=1 ai 2 Var (Yi) = σ2 n i=1 ai 2 pusque nous faisons l’hypoth`ese que la variance des erreurs est constante. – Notre probl`eme de minimisation peut donc s’´ecrire min ai Q = α σ2 n i=1 ai 2 σ2 + (1 − α) β n i=1 (aiXi − 1) β 2 ou bien min ai Q = α n i=1 ai 2 + (1 − α) n i=1 (aiXi − 1) 2 . – Les variables de choix du probl`eme sont les ai et non β lui-mˆeme. – En choisissant notre fonction objectif comme une somme pond´er´ee de la variance rela- tive de l’estimateur et du biais au carr´e relatif, nous avons r´eussi `a ´eliminer les param`etres non observables (β et σ2 ) du probl`eme. – Pour un ai quelconque la condition du premier ordre s’´ecrit ∂Q ∂ai = 0 = 2αai + 2 (1 − α) Xi n j=1 ajXj − 1 ⇒ αai + (1 − α) Xi n j=1 ajXj − 1 = 0. – Multiplions cette expression par Yi et calculons la somme `a travers les n termes en ai. Nous obtenons αaiYi + (1 − α) XiYi n j=1 ajXj − 1 = 0 ⇒ α n i=1 aiYi + (1 − α) n i=1 XiYi n j=1 ajXj − 1 = 0 32
  • 33. ⇒ αβ + (1 − α) n i=1 XiYi n j=1 ajXj − 1 = 0 (1) puisque nous avons d´efini au d´epart notre estimateur comme β ≡ n i=1 aiYi. – Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme `a travers les n termes, ce qui donne αaiXi + (1 − α) Xi 2 n j=1 ajXj − 1 = 0 ⇒ α n i=1 aiXi + (1 − α) n i=1 Xi 2 n j=1 ajXj − 1 = 0 ⇒ α n j=1 ajXj + (1 − α) n i=1 Xi 2 n j=1 ajXj − 1 = 0 (par un simple changement d’indice) ⇒ α n j=1 ajXj + (1 − α) n i=1 Xi 2 n j=1 ajXj − (1 − α) n i=1 Xi 2 = 0 ⇒ n j=1 ajXj α + (1 − α) n i=1 Xi 2 = (1 − α) n i=1 Xi 2 ⇒ n j=1 ajXj = (1 − α) n i=1 Xi 2 α + (1 − α) n i=1 Xi 2 . – Maintenant, substituons cette solution pour n j=1 ajXj dans l´equation (1) et simpli- fions : ⇒ αβ + (1 − α) n i=1 XiYi (1 − α) 2 i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 . − 1 = 0 ⇒ αβ = (1 − α) n i=1 XiYi α + (1 − α) n i=1 Xi 2 − (1 − α) n i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 33
  • 34. ⇒ αβ = (1 − α) n i=1 XiYi α α + (1 − α) 2 i=1 Xi 2 ⇒ β = n i=1 XiYi (1 − α) α + (1 − α) 2 i=1 Xi 2 ⇒ β = n i=1 XiYi n i=1 Xi 2 (1 − α) n i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 = β (1 − α) n i=1 Xi 2 α + (1 − α) 2 i=1 Xi 2 . – Ceci est le cas puisque pour ce mod`ele l’estimateur MCO β est donn´e par (exercice) β = n i=1 XiYi n i=1 Xi 2 . 7 Propri´et´es ´echantillonnales de l’estimateur – Dans cette section, le but principal de l’exercice est de d´eriver la variance (et par extension l’´ecart type) de nos estimateurs MCO ˆβ0 et ˆβ1. – Les ´ecarts types de ˆβ0 et de ˆβ1 font partie de l’output standard de n’importe quel logiciel de r´egression. – Cet exercice est crucial afin de pouvoir effectuer des tests d’hypoth`ese concernant les coef- ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estim´es. – Nous avons : ˆβ1 = β1 + n i=1 Xi − ¯X ui n i=1 Xi − ¯X 2 = β1 + 1 n n i=1 Xi − ¯X ui 1 n n i=1 Xi − ¯X 2 . – D’abord, travaillons avec le num´erateur. 34
  • 35. – Nous avons d´ej`a vu que ¯X p −→ µX, ce qui veut dire que la moyenne ´echantillonnale converge en probabilit´e `a la moyenne dans la population. Donc, pour des ´echantillons assez grands, nous avons 1 n n i=1 Xi − ¯X ui ≈ 1 n n i=1 (Xi − µX) ui ≡ ¯v ≡ 1 n n i=1 vi. – La variable al´eatoire vi que nous venons de d´efinir satisfait les propri´et´es suivantes : 1. E (vi) = 0 ; 2. vi est i.i.d. ; 3. σ2 v < ∞ . – La variable satisfait les hypoth`eses pour pouvoir invoquer le th´eor`eme de la limite centrale. Donc, nous avons ¯v σ¯v d −→ N (0 , 1) , o`u σ2 ¯v = σ2 v/n. – Maintenant, travaillons avec le d´enominateur. Nous avons d´ej`a vu `a la fin du chapitre sur la statistique que la variance ´echantillonnale est un estimateur convergent de la variance d’une variable al´eatoire. Donc nous avons : 1 n − 1 n i=1 Xi − ¯X 2 ≈ 1 n n i=1 Xi − ¯X 2 p −→ σ2 X. – Mettant ensemble num´erateur et d´enominateur, nous avons Var ˆβ1 − β1 = σ2 v n (σ2 X) 2 et, ˆβ1 − β1 d −→ N 0 , σ2 v n (σ2 X) 2 35
  • 36. – Notez tr`es bien ce que nous venons de faire. Nous avons montr´e la convergence en distri- bution du num´erateur, et la convergence en probabilit´e du d´enominateur, et par la suite nous avons saut´e tout de suite `a la convergence en distribution du ratio des deux. – Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro- pri´et´es asymptotiques (propri´et´es en grand ´echantillon) de nos statistiques. Notez que nous ne pouvons pas le faire lorsqu’il s’agit d’esp´erances. Par exemple, E X Y = E(X) E(Y ) sauf dans le cas de variables al´eatoires ind´ependantes. – Par contre, sous certaines hypoth`eses, nous avons ¯X p −→ µX, ¯Y p −→ µY ⇒ ¯X ¯Y p −→ µX µY , et ¯X d −→ N µX , σ2 ¯X , ¯Y p −→ µY ⇒ ¯X ¯Y d −→ N µX µY , 1 µY 2 σ2 ¯X . – Nous avons utilis´e le Th´eor`eme de Slutsky, un des th´eor`emes les plus utiles en th´eorie des probabilit´es. Il permet de scinder des expressions compliqu´ees de variables al´eatoires (produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la convergence de l’expression suit imm´ediatement. – Nous aurons fr´equemment l’occasion d’utiliser une version de ce th´eor`eme. Pour plus de d´etails, voir le chapitre des notes sur le mod`ele de r´egresson multiple. – Notez que la variance de ˆβ1 d´ecroˆıt avec n et tend vers z´ero lorsque n tend vers l’infini. Lors- qu’on parle de convergence en distribution, on utilise normalement une variable al´eatoire normalis´ee de telle fac¸on `a ce sa variance ne diminue pas avec la taille de l’´echantillon. Pour 36
  • 37. cette raison, il serait conventionnel de dire que : √ n ˆβ1 − β1 d −→ N 0 , σ2 v (σ2 X) 2 – Maintenant, d´efinissons σ2 ˆβ1 ≡ σ2 v n (σ2 X) 2 . – Maintenant, si nous divisons ˆβ1 − β1 par la racine carr´ee de σ2 ˆβ1 , nous obtenons une sta- tistique qui converge en distribution vers une loi normale centr´ee r´eduite : ˆβ1 − β1 σ2 ˆβ1 ≡ ˆβ1 − β1 σˆβ1 d −→ N (0 , 1) . – Notez que nous venons de montrer `a toutes fins pratiques la convergence de l’estimateur MCO de ˆβ1. Nous avions d´ej`a montr´e que l’estimateur MCO est non biais´e. Maintenant, nous venons de montrer que la variance de notre estimateur tend vers z´ero lorsque la taille de l’´echantillon tend vers l’infini. Autrement dit, lim n→∞ σ2 ˆβ1 = 0. – Nous avons tous les pr´erequis pour conclure que l’estimateur MCO de β1 converge en pro- babilit´e `a sa vraie valeur. 7.1 Estimateur convergent de σ2 ˆβ1 – La variance de la variable al´eatoire ¯v d´efinie ci-dessus n’est g´en´eralement pas connue, la variance de X non plus. – Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population par un estimateur convergent de ce moment. 37
  • 38. – D´efinissons : ˆσ2 ˆβ1 ≡ 1 n 1 n−2 n i=1 Xi − ¯X 2 (ˆui)2 1 n n i=1 Xi − ¯X 2 2 – Ensuite, d´efinissons l’´ecart type estim´e de ˆβ1 comme SE ˆβ1 ≡ ˆσ2 ˆβ1 . – La plupart des logiciels de r´egression calculent cet ´ecart type. Il faut, par contre, v´erifier si l’option par d´efaut est de calculer cet ´ecart type robuste (robuste `a la pr´esence de l’h´et´ero- sc´edasticit´e) ou plutˆot de calculer l’´ecart type qui suppose l’homosc´edasticit´e. 7.2 Estimateur convergent de σ2 ˆβ1 en cas d’homosc´edasticit´e – Si nous sommes prˆets `a supposer que Var (ui|X = Xi) = Var (ui) = σ2 u, nous pouvons remplacer l’estimateur convergent de σ2 ˆβ1 par ˜σ2 ˆβ1 ≡ 1 n 1 n−1 n i=1 (ˆui)2 1 n n i=1 Xi − ¯X 2 . – J’ai utilis´e la notation l´eg`erement diff´erente ˜σ2 ˆβ1 pour distinguer entre le cas g´en´eral (lors- qu’on ne suppose pas l’homosc´edasticit´e) o`u on utilise un estimateur robuste de la variance et le cas particulier o`u on suppose l’homosc´edasticit´e. – Le manuel est parmi les seuls `a utiliser l’estimateur robuste comme l’estimateur par d´efaut. Beaucoup de manuels pr´esentent le cas homosc´edastique comme le cas de base et montre par la suite qu’est-ce qui arrive si l’hypoth`ese d’homosc´edasticit´e ne tient pas. Je partage l’opinion des auteurs que l’homosc´edasticit´e est une hypoth`ese forte qui risque de ne pas tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien 38
  • 39. d’enseigner le cas g´en´eral et l’estimateur robuste comme l’option par d´efaut d’un ´econom`etre appliqu´e. – Lorsqu’on utilise un logiciel de r´egression comme R, STATA ou GRETL, il faut lire atten- tivement la documentation pour savoir quelle est l’option par d´efaut utilis´ee pour estimer la matrice variance-covariance des coefficients estim´es. Dans la plupart des cas l’option par d´efaut suppose l’homosc´edasticit´e et il faut sp´ecifier l’option robuste ou l’´equivalent si vous n’ˆetes pas prˆets `a supposer l’homosc´edasticit´e, ce qui sera g´en´eralement le cas. Les ´ecarts types robustes peuvent ˆetre plus grands ou plus petits que les ´ecarts types non ro- bustes. Pour une explication plus d´etaill´ee et une illustration dans un cas tr`es simple, voir Auld (2012). Auld d´emontre les points suivants. 1. En pr´esence d’h´et´erosc´edasticit´e, si la variance des erreurs n’est pas fortement corr´el´ee avec la variable explicative du mod`ele (X), il y aura peu de diff´erence entre l’´ecart type calcul´e avec la m´ethode robuste et l’´ecart type calcul´e sous l’hypoth`ese de l’ho- mosc´edasticit´e. 2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne ´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant l’ho- mosc´edasticit´e) sera biais´e vers z´ero (trop petit). L’´ecart type calcul´e avec la m´ethode robuste sera en g´en´eral plus grand que l’´ecart type non robuste. 3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont pr`es de leur moyenne ´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant l’homosc´edasticit´e) sera biais´e et sera en moyenne trop grand. L’´ecart type calcul´e avec la m´ethode robuste sera en g´en´eral plus petit que l’´ecart type non robuste. 4. Avec les donn´ees r´eeles on rencontre plus souvent le cas o`u l’´ecart type non robuste est baisi´e vers z´ero (est trop petit). Donc, typiquement les ´ecarts types robustes sont plus ´elev´es que les ´ecarts types non robustes. 39
  • 40. 7.3 D´etecter l’h´et´erosc´edasticit´e – Il peut ˆetre important de pouvoir d´etecter la pr´esence d’erreurs h´et´erosc´edastiques. Il y a des tests formels, 2 mais il y a aussi des m´ethodes moins formelles que les chercheurs appliqu´es peuvent utiliser. – Une fac¸on simple serait de cr´eer, une fois le mod`ele estim´e, un graphique avec les Xi sur l’axe horizontal et les r´esidus carr´es ˆu2 i sur l’axe vertical. – Une relation ´evidente entre les deux (par exemple, des valeurs de ˆu2 i qui semblent augmenter avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi) est un signe clair de la pr´esence d’h´et´erosc´edasticit´e. – Une autre fac¸on serait, une fois le mod`ele estim´e, d’estimer une r´egression o`u on prend les r´esidus carr´es comme variable d´ependante et Xi comme variable explicative, ou des fonctions non lin´eaires des Xi. Par exemple, ˆu2 i = γ0 + γ1Xi + i ou encore ˆu2 i = γ0 + γ1Xi 2 + i. – L’id´ee est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit ˆγ1 la valeur estim´ee du coef- ficient γ1 Une valeur significative de ˆγ1 (voir la section suivante sur les tests d’hypoth`ese) serait un indice clair de la pr´esence d’h´et´erosc´edasticit´e. 3 Nous allons revenir sur cette ques- tion et sur quelques tests formels pour d´etecter l’homosc´edasticit´e dans le chapitre sur la r´egression multiple. 2. Nous verrons certains de ces tests formels dans le chapitre sur le mod`ele de r´egression multiple. 3. Notez qu’il ne s’agit pas d’un test formel avec des propri´et´es statistiques connues. Il faut interpr´eter le r´esultat du test `a titre indicatif seulement. Par contre, le test formel appel´e test Breusch-Pagan est essentiellement bas´e sur une r´egression de ce type. 40
  • 41. 8 Tests d’hypoth`ese 8.1 Approche g´eneral – Le principe de base pour tester des hypoth`eses simples est presqu’identique `a ce que nous avons vu dans le chapitre sur l’inf´erence statistique. – L’hypoth`ese nulle sp´ecifie g´en´eralement que le coefficient d’int´erˆet (qui peut ˆetre ˆβ0 ou ˆβ1 prend une certaine valeur. L’hypoth`ese alternative peut ˆetre bilat´erale ou unilat´erale, d´ependant du contexte. – D’abord, il faut cr´eer une statistique normalis´ee qui a une moyenne nulle et une variance unitaire sous l’hypoth`ese nulle. Il s’agit d’une statistique t mˆeme si en g´en´eral elle n’ob´eit pas `a une loi t de Student. Par exemple : t ≡ ˆβ1 − β1,0 SE ˆβ1 o`u SE ˆβ1 est un estimateur convergent de l’´ecart type du coefficient β1 et β1,0 est la valeur que prend le coefficient β1 sous l’hypoth`ese nulle. – Si nous sommes prˆets `a faire l’hypoth`ese que le terme d’erreur du mod`ele ui ob´eit `a une loi normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de Student. Dans ce cas, bien sˆur, il est pr´ef´erable d’utiliser la forme homosc´edastique pour le calcul de l’´ecart type de l’estimateur ˆβ1. – Si non, sous les hypoth`eses du mod`ele de r´egression, la statistique t ob´eit en grand ´echantillon `a une loi normale centr´ee r´eduite. Voir la section pr´ec´edente sur les propri´et´es ´echantillonnales de l’estimateur. – Comme il est habituellement le cas, nous remplac¸ons l’´ecart type dans le d´enominateur par un estimateur convergent. – Maintenant, nous proc´edons exactement comme dans le chapitre sur la statistique. 41
  • 42. 8.2 Hypoth`ese alternative bilat´erale – D’abord, si l’hypoth`ese alternative est bilat´erale : H1 : β1 = β1,0, nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment loin de z´ero. La p-value du test est donn´ee par : p-value = Pr |z| > |tact | = 2Φ −|tact | o`u tact est la valeur calcul´ee de la statistique et, comme auparavant, Φ(z) est la valeur de la distribution normale centr´ee r´eduite cumul´ee `a z. – On appelle appelle commun´ement un test de significativit´e un test de l’hypoth`ese nulle que la variable explicative n’est pas significative, et donc n’aide pas `a expliquer la variabilit´e de la variable d´ependante. Dans, ce cas, l’hypoth`ese nulle est H0 : ˆβ1 = 0 et l’hypoth`ese alternative est bilat´erale. On peut aussi parler d’un test de significativit´e de la constante dans le mod`ele de r´egression simple. Les tests de significativit´e sont tellement r´epandus que, si l’output fourni par un logiciel d’´econom´etrie donne les statistiques t associ´ees aux coefficients estim´es, il s’agit de statistiques appropri´ees pour tester l’hypoth`ese nulle que le coefficient est ´egal `a z´ero. 8.3 Hypoth`ese alternative unilat´erale – Ensuite, si l’hypoth`ese alternative est unilat´erale, il faut distinguer entre les deux cas pos- sibles. 1. D’abord, H1 : β1 > β1,0. Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment positive. La 42
  • 43. p-value du test est donn´ee par : p-value = Pr z > tact = 1 − Φ tact . 2. La deuxi`eme possibilit´e est : H1 : β1 < β1,0. Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment n´egative. La p-value du test est donn´ee par : p-value = Pr z < tact = Φ tact . 9 Intervalles de confiance pour les coefficients – Le principe est identique que pour l’estimateur de la moyenne de la population que nous avons vu dans le chapitre sur l’inf´erence statistique. – Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la valeur de z > 0 tel que Φ(−z) = 1 − X/100 2 . Donc, on cherche la valeur de z > 0 pour laquelle (100−X) 2 % de la distribution normale centr´ee r´eduite se trouve `a gauche de −z. Cela veut dire bien sˆur que (100−X) 2 % de la distri- bution normale centr´ee r´eduite se trouve `a droite de z. – Nous avons (pour ˆβ1 : le principe pour ˆβ0 est identique) : X 100 = Pr −z ≤ ˆβ1 − β1 ˆσˆβ1 ≤ z = Pr −zˆσˆβ1 ≤ ˆβ1 − β1 ≤ zˆσˆβ1 43
  • 44. = Pr −zˆσˆβ1 ≤ β1 − ˆβ1 ≤ zˆσˆβ1 = Pr ˆβ1 − zˆσˆβ1 ≤ β1 ≤ ˆβ1 + zˆσˆβ1 , o`u ˆσˆβ1 ≡ SE ˆβ1 , notre estimateur convergent de l’´ecart type de β1. – Cela implique que l’intervalle de confiance de X% autour de ˆβ1 peut ˆetre ´ecrit de la fac¸on suivante : ˆβ1 ± zˆσˆβ1 , o`u Φ(−z) = 1 − X/100 2 . 9.1 Intervalles de confiance pour les pr´edictions Souvent, on estime un mod`ele de r´egression pour pr´edire l’impact du changement de la variable explicative sur la variable d´ependante. Par exemple, dans le cadre du mod`ele d´evelopp´e en d´etail dans le manuel, on pourrait vouloir pr´edire l’impact sur le rendement scolaire d’une r´eduction de la taille moyenne des classes de deux ´eleves. Soit ∆X le changement propos´e de la valeur de la variable explicative. On a tout de suite ∆ˆYi = ˆβ1∆Xi, o`u ∆ˆYi est le changement pr´edit de la variable d´ependante. D´evelopper un intervalle de confiance dans ce cas est facile. Le changement pos´e ∆X est connue. On peut le traiter comme une constante, et donc nous avons Var ∆ˆYi = Var ˆβ1∆Xi = (∆Xi)2 Var ˆβ1 44
  • 45. Donc, proc´edant de la mˆeme mani`ere que pour l’intervalle de confiance pour ˆβ1 lui-mˆeme on a X 100 = Pr  −z ≤ ∆Xi ˆβ1 − β1 (∆Xi) σˆβ1 ≤ z   = Pr −z (∆Xi) σˆβ1 ≤ ∆Xi ˆβ1 − β1 ≤ z (∆Xi) σˆβ1 = Pr −z (∆Xi) σˆβ1 ≤ ∆Xi β1 − ˆβ1 ≤ z (∆Xi) σˆβ1 = Pr −z (∆Xi) σˆβ1 + ∆Xi ˆβ1 ≤ ∆Xiβ1 ≤ z (∆Xi) σˆβ1 + ∆Xi ˆβ1 . Donc, l’intervalle de confiance pour le changement pr´edit est donn´e par ∆Xi ˆβ1 ± z (∆Xi) σˆβ1 Si nous remplac¸ons l’´ecart type de ˆβ1 par un estimateur convergent (notre truc habituel), l’intervalle de confiance peut s’´ecrire ∆Xi ˆβ1 ± z (∆Xi) ˆσˆβ1 10 Un exemple d’estimation du mod`ele de r´egression simple avec R Voici un exemple de comment estimer un mod`ele de r´egression simple avec le logiciel R. L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus de d´etaill´ee. Vous pouvez facilement jouer avec le code une fois que le logiciel est install´e. Le but du mod`ele est de pr´edire la demande pour les abonnements `a des revues scientifiques (abonnements par des biblioth`eques universitaires) o`u la variable explicative est le prix par nombre de citations. Le mod`ele est ln (subsi) = β0 + β1 ln (citepricei) + ui, 45
  • 46. o`u la variable d´ependante subsi est le nombre d’abonnements `a la revue i (mesur´e en logs), et la variable explicative citepricei est le prix annuel d’un abonnement divis´e par le nombre de citations annuel d’articles publi´es dans la revue (mesur´e aussi en logs). Notez que le choix de mesurer les deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre sur les mod`eles de r´egression non lin´eaires. 4 Les donn´ees sont dans une banque de donn´ees qui s’appelle Journals . Il s’agit de donn´ees (avec n = 180) sur les abonnements par des biblioth`eques universitaires `a des revues scientifiques. La taille de l’´echantillon est le nombre de revues dans l’´echantillon. Afin d’effectuer l’estimation d’un mod`ele de r´egression simple de base et afin d’effec- tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais aussi les packages AER (qui contient les donn´ees utilis´ees pour estimer le mod`ele), lmtest, sandwich et zoo (ces trois packages permettent de calculer les ´ecarts types ro- bustes du mod`ele estim´e et d’effectuer des tests d’hypoth`ese utilisant les ´ecarts types ro- bustes). Si les packages ne sont pas d´ej`a install´es, il faut les installer avec la commande install.packages(·) : install.packages("AER") install.packages("lmtest") install.packages("zoo") install.packages("sandwich") Notez que sous Linux il est pr´ef´erable d’installer le package comme administrateur du syst`eme ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R. Une fois les packages install´es, on peut proc´eder `a charger les donn´ees et estimer le mod`ele par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les 4. Entretemps, `a moins d’avis contraire, je vous demande d’utiliser des variables non transform´ees dans les exer- cices empiriques. 46
  • 47. commandes. Les lignes pr´ec´ed´ees par # sont des commentaires. R> # Charger les donn´ees. R> library("AER") R> data("Journals") R> # Permettre d’appeler les variables directement par leurs noms. R> attach(Journals) R> # Calculer des statistiques descriptives concernant les variables. R> # summary(Journals) R> # Cr´eer une base de donn´ees avec un sous-ensemble des variables. R> journals <- Journals[, c("subs", "price")] R> # Ajouter le prix par citation `a la base de donn´ees restreinte. R> journals$citeprice <- Journals$price / Journals$citations R> # Permettre d’appeler les variables dans journals directement. R> attach(journals) R> # Produire un nuage de points avec les abonnements et le prix par citation. R> plot(log(subs) ∼ log(citeprice), data = journals) R> # Estimer le mod`ele par MCO utilisant la commande lm(·). R> # Les r´esultats sont stock´es dans l’objet jour lm. R> jour lm <- lm(log(subs) ∼ log(citeprice)) R> # Ajouter la ligne de r´egression estim´ee au nuage de 47
  • 48. points. R> abline(jour lm) R> # Calculer des statistiques de base avec l’output de l’estimation. R> summary(jour lm) R> # Ouvrir un fichier pour contenir ces statistiques. R> # Le nom du fichier est regumm.out . R> outfile <- file("regsumm.out", "w") R> capture.output(summary(jour lm), file=outfile) R> # Fermer le fichier qui contient l’output. R> close(outfile) R´esumons ce que nous avons fait avec ces commandes. – La commande data(·) charge la banque de donn´ees en m´emoire. – La commande journals<- cr´ee une plus petite banque de donn´ees en extrayant les variables subs (combien d’abonnements) et price (prix de l’abonnement). – La commande journals$citeprice<- ajoute une nouvelle variable `a la banque journals qui est le prix par citation. – La commande plot(·) cr´ee un graphique avec les observations, avec subs (en loga- rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal) – La commande lm(·) estime le mod`ele de r´egression simple par MCO, et la commande jour lm<- place les r´esultats dans la variable jour lm. – La commande abline(·) utilise les r´esultats pour placer la ligne de r´egression sur le graphique qui a d´ej`a ´et´e cr´e´e. – La commande summary(·) imprime les r´esultats de la r´egression `a l’´ecran. – La commande outfile<- cr´ee un fichier texte o`u on peut envoyer les r´esultats. – La commande capture.output(·) envoie les r´esultats dans le fichier qui a ´et´e cr´e´e. 48
  • 49. – La commande close(·) ferme le fichier. Les r´esultats de l’estimation sont comme suit. Call: lm(formula = log(subs) ∼ log(citeprice), data = journals) Residuals: Min 1Q Median 3Q Max -2.72478 -0.53609 0.03721 0.46619 1.84808 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.76621 0.05591 85.25 <2e-16 *** log(citeprice) -0.53305 0.03561 -14.97 <2e-16 *** — Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.7497 on 178 degrees of freedom Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548 F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16 Vous ˆetes d´ej`a en mesure de comprendre tous les ´el´ements de l’output, sauf `a la toute fin lors- qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement statistique R2 que nous avons ´etudi´ee est ce qu’on appelle Multiple R-squared dans l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le mod`ele de r´egression multiple. En ce qui concerne les r´esidus, le logiciel nous donne la valeur minimale parmi les r´esidus, 49
  • 50. la valeur associ´ee au premier quartile (la valeur pour laquelle 25% des r´esidus on une valeur inf´erieure), la valeur m´ediane (qui n’est pas forc´ement ´egale `a la moyenne), la valeur associ´ee au troisi`eme quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi- male) peuvent ˆetre utiles pour rep´erer des observations aberrantes. Une mise en garde : le code ci-dessus estime le mod`ele par MCO utilisant les options par d´efaut. La fonction lm utilise par d´efaut une hypoth`ese d’homosc´edasticit´e. Donc, les ´ecarts types des deux coefficients (ˆβ0 et ˆβ1 dans notre notation) ne sont pas des ´ecarts types robustes. Afin d’obtenir des ´ecarts types robustes `a la pr´esence de l’h´et´erosc´edasticit´e, il faut utiliser la commande suivante : R> coeftest(jour lm, vcov=vcovHC) Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et lmtest soit intall´es, tel qu’indiqu´e ci-dessus. Il faut aussi charger en m´emoire les packages lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com- mande coeftest(·), avec les commandes suivantes : R> library("lmtest") R> library("sandwich") Les r´esultats de cette commande sont comme suit : Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.7662 0.0555 85.8 <2e-16 log(citeprice) -0.5331 0.0345 -15.5 <2e-16 Ce mod`ele est un exemple d’un mod`ele o`u il n’y a pas une diff´erence ´enorme entre les ´ecarts types robustes et non robustes. Puisque l’ordinateur est capable de calculer les ´ecarts types en une fraction de seconde, il coˆute presque rien de les calculer des deux fac¸ons afin de v´erifier si 50
  • 51. les r´esultats sont semblables ou non. Un graphique avec les donn´ees (variable d´ependante sur l’axe vertical et variable explica- tive sur l’axe horizontal) et la ligne de r´egression est la Figure 2 ci-dessous. Figure 2 q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q −4 −2 0 2 1234567 log(citeprice) log(subs) 11 Le mod`ele de r´egression simple lorsque X est une variable dichotomique Jusqu’ici, nous avons suppos´e que la variable explicative dans le mod`ele de r´egression simple, X, est une variable al´eatoire continue. Il es souvent le cas que la variable explicative est une variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, pr´esent ou 51
  • 52. absent, etc. On peux repr´esenter ces deux valeurs possibles de la variable explicative variable dichotomi- que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donn´ees sur la taille des classes o`u Di = 1 pour des ratios ´el`eves/professeurs inf´erieurs `a 20 est Di = 0 pour des ratios ´el`eves/professeurs au moins ´egaux `a 20. Dans ces cas, β1 n’a pas l’interpr´etation d’un coefficient de pente. Il a l’interpr´etation de la moyenne conditionnelle de la variable d´ependante Y lorsque Di = 1. L’ordonn´ee β0 a l’in- terpr´etation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interpr´etation de la diff´erence entre les moyennes de deux populations ou plutˆot de sous-populations. Alg´ebriquement, nous avons Yi = β0 + β1Xi + ui ⇒ E (Yi|Xi = 0) = β0 + β1 × 0 + E (ui|Xi = 0) = β0 et ⇒ E (Yi|Xi = 1) = β0 + β1 × 1 + E (ui|Xi = 1) = β0 + β1. On ´ecrit dans le manuel qu’il y a ´equivalence entre d’une part estimer le mod`ele de r´egression simple par MCO avec une variable explicative X et d’autre part calculer les moyennes ´echantillon- nales des sous-´echantillons. Dans l’encadr´e qui suit, je montre cette ´equivalence. Je montre aussi l’´equivalence entre tester la significativit´e du coefficient estim´e ˆβ1 et tester la significativit´e de la diff´erence entre deux moyennes. Le mod`ele avec une variable explicative dichotomique peut s’´ecire Yi = β0 + β1Di + ui, o`u Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les- 52
  • 53. quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que ¯D ≡ 1 n n i=1 Di = n1 n . L’estimateur ˆβ0 est donn´e par la formule habituelle ˆβ0 = ¯Y − ˆβ1 ¯D. L’estimateur ˆβ1 est donn´e par la formule habituelle ˆβ1 = n i=1 Yi − ¯Y Di − ¯D n i=1 Di − ¯D 2 . Dans ce cas, avec Di une variable dichotomique, nous avons n i=1 Di − ¯D 2 = n0 i=1 ¯D2 + n1 i=1 1 − ¯D 2 = n0 n1 n 2 + n1 1 − n1 n 2 = n0 n1 n 2 + n1 n0 n 2 = n0n1 2 + n1n0 2 n2 = n0n1 (n0 + n1) n2 = n0n1 n . D´efinissons Y 1 i la valeur de Yi dans le cas o`u Di = 1. D´efinissons Y 0 i la valeur de Yi dans le 53
  • 54. cas o`u Di = 0. Nous avons ˆβ1 = n i=1 Yi − ¯Y Di − ¯D n0n1/n = n1 i=1 Y 1 i − ¯Y (1 − n1/n) − n0 i=1 Y 0 i − ¯Y (n1/n) n0n1/n = n1 i=1 Y 1 i − ¯Y (n0/n) − n0 i=1 Y 0 i − ¯Y (n1/n) n0n1/n = 1 n1 n1 i=1 Y 1 i − ¯Y − 1 n0 n0 i=1 Y 0 i − ¯Y = 1 n1 n1 i=1 Y 1 i − 1 n1 ¯Y n1 i=1 1 − 1 n0 n0 i=1 Y 0 i + 1 n0 ¯Y n0 i=1 1 = 1 n1 n1 i=1 Y 1 i − n1 n1 ¯Y − 1 n0 n0 i=1 Y 0 i + n0 n0 ¯Y = 1 n1 n1 i=1 Y 1 i − 1 n0 n0 i=1 Y 0 i . Ceci est tout simplement la diff´erence entre la moyenne ´echantillonnale de Y pour le sous- ´echantillon o`u Di = 1 et sa moyenne ´echantillonnale pour le sous-´echantillon o`u Di = 0. Il faut maintenant montrer que ˆβ0 est tout simplement ´egal `a la moyenne ´echantillonnale de Y pour le sous-´echantillon o`u Di = 0. Nous avons ˆβ0 = ¯Y − n1 n n i=1 Yi − ¯Y Di − ¯D n0n1/n = ¯Y − n1 n n1 i=1 Y 1 i − ¯Y (1 − n1/n) − n0 i=1 Y 0 i − ¯Y (n1/n) n0n1/n = ¯Y − n1 n n0 n n1 i=1 Y 1 i − n1 n n0 i=1 Y 0 i − ¯Y n0n1 n + ¯Y n0n1 n n0n1/n = ¯Y − n1 n n0 n n1 i=1 Y 1 i − n1 n n0 i=1 Y 0 i n0n1/n 54
  • 55. = 1 n n i=1 Yi − 1 n n1 i=1 Y 1 i + n1 n0n n0 i=1 Y 0 i = 1 n n1 i=1 Y 1 i + n0 i=1 Y 0 i − 1 n n1 i=1 Y 1 i + n1 n0n n0 i=1 Y 0 i = 1 n + n1 n0n n0 i=1 Y 0 i = 1 n0 n0 i=1 Y 0 i , ce qui fut `a d´emontrer. La statistique t pour tester la significativit´e du coefficient estim´e ˆβ1 est donn´ee par la formule habituelle : t = ˆβ1 SE ˆβ1 . Dans ce cas, nous avons t = ¯Y 1 − ¯Y 0 Var ¯Y 1 − ¯Y 0 , = ¯Y 1 − ¯Y 0 Var ¯Y 1 + Var ¯Y 0 , = ¯Y 1 − ¯Y 0 − 0 σ2 Y 1 n1 + σ2 Y 0 n0 , o`u ¯Y 1 ≡ 1 n1 n1 i=1 Y 1 i , ¯Y 0 ≡ 1 n0 n0 i=1 Y 0 i . Cette formule correspond exactement `a la formule d´eriv´ee dans le chapitre sur la statistique et les tests d’hypoth`eses pour tester la diff´erence entre les moyennes de deux populations diff´erentes. Ici, l’hypoth`ese d’h´et´erosc´edasticit´e permet `a la variance de l’erreur du mod`ele de r´egression de d´ependre des deux valeurs diff´erentes possibles de Di. 55
  • 56. 12 Concepts `a retenir – Comment ´ecrire le mod`ele de r´egression simple. – Le probl`eme de minimisation auquel l’estimateur MCO est une solution. – Les propri´et´es alg´ebriques de l’estimateur MCO. Il est important de pouvoir suivre les d´emonstrations de ces propri´et´es et de les comprendre, mais il n’est pas n´ecessaire d’ˆetre capable de les reproduire. – Le concept du R2 , et les concepts de somme totale des carr´es, somme expliqu´ee des carr´es, et somme des r´esidus carr´es et la relation entre ces sommes. – Les hypoth`eses statistiques de base du mod`ele de r´egression simple qui sont requises pour montrer l’absence de biais et la convergence. – Les hypoth`eses additionnelles n´ecessaires pour montrer l’efficience de l’estimateur MCO (th´eor`eme Gauss-Markov). – Il faut avoir suivi et compris la d´erivation des propri´et´es ´echantillonnales des coefficients estim´es. – Comment tester des hypoth`eses concernant les coefficients estim´es du mod`ele, contre des hypoth`eses alternatives bilat´erales ou unilat´erales. – Comment calculer un intervalle de confiance pour les coefficients du mod`ele. – Comment calculer un intervalle de confiance pour un changement pr´edit. 13 R´ef´erences Voir ce lien : http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf Derni`ere modification : 12/10/2013 56