1. ECO 4272 : Introduction `a l’´econom´etrie
Notes sur le mod`ele de r´egression simple
Steve Ambler∗
D´epartement des sciences ´economiques
´Ecole des sciences de la gestion
Universit´e du Qu´ebec `a Montr´eal
c 2013 : Steve Ambler
Automne 2013
∗
Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour
les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a
ambler.steven@uqam.ca.
1
3. 11 Le mod`ele de r´egression simple lorsque X est une variable dichotomique 51
12 Concepts `a retenir 55
13 R´ef´erences 56
3
4. 1 Introduction
2 Objectifs du cours
– Pr´esenter le mod`ele de r´egression simple.
– D´eriver l’estimateur moindres carr´es ordinaires (MCO).
– ´Etudier les propri´et´es alg´ebriques de cet estimateur.
– ´Etudier la mesure habituelle de l’ajustement statistique, le R2
.
– Regarder les hypoth`eses statistiques derri`ere le mod`ele et analyser leurs cons´equences pour
l’estimateur MCO (absence de biais, convergence, efficience).
– Montrer l’absence de biais de l’estimateur MCO.
– D´eriver les propri´et´es ´echantillonnales de l’estimateur MCO et montrer sa convergence.
– Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques.
– Montrer, sous les hypoth`eses d’homosc´edasticit´e et normalit´e, l’efficience de l’estimateur
MCO (th´eor`eme Gauss-Markov).
– Analyser les tests d’hypoth`ese concernant les param`etres estim´es du mod`ele.
– Analyser le calcul d’intervalles de confiance pour les param`etres estim´es dans le cadre du
mod`ele.
3 Le mod`ele de r´egression simple
– Le mod`ele de base peut s’´ecrire
Yi = β0 + β1Xi + ui.
L’id´ee de base est qu’une variable ´economique Yi peut ˆetre pr´edite ou expliqu´e par une autre va-
riable ´economique Xi. La relation entre les deux variables est lin´eaire. Sans le terme ui, l’´equation
est l’´equation d’une droite. Si on mesure Yi sur l’axe vertical, β0 est l’ordonn´ee `a l’origine et β1 est
4
5. la pente de la droite. On peut penser au param`etre β0 comme ´etant associ´e `a une deuxi`eme variable
explicative qui est une constante qu’on normalise pour ˆetre ´egale `a un. Autrement dit, on aurait pu
´ecrire le mod`ele comme
Yi = β0 × 1 + β1 × Xi + ui.
Le mod`ele de r´egression simple contient une constante par d´efaut. Il est possible aussi d’´etudier le
mod`ele suivant :
Yi = βXi + ui.
Ce mod`ele, sans constante, a des propri´et´es statistiques assez diff´erentes. Pour ceux qui s’int´eressent
`a poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle commun´ement Yi la variable d´ependante du mod`ele de r´egression, et on appelle
Xi la variable explicative du mod`ele de r´egression.
4 Estimateur moindres carr´es ordinaires (MCO)
– Nous consid´erons le probl`eme de pr´edire la valeur de la variable d´ependante Yi, ´etant donn´ee
la valeur de Xi.
– L’erreur de pr´evision peut s’´ecrire Yi − β0 − β1Xi.
– Le probl`eme `a r´esoudre est celui de choisir les valeurs de β0 et de β1 afin de minimiser la
somme des erreurs de pr´evision au carr´e :
– Notez que le crit`ere de minimiser la somme des erreurs au carr´e n’est pas le seul crit`ere
possible. Par exemple, on pourrait d´ecider de minimiser la somme des erreurs en valeur
absolue.
– Il y a deux raisons fondamentales pour la popularit´e et l’importance de l’estimateur MCO
dans l’histoire de la statistique et de l’´econom´etrie.
1. D’abord, l’alg`ebre est relativement simple. Le crit`ere est une expression quadratique
(du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme
5
6. d’´equations lin´eaires. Il est tr`es facile de r´esoudre un syst`eme de deux ´equations lin´eaires.
2. Deuxi`ement, sous certaines conditions (`a voir plus tard), l’estimateur MCO des coef-
ficients β0 et β1 est l’estimateur avec la plus petite variance parmi tous les estimateurs
lin´eaires et non biais´es – autrement dit, il est l’estimateur le plus efficient parmi les
estimateur lin´eaires non biais´es.
– Le probl`eme de minimisation peut s’´ecrire comme suit.
min
β0,β1
n
i=1
(Yi − β0 − β1Xi)2
.
– Les conditions du premier ordre (CPOs) pour ce probl`eme sont comme suit. D’abord par
rapport au choix de β0 :
−2
n
i=1
Yi − ˆβ0 − ˆβ1Xi = 0.
Ensuite, par rapport au choix de β1 :
−2
n
i=1
Yi − ˆβ0 − ˆβ1Xi Xi = 0,
o`u j’ai ´ecrit un chapeau sur β0 et β1 pour souligner le fait qu’il s’agit de nos estimateurs
MCO, c’est `a dire les solutions au probl`eme de minimisation. 1
– Il s’agit de deux ´equations o`u les deux inconnus sont ˆβ0 et ˆβ1.
– Il est facile d’isoler ˆβ0 en fonction de ˆβ1 et par la suite de trouver la solution pour ˆβ1.
– Nous avons `a partir de la premi`ere CPO :
n
i=1
Yi − ˆβ0 − ˆβ1Xi = 0
⇒
n
i=1
ˆβ0 = n ˆβ0 =
n
i=1
Yi − ˆβ1Xi
1. En principe, il faudrait v´erifier les conditions du deuxi`eme ordre pour savoir que nous avons trouv´e un minimum
et non un maximum. Nous n’allons pas faire cet exercice ici.
6
7. ⇒ ˆβ0 =
1
n
n
i=1
Yi − ˆβ1
1
n
n
i=1
Xi
⇒ ˆβ0 = ¯Y − ˆβ1
¯X.
Nous venons de trouver la solution pour ˆβ0 en fonction des moyennes ´echantillonnales ¯X et
¯Y et de la solution pour ˆβ1.
– Maintenant, substituant cette solution dans la deuxi`eme CPO, nous avons :
n
i=1
Yi − ¯Y + ˆβ1
¯X − ˆβ1Xi Xi = 0.
– Multipliant des deux cˆot´es de l’´equation par 1
n
et r´earrangeant, nous obtenons
1
n
n
i=1
YiXi −
1
n
n
i=1
¯Y Xi −
1
n
n
i=1
ˆβ1 (Xi)2
+
1
n
n
i=1
ˆβ1
¯XXi = 0
⇒
1
n
n
i=1
YiXi − ¯Y
1
n
n
i=1
Xi
−ˆβ1
1
n
n
i=1
(Xi)2
− ¯X
1
n
n
i=1
Xi = 0
⇒
1
n
n
i=1
YiXi − ¯Y ¯X
−ˆβ1
1
n
n
i=1
(Xi)2
− ¯X ¯X = 0
⇒ ˆβ1 =
1
n
n
i=1 YiXi − ¯X ¯Y
1
n
n
i=1 (Xi)2
− ¯X2
⇒ ˆβ1 =
1
n
n
i=1 Yi − ¯Y Xi − ¯X
1
n
n
i=1 Xi − ¯X
2 .
Cette solution d´epend des identit´es
1
n
n
i=1
YiXi − ¯X ¯Y =
1
n
n
i=1
Yi − ¯Y Xi − ¯X
7
8. et
1
n
n
i=1
(Xi)2
− ¯X2
=
1
n
n
i=1
Xi − ¯X
2
.
Ceci est facile `a montrer. Nous avons
1
n
n
i=1
Yi − ¯Y Xi − ¯X
1
n
n
i=1
YiXi − Yi
¯X − Xi
¯Y + ¯X ¯Y
=
1
n
n
i=1
YiXi −
1
n
n
i=1
Yi
¯X −
1
n
n
i=1
Xi
¯Y +
1
n
n
i=1
¯X ¯Y
=
1
n
n
i=1
YiXi − ¯X
1
n
n
i=1
Yi − ¯Y
1
n
n
i=1
Xi +
n
n
¯X ¯Y
=
1
n
n
i=1
YiXi − ¯X ¯Y − ¯Y ¯X + ¯X ¯Y
=
1
n
n
i=1
YiXi − ¯X ¯Y .
La preuve pour le d´enominateur est semblable.
C’est une premi`ere fac¸on d’exprimer la solution. Multipliant num´erateur et d´enominateur
par n nous avons aussi
ˆβ1 =
n
i=1 Yi − ¯Y Xi − ¯X
n
i=1 Xi − ¯X
2 .
C’est une deuxi`eme fac¸on d’exprimer la solution. Maintenant, divisant num´erateur et d´enominateur
par (n − 1) nous avons aussi
ˆβ1 =
1
(n−1)
n
i=1 Yi − ¯Y Xi − ¯X
1
(n−1)
n
i=1 Xi − ¯X
2 .
– Donc, nous avons trois expressions ´equivalentes pour la solution pour ˆβ1.
– Comme aide-m´emoire, la derni`ere expression est peut-ˆetre la plus utile. Elle dit que l’estima-
8
9. teur MCO de β1 est le ratio entre la covariance ´echantillonnale entre X et Y et la variance
´echantillonnale de X (voir le chapitre sur la th´eorie des probabilit´es pour les d´efinitions de
covariance ´echantillonnale et variance ´echantillonnale).
– Pour r´ep´eter ceci en notation alg´ebrique :
ˆβ1 =
Cov (X , Y )
Var (X)
.
– Je crois qu’il n’est pas trop difficile de se souvenir de cette fac¸on d’´ecrire la solution pour
ˆβ1, et de se souvenir de la solution pour ˆβ0 en termes des moyennes ´echantillonnales ¯X et ¯Y
et ˆβ1.
4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO
– L’estimateur MCO poss`ede quelques propri´et´es de base que nous allons d´emontrer dans cette
section.
– Nous allons par la suite nous servir de ces propri´et´es `a maintes reprises par la suite pour
trouver d’autres propri´et´es de l’estimateur MCO.
– J’appelle ces propri´et´es les propri´et´es alg´ebriques puisqu’elles ne d´ependent pas d’hy-
poth`eses concernant les propri´et´es statistiques des variables al´eatoires Y , X ou u.
– Autrement dit, pour n’importe quelles s´eries de donn´ees sur deux variables X et Y , ces
propri´et´es doivent tenir. On n’a mˆeme pas besoin de supposer que X et Y sont des variables
al´eatoires en bonne et due forme.
– Plusieurs de ces propri´et´es d´ependent du fait que le mod`ele de r´egression inclut une constante.
– Pour le cas de mod`eles qui n’incluent pas une constante, voir l’article de Windmeijer (1994),
ou encore celui d’Eisenhauer (2003).
9
10. 4.1.1 La somme des r´esidus est z´ero
– D´efinissons
ˆui ≡ Yi − ˆβ0 − ˆβ1Xi,
le r´esidu de la r´egression pour l’observation i.
– Nous voulons montrer que :
1
n
n
i=1
ˆui = 0.
– Voici la preuve.
1
n
n
i=1
ˆui =
1
n
n
i=1
Yi − ¯Y + ˆβ1
¯X − ˆβ1Xi
=
1
n
n
i=1
Yi − ¯Y − ˆβ1
1
n
n
i=1
Xi − ¯X = 0.
4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale
de la variable d´ependante
– D´efinissons
ˆYi ≡ ˆβ0 + ˆβ1Xi,
la valeur pr´edite de Yi.
– Nous voulons montrer que :
1
n
n
i=1
ˆYi = ¯Y .
– Voici la preuve :
ˆYi ≡ Yi − ˆui
⇒
1
n
n
i=1
ˆYi =
1
n
n
i=1
Yi −
1
n
n
i=1
ˆui =
1
n
n
i=1
Yi ≡ ¯Y .
10
11. 4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus
– Nous voulons montrer que :
n
i=1
Xi ˆui = 0.
– Ceci est la d´efinition de l’orthogonalit´e entre deux variables.
– Puisque nous allons utiliser l’alg`ebre lin´eaire dans le chapitre sur le mod`ele de r´egression
multiple, c’est peut-ˆetre opportun d’introduire ici le concept d’orthogonalit´e entre deux vec-
teurs. Nous pouvons r´e´ecrire cette ´equation en notation vectorielle comme
n
i=1
Xi ˆui = X1 X2 . . . Xn
ˆu1
ˆu2
...
ˆun
≡ X ˆU = 0.
– Donc c’est la d´efinition habituelle d’orthogonalit´e entre deux vecteurs en alg`ebre lin´eaire.
– Nous verrons plus loin qu’il y a aussi une interpr´etation g´eom´etrique.
– Voici la preuve :
n
i=1
Xi ˆui =
n
i=1
Xi ˆui − ¯X
n
i=1
ˆui
=
n
i=1
Xi − ¯X ˆui
=
n
i=1
Xi − ¯X Yi − ¯Y + ˆβ1
¯X − ˆβ1Xi
=
n
i=1
Xi − ¯X Yi − ¯Y − ˆβ1 Xi − ¯X
=
n
i=1
Xi − ¯X Yi − ¯Y − ˆβ1
n
i=1
Xi − ¯X
2
=
n
i=1
Xi − ¯X Yi − ¯Y
11
12. −
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2
n
i=1
Xi − ¯X
2
=
n
i=1
Xi − ¯X Yi − ¯Y −
n
i=1
Xi − ¯X Yi − ¯Y
= 0.
– L’orthogonalit´e est reli´ee `a l’interpr´etation g´eom´etrique de la m´ethode des MCO. Estimer
un mod`ele par MCO revient `a projeter la variable d´ependante dans l’espace travers´e par la
variable explicative (ou les variables explicatives dans le cas de la r´egression multiple).
– Le principe est illustr´e par la Figure 1 ci-dessous. Nous constatons sur le graphique que si
nous prenons la ligne de r´egression comme un vecteur, la ligne pointill´ee sur le graphique
est un vecteur dont la longueur ´egale la valeur de ˆui `a ce point. Il forme un angle droit par
rapport `a la ligne de r´egression, d’o`u le terme orthogonal .
– Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’in-
terpr´etation g´eom´etrique de la r´egression simple se trouve dans l’article de Davidson et Mac-
Kinnon (1999).
Figure 1
4.2 La notion de l’ajustement statistique (R2
)
– D´efinissons :
TSS ≡
n
i=1
Yi − ¯Y
2
,
12
13. la somme totale des carr´es ( total sum of squares en anglais) ;
SSR ≡
n
i=1
Yi − ˆYi
2
,
la somme des r´esidus au carr´e ( residual sum of squares en anglais) ;
ESS ≡
n
i=1
ˆYi − ¯Y
2
,
la somme expliqu´ee des carr´es ( explained sum of squares en anglais).
– Nous pouvons montrer que :
TSS = ESS + SSR.
– Voici la preuve :
TSS =
n
i=1
Yi − ¯Y
2
=
n
i=1
Yi − ˆYi + ˆYi − ¯Y
2
=
n
i=1
Yi − ˆYi
2
+
n
i=1
ˆYi − ¯Y
2
+2
n
i=1
Yi − ˆYi
ˆYi − ¯Y
= SSR + ESS + 2
n
i=1
ˆui
ˆYi − ¯Y
= SSR + ESS + 2
n
i=1
ˆui
ˆYi − 2¯Y
n
i=1
ˆui
= SSR + ESS + 2
n
i=1
ˆui
ˆYi
= SSR + ESS + 2
n
i=1
ˆui
ˆβ0 + ˆβ1Xi
13
14. = SSR + ESS + 2ˆβ0
n
i=1
ˆui + 2ˆβ1
n
i=1
ˆuiXi
= SSR + ESS.
Notez que nous avons invoqu´e `a quelques reprises les propri´et´es alg´ebriques de l’estimateur
MCO que nous avons d´ej`a d´emontr´ees.
– Maintenant, d´efinissons
R2
≡
ESS
TSS
.
– Puisque TSS, ESS et SSR sont la somme de termes au carr´e (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :
0 ≤ R2
≤ 1.
– Il faut aussi que
R2
= 1 −
SSR
TSS
.
– L’ajustement statistique s’appelle aussi le coefficient de d´etermination de la r´egression.
– L’ajustement statistique est d´efini ind´ependamment des propri´et´es statistiques du mod`ele de
r´egression. Il a l’interpr´etation du pourcentage de la variation de la variable d´ependante Y
autour de sa moyenne qui peut ˆetre expliqu´e par les variations de la variable explicative X.
– Pour le mod`ele de r´egression simple, il y a une relation alg´ebrique exacte entre le R2
et le
coefficient de corr´elation entre les variables X et Y . La relation est
R2
= Corr (X, Y ) .
– Je montre ce r´esultat dans l’encadr´e qui suit.
– La lecture de l’encadr´e est facultative, mais je vous encourage `a retenir le r´esultat (´egalit´e
entre la mesure R2
et le coefficient de corr´elation entre X et Y au carr´e).
14
15. Je d´emontre ici que l’ajustement statistique (dans le mod`ele de r´egression simple) doit ˆetre ´egal
au carr´e du coefficient de corr´elation entre X et Y . Nous avons
R2
≡
n
i=1
ˆYi − ¯Y
2
n
i=1 Yi − ¯Y
2
Nous avons aussi (en multipliant le num´erateur et le d´enominateur dans la d´efinition de la
corr´elation ´echantillonnale par (n − 1))
Corr (X , Y )
2
≡
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2 n
i=1 Yi − ¯Y
2
2
=
n
i=1 Xi − ¯X Yi − ¯Y
2
n
i=1 Xi − ¯X
2 n
i=1 Yi − ¯Y
2
Donc, il faut montrer que
n
i=1
ˆYi − ¯Y
2
n
i=1 Yi − ¯Y
2 =
n
i=1 Xi − ¯X Yi − ¯Y
2
n
i=1 Xi − ¯X
2 n
i=1 Yi − ¯Y
2
⇔
n
i=1
ˆYi − ¯Y
2
n
i=1
Xi − ¯X
2
=
n
i=1
Xi − ¯X Yi − ¯Y
2
.
Travaillant avec le bras gauche de cette ´equation, nous avons
n
i=1
ˆYi − ¯Y
2
n
i=1
Xi − ¯X
2
=
n
i=1
ˆβ0 + ˆβ1Xi − ¯Y
2
n
i=1
Xi − ¯X
2
=
n
i=1
¯Y − ˆβ1
¯X + ˆβ1Xi − ¯Y
2
n
i=1
Xi − ¯X
2
15
16. =
n
i=1
ˆβ1Xi − ˆβ1
¯X
2
n
i=1
Xi − ¯X
2
= ˆβ2
1
n
i=1
Xi − ¯X
2
n
i=1
Xi − ¯X
2
=
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2
2 n
i=1
Xi − ¯X
2
2
=
n
i=1
Xi − ¯X Yi − ¯Y
2
,
ce qui fut `a d´emontrer.
Donc, mˆeme si nous sommes en train de discuter des propri´et´es alg´ebriques du mod`ele
de r´egression simple, et mˆeme si la notion du R2
est d´efinie ind´ependamment des propri´et´es
statistiques des variables X et Y , nous voyons que le R2
est reli´e au concept statistique de
corr´elation. Il existe des tests d’hypoth`ese de la significativit´e de corr´elations entre variables
al´eatoires (que nous n’allons pas explorer dans ce cours).
– Tel qu’indiqu´e plus tˆot, l’ajustement statistique R2
est d´efini ind´ependamment des hy-
poth`eses statistiques derri`ere le mod`ele.
– Nous venons de voir (dans l’encadr´e pr´ec´edant) qu’il y a un lien stricte dans le mod`ele de
r´egression simple entre le R2
et le coefficient de corr´elation entre la variable d´ependante
Y et la variable explicative X.
– Le R2
a aussi une autre interpr´etation statistique. On peut l’utiliser pour tester l’hy-
poth`ese nulle de l’absence de relation entre la variable explicative (les variables expli-
catives `a part la constante dans le mod`ele de r´egression multiple). Voir Giles (2013b,
2013c). Selon Giles, le R2
suit, sous l’hypoth`ese nulle (et sous l’hypoth`ese de l’ho-
mosc´edasticit´e), une distribution Beta.
– Nous allons voir dans le chapitre sur la r´egression multiple qu’on peut construire une
16
17. autre statistique pour tester la mˆeme hypoth`ese qui suit une distribution F de Fisher.
4.3 L’´ecart type de la r´egression
– D´efinissons :
s2
ˆu =
1
(n − 2)
n
i=1
(ˆui)2
=
SSR
(n − 2)
.
– Dans le cas o`u nous supposons une variance constante du terme d’erreur du mod`ele (voir la
section suivante concernant les hypoth`eses statistiques du mod`ele), c’est un estimateur non
biais´e de la variance du terme d’erreur.
– Il s’agit du cas o`u les erreurs sont homosc´edastiques, o`u donc Var (ui) = σ2
u, une variance
constante.
– Notez que cette hypoth`ese (variance constante des erreurs) ne fera pas partie des hypoth`eses
statistiques de base que nous adopterons.
– Nous divison par (n − 2) afint d’obtenir un estimateur non biais´e.
– Il y a une autre raison pour la division par (n − 2). On perd deux degr´es de libert´e car il faut
estimer deux param`etres inconnus (β0 et β1) afin de calculer les r´esidus de la r´egression.
– Maintenant, d´efinissons :
sˆu ≡ s2
ˆu.
– sˆu est l’´ecart type de la r´egression.
– L’´ecart type de la r´egression est un des r´esultats d’estimation que fournissent automatique-
ment la plupart des logiciels ´econom´etriques.
5 Hypoth`eses statistiques de base du mod`ele
– `A partir de ce point, nous ´elaborons quelques propri´et´es statistiques de l’estimateur MCO.
Elles d´ependront de certaines hypoth`eses statistiques de base, que voici.
17
18. – Ces hypoth`eses seront cruciales pour montrer les propri´et´es d’absence de biais et de conver-
gence.
– Nous en aurons besoin aussi (avec une hypoth`ese additionnelle) pour montrer l’efficience de
l’estimateur MCO.
5.1 Esp´erance conditionnelle nulle de l’erreur
– Nous supposons que :
E (ui|X = Xi) = 0.
– Intuitivement, l’hypoth`ese nous dit que le fait de connaˆıtre la valeur r´ealis´ee de la variable
explicative ne donne pas d’information concernant la valeur de l’erreur.
5.2 Observations i.i.d.
– Nous supposons que :
(Xi , Yi) , i = 1, 2, . . . , n i.i.d.
– Nous avons d´ej`a vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On
suppose que nos observations sont ind´ependantes et qu’elles sont identiquement distribu´ees.
– Notez que nous ne faisons pas une hypoth`ese concernant le type de distribution qui g´en`ere
les observations (normale, exponentielle, par´etienne stable, etc.). Tout ce qu’on suppose c’est
que les observations sont toujours g´en´er´ees par la mˆeme distribution.
5.3 Les observations aberrantes sont peu probables
– Nous supposons que :
0 < E X4
< ∞;
0 < E Y 4
< ∞;
18
19. – Cette hypoth`ese sert `a nous rappeler que l’estimateur MCO peut ˆetre sensible aux observa-
tions aberrantes.
– Il est toujours bon d’examiner les r´esidus afin de d´etecter la pr´esence de ces observations,
qui pourraient indiquer des probl`emes comme des erreurs de transcription des valeurs dans
les donn´ees, etc.
– Il est important de noter qu’en pr´esence d’observations aberrantes importantes, la valeur de
ˆβ1 peut ˆetre tr`es sensible `a cette ou `a ces valeurs, mˆeme si elles sont peu nombreuses. Intui-
tement, mˆeme un nombre tr`es faible de ces observations aberrantes peut avoir une influence
pr´epond´erantes sur les valeurs estim´ees des param`etres. Dans un tel cas, les estimateurs
MCO ne seront pas convergents puisqu’ils d´ependent d’un petit nombre d’observations.
5.4 Notre approche
Par rapport `a l’approche dans certains manuels de base en ´econom´etrie, nous adoptons une
approche plus g´en´erale.
1. Souvent, la premi`ere fois qu’on pr´esente le mod`ele de r´egression simple, on suppose que
les observations sur la variable explicative X sont constantes `a travers des ´echantillons
diff´erents. Pour d´eriver les propri´et´es statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des r´ealisations d’une
variable al´eatoire. L’alg`ebre est plus facile, mais c’est beaucoup moins r´ealiste.
2. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose aussi que la variance condition-
nelle du terme d’erreur est ´egale `a sa variance non conditionnelle et qu’elle est constante.
Autrement dit,
Var (ui|X = Xi) = Var (ui) = σ2
u.
L’avantage de ces hypoth`eses simplificatrices est de simplifier l’alg`ebre. On arrive `a une
expression plus simple pour la variance ´echantillonnale de nos estimateurs MCO. Malheu-
reusement, ce sont des hypoth`eses qui tiennent rarement dans les donn´ees utilis´ees par les
19
20. ´econom`etres appliqu´es. Cette hypoth`ese n’est pas retenue ici, ce qui va mener `a une expres-
sion plus compliqu´ee mais plus g´en´erale pour la variance ´echantillonnale de nos estimateurs.
3. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose que le terme d’erreur est distribu´e
selon une loi normale. Ceci permet de faire de l’inf´erence exacte (voir le chapitre sur les tests
d’hypoth`ese pour une d´efinition). Cette hypoth`ese n’est pas retenue ici.
4. Au lieu de supposer la normalit´e, nous allons faire l’hypoth`ese que les ´echantillons de
donn´ees que nous avons `a notre disposition sont assez grandes pour que les statistiques
utilis´ees pour faire des tests d’hypoth`ese soient approximatiement distribu´ees selon une loi
normale.
6 Propri´et´es statistiques de l’estimateur
6.1 Absence de biais de l’estimateur
6.1.1 ˆβ1
– Nous avons :
ˆβ1 =
n
i=1 Xi − ¯X Yi − ¯Y
n
i=1 Xi − ¯X
2
=
n
i=1 Xi − ¯X β0 + β1Xi + ui − β0 − β1
¯X − ¯u
n
i=1 Xi − ¯X
2
=
β1
n
i=1 Xi − ¯X
2
+ n
i=1 Xi − ¯X (ui − ¯u)
n
i=1 Xi − ¯X
2
= β1 +
n
i=1 Xi − ¯X (ui − ¯u)
n
i=1 Xi − ¯X
2
= β1 +
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 .
– Ceci montre que l’estimateur est ´egal `a sa vraie valeur plus un terme qui d´epend du produit
des erreurs avec les ´ecarts des Xi par rapport `a leurs moyennes ´echantillonnales.
20
21. – Notez ce que l’on fait pour passer de la premi`ere ligne `a la deuxi`eme. On substitut Yi utili-
sant sa valeur si le mod`ele de r´egression est lit´eralement vrai. Cela fait apparaˆıtre les vraies
valeurs de β0 et de β1, et fait apparaˆıtre aussi l’erreur (la vraie et non le r´esidu). On fera
souvent une substitution semblable lorsqu’on veut analyser les propri´et´es statistiques d’un
estimateur.
– Maintenant, il s’agit de calculer la valeur esp´er´ee de cette expression :
E ˆβ1 = β1 + E
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2
= β1 + E E
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 |X1, X2, . . . Xn
= β1 + E
n
i=1 Xi − ¯X E (ui|X1, X2, . . . Xn)
n
i=1 Xi − ¯X
2
= β1 + E
n
i=1 Xi − ¯X E (ui|Xi)
n
i=1 Xi − ¯X
2
= β1.
– Pour passer de la premi`ere ligne `a la deuxi`eme dans cette suite d’´egalit´es, nous avons utilis´e
la loi des esp´erances it´er´ees, qui dit que pour n’importe quelle variable al´eatoire Y ,
E (E (Yi|Xi)) = E (Yi) .
Nous l’avons tout simplement appliqu´e `a la variable al´eatoire qui est
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 .
– Pour passer de la deuxi`eme `a la troisi`eme ligne, il faut noter que les esp´erances des X condi-
tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme des
constantes et les ´ecrire du cˆot´e gauche de l’op´erateur d’esp´erance conditionnelle. Ce faisant,
21
22. l’op´erateur d’esp´erance conditionnelle s’applique uniquement au terme d’erreur ui.
– La derni`ere ´egalit´e suit directement de nos hypoth`eses de base concernant le mod`ele, dont
une stipule que E (ui|Xi) = 0.
6.1.2 ˆβ0
– Nous avons :
E ˆβ0 = E ¯Y − ˆβ1
¯X
= E β0 + β1
¯X +
1
n
n
i=1
ui − ˆβ1
¯X
= β0 + E β1 − ˆβ1
¯X +
1
n
n
i=1
E (ui)
= β0 +
1
n
n
i=1
E (E (ui|Xi))
= β0,
o`u encore une fois nous avons utilis´e la loi des esp´erances it´er´ees :
E (ui) = E (E (ui|Xi)) .
– Ici, j’ai suivi la r´eponse `a la question 4.7 du manuel. Il n’est pas forc´ement ´evident que
E β1 − ˆβ1
¯X = 0,
puisque ¯X doit ˆetre consid´er´e comme une variable al´eatoire. Il faut remonter `a l’absence de
biais de ˆβ1, o`u on a montr´e que
β1 − ˆβ1 = −
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2 .
22
23. Donc, on a
E β1 − ˆβ1
¯X = −E
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2
¯X
= −E ¯X
n
i=1 Xi − ¯X E (ui|Xi)
n
i=1 Xi − ¯X
2
= 0.
Encore une fois, nous avons utilis´e la loi des esp´erances it´er´ees.
6.2 Convergence de l’estimateur
– Nous allons remettre ce sujet `a un peu plus tard. En calculant les propri´etes ´echantillonnales
de l’estimateur, nous allons montrer que sa variance d´ecroˆıt avec la taille de l’´echantillon n.
– Si c’est le cas, nous avons `a toutes fins pratiques montr´e sa convergence. Nous avons montr´e
l’absence de biais, et la variance converge `a z´ero lorsque n tend vers l’infini.
6.3 Efficience de l’estimateur
– Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypoth`ese addi-
tionnelle, que le terme d’erreur du mod`ele de r´egression est homosc´edastique, ce qui veut
dire a une variance constante.
– Si ce n’est pas le cas, et si nous connaissons de quoi d´epend la variance du terme d’erreur,
il peut ˆetre possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit
de l’estimateur moindres carr´es g´en´eralis´es (generalised least squares ou GLS en anglais),
que nous n’aurons pas l’occasion d’´etudier en d´etail dans ce cours. Voir le chapitre 15 du
manuel.
– Une preuve d´etaill´ee du th´eor`eme Gauss-Markov se trouve dans l’ecadr´e qui suit. Nous
n’aurons probablement pas le temps de voir cette preuve en d´etail dans le cours. Je vous
invite fortement `a la lire et `a la comprendre.
23
24. 6.3.1 Th´eor`eme Gauss-Markov
– Il s’agit d’une preuve que l’estimateur ˆβ1 est l’estimateur le plus efficient parmi les
estimateurs qui sont lin´eaires en Yi.
– Rappelons d’abord les hypoth`eses qui doivent tenir pour d´emontrer le th´eor`eme Gauss-
Markov.
1. E (ui|X1, . . . , Xn) = 0 .
2. Var (ui|X1, . . . , Xn) = σ2
u, 0 < σ2
u < ∞.
3. E (uiuj|X1, . . . , Xn) = 0, i = j.
– La derni`ere hypoth`ese dit que les erreurs ne sont pas corr´el´ees entre elles.
– D’abord, montrons que ˆβ1 est un estimateur lin´eaire en Yi. Nous avons
ˆβ1 =
n
i=1 Yi − ¯Y Xi − ¯X
n
i=1 Xi − ¯X
2
=
n
i=1 Yi Xi − ¯X − ¯Y n
i=1 Xi − ¯X
n
i=1 Xi − ¯X
2
=
n
i=1 Yi Xi − ¯X
n
i=1 Xi − ¯X
2
=
n
i=1
Xi − ¯X
n
i=1 Xi − ¯X
2 Yi
≡
n
i=1
ˆaiYi,
o`u donc
ˆai ≡
Xi − ¯X
n
i=1 Xi − ¯X
2
– Les poids ˆai ne d´ependent pas des Yi, et donc l’estimateur est lin´eaire en Yi.
– Nous avons vu que sous l’hypoth`ese de l’homosc´edasticit´e, la variance conditionnelle de
24
25. ˆβ1 est donn´ee par
Var ˆβ1|X1, . . . , Xn =
σ2
u
n
i=1 Xi − ¯X
2 .
– Nous avons aussi montr´e que l’estimateur ˆβ1 est conditionnellement non biais´e.
– Maintenant, consid´erons n’importe quel estimateur lin´eaire
˜β1 =
n
i=1
aiYi
et qui satisfait la propri´et´e
E ˜β1|X1, . . . , Xn = β1.
– Nous avons
˜β1 =
n
i=1
aiYi
=
n
i=1
ai (β0 + β1Xi + ui)
= β0
n
i=1
ai + β1
n
i=1
aiXi +
n
i=1
aiui.
– Nous avons aussi
E
n
i=1
aiui|X1, . . . , Xn =
n
i=1
aiE (ui|X1, . . . , Xn) = 0.
– De cette fac¸on, nous avons
E ˜β1|X1, . . . , Xn = β0
n
i=1
ai + β1
n
i=1
aiXi .
25
26. – Par hypoth`ese, notre estimateur est conditionnellement non biais´e et donc il faut que
β0
n
i=1
ai + β1
n
i=1
aiXi = β1.
– Pour que cette ´egalit´e tienne pour des valeurs quelconques de β0 et de β1 il faut que
n
i=1
ai = 0
et
n
i=1
aiXi = 1.
– Nous avons donc
˜β1 = β0
n
i=1
ai + β1
n
i=1
aiXi +
n
i=1
aiui = β1 +
n
i=1
aiui.
– Calculons la variance conditionnelle de ˜β1. Nous avons
Var ˜β1|X1, . . . , Xn = Var
n
i=1
aiui|X1, . . . , Xn
=
n
i=1
Var (aiui|X1, . . . , Xn) + 2
i<j
Cov (aiui , ajuj|X1, . . . , Xn)
=
n
i=1
Var (aiui|X1, . . . , Xn)
= σ2
u
n
i=1
ai
2
.
– Les covariances disparaissent `a cause de la troisi`eme hypoth`ese ci-dessus.
– Maintenant, il suffit de montrer que la variance conditionnelle de ˜β1 doit ˆetre sup´erieure
`a la variance conditionnelle de ˆβ1.
26
27. – D´efinissons
di ≡ ai − ˆai
– Nous avons
n
i=1
ai
2
=
n
i=1
(ˆai + di)2
=
n
i=1
ˆa2
i + 2
n
i=1
ˆaidi +
n
i=1
di
2
.
– Maintenant, il faut utiliser la d´efinition des ˆai qui est donn´ee ci-dessus. Nous avons
n
i=1
ˆaidi =
n
i=1 Xi − ¯X di
n
i=1 Xi − ¯X
2
=
n
i=1 Xidi − ¯X n
i=1 di
n
i=1 Xi − ¯X
2
=
n
i=1 Xi (ai − ˆai) − ¯X n
i=1 (ai − ˆai)
n
i=1 Xi − ¯X
2
=
( n
i=1 Xiai − n
i=1 Xiˆai) − ¯X ( n
i=1 ai − n
i=1 ˆai)
n
i=1 Xi − ¯X
2
= 0.
– La derni`ere ´egalit´e tient puisque les deux estimateurs ˜β1 et ˆβ1 sont conditionnellement
non biais´es et pour cette raison il faut que
n
i=1
Xiai −
n
i=1
Xiˆai =
n
i=1
ai =
n
i=1
ˆai = 0.
– Finalement, nous avons donc
Var ˜β1|X1, . . . , Xn
= σ2
u
n
i=1
ai
2
27
28. = σ2
u
n
i=1
ˆa2
i +
n
i=1
di
2
= Var ˆβ1|X1, . . . , Xn + σ2
u
n
i=1
di
2
⇒ Var ˜β1|X1, . . . , Xn − Var ˆβ1|X1, . . . , Xn
= σ2
u
n
i=1
di
2
> 0
si ∃i tel que di = 0. Si di = 0, ∀i, l’estimateur ˜β1 est tout simplement l’estimateur MCO.
– Il y a aussi une preuve du th´eor`eme Gauss-Markov dans le cadre du mod`ele de r´egression
multiple dans le chapitre suivant. Vous allez constater (j’esp`ere) que la preuve, qui utilise
une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas
d´emontr´e l’efficience de l’estimateur ˆβ0.
6.4 Erreur quadratique moyenne
– Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
– Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus
efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance
moins ´elev´ee que le deuxi`eme.
– Une autre fac¸on de comparer deux estimateurs est de comparer leurs erreurs quadratiques
moyennes. Nous avons d´ej`a vu ce concept dans le chapitre sur la statistique.
– Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconque ˜β :
EQM ˜β ≡ E ˜β − β
2
.
– Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur.
– C’est une mesure assez intuitive de la pr´ecision d’un estimateur.
28
29. – Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de
l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,
EQM ˜β = Var ˜β + E ˜β − β
2
.
– Voici la preuve. Nous savons que pour une variable al´eatoire quelconque X,
Var (X) = E X2
− (E (X))2
.
Cette formule s’applique aussi `a la variable al´eatoire ˜β − β . Donc nous avons
Var ˜β − β = E ˜β − β
2
− E ˜β − β
2
⇒ E ˜β − β
2
= Var ˜β − β + E ˜β − β
2
⇒ E ˜β − β
2
= Var ˜β + E ˜β − β
2
,
ce qui fut `a montrer, puisque
Var ˜β − β = Var ˜β
dˆu au fait que β n’est pas une variable al´eatoire.
– Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne sont
pas forc´ement non biais´es.
– Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le
biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus
grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins
une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement
parce qu’ils ont une variance tr`es faible.
29
30. – Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du
mod`ele de r´egression lin´eaire et l’estimateur MCO, le concept d’efficience est plus au centre
de l’analyse puisque, sous des hypoth`eses relativement faibles, l’estimateur MCO est non
biais´e.
– Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le
contexte du mod`ele de r´egression simple.
– Il ´etudie le mod`ele de r´egression simple sans constante :
Yi = βXi + ui,
o`u les Xi sont non al´eatoires et o`u on a ui ∼ i.i.d. (0, σ2
) (les erreurs sont
ind´ependamment et identiquement distribu´ees avec moyenne nulle et variance ´egale `a
σ2
). (Le fait de travailler avec des Xi non stochastiques et d’imposer une hypoth`ese
concernant l’esp´erance non conditionnelle des erreurs simplifie l’analyse.)
– Il montre que si on minimise l’erreur quadratique moyenne, l’estimateur qu’on
obtient d´epend de β lui-mˆeme, qui est non observable. Donc, c’est un estimateur qui est
non op´erationnel , c’est `a dire que nous pouvons mˆeme pas calculer.
– Dans son deuxi`eme article (2013e), Giles montre qu’il est possible de trouver un estima-
teur op´erationnel (que nous pouvons calculer) si on minimise une combinaison lin´eaire
de la variance et du biais de l’estimateur. Le probl`eme peut s’´ecrire
min
β
Q =
α
Var β
σ2
+ (1 − α)
E ˜β − β
β
2
.
– La fonction objectif est une somme pond´er´ee de la variance relative (par rapport `a la
variance de l’erreur) et du biais au carr´e relatif (par rapport `a la vraie valeur de β) de
l’estimateur β.
30
31. – La solution `a ce probl`eme (que nous allons calculer un peu plus loin) est
β = β
(1 − α) n
i=1 Xi
2
α + (1 − α) n
i=1 Xi
2
o`u β est l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donn´ee de α.
– Pour α = 0 nous avons β = β. Autrement dit, si on met tout le poids sur la minimisation
du biais au carr´e, on obtient l’estimateur MCO, qui n’est pas biais´e.
– Pour α > 0, |β| < |β|. L’estimateur β est plus pr`es de z´ero. (C’est un exemple de ce
qu’on appelle un shrinkage estimator en anglais.)
– Cette solution est un peu difficile `a montrer. Commenc¸ons par d´efinir β comme un esti-
mateur lin´eaire quelconque :
β ≡
n
i=1
aiYi
pour des constantes quelconques ai.
– Cette d´efinition nous donne imm´ediatement
E β = E
n
i=1
ai (βXi + ui)
= β
n
i=1
aiXi + E
n
i=1
aiui
= β
n
i=1
aiXi
⇒ E β − β = β
n
i=1
aiXi − 1
puisque nous avons fait l’hypoth`ese que les Xi sont non stochastiques et que E (ui) = 0.
31
32. – La variance de l’estimateur est donn´ee par
Var β =
n
i=1
ai
2
Var (Yi) = σ2
n
i=1
ai
2
pusque nous faisons l’hypoth`ese que la variance des erreurs est constante.
– Notre probl`eme de minimisation peut donc s’´ecrire
min
ai
Q = α
σ2 n
i=1 ai
2
σ2
+ (1 − α)
β n
i=1 (aiXi − 1)
β
2
ou bien
min
ai
Q = α
n
i=1
ai
2
+ (1 − α)
n
i=1
(aiXi − 1)
2
.
– Les variables de choix du probl`eme sont les ai et non β lui-mˆeme.
– En choisissant notre fonction objectif comme une somme pond´er´ee de la variance rela-
tive de l’estimateur et du biais au carr´e relatif, nous avons r´eussi `a ´eliminer les param`etres
non observables (β et σ2
) du probl`eme.
– Pour un ai quelconque la condition du premier ordre s’´ecrit
∂Q
∂ai
= 0 = 2αai + 2 (1 − α) Xi
n
j=1
ajXj − 1
⇒ αai + (1 − α) Xi
n
j=1
ajXj − 1 = 0.
– Multiplions cette expression par Yi et calculons la somme `a travers les n termes en ai.
Nous obtenons
αaiYi + (1 − α) XiYi
n
j=1
ajXj − 1 = 0
⇒ α
n
i=1
aiYi + (1 − α)
n
i=1
XiYi
n
j=1
ajXj − 1 = 0
32
33. ⇒ αβ + (1 − α)
n
i=1
XiYi
n
j=1
ajXj − 1 = 0 (1)
puisque nous avons d´efini au d´epart notre estimateur comme β ≡ n
i=1 aiYi.
– Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme `a travers les n
termes, ce qui donne
αaiXi + (1 − α) Xi
2
n
j=1
ajXj − 1 = 0
⇒ α
n
i=1
aiXi + (1 − α)
n
i=1
Xi
2
n
j=1
ajXj − 1 = 0
⇒ α
n
j=1
ajXj + (1 − α)
n
i=1
Xi
2
n
j=1
ajXj − 1 = 0
(par un simple changement d’indice)
⇒ α
n
j=1
ajXj + (1 − α)
n
i=1
Xi
2
n
j=1
ajXj − (1 − α)
n
i=1
Xi
2
= 0
⇒
n
j=1
ajXj α + (1 − α)
n
i=1
Xi
2
= (1 − α)
n
i=1
Xi
2
⇒
n
j=1
ajXj =
(1 − α) n
i=1 Xi
2
α + (1 − α) n
i=1 Xi
2
.
– Maintenant, substituons cette solution pour n
j=1 ajXj dans l´equation (1) et simpli-
fions :
⇒ αβ + (1 − α)
n
i=1
XiYi
(1 − α) 2
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
.
− 1 = 0
⇒ αβ = (1 − α)
n
i=1
XiYi
α + (1 − α) n
i=1 Xi
2
− (1 − α) n
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
33
34. ⇒ αβ = (1 − α)
n
i=1
XiYi
α
α + (1 − α) 2
i=1 Xi
2
⇒ β =
n
i=1
XiYi
(1 − α)
α + (1 − α) 2
i=1 Xi
2
⇒ β =
n
i=1 XiYi
n
i=1 Xi
2
(1 − α) n
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
= β
(1 − α) n
i=1 Xi
2
α + (1 − α) 2
i=1 Xi
2
.
– Ceci est le cas puisque pour ce mod`ele l’estimateur MCO β est donn´e par (exercice)
β =
n
i=1 XiYi
n
i=1 Xi
2 .
7 Propri´et´es ´echantillonnales de l’estimateur
– Dans cette section, le but principal de l’exercice est de d´eriver la variance (et par extension
l’´ecart type) de nos estimateurs MCO ˆβ0 et ˆβ1.
– Les ´ecarts types de ˆβ0 et de ˆβ1 font partie de l’output standard de n’importe quel logiciel de
r´egression.
– Cet exercice est crucial afin de pouvoir effectuer des tests d’hypoth`ese concernant les coef-
ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estim´es.
– Nous avons :
ˆβ1 = β1 +
n
i=1 Xi − ¯X ui
n
i=1 Xi − ¯X
2
= β1 +
1
n
n
i=1 Xi − ¯X ui
1
n
n
i=1 Xi − ¯X
2 .
– D’abord, travaillons avec le num´erateur.
34
35. – Nous avons d´ej`a vu que
¯X
p
−→ µX,
ce qui veut dire que la moyenne ´echantillonnale converge en probabilit´e `a la moyenne dans
la population. Donc, pour des ´echantillons assez grands, nous avons
1
n
n
i=1
Xi − ¯X ui ≈
1
n
n
i=1
(Xi − µX) ui ≡ ¯v ≡
1
n
n
i=1
vi.
– La variable al´eatoire vi que nous venons de d´efinir satisfait les propri´et´es suivantes :
1. E (vi) = 0 ;
2. vi est i.i.d. ;
3. σ2
v < ∞ .
– La variable satisfait les hypoth`eses pour pouvoir invoquer le th´eor`eme de la limite centrale.
Donc, nous avons
¯v
σ¯v
d
−→ N (0 , 1) ,
o`u σ2
¯v = σ2
v/n.
– Maintenant, travaillons avec le d´enominateur. Nous avons d´ej`a vu `a la fin du chapitre sur la
statistique que la variance ´echantillonnale est un estimateur convergent de la variance d’une
variable al´eatoire. Donc nous avons :
1
n − 1
n
i=1
Xi − ¯X
2
≈
1
n
n
i=1
Xi − ¯X
2 p
−→ σ2
X.
– Mettant ensemble num´erateur et d´enominateur, nous avons
Var ˆβ1 − β1 =
σ2
v
n (σ2
X)
2
et,
ˆβ1 − β1
d
−→ N 0 ,
σ2
v
n (σ2
X)
2
35
36. – Notez tr`es bien ce que nous venons de faire. Nous avons montr´e la convergence en distri-
bution du num´erateur, et la convergence en probabilit´e du d´enominateur, et par la suite nous
avons saut´e tout de suite `a la convergence en distribution du ratio des deux.
– Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-
pri´et´es asymptotiques (propri´et´es en grand ´echantillon) de nos statistiques. Notez que nous
ne pouvons pas le faire lorsqu’il s’agit d’esp´erances. Par exemple,
E
X
Y
=
E(X)
E(Y )
sauf dans le cas de variables al´eatoires ind´ependantes.
– Par contre, sous certaines hypoth`eses, nous avons
¯X
p
−→ µX, ¯Y
p
−→ µY ⇒
¯X
¯Y
p
−→
µX
µY
,
et
¯X
d
−→ N µX , σ2
¯X , ¯Y
p
−→ µY ⇒
¯X
¯Y
d
−→ N
µX
µY
,
1
µY
2
σ2
¯X .
– Nous avons utilis´e le Th´eor`eme de Slutsky, un des th´eor`emes les plus utiles en th´eorie
des probabilit´es. Il permet de scinder des expressions compliqu´ees de variables al´eatoires
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux, la
convergence de l’expression suit imm´ediatement.
– Nous aurons fr´equemment l’occasion d’utiliser une version de ce th´eor`eme. Pour plus de
d´etails, voir le chapitre des notes sur le mod`ele de r´egresson multiple.
– Notez que la variance de ˆβ1 d´ecroˆıt avec n et tend vers z´ero lorsque n tend vers l’infini. Lors-
qu’on parle de convergence en distribution, on utilise normalement une variable al´eatoire
normalis´ee de telle fac¸on `a ce sa variance ne diminue pas avec la taille de l’´echantillon. Pour
36
37. cette raison, il serait conventionnel de dire que :
√
n ˆβ1 − β1
d
−→ N 0 ,
σ2
v
(σ2
X)
2
– Maintenant, d´efinissons
σ2
ˆβ1
≡
σ2
v
n (σ2
X)
2 .
– Maintenant, si nous divisons ˆβ1 − β1 par la racine carr´ee de σ2
ˆβ1
, nous obtenons une sta-
tistique qui converge en distribution vers une loi normale centr´ee r´eduite :
ˆβ1 − β1
σ2
ˆβ1
≡
ˆβ1 − β1
σˆβ1
d
−→ N (0 , 1) .
– Notez que nous venons de montrer `a toutes fins pratiques la convergence de l’estimateur
MCO de ˆβ1. Nous avions d´ej`a montr´e que l’estimateur MCO est non biais´e. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers z´ero lorsque la taille
de l’´echantillon tend vers l’infini. Autrement dit,
lim
n→∞
σ2
ˆβ1
= 0.
– Nous avons tous les pr´erequis pour conclure que l’estimateur MCO de β1 converge en pro-
babilit´e `a sa vraie valeur.
7.1 Estimateur convergent de σ2
ˆβ1
– La variance de la variable al´eatoire ¯v d´efinie ci-dessus n’est g´en´eralement pas connue, la
variance de X non plus.
– Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population
par un estimateur convergent de ce moment.
37
38. – D´efinissons :
ˆσ2
ˆβ1
≡
1
n
1
n−2
n
i=1 Xi − ¯X
2
(ˆui)2
1
n
n
i=1 Xi − ¯X
2 2
– Ensuite, d´efinissons l’´ecart type estim´e de ˆβ1 comme
SE ˆβ1 ≡ ˆσ2
ˆβ1
.
– La plupart des logiciels de r´egression calculent cet ´ecart type. Il faut, par contre, v´erifier si
l’option par d´efaut est de calculer cet ´ecart type robuste (robuste `a la pr´esence de l’h´et´ero-
sc´edasticit´e) ou plutˆot de calculer l’´ecart type qui suppose l’homosc´edasticit´e.
7.2 Estimateur convergent de σ2
ˆβ1
en cas d’homosc´edasticit´e
– Si nous sommes prˆets `a supposer que
Var (ui|X = Xi) = Var (ui) = σ2
u,
nous pouvons remplacer l’estimateur convergent de σ2
ˆβ1
par
˜σ2
ˆβ1
≡
1
n
1
n−1
n
i=1 (ˆui)2
1
n
n
i=1 Xi − ¯X
2 .
– J’ai utilis´e la notation l´eg`erement diff´erente ˜σ2
ˆβ1
pour distinguer entre le cas g´en´eral (lors-
qu’on ne suppose pas l’homosc´edasticit´e) o`u on utilise un estimateur robuste de la
variance et le cas particulier o`u on suppose l’homosc´edasticit´e.
– Le manuel est parmi les seuls `a utiliser l’estimateur robuste comme l’estimateur par d´efaut.
Beaucoup de manuels pr´esentent le cas homosc´edastique comme le cas de base et montre
par la suite qu’est-ce qui arrive si l’hypoth`ese d’homosc´edasticit´e ne tient pas. Je partage
l’opinion des auteurs que l’homosc´edasticit´e est une hypoth`ese forte qui risque de ne pas
tenir dans le cas de beaucoup d’applications empiriques, et que, pour cette raison, il est bien
38
39. d’enseigner le cas g´en´eral et l’estimateur robuste comme l’option par d´efaut d’un ´econom`etre
appliqu´e.
– Lorsqu’on utilise un logiciel de r´egression comme R, STATA ou GRETL, il faut lire atten-
tivement la documentation pour savoir quelle est l’option par d´efaut utilis´ee pour estimer
la matrice variance-covariance des coefficients estim´es. Dans la plupart des cas l’option par
d´efaut suppose l’homosc´edasticit´e et il faut sp´ecifier l’option robuste ou l’´equivalent si
vous n’ˆetes pas prˆets `a supposer l’homosc´edasticit´e, ce qui sera g´en´eralement le cas.
Les ´ecarts types robustes peuvent ˆetre plus grands ou plus petits que les ´ecarts types non ro-
bustes. Pour une explication plus d´etaill´ee et une illustration dans un cas tr`es simple, voir Auld
(2012). Auld d´emontre les points suivants.
1. En pr´esence d’h´et´erosc´edasticit´e, si la variance des erreurs n’est pas fortement corr´el´ee
avec la variable explicative du mod`ele (X), il y aura peu de diff´erence entre l’´ecart
type calcul´e avec la m´ethode robuste et l’´ecart type calcul´e sous l’hypoth`ese de l’ho-
mosc´edasticit´e.
2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur moyenne
´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant l’ho-
mosc´edasticit´e) sera biais´e vers z´ero (trop petit). L’´ecart type calcul´e avec la m´ethode
robuste sera en g´en´eral plus grand que l’´ecart type non robuste.
3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont pr`es de leur
moyenne ´echantillonnale ¯X, l’´ecart type calcul´e avec la m´ethode non robuste (supposant
l’homosc´edasticit´e) sera biais´e et sera en moyenne trop grand. L’´ecart type calcul´e avec
la m´ethode robuste sera en g´en´eral plus petit que l’´ecart type non robuste.
4. Avec les donn´ees r´eeles on rencontre plus souvent le cas o`u l’´ecart type non robuste est
baisi´e vers z´ero (est trop petit). Donc, typiquement les ´ecarts types robustes sont plus
´elev´es que les ´ecarts types non robustes.
39
40. 7.3 D´etecter l’h´et´erosc´edasticit´e
– Il peut ˆetre important de pouvoir d´etecter la pr´esence d’erreurs h´et´erosc´edastiques. Il y a des
tests formels, 2
mais il y a aussi des m´ethodes moins formelles que les chercheurs appliqu´es
peuvent utiliser.
– Une fac¸on simple serait de cr´eer, une fois le mod`ele estim´e, un graphique avec les Xi sur
l’axe horizontal et les r´esidus carr´es ˆu2
i sur l’axe vertical.
– Une relation ´evidente entre les deux (par exemple, des valeurs de ˆu2
i qui semblent augmenter
avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi) est un signe clair de la
pr´esence d’h´et´erosc´edasticit´e.
– Une autre fac¸on serait, une fois le mod`ele estim´e, d’estimer une r´egression o`u on prend
les r´esidus carr´es comme variable d´ependante et Xi comme variable explicative, ou des
fonctions non lin´eaires des Xi. Par exemple,
ˆu2
i = γ0 + γ1Xi + i
ou encore
ˆu2
i = γ0 + γ1Xi
2
+ i.
– L’id´ee est d’estimer les valeurs de γ0 et de γ1 par MCO. Soit ˆγ1 la valeur estim´ee du coef-
ficient γ1 Une valeur significative de ˆγ1 (voir la section suivante sur les tests d’hypoth`ese)
serait un indice clair de la pr´esence d’h´et´erosc´edasticit´e. 3
Nous allons revenir sur cette ques-
tion et sur quelques tests formels pour d´etecter l’homosc´edasticit´e dans le chapitre sur la
r´egression multiple.
2. Nous verrons certains de ces tests formels dans le chapitre sur le mod`ele de r´egression multiple.
3. Notez qu’il ne s’agit pas d’un test formel avec des propri´et´es statistiques connues. Il faut interpr´eter le r´esultat
du test `a titre indicatif seulement. Par contre, le test formel appel´e test Breusch-Pagan est essentiellement bas´e sur une
r´egression de ce type.
40
41. 8 Tests d’hypoth`ese
8.1 Approche g´eneral
– Le principe de base pour tester des hypoth`eses simples est presqu’identique `a ce que nous
avons vu dans le chapitre sur l’inf´erence statistique.
– L’hypoth`ese nulle sp´ecifie g´en´eralement que le coefficient d’int´erˆet (qui peut ˆetre ˆβ0 ou
ˆβ1 prend une certaine valeur. L’hypoth`ese alternative peut ˆetre bilat´erale ou unilat´erale,
d´ependant du contexte.
– D’abord, il faut cr´eer une statistique normalis´ee qui a une moyenne nulle et une variance
unitaire sous l’hypoth`ese nulle. Il s’agit d’une statistique t mˆeme si en g´en´eral elle
n’ob´eit pas `a une loi t de Student. Par exemple :
t ≡
ˆβ1 − β1,0
SE ˆβ1
o`u SE ˆβ1 est un estimateur convergent de l’´ecart type du coefficient β1 et β1,0 est la valeur
que prend le coefficient β1 sous l’hypoth`ese nulle.
– Si nous sommes prˆets `a faire l’hypoth`ese que le terme d’erreur du mod`ele ui ob´eit `a une loi
normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de
Student. Dans ce cas, bien sˆur, il est pr´ef´erable d’utiliser la forme homosc´edastique pour le
calcul de l’´ecart type de l’estimateur ˆβ1.
– Si non, sous les hypoth`eses du mod`ele de r´egression, la statistique t ob´eit en grand ´echantillon
`a une loi normale centr´ee r´eduite. Voir la section pr´ec´edente sur les propri´et´es ´echantillonnales
de l’estimateur.
– Comme il est habituellement le cas, nous remplac¸ons l’´ecart type dans le d´enominateur par
un estimateur convergent.
– Maintenant, nous proc´edons exactement comme dans le chapitre sur la statistique.
41
42. 8.2 Hypoth`ese alternative bilat´erale
– D’abord, si l’hypoth`ese alternative est bilat´erale :
H1 : β1 = β1,0,
nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment loin de z´ero. La
p-value du test est donn´ee par :
p-value = Pr |z| > |tact
| = 2Φ −|tact
|
o`u tact
est la valeur calcul´ee de la statistique et, comme auparavant, Φ(z) est la valeur de la
distribution normale centr´ee r´eduite cumul´ee `a z.
– On appelle appelle commun´ement un test de significativit´e un test de l’hypoth`ese nulle
que la variable explicative n’est pas significative, et donc n’aide pas `a expliquer la variabilit´e
de la variable d´ependante. Dans, ce cas, l’hypoth`ese nulle est H0 : ˆβ1 = 0 et l’hypoth`ese
alternative est bilat´erale. On peut aussi parler d’un test de significativit´e de la constante
dans le mod`ele de r´egression simple. Les tests de significativit´e sont tellement r´epandus que,
si l’output fourni par un logiciel d’´econom´etrie donne les statistiques t associ´ees aux
coefficients estim´es, il s’agit de statistiques appropri´ees pour tester l’hypoth`ese nulle que le
coefficient est ´egal `a z´ero.
8.3 Hypoth`ese alternative unilat´erale
– Ensuite, si l’hypoth`ese alternative est unilat´erale, il faut distinguer entre les deux cas pos-
sibles.
1. D’abord,
H1 : β1 > β1,0.
Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment positive. La
42
43. p-value du test est donn´ee par :
p-value = Pr z > tact
= 1 − Φ tact
.
2. La deuxi`eme possibilit´e est :
H1 : β1 < β1,0.
Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment n´egative. La
p-value du test est donn´ee par :
p-value = Pr z < tact
= Φ tact
.
9 Intervalles de confiance pour les coefficients
– Le principe est identique que pour l’estimateur de la moyenne de la population que nous
avons vu dans le chapitre sur l’inf´erence statistique.
– Pour calculer les deux bornes de l’intervalle de confiance de X%, d’abord on cherche la
valeur de z > 0 tel que
Φ(−z) =
1 − X/100
2
.
Donc, on cherche la valeur de z > 0 pour laquelle (100−X)
2
% de la distribution normale
centr´ee r´eduite se trouve `a gauche de −z. Cela veut dire bien sˆur que (100−X)
2
% de la distri-
bution normale centr´ee r´eduite se trouve `a droite de z.
– Nous avons (pour ˆβ1 : le principe pour ˆβ0 est identique) :
X
100
= Pr −z ≤
ˆβ1 − β1
ˆσˆβ1
≤ z
= Pr −zˆσˆβ1
≤ ˆβ1 − β1 ≤ zˆσˆβ1
43
44. = Pr −zˆσˆβ1
≤ β1 − ˆβ1 ≤ zˆσˆβ1
= Pr ˆβ1 − zˆσˆβ1
≤ β1 ≤ ˆβ1 + zˆσˆβ1
,
o`u ˆσˆβ1
≡ SE ˆβ1 , notre estimateur convergent de l’´ecart type de β1.
– Cela implique que l’intervalle de confiance de X% autour de ˆβ1 peut ˆetre ´ecrit de la fac¸on
suivante :
ˆβ1 ± zˆσˆβ1
,
o`u
Φ(−z) =
1 − X/100
2
.
9.1 Intervalles de confiance pour les pr´edictions
Souvent, on estime un mod`ele de r´egression pour pr´edire l’impact du changement de la variable
explicative sur la variable d´ependante. Par exemple, dans le cadre du mod`ele d´evelopp´e en d´etail
dans le manuel, on pourrait vouloir pr´edire l’impact sur le rendement scolaire d’une r´eduction de
la taille moyenne des classes de deux ´eleves. Soit ∆X le changement propos´e de la valeur de la
variable explicative. On a tout de suite
∆ˆYi = ˆβ1∆Xi,
o`u ∆ˆYi est le changement pr´edit de la variable d´ependante. D´evelopper un intervalle de confiance
dans ce cas est facile. Le changement pos´e ∆X est connue. On peut le traiter comme une constante,
et donc nous avons
Var ∆ˆYi = Var ˆβ1∆Xi
= (∆Xi)2
Var ˆβ1
44
45. Donc, proc´edant de la mˆeme mani`ere que pour l’intervalle de confiance pour ˆβ1 lui-mˆeme on a
X
100
= Pr
−z ≤
∆Xi
ˆβ1 − β1
(∆Xi) σˆβ1
≤ z
= Pr −z (∆Xi) σˆβ1
≤ ∆Xi
ˆβ1 − β1 ≤ z (∆Xi) σˆβ1
= Pr −z (∆Xi) σˆβ1
≤ ∆Xi β1 − ˆβ1 ≤ z (∆Xi) σˆβ1
= Pr −z (∆Xi) σˆβ1
+ ∆Xi
ˆβ1 ≤ ∆Xiβ1 ≤ z (∆Xi) σˆβ1
+ ∆Xi
ˆβ1 .
Donc, l’intervalle de confiance pour le changement pr´edit est donn´e par
∆Xi
ˆβ1 ± z (∆Xi) σˆβ1
Si nous remplac¸ons l’´ecart type de ˆβ1 par un estimateur convergent (notre truc habituel), l’intervalle
de confiance peut s’´ecrire
∆Xi
ˆβ1 ± z (∆Xi) ˆσˆβ1
10 Un exemple d’estimation du mod`ele de r´egression simple
avec R
Voici un exemple de comment estimer un mod`ele de r´egression simple avec le logiciel R.
L’exemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus
de d´etaill´ee. Vous pouvez facilement jouer avec le code une fois que le logiciel est install´e. Le but
du mod`ele est de pr´edire la demande pour les abonnements `a des revues scientifiques (abonnements
par des biblioth`eques universitaires) o`u la variable explicative est le prix par nombre de citations.
Le mod`ele est
ln (subsi) = β0 + β1 ln (citepricei) + ui,
45
46. o`u la variable d´ependante subsi est le nombre d’abonnements `a la revue i (mesur´e en logs), et la
variable explicative citepricei est le prix annuel d’un abonnement divis´e par le nombre de citations
annuel d’articles publi´es dans la revue (mesur´e aussi en logs). Notez que le choix de mesurer les
deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre
sur les mod`eles de r´egression non lin´eaires. 4
Les donn´ees sont dans une banque de donn´ees qui s’appelle Journals . Il s’agit de
donn´ees (avec n = 180) sur les abonnements par des biblioth`eques universitaires `a des revues
scientifiques. La taille de l’´echantillon est le nombre de revues dans l’´echantillon.
Afin d’effectuer l’estimation d’un mod`ele de r´egression simple de base et afin d’effec-
tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais
aussi les packages AER (qui contient les donn´ees utilis´ees pour estimer le mod`ele),
lmtest, sandwich et zoo (ces trois packages permettent de calculer les ´ecarts types ro-
bustes du mod`ele estim´e et d’effectuer des tests d’hypoth`ese utilisant les ´ecarts types ro-
bustes). Si les packages ne sont pas d´ej`a install´es, il faut les installer avec la commande
install.packages(·) :
install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")
Notez que sous Linux il est pr´ef´erable d’installer le package comme administrateur du syst`eme
ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages install´es, on peut proc´eder `a charger les donn´ees et estimer le mod`ele
par MCO. Dans le code R qui suit, j’ajoute des commentaires pour expliquer ce que font les
4. Entretemps, `a moins d’avis contraire, je vous demande d’utiliser des variables non transform´ees dans les exer-
cices empiriques.
46
47. commandes. Les lignes pr´ec´ed´ees par # sont des commentaires.
R> # Charger les donn´ees.
R> library("AER")
R> data("Journals")
R> # Permettre d’appeler les variables directement par leurs
noms.
R> attach(Journals)
R> # Calculer des statistiques descriptives concernant les
variables.
R> # summary(Journals)
R> # Cr´eer une base de donn´ees avec un sous-ensemble des
variables.
R> journals <- Journals[, c("subs", "price")]
R> # Ajouter le prix par citation `a la base de donn´ees
restreinte.
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre d’appeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) ∼ log(citeprice), data = journals)
R> # Estimer le mod`ele par MCO utilisant la commande lm(·).
R> # Les r´esultats sont stock´es dans l’objet jour lm.
R> jour lm <- lm(log(subs) ∼ log(citeprice))
R> # Ajouter la ligne de r´egression estim´ee au nuage de
47
48. points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec l’output de
l’estimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est regumm.out .
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient l’output.
R> close(outfile)
R´esumons ce que nous avons fait avec ces commandes.
– La commande data(·) charge la banque de donn´ees en m´emoire.
– La commande journals<- cr´ee une plus petite banque de donn´ees en extrayant les
variables subs (combien d’abonnements) et price (prix de l’abonnement).
– La commande journals$citeprice<- ajoute une nouvelle variable `a la banque
journals qui est le prix par citation.
– La commande plot(·) cr´ee un graphique avec les observations, avec subs (en loga-
rithmes) sur l’axe vertical et citeprice (en logarithmes) sur l’axe horizontal)
– La commande lm(·) estime le mod`ele de r´egression simple par MCO, et la commande
jour lm<- place les r´esultats dans la variable jour lm.
– La commande abline(·) utilise les r´esultats pour placer la ligne de r´egression sur le
graphique qui a d´ej`a ´et´e cr´e´e.
– La commande summary(·) imprime les r´esultats de la r´egression `a l’´ecran.
– La commande outfile<- cr´ee un fichier texte o`u on peut envoyer les r´esultats.
– La commande capture.output(·) envoie les r´esultats dans le fichier qui a ´et´e cr´e´e.
48
49. – La commande close(·) ferme le fichier.
Les r´esultats de l’estimation sont comme suit.
Call:
lm(formula = log(subs) ∼ log(citeprice), data = journals)
Residuals:
Min 1Q Median 3Q Max
-2.72478 -0.53609 0.03721 0.46619 1.84808
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.76621 0.05591 85.25 <2e-16 ***
log(citeprice) -0.53305 0.03561 -14.97 <2e-16 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7497 on 178 degrees of freedom
Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548
F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16
Vous ˆetes d´ej`a en mesure de comprendre tous les ´el´ements de l’output, sauf `a la toute fin lors-
qu’on mentionne Adjusted R-squared et F-statistic. La mesure de l’ajustement
statistique R2
que nous avons ´etudi´ee est ce qu’on appelle Multiple R-squared dans
l’output. Nous reviendrons sur ces statistiques dans le chapitre sur le mod`ele de r´egression
multiple.
En ce qui concerne les r´esidus, le logiciel nous donne la valeur minimale parmi les r´esidus,
49
50. la valeur associ´ee au premier quartile (la valeur pour laquelle 25% des r´esidus on une valeur
inf´erieure), la valeur m´ediane (qui n’est pas forc´ement ´egale `a la moyenne), la valeur associ´ee
au troisi`eme quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-
male) peuvent ˆetre utiles pour rep´erer des observations aberrantes.
Une mise en garde : le code ci-dessus estime le mod`ele par MCO utilisant les options
par d´efaut. La fonction lm utilise par d´efaut une hypoth`ese d’homosc´edasticit´e. Donc, les
´ecarts types des deux coefficients (ˆβ0 et ˆβ1 dans notre notation) ne sont pas des ´ecarts types
robustes. Afin d’obtenir des ´ecarts types robustes `a la pr´esence de l’h´et´erosc´edasticit´e, il faut
utiliser la commande suivante :
R> coeftest(jour lm, vcov=vcovHC)
Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intall´es, tel qu’indiqu´e ci-dessus. Il faut aussi charger en m´emoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant d’utiliser la com-
mande coeftest(·), avec les commandes suivantes :
R> library("lmtest")
R> library("sandwich")
Les r´esultats de cette commande sont comme suit :
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7662 0.0555 85.8 <2e-16
log(citeprice) -0.5331 0.0345 -15.5 <2e-16
Ce mod`ele est un exemple d’un mod`ele o`u il n’y a pas une diff´erence ´enorme entre les ´ecarts
types robustes et non robustes. Puisque l’ordinateur est capable de calculer les ´ecarts types en
une fraction de seconde, il coˆute presque rien de les calculer des deux fac¸ons afin de v´erifier si
50
51. les r´esultats sont semblables ou non.
Un graphique avec les donn´ees (variable d´ependante sur l’axe vertical et variable explica-
tive sur l’axe horizontal) et la ligne de r´egression est la Figure 2 ci-dessous.
Figure 2
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2
1234567
log(citeprice)
log(subs)
11 Le mod`ele de r´egression simple lorsque X est une variable
dichotomique
Jusqu’ici, nous avons suppos´e que la variable explicative dans le mod`ele de r´egression simple,
X, est une variable al´eatoire continue. Il es souvent le cas que la variable explicative est une
variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, pr´esent ou
51
52. absent, etc.
On peux repr´esenter ces deux valeurs possibles de la variable explicative variable dichotomi-
que par soit 0 soit 1. Dans l’example du livre, l’impact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donn´ees sur la taille des
classes o`u Di = 1 pour des ratios ´el`eves/professeurs inf´erieurs `a 20 est Di = 0 pour des ratios
´el`eves/professeurs au moins ´egaux `a 20.
Dans ces cas, β1 n’a pas l’interpr´etation d’un coefficient de pente. Il a l’interpr´etation de la
moyenne conditionnelle de la variable d´ependante Y lorsque Di = 1. L’ordonn´ee β0 a l’in-
terpr´etation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, β1 a l’interpr´etation de
la diff´erence entre les moyennes de deux populations ou plutˆot de sous-populations.
Alg´ebriquement, nous avons
Yi = β0 + β1Xi + ui
⇒ E (Yi|Xi = 0) = β0 + β1 × 0 + E (ui|Xi = 0) = β0
et
⇒ E (Yi|Xi = 1) = β0 + β1 × 1 + E (ui|Xi = 1) = β0 + β1.
On ´ecrit dans le manuel qu’il y a ´equivalence entre d’une part estimer le mod`ele de r´egression
simple par MCO avec une variable explicative X et d’autre part calculer les moyennes ´echantillon-
nales des sous-´echantillons. Dans l’encadr´e qui suit, je montre cette ´equivalence. Je montre aussi
l’´equivalence entre tester la significativit´e du coefficient estim´e ˆβ1 et tester la significativit´e de la
diff´erence entre deux moyennes.
Le mod`ele avec une variable explicative dichotomique peut s’´ecire
Yi = β0 + β1Di + ui,
o`u Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre d’observations pour les-
52
53. quelles Di = 1 et soit n0 le nombre d’observations pour lesquelles Di = 0. Il est clair que
¯D ≡
1
n
n
i=1
Di =
n1
n
.
L’estimateur ˆβ0 est donn´e par la formule habituelle
ˆβ0 = ¯Y − ˆβ1
¯D.
L’estimateur ˆβ1 est donn´e par la formule habituelle
ˆβ1 =
n
i=1 Yi − ¯Y Di − ¯D
n
i=1 Di − ¯D
2 .
Dans ce cas, avec Di une variable dichotomique, nous avons
n
i=1
Di − ¯D
2
=
n0
i=1
¯D2
+
n1
i=1
1 − ¯D
2
= n0
n1
n
2
+ n1 1 −
n1
n
2
= n0
n1
n
2
+ n1
n0
n
2
=
n0n1
2
+ n1n0
2
n2
=
n0n1 (n0 + n1)
n2
=
n0n1
n
.
D´efinissons Y 1
i la valeur de Yi dans le cas o`u Di = 1. D´efinissons Y 0
i la valeur de Yi dans le
53
54. cas o`u Di = 0. Nous avons
ˆβ1 =
n
i=1 Yi − ¯Y Di − ¯D
n0n1/n
=
n1
i=1 Y 1
i − ¯Y (1 − n1/n) − n0
i=1 Y 0
i − ¯Y (n1/n)
n0n1/n
=
n1
i=1 Y 1
i − ¯Y (n0/n) − n0
i=1 Y 0
i − ¯Y (n1/n)
n0n1/n
=
1
n1
n1
i=1
Y 1
i − ¯Y −
1
n0
n0
i=1
Y 0
i − ¯Y
=
1
n1
n1
i=1
Y 1
i −
1
n1
¯Y
n1
i=1
1 −
1
n0
n0
i=1
Y 0
i +
1
n0
¯Y
n0
i=1
1
=
1
n1
n1
i=1
Y 1
i −
n1
n1
¯Y −
1
n0
n0
i=1
Y 0
i +
n0
n0
¯Y
=
1
n1
n1
i=1
Y 1
i −
1
n0
n0
i=1
Y 0
i .
Ceci est tout simplement la diff´erence entre la moyenne ´echantillonnale de Y pour le sous-
´echantillon o`u Di = 1 et sa moyenne ´echantillonnale pour le sous-´echantillon o`u Di = 0.
Il faut maintenant montrer que ˆβ0 est tout simplement ´egal `a la moyenne ´echantillonnale
de Y pour le sous-´echantillon o`u Di = 0. Nous avons
ˆβ0 = ¯Y −
n1
n
n
i=1 Yi − ¯Y Di − ¯D
n0n1/n
= ¯Y −
n1
n
n1
i=1 Y 1
i − ¯Y (1 − n1/n) − n0
i=1 Y 0
i − ¯Y (n1/n)
n0n1/n
= ¯Y −
n1
n
n0
n
n1
i=1 Y 1
i − n1
n
n0
i=1 Y 0
i − ¯Y n0n1
n
+ ¯Y n0n1
n
n0n1/n
= ¯Y −
n1
n
n0
n
n1
i=1 Y 1
i − n1
n
n0
i=1 Y 0
i
n0n1/n
54
55. =
1
n
n
i=1
Yi −
1
n
n1
i=1
Y 1
i +
n1
n0n
n0
i=1
Y 0
i
=
1
n
n1
i=1
Y 1
i +
n0
i=1
Y 0
i −
1
n
n1
i=1
Y 1
i +
n1
n0n
n0
i=1
Y 0
i
=
1
n
+
n1
n0n
n0
i=1
Y 0
i
=
1
n0
n0
i=1
Y 0
i ,
ce qui fut `a d´emontrer. La statistique t pour tester la significativit´e du coefficient estim´e ˆβ1 est
donn´ee par la formule habituelle :
t =
ˆβ1
SE ˆβ1
.
Dans ce cas, nous avons
t =
¯Y 1
− ¯Y 0
Var ¯Y 1 − ¯Y 0
,
=
¯Y 1
− ¯Y 0
Var ¯Y 1 + Var ¯Y 0
,
=
¯Y 1
− ¯Y 0
− 0
σ2
Y 1
n1
+
σ2
Y 0
n0
,
o`u
¯Y 1
≡
1
n1
n1
i=1
Y 1
i , ¯Y 0
≡
1
n0
n0
i=1
Y 0
i .
Cette formule correspond exactement `a la formule d´eriv´ee dans le chapitre sur la statistique
et les tests d’hypoth`eses pour tester la diff´erence entre les moyennes de deux populations
diff´erentes.
Ici, l’hypoth`ese d’h´et´erosc´edasticit´e permet `a la variance de l’erreur du mod`ele de
r´egression de d´ependre des deux valeurs diff´erentes possibles de Di.
55
56. 12 Concepts `a retenir
– Comment ´ecrire le mod`ele de r´egression simple.
– Le probl`eme de minimisation auquel l’estimateur MCO est une solution.
– Les propri´et´es alg´ebriques de l’estimateur MCO. Il est important de pouvoir suivre les
d´emonstrations de ces propri´et´es et de les comprendre, mais il n’est pas n´ecessaire d’ˆetre
capable de les reproduire.
– Le concept du R2
, et les concepts de somme totale des carr´es, somme expliqu´ee des carr´es,
et somme des r´esidus carr´es et la relation entre ces sommes.
– Les hypoth`eses statistiques de base du mod`ele de r´egression simple qui sont requises pour
montrer l’absence de biais et la convergence.
– Les hypoth`eses additionnelles n´ecessaires pour montrer l’efficience de l’estimateur MCO
(th´eor`eme Gauss-Markov).
– Il faut avoir suivi et compris la d´erivation des propri´et´es ´echantillonnales des coefficients
estim´es.
– Comment tester des hypoth`eses concernant les coefficients estim´es du mod`ele, contre des
hypoth`eses alternatives bilat´erales ou unilat´erales.
– Comment calculer un intervalle de confiance pour les coefficients du mod`ele.
– Comment calculer un intervalle de confiance pour un changement pr´edit.
13 R´ef´erences
Voir ce lien :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf
Derni`ere modification : 12/10/2013
56