1. ENSTA,
Cours D7-1 / Chapitre 5
Modèle de régression linéaire
bivarié
Laurent Ferrara
Jean-Paul Renne
Octobre 2010
2. Soit 2 variables continues X et Y. On observe les unités
expérimentales : (xi , yi), pour i = 1, …, n.
1. Existe-t-il un lien entre X et Y?
2. Comment le mesurer ?
3. Comment modéliser ce lien?3. Comment modéliser ce lien?
4. Comment estimer les paramètres de ce modèle?
5. Comment valider ce modèle ?
6. Comment tirer partie de ce modèle pour prévoir les valeurs
d’une variable d’après les valeurs de l’autre?
3. Exemple : données USA 1992 sur 50 états (state.x77)
Existe-t-il un lien entre :
les revenus d’un état et le nombre de ses « high-school graduates »?
6065
Inc
Gra
3000 3500 4000 4500 5000 5500 6000
40455055
4. Causalité?
Existe-t-il un lien entre :
Le nombre de meurtres et l ’espérance de vie?
7273
Murder
LifeExp
2 4 6 8 10 12 14
68697071
5. Quel type de lien?
• Mise en évidence un lien linéaire entre les 2 variables.
– Y est considérée comme la variable à expliquer , ou dépendante, ou
endogène.
– X est considérée comme la variable explicative, ou indépendante, ou– X est considérée comme la variable explicative, ou indépendante, ou
exogène.
• Relation statistique entre les 2 variables (non-déterministe) :
la connaissance de X n’implique pas la connaissance parfaite
de Y : il existe une erreur aléatoire autour de la valeur
prédite
7. Comment mesurer un lien linéaire?
• Outil principal : Coefficient de corrélation linéaire
)()(
),(
),(
YVXV
YXCov
YXc =
Estimateur empirique :
∑∑
∑
==
=
−−
−−
=
n
i
i
n
i
i
n
i
ii
YyXx
YyXx
YX
1
2
1
2
1
)()(
))((
),(ρ
8. Comment mesurer un lien linéaire?
• Signification :
baXYqtbaYXc +=∃⇔= :..,1),(
?1),( <YXc
• Test de Student
– H0 :
– H1 :
0),( =YXρ
0),( ≠YXρ
9. Comment mesurer un lien linéaire?
• Sous l’hypothèse nulle H0 :
suit une loi de Student à (n-2) dl
2)),(1(
),(
2
−− nYX
YX
ρ
ρ
Donc, si
est tq : t* > on rejette H0 au seuil de risque α
2/
2
α
−nt
2)),(1(
),(
*
2
−−
=
nYX
YX
t
ρ
ρ
10. Attention au piège : dépendance non linéaire
le coeff de corrélation ne mesure que la dépendance linéaire.
> cor(x, y)
[1] 0.99
> cor(x, y2)
[1] 0.246
> cor(x, y3)
[1] 0.854
> cor(x, yexp)
• Effectuer une analyse graphique au préalable pour
identifier la forme de la dépendance.
• Un coeff de corrélation élevé ne signifie pas forcément une
dépendance linéaire.
> cor(x, yexp)
[1] 0.898
11. Attention au piège : Corrélation fallacieuse
Existence d’un coefficient de corrélation non nul entre deux
variables qu’aucune théorie économique, physique … ne
relie.
2 cas :2 cas :
– résultat purement aléatoire
– existence d’un troisième variable qui explique conjointement les 2
phénomènes (en général : le temps)
Exemple de Krugman :
lien désindustrialisation–délocalisation aux USA (application à la France)
14. Corrélation = - 0,50, t de Student = 3,99
→ Conclusion statistique : on rejette l’hypothèse H0 de nullité
de la corrélation linéaire entre les 2 variables
→ Conclusion économique rapide : les pays à faibles coûts
salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française
Or, Krugman a montré qu’en fait les destructions d’emplois
industriels étaient causées par la baisse des dépenses (en
valeur) des ménages en produits manufacturés, liée à la forte
hausse de la productivité dans l’industrie par comparaison
avec celle dans les services
15. On remarque également que les coefficients de corrélation
entre chacune des variables et le temps sont de :
– 0,75 pour l’emploi industriel
0,94 pour les imports
Exercice : Proposer des exemples de corrélation fallacieuse
16. Attention au piège :
Un coefficient de corrélation nul ne signifie pas que les
variables sont indépendantes (sauf dans le cas Gaussien)
En particulier, il peut exister une relation sur les moments
d’ordre supérieur du modèle
Exemple : lien linéaire entre les variances de X et Y
(cas des processus ARCH en séries chronologiques)
17. Autres outils de mesure de dépendance:
– Concordance
– Corrélation de rang (Tau de Kendall, coefficient de Spearman)
– Corrélation conditionnelle
– …
– L’expression générale de la dépendance ne peut se faire que par la
loi jointe.
→ Si celle-ci n’est pas calculable: concept de copules
18. Comment modéliser un lien linéaire?
• Quel est le « meilleur » ajustement linéaire?
• Exemple : relation poids / taille
74706662
210
200
190
180
170
160
150
140
130
120
110
height
weight
w = -266.5 + 6.1 h
w = -331.2 + 7.1 h
19. Notation
iy est la ième observation de la variable exogène
ix est la ième observation de la variable endogènei
iyˆ est la valeur ajustée (estimée) de la ième observation
équation de la meilleure
droite d’ajustement: ii xbby 10
ˆ +=
21. Erreur de prévision
(ou erreur résiduelle)
En utilisant iyˆ pour prédire ,iy
on fait une erreur de prévision:
yye ˆ−= iii yye ˆ−=
La droite d’ajustement qui colle le mieux aux données est
celle pour laquelle les n erreurs de prévisions sont les plus
petites possibles au sens d’un certain critère.
22. Critère des “Moindres Carrés”
Objectif : Choisir les valeurs b0 et b1 qui minimise la
Equation de la droite : ii xbby 10
ˆ +=
Objectif : Choisir les valeurs b0 et b1 qui minimise la
somme des carrés des erreurs.
i.e. : minimiser: ( )
2
1
ˆ∑=
−=
n
i
ii yyQ
23. La droite de régression
Par le calcul, minimiser (dériver, annuler et résoudre
pour b0 et b1):
( )( )
2
1
10∑=
+−=
n
i
ii xbbyQ
1=i
et obtenir les estimateurs des moindres carrés
ordinaires (MCO) de b0 et b1:
( )( )
( )∑
∑
=
=
−
−−
= n
i
i
n
i
ii
xx
yyxx
b
1
2
1
1
ˆ xbyb 10
ˆˆ −=
25. Remarques
En termes géométriques
• la droite de régression est celle qui minimise la distance
quadratique entre les points et les projections orthogonales
de ces points sur cette droite.de ces points sur cette droite.
• la droite de régression est celle qui minimise la variance du
nuage de points projetés orthogonalement sur cette droite.
26. Formalisation
Hypothèses du modèle linéaire :
• H1 : E(Yi) fonction linéaire des xi (déterministes)
y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n
• H2 : Les erreurs, εεεεi, sont indépendantes entre elles
• H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle
(en moyenne le modèle est bien spécifié)
27. • H4 : E(εεεε2
i) = σ2 , les erreurs sont de variance égale
pour toute valeur de X
(hypothèse d’homoscédasticité)
• H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des
valeurs de Xvaleurs de X
• H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont
identiquement distribuées selon la loi Normale.
28. Estimation des paramètres
Quels paramètres ? → b0 , b1 , σ2 →
estimés par MCO
2
10
ˆ,ˆ,ˆ σbb
10
ˆ,ˆ bb
estimée par l’erreur quadratique moyenne
ou Mean Squared Error (MSE)
2
ˆσ
29. La MSE est définie par :
( )
2
ˆ
ˆ 1
2
2
−
−
==
∑=
n
YY
MSE
n
i
ii
σ
On pondère par le nombre de degrés de liberté du modèle
défini par :
degrés de liberté = nbre d’observations - nbre de paramètres
30. Loi asymptotique des paramètres
Les estimateurs MCO sont sans biais et convergents
• On montre que :
00 )ˆ( bbE = 11)ˆ( bbE =
• On montre que :
Donc
∑=
−
= n
i
i Xx
bV
1
2
2
1
)(
ˆ
)ˆ(
σ
∞→→ nsibV 0)ˆ( 1
31. Loi asymptotique des paramètres
• De même,
−
+=
∑=
n
i
i Xx
X
n
bV
1
2
2
2
0
)(
1
ˆ)ˆ( σ
=i 1
∞→→ nsibV 0)ˆ( 0
32. Remarques
• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,
estimateur MCO = estimateur EMV
• La variance estimée par le modèle est différente de la
variance empirique (valable pour tout échantillon qui suit le
modèle linéaire)modèle linéaire)
• La variance résiduelle mesure avec quelle amplitude les
valeurs de Y s’écartent de la droite de régression.
– C ’est une mesure de la précision du modèle
– C ’est une mesure du risque associé au modèle
33. 100
90
80
t
S = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %
fahrenheit = 34.1233 + 1.61538 celsius
Regression Plot
Exemple : la précision de ce thermomètre est-elle
meilleure ou moins bonne que …..
403020100
80
70
60
50
40
30
Celsius
Fahrenheit
34. … celle de celui-ci?
100
eit
S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %
fahrenheit = 17.0709 + 2.30583 celsius
Regression Plot
403020100
50
0
Celsius
Fahrenhe
35. Remarques
• Quel est le but du jeu de toute tentative de modélisation
d’une variable Y ?
→→→→ Minimiser la variance résiduelle
Y = partie déterministe + partie aléatoire
Y = f(X) + ε
Par indépendance, V(Y) = V(f(X)) + V(εεεε)
36. Validation du modèle
On valide le modèle à l’aide des tests statistiques.
2 types de tests d’hypothèses sont développés :
1) Tests sur les paramètres du modèle
2) Tests sur les résidus du modèle
37. (1-αααα) IC pour la pente
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
1
ˆb
Formule en notations :
( )
( )
−
×±
∑
−− 22,
2
11
ˆˆ
Xx
tb
i
n
σ
α
38. Test sur la pente
Null hypothesis H0: β1 = β (en général =0)
Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)
( )
11
*
bb
t
ββ −
=
−
=Test statistic
1
ˆb
( )
( )1
2
*
bse
xx
MSE
t
i
=
−
=
∑
Test statistic
P-value = Risque maximum d’accepter H1 à tort (à
comparer avec le risque de première espèce α)
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté
39. Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
0
ˆb(1-αααα) IC pour la constante
Formule en notations:
( ) ( )∑ −
+×± −− 2
2
2,
2
10
1
ˆˆ
Xx
x
n
tb
i
n
σα
40. Null hypothesis H0: β0 = β (en général = 0)
Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)
00
*
bb
t
ββ −
=
−
=
Test statistic
Test sur la constante 0
ˆb
P-value = Risque maximum d’accepter H1 à tort
(à comparer avec le risque de première espèce α)
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté.
( )
( )0
0
2
2
0
1
*
bse
b
xx
x
n
MSE
b
t
i
ββ −
=
−
+
−
=
∑
Test statistic
41. Test sur le terme d’erreur
Les intervalles et les tests précédents sont basés
sur la Normalité du terme d’erreur. Il importe
donc de tester les résidus.
– Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …)
– Test graphiques (QQ-Plot)
Les résultats restent valides en cas d’écart à la loi
Normale si l’échantillon est grand (résultats
asymptotiques).
42. > w.fit <- lm(weight ~ 1 + height)
> summary(w.fit)
Call: lm(formula = weight ~ 1 + height)
Residuals:
Min 1Q Median 3Q Max
-13.2 -4.08 -0.0963 4.64 14.2
Exemple : Poids / Taille
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -266.534 51.032 -5.223 0.001
height 6.138 0.735 8.347 0.000
Residual standard error: 8.64 on 8 degrees of freedom
Multiple R-Squared: 0.897
> resid(w.fit)
1 2 3 4 5 6 7 8 9 10
-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4
44. Mesure de la qualité du modèle
On mesure la qualité du modèle par l’analyse de la variance
On montre les 2 relations suivantes :
• la somme des résidus est nulle, i.e. : ∑=
=
n
i
ie
1
0
• la moyenne de la variable et la moyenne de la
variable estimée sont égales, i.e. :
∑=i 1
∑ ∑= =
=
n
i
n
i
ii yy
1 1
ˆ
45. ∑∑∑ +−=−
i
i
i
i
i
i eyyyy 222
)ˆˆ()(
On en déduit l’équation de l’analyse de la variance:
Variance totale = Variance expliquée + Variance résiduelle
Objectif : Maximiser la variance expliquée
46. • R2 : mesure de la variance expliquée
• Le R2 est à valeur entre 0 et 1
∑=
−
−= n
i
i YY
R
1
2
2
2
)(
ˆ
1
σ
• Le R2 est à valeur entre 0 et 1
• Critères d’information : Akaike (1971)
47. Prévision
Que veut-on prévoir?
• La réponse «moyenne» de la population = E(Yh) pour
une valeur xh
– Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée?
(Plus précis que le poids moyen de l’échantillon)
• La réponse Yh(new) à une nouvelle valeur donnée xh
– Ex : Quel est le poids estimé par le modèle d’un nouvel
individu choisi au hasard de taille donnée?
48. est le meilleur estimateur dans chaque cas.hh xbbY 10
ˆ +=
En fait les 2 prévisions sont égales :
Seuls les intervalles de confiance autour des réponses vont varier.
49. 22
18
etestscore
( ) xxYEY 10 ββµ +==
54321
14
10
6
High school gpa
Collegeentrance
( ) ii xY εββ ++= 10
51. Formule “avec des mots” :
Sample estimate ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse moyenne
E(Yh)
Formule en notation:
( )
( )
( )
−
−
+××±
∑
−− 2
2
2
2,
2
1
1
ˆˆ
Xx
Xx
n
ty
i
h
nh σα
52. Implications sur la précision
• Au plus les valeurs des xi sont étalées, au plus
l’intervalle de confiance est petit,
donc l’estimation de E(Yh) est plus précise.h
• Suivant le même échantillon de xi, au plus la
valeur de xh est loin de la moyenne empirique, au
plus l’intervalle de confiance est grand,
donc l’estimation de E(Yh) est moins précise.
53. Remarques
• xh est une valeur correspondant au champ de
l’étude mais pas nécessairement une valeur de
l’échantillon
• L’IC pour E(Yh) est correct même si le terme d’erreur
est seulement approché par une loi Normale
• Si le nombre d’observations est grand, l’IC pour
E(Yh) est correct même si le terme d’erreur s’écarte
fortement d’une loi Normale
54. > predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)
$fit:
1 2
102 224
$se.fit:
1 2
7.36 8.33
Exemple : Estimation du poids moyen pour 2 tailles données
(60, proche de la moyenne, et 80, plus élevée que la moyenne)
$residual.scale:
[1] 8.64
$df:
[1] 8
$ci.fit:
lower upper
1 84.7 119
2 205.3 244
attr(, "conf.level"):
[1] 0.95
60. Variance de la prévision
Elle dépend de 2 composantes :
1. Variance due à l’estimation de E(Yh) par
2. Variance de Y inhérente à sa distribution
hyˆ
( )
( )
( )
( )
−
−
++=
−
−
++
∑∑ ==
n
i
i
h
n
i
i
h
xx
xx
n
xx
xx
n
1
2
2
2
1
2
2
22 1
1ˆ
1
ˆˆ σσσEstimation:
2. Variance de Y inhérente à sa distribution
61. Sample prediction ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse Yh
( )
( )
( )
−
−
++×±
∑−− 2
2
2
2,
2
1
1
1ˆˆ
xx
xx
n
ty
i
h
nh σα
62. 250
ality
S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %
Mortality = 389.189 - 5.97764 Latitude
Regression Plot
504030
150
50
Latitude
Morta
95% PI
95% CI
Regression