SlideShare una empresa de Scribd logo
1 de 62
Descargar para leer sin conexión
ENSTA,
Cours D7-1 / Chapitre 5
Modèle de régression linéaire
bivarié
Laurent Ferrara
Jean-Paul Renne
Octobre 2010
Soit 2 variables continues X et Y. On observe les unités
expérimentales : (xi , yi), pour i = 1, …, n.
1. Existe-t-il un lien entre X et Y?
2. Comment le mesurer ?
3. Comment modéliser ce lien?3. Comment modéliser ce lien?
4. Comment estimer les paramètres de ce modèle?
5. Comment valider ce modèle ?
6. Comment tirer partie de ce modèle pour prévoir les valeurs
d’une variable d’après les valeurs de l’autre?
Exemple : données USA 1992 sur 50 états (state.x77)
Existe-t-il un lien entre :
les revenus d’un état et le nombre de ses « high-school graduates »?
6065
Inc
Gra
3000 3500 4000 4500 5000 5500 6000
40455055
Causalité?
Existe-t-il un lien entre :
Le nombre de meurtres et l ’espérance de vie?
7273
Murder
LifeExp
2 4 6 8 10 12 14
68697071
Quel type de lien?
• Mise en évidence un lien linéaire entre les 2 variables.
– Y est considérée comme la variable à expliquer , ou dépendante, ou
endogène.
– X est considérée comme la variable explicative, ou indépendante, ou– X est considérée comme la variable explicative, ou indépendante, ou
exogène.
• Relation statistique entre les 2 variables (non-déterministe) :
la connaissance de X n’implique pas la connaissance parfaite
de Y : il existe une erreur aléatoire autour de la valeur
prédite
x
y
-1 0 1
-101
x
y2
-1 0 1
0123
x
y3
-1 0 1
-4-20246
x
yexp
-1 0 1
0123456
Comment mesurer un lien linéaire?
• Outil principal : Coefficient de corrélation linéaire
)()(
),(
),(
YVXV
YXCov
YXc =
Estimateur empirique :
∑∑
∑
==
=
−−
−−
=
n
i
i
n
i
i
n
i
ii
YyXx
YyXx
YX
1
2
1
2
1
)()(
))((
),(ρ
Comment mesurer un lien linéaire?
• Signification :
baXYqtbaYXc +=∃⇔= :..,1),(
?1),( <YXc
• Test de Student
– H0 :
– H1 :
0),( =YXρ
0),( ≠YXρ
Comment mesurer un lien linéaire?
• Sous l’hypothèse nulle H0 :
suit une loi de Student à (n-2) dl
2)),(1(
),(
2
−− nYX
YX
ρ
ρ
Donc, si
est tq : t* > on rejette H0 au seuil de risque α
2/
2
α
−nt
2)),(1(
),(
*
2
−−
=
nYX
YX
t
ρ
ρ
Attention au piège : dépendance non linéaire
le coeff de corrélation ne mesure que la dépendance linéaire.
> cor(x, y)
[1] 0.99
> cor(x, y2)
[1] 0.246
> cor(x, y3)
[1] 0.854
> cor(x, yexp)
• Effectuer une analyse graphique au préalable pour
identifier la forme de la dépendance.
• Un coeff de corrélation élevé ne signifie pas forcément une
dépendance linéaire.
> cor(x, yexp)
[1] 0.898
Attention au piège : Corrélation fallacieuse
Existence d’un coefficient de corrélation non nul entre deux
variables qu’aucune théorie économique, physique … ne
relie.
2 cas :2 cas :
– résultat purement aléatoire
– existence d’un troisième variable qui explique conjointement les 2
phénomènes (en général : le temps)
Exemple de Krugman :
lien désindustrialisation–délocalisation aux USA (application à la France)
empindus
4500,0
4600,0
4700,0
Évolution de l’emploi industriel France (Trimestriel 1991-2003)
4000,0
4100,0
4200,0
4300,0
4400,0
m
ars-91
juil-91
nov-91m
ars-92
juil-92
nov-92m
ars-93
juil-93
nov-93m
ars-94
juil-94
nov-94m
ars-95
juil-95
nov-95m
ars-96
juil-96
nov-96m
ars-97
juil-97
nov-97m
ars-98
juil-98
nov-98m
ars-99
juil-99
nov-99m
ars-00
juil-00
nov-00m
ars-01
juil-01
nov-01m
ars-02
juil-02
nov-02m
ars-03
Imports
1,70
1,90
2,10
Évolution des importations de biens en volume France 1991-2003
0,70
0,90
1,10
1,30
1,50
m
ars-91
juil-91
nov-91m
ars-92
juil-92
nov-92m
ars-93
juil-93
nov-93m
ars-94
juil-94
nov-94m
ars-95
juil-95
nov-95m
ars-96
juil-96
nov-96m
ars-97
juil-97
nov-97m
ars-98
juil-98
nov-98m
ars-99
juil-99
nov-99m
ars-00
juil-00
nov-00m
ars-01
juil-01
nov-01m
ars-02
juil-02
nov-02m
ars-03
Corrélation = - 0,50, t de Student = 3,99
→ Conclusion statistique : on rejette l’hypothèse H0 de nullité
de la corrélation linéaire entre les 2 variables
→ Conclusion économique rapide : les pays à faibles coûts
salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française
Or, Krugman a montré qu’en fait les destructions d’emplois
industriels étaient causées par la baisse des dépenses (en
valeur) des ménages en produits manufacturés, liée à la forte
hausse de la productivité dans l’industrie par comparaison
avec celle dans les services
On remarque également que les coefficients de corrélation
entre chacune des variables et le temps sont de :
– 0,75 pour l’emploi industriel
0,94 pour les imports
Exercice : Proposer des exemples de corrélation fallacieuse
Attention au piège :
Un coefficient de corrélation nul ne signifie pas que les
variables sont indépendantes (sauf dans le cas Gaussien)
En particulier, il peut exister une relation sur les moments
d’ordre supérieur du modèle
Exemple : lien linéaire entre les variances de X et Y
(cas des processus ARCH en séries chronologiques)
Autres outils de mesure de dépendance:
– Concordance
– Corrélation de rang (Tau de Kendall, coefficient de Spearman)
– Corrélation conditionnelle
– …
– L’expression générale de la dépendance ne peut se faire que par la
loi jointe.
→ Si celle-ci n’est pas calculable: concept de copules
Comment modéliser un lien linéaire?
• Quel est le « meilleur » ajustement linéaire?
• Exemple : relation poids / taille
74706662
210
200
190
180
170
160
150
140
130
120
110
height
weight
w = -266.5 + 6.1 h
w = -331.2 + 7.1 h
Notation
iy est la ième observation de la variable exogène
ix est la ième observation de la variable endogènei
iyˆ est la valeur ajustée (estimée) de la ième observation
équation de la meilleure
droite d’ajustement: ii xbby 10
ˆ +=
210
200
190
180
170
160
150
140
weight
w = -266.5 + 6.1 h
1 64 121 126.3
ix iy iyˆi
74706662
130
120
height
1 64 121 126.3
2 73 181 181.5
3 71 156 169.2
4 69 162 157.0
5 66 142 138.5
6 69 157 157.0
7 75 208 193.8
8 71 169 169.2
9 63 127 120.1
10 72 165 175.4
Erreur de prévision
(ou erreur résiduelle)
En utilisant iyˆ pour prédire ,iy
on fait une erreur de prévision:
yye ˆ−= iii yye ˆ−=
La droite d’ajustement qui colle le mieux aux données est
celle pour laquelle les n erreurs de prévisions sont les plus
petites possibles au sens d’un certain critère.
Critère des “Moindres Carrés”
Objectif : Choisir les valeurs b0 et b1 qui minimise la
Equation de la droite : ii xbby 10
ˆ +=
Objectif : Choisir les valeurs b0 et b1 qui minimise la
somme des carrés des erreurs.
i.e. : minimiser: ( )
2
1
ˆ∑=
−=
n
i
ii yyQ
La droite de régression
Par le calcul, minimiser (dériver, annuler et résoudre
pour b0 et b1):
( )( )
2
1
10∑=
+−=
n
i
ii xbbyQ
1=i
et obtenir les estimateurs des moindres carrés
ordinaires (MCO) de b0 et b1:
( )( )
( )∑
∑
=
=
−
−−
= n
i
i
n
i
ii
xx
yyxx
b
1
2
1
1
ˆ xbyb 10
ˆˆ −=
170
180
190
200
210ht
weight = -266.534 + 6.13758 height
S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 %
Regression Plot
Résultat:
65 70 75
120
130
140
150
160
170
height
weigh
Remarques
En termes géométriques
• la droite de régression est celle qui minimise la distance
quadratique entre les points et les projections orthogonales
de ces points sur cette droite.de ces points sur cette droite.
• la droite de régression est celle qui minimise la variance du
nuage de points projetés orthogonalement sur cette droite.
Formalisation
Hypothèses du modèle linéaire :
• H1 : E(Yi) fonction linéaire des xi (déterministes)
y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n
• H2 : Les erreurs, εεεεi, sont indépendantes entre elles
• H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle
(en moyenne le modèle est bien spécifié)
• H4 : E(εεεε2
i) = σ2 , les erreurs sont de variance égale
pour toute valeur de X
(hypothèse d’homoscédasticité)
• H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des
valeurs de Xvaleurs de X
• H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont
identiquement distribuées selon la loi Normale.
Estimation des paramètres
Quels paramètres ? → b0 , b1 , σ2 →
estimés par MCO
2
10
ˆ,ˆ,ˆ σbb
10
ˆ,ˆ bb
estimée par l’erreur quadratique moyenne
ou Mean Squared Error (MSE)
2
ˆσ
La MSE est définie par :
( )
2
ˆ
ˆ 1
2
2
−
−
==
∑=
n
YY
MSE
n
i
ii
σ
On pondère par le nombre de degrés de liberté du modèle
défini par :
degrés de liberté = nbre d’observations - nbre de paramètres
Loi asymptotique des paramètres
Les estimateurs MCO sont sans biais et convergents
• On montre que :
00 )ˆ( bbE = 11)ˆ( bbE =
• On montre que :
Donc
∑=
−
= n
i
i Xx
bV
1
2
2
1
)(
ˆ
)ˆ(
σ
∞→→ nsibV 0)ˆ( 1
Loi asymptotique des paramètres
• De même,












−
+=
∑=
n
i
i Xx
X
n
bV
1
2
2
2
0
)(
1
ˆ)ˆ( σ
 =i 1
∞→→ nsibV 0)ˆ( 0
Remarques
• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,
estimateur MCO = estimateur EMV
• La variance estimée par le modèle est différente de la
variance empirique (valable pour tout échantillon qui suit le
modèle linéaire)modèle linéaire)
• La variance résiduelle mesure avec quelle amplitude les
valeurs de Y s’écartent de la droite de régression.
– C ’est une mesure de la précision du modèle
– C ’est une mesure du risque associé au modèle
100
90
80
t
S = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %
fahrenheit = 34.1233 + 1.61538 celsius
Regression Plot
Exemple : la précision de ce thermomètre est-elle
meilleure ou moins bonne que …..
403020100
80
70
60
50
40
30
Celsius
Fahrenheit
… celle de celui-ci?
100
eit
S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %
fahrenheit = 17.0709 + 2.30583 celsius
Regression Plot
403020100
50
0
Celsius
Fahrenhe
Remarques
• Quel est le but du jeu de toute tentative de modélisation
d’une variable Y ?
→→→→ Minimiser la variance résiduelle
Y = partie déterministe + partie aléatoire
Y = f(X) + ε
Par indépendance, V(Y) = V(f(X)) + V(εεεε)
Validation du modèle
On valide le modèle à l’aide des tests statistiques.
2 types de tests d’hypothèses sont développés :
1) Tests sur les paramètres du modèle
2) Tests sur les résidus du modèle
(1-αααα) IC pour la pente
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
1
ˆb
Formule en notations :
( )
( ) 









−
×±
∑
−− 22,
2
11
ˆˆ
Xx
tb
i
n
σ
α
Test sur la pente
Null hypothesis H0: β1 = β (en général =0)
Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)
( )
11
*
bb
t
ββ −
=

−
=Test statistic
1
ˆb
( )
( )1
2
*
bse
xx
MSE
t
i
=










−
=
∑
Test statistic
P-value = Risque maximum d’accepter H1 à tort (à
comparer avec le risque de première espèce α)
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté
Formule “avec des mots” :
Paramètre estimé ± (t-multiplier × standard error)
0
ˆb(1-αααα) IC pour la constante
Formule en notations:
( ) ( )∑ −
+×± −− 2
2
2,
2
10
1
ˆˆ
Xx
x
n
tb
i
n
σα
Null hypothesis H0: β0 = β (en général = 0)
Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)
00
*
bb
t
ββ −
=
−
=
Test statistic
Test sur la constante 0
ˆb
P-value = Risque maximum d’accepter H1 à tort
(à comparer avec le risque de première espèce α)
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté.
( )
( )0
0
2
2
0
1
*
bse
b
xx
x
n
MSE
b
t
i
ββ −
=
−
+
−
=
∑
Test statistic
Test sur le terme d’erreur
Les intervalles et les tests précédents sont basés
sur la Normalité du terme d’erreur. Il importe
donc de tester les résidus.
– Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …)
– Test graphiques (QQ-Plot)
Les résultats restent valides en cas d’écart à la loi
Normale si l’échantillon est grand (résultats
asymptotiques).
> w.fit <- lm(weight ~ 1 + height)
> summary(w.fit)
Call: lm(formula = weight ~ 1 + height)
Residuals:
Min 1Q Median 3Q Max
-13.2 -4.08 -0.0963 4.64 14.2
Exemple : Poids / Taille
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -266.534 51.032 -5.223 0.001
height 6.138 0.735 8.347 0.000
Residual standard error: 8.64 on 8 degrees of freedom
Multiple R-Squared: 0.897
> resid(w.fit)
1 2 3 4 5 6 7 8 9 10
-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4
180200
Graphique : Poids observé vs. poids estimé
Fitted : 1 + height
weight
120 140 160 180
120140160
Mesure de la qualité du modèle
On mesure la qualité du modèle par l’analyse de la variance
On montre les 2 relations suivantes :
• la somme des résidus est nulle, i.e. : ∑=
=
n
i
ie
1
0
• la moyenne de la variable et la moyenne de la
variable estimée sont égales, i.e. :
∑=i 1
∑ ∑= =
=
n
i
n
i
ii yy
1 1
ˆ
∑∑∑ +−=−
i
i
i
i
i
i eyyyy 222
)ˆˆ()(
On en déduit l’équation de l’analyse de la variance:
Variance totale = Variance expliquée + Variance résiduelle
Objectif : Maximiser la variance expliquée
• R2 : mesure de la variance expliquée
• Le R2 est à valeur entre 0 et 1
∑=
−
−= n
i
i YY
R
1
2
2
2
)(
ˆ
1
σ
• Le R2 est à valeur entre 0 et 1
• Critères d’information : Akaike (1971)
Prévision
Que veut-on prévoir?
• La réponse «moyenne» de la population = E(Yh) pour
une valeur xh
– Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée?
(Plus précis que le poids moyen de l’échantillon)
• La réponse Yh(new) à une nouvelle valeur donnée xh
– Ex : Quel est le poids estimé par le modèle d’un nouvel
individu choisi au hasard de taille donnée?
est le meilleur estimateur dans chaque cas.hh xbbY 10
ˆ +=
En fait les 2 prévisions sont égales :
Seuls les intervalles de confiance autour des réponses vont varier.
22
18
etestscore
( ) xxYEY 10 ββµ +==
54321
14
10
6
High school gpa
Collegeentrance
( ) ii xY εββ ++= 10
Intervalle de confiance pour la
réponse moyenne de la population
E(Y )E(Yh)
Formule “avec des mots” :
Sample estimate ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse moyenne
E(Yh)
Formule en notation:
( )
( )
( ) 







−
−
+××±
∑
−− 2
2
2
2,
2
1
1
ˆˆ
Xx
Xx
n
ty
i
h
nh σα
Implications sur la précision
• Au plus les valeurs des xi sont étalées, au plus
l’intervalle de confiance est petit,
donc l’estimation de E(Yh) est plus précise.h
• Suivant le même échantillon de xi, au plus la
valeur de xh est loin de la moyenne empirique, au
plus l’intervalle de confiance est grand,
donc l’estimation de E(Yh) est moins précise.
Remarques
• xh est une valeur correspondant au champ de
l’étude mais pas nécessairement une valeur de
l’échantillon
• L’IC pour E(Yh) est correct même si le terme d’erreur
est seulement approché par une loi Normale
• Si le nombre d’observations est grand, l’IC pour
E(Yh) est correct même si le terme d’erreur s’écarte
fortement d’une loi Normale
> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)
$fit:
1 2
102 224
$se.fit:
1 2
7.36 8.33
Exemple : Estimation du poids moyen pour 2 tailles données
(60, proche de la moyenne, et 80, plus élevée que la moyenne)
$residual.scale:
[1] 8.64
$df:
[1] 8
$ci.fit:
lower upper
1 84.7 119
2 205.3 244
attr(, "conf.level"):
[1] 0.95
Intervalle de Prévision pour la
réponse Yh(new) à une nouvelle
valeur xvaleur xh(new)
Prévision de Yh(new)
si la moyenne E(Y) est connue,
i.e. : si les paramètres sont fixés
Hypothèse 252
=σ 5=σcàd
0.07
0.08
Prévision de Yh(new)
si la moyenne E(Y) est connue
47 52 57 62 67 72 77
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Number of hours
Normalcurve
0.997
Prévision de Yh(new) si la moyenne
E(Y) n’est pas connue
i.e. si les paramètres sont estimés
→ on rajoute une incertitude sur la moyenne
de Y
La prévision est non biaisée
hh xbbY 10
ˆˆˆ +=
hhh YYe −= ˆ
Propriété:
hh
hhh
hhh
xbbbb
xbbxbb
YYe
ε
ε
+−+−=
+−++=
−=
)ˆ()ˆ(
)ˆˆ(
1100
1010
0)( =⇒ heE
Variance de la prévision
Elle dépend de 2 composantes :
1. Variance due à l’estimation de E(Yh) par
2. Variance de Y inhérente à sa distribution
hyˆ
( )
( )
( )
( ) 











−
−
++=












−
−
++
∑∑ ==
n
i
i
h
n
i
i
h
xx
xx
n
xx
xx
n
1
2
2
2
1
2
2
22 1
1ˆ
1
ˆˆ σσσEstimation:
2. Variance de Y inhérente à sa distribution
Sample prediction ± (t-multiplier × standard error)
(1-αααα) IC pour la réponse Yh
( )
( )
( ) 







−
−
++×±
∑−− 2
2
2
2,
2
1
1
1ˆˆ
xx
xx
n
ty
i
h
nh σα
250
ality
S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %
Mortality = 389.189 - 5.97764 Latitude
Regression Plot
504030
150
50
Latitude
Morta
95% PI
95% CI
Regression

Más contenido relacionado

La actualidad más candente

Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0guest8b8369
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multmohamedchaouche
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Analyse Numérique Chapitre 1: Équations Non Linéiares
Analyse Numérique Chapitre 1: Équations Non LinéiaresAnalyse Numérique Chapitre 1: Équations Non Linéiares
Analyse Numérique Chapitre 1: Équations Non Linéiaresbilal001
 
Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonageImad Cov
 
Controlegestion
ControlegestionControlegestion
Controlegestionhassan1488
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimationmarouane hdidou
 

La actualidad más candente (18)

Generalites econometrie
Generalites econometrieGeneralites econometrie
Generalites econometrie
 
Exercices act2121-session8
Exercices act2121-session8Exercices act2121-session8
Exercices act2121-session8
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
M2 An 1986 20 3 371 0
M2 An 1986  20 3 371 0M2 An 1986  20 3 371 0
M2 An 1986 20 3 371 0
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Exercices act2121-session7
Exercices act2121-session7Exercices act2121-session7
Exercices act2121-session7
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Exercices act2121-session5
Exercices act2121-session5Exercices act2121-session5
Exercices act2121-session5
 
Analyse Numérique Chapitre 1: Équations Non Linéiares
Analyse Numérique Chapitre 1: Équations Non LinéiaresAnalyse Numérique Chapitre 1: Équations Non Linéiares
Analyse Numérique Chapitre 1: Équations Non Linéiares
 
a
aa
a
 
Exercices act2121-session1
Exercices act2121-session1Exercices act2121-session1
Exercices act2121-session1
 
Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonage
 
Exercices act2121-session3
Exercices act2121-session3Exercices act2121-session3
Exercices act2121-session3
 
Controlegestion
ControlegestionControlegestion
Controlegestion
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimation
 

Destacado

Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01Sami Sahli
 
Estudi de casos d'èxit en RSE a l'hoteleria de Barcelona
Estudi de casos d'èxit en RSE a l'hoteleria de BarcelonaEstudi de casos d'èxit en RSE a l'hoteleria de Barcelona
Estudi de casos d'èxit en RSE a l'hoteleria de BarcelonaBarcelona Activa
 
Ecoles du Pays de Fouesnant - qtsx
Ecoles du Pays de Fouesnant -  qtsxEcoles du Pays de Fouesnant -  qtsx
Ecoles du Pays de Fouesnant - qtsxFoenizella.com
 
Slide oral axe1
Slide oral axe1Slide oral axe1
Slide oral axe1rem_pou
 
Les réseaux de chaleur, chiffres clés 2014
Les réseaux de chaleur, chiffres clés 2014Les réseaux de chaleur, chiffres clés 2014
Les réseaux de chaleur, chiffres clés 2014Via seva
 
Webs de análisis y monitorización online
Webs de análisis y monitorización onlineWebs de análisis y monitorización online
Webs de análisis y monitorización onlineEnrique Farez
 
Julio actividad integradora 6ª
Julio actividad integradora 6ªJulio actividad integradora 6ª
Julio actividad integradora 6ªAdalberto
 
Aux détours des paroisses - Pays de Fouesnant xieqpy
Aux détours  des paroisses - Pays de Fouesnant  xieqpyAux détours  des paroisses - Pays de Fouesnant  xieqpy
Aux détours des paroisses - Pays de Fouesnant xieqpyFoenizella.com
 
Chopra las 7 leyes espirituales del exito
Chopra   las 7 leyes espirituales del exitoChopra   las 7 leyes espirituales del exito
Chopra las 7 leyes espirituales del exitoAdalberto
 
Capacités et effets
Capacités et effetsCapacités et effets
Capacités et effetsLoïc Hervier
 
Chroniques de Fouesnant - phpzygcyu
Chroniques de Fouesnant -  phpzygcyuChroniques de Fouesnant -  phpzygcyu
Chroniques de Fouesnant - phpzygcyuFoenizella.com
 
El Caminante Revista - Febrero 2014
El Caminante Revista - Febrero 2014El Caminante Revista - Febrero 2014
El Caminante Revista - Febrero 2014Jorge Alonso
 
Chateau & seignerie de Fouesnant i6p
Chateau &  seignerie de Fouesnant  i6pChateau &  seignerie de Fouesnant  i6p
Chateau & seignerie de Fouesnant i6pFoenizella.com
 
Horizon 26
Horizon 26Horizon 26
Horizon 26Vivadour
 
Desarrollando software y servicios TIC para un mercado global
Desarrollando software y servicios TIC para un mercado globalDesarrollando software y servicios TIC para un mercado global
Desarrollando software y servicios TIC para un mercado globalEnrique Farez
 
Deshumanizacion De La Arq
Deshumanizacion De La ArqDeshumanizacion De La Arq
Deshumanizacion De La Arqmario1805
 
Eglises du Pays de Fouesnant - hjnu
Eglises du Pays de Fouesnant -  hjnuEglises du Pays de Fouesnant -  hjnu
Eglises du Pays de Fouesnant - hjnuFoenizella.com
 
Chroniques de Fouesnant - zkopq
Chroniques de Fouesnant -   zkopqChroniques de Fouesnant -   zkopq
Chroniques de Fouesnant - zkopqFoenizella.com
 
UC: la lumière au bout du tunnel
UC: la lumière au bout du tunnelUC: la lumière au bout du tunnel
UC: la lumière au bout du tunnelMaurice Duchesne
 

Destacado (20)

Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01
 
Estudi de casos d'èxit en RSE a l'hoteleria de Barcelona
Estudi de casos d'èxit en RSE a l'hoteleria de BarcelonaEstudi de casos d'èxit en RSE a l'hoteleria de Barcelona
Estudi de casos d'èxit en RSE a l'hoteleria de Barcelona
 
Ecoles du Pays de Fouesnant - qtsx
Ecoles du Pays de Fouesnant -  qtsxEcoles du Pays de Fouesnant -  qtsx
Ecoles du Pays de Fouesnant - qtsx
 
Slide oral axe1
Slide oral axe1Slide oral axe1
Slide oral axe1
 
Les réseaux de chaleur, chiffres clés 2014
Les réseaux de chaleur, chiffres clés 2014Les réseaux de chaleur, chiffres clés 2014
Les réseaux de chaleur, chiffres clés 2014
 
Webs de análisis y monitorización online
Webs de análisis y monitorización onlineWebs de análisis y monitorización online
Webs de análisis y monitorización online
 
Julio actividad integradora 6ª
Julio actividad integradora 6ªJulio actividad integradora 6ª
Julio actividad integradora 6ª
 
Aux détours des paroisses - Pays de Fouesnant xieqpy
Aux détours  des paroisses - Pays de Fouesnant  xieqpyAux détours  des paroisses - Pays de Fouesnant  xieqpy
Aux détours des paroisses - Pays de Fouesnant xieqpy
 
Chopra las 7 leyes espirituales del exito
Chopra   las 7 leyes espirituales del exitoChopra   las 7 leyes espirituales del exito
Chopra las 7 leyes espirituales del exito
 
Capacités et effets
Capacités et effetsCapacités et effets
Capacités et effets
 
Chroniques de Fouesnant - phpzygcyu
Chroniques de Fouesnant -  phpzygcyuChroniques de Fouesnant -  phpzygcyu
Chroniques de Fouesnant - phpzygcyu
 
El Caminante Revista - Febrero 2014
El Caminante Revista - Febrero 2014El Caminante Revista - Febrero 2014
El Caminante Revista - Febrero 2014
 
Chateau & seignerie de Fouesnant i6p
Chateau &  seignerie de Fouesnant  i6pChateau &  seignerie de Fouesnant  i6p
Chateau & seignerie de Fouesnant i6p
 
Horizon 26
Horizon 26Horizon 26
Horizon 26
 
Presentation2
Presentation2Presentation2
Presentation2
 
Desarrollando software y servicios TIC para un mercado global
Desarrollando software y servicios TIC para un mercado globalDesarrollando software y servicios TIC para un mercado global
Desarrollando software y servicios TIC para un mercado global
 
Deshumanizacion De La Arq
Deshumanizacion De La ArqDeshumanizacion De La Arq
Deshumanizacion De La Arq
 
Eglises du Pays de Fouesnant - hjnu
Eglises du Pays de Fouesnant -  hjnuEglises du Pays de Fouesnant -  hjnu
Eglises du Pays de Fouesnant - hjnu
 
Chroniques de Fouesnant - zkopq
Chroniques de Fouesnant -   zkopqChroniques de Fouesnant -   zkopq
Chroniques de Fouesnant - zkopq
 
UC: la lumière au bout du tunnel
UC: la lumière au bout du tunnelUC: la lumière au bout du tunnel
UC: la lumière au bout du tunnel
 

Similar a (Statdes regression biv_ensta_21oct2010)

Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdfFadwaZiani
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfSidiAbdallah1
 
Cours de probabilités chap2.pptx
Cours de probabilités chap2.pptxCours de probabilités chap2.pptx
Cours de probabilités chap2.pptxHanaeElabbas
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Cours rep etat
Cours rep etatCours rep etat
Cours rep etatLin Pepin
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomialeCONFITURE
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Ahmed Ammar Rebai PhD
 
Systèmes d'equations lineaires
Systèmes d'equations lineairesSystèmes d'equations lineaires
Systèmes d'equations lineairesCham Nan
 
Chap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corrChap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corrAnas Abidine
 
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]jamal yasser
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Cours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulCours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulProfesseur Falloul
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 

Similar a (Statdes regression biv_ensta_21oct2010) (20)

Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
slides statistique mathématique.pdf
slides statistique mathématique.pdfslides statistique mathématique.pdf
slides statistique mathématique.pdf
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
Cours de probabilités chap2.pptx
Cours de probabilités chap2.pptxCours de probabilités chap2.pptx
Cours de probabilités chap2.pptx
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
Cours rep etat
Cours rep etatCours rep etat
Cours rep etat
 
Chap9 methode binomiale
Chap9 methode binomialeChap9 methode binomiale
Chap9 methode binomiale
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
Systèmes d'equations lineaires
Systèmes d'equations lineairesSystèmes d'equations lineaires
Systèmes d'equations lineaires
 
Statistiques
StatistiquesStatistiques
Statistiques
 
Chap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corrChap7 stat-proba-invest en-avenir_proba-corr
Chap7 stat-proba-invest en-avenir_proba-corr
 
Regression logistque
Regression  logistqueRegression  logistque
Regression logistque
 
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]Statistique descriptives  s1 de bien www.learneconomie.blogspot.com]
Statistique descriptives s1 de bien www.learneconomie.blogspot.com]
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Cours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulCours gestion de la production Pr Falloul
Cours gestion de la production Pr Falloul
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 

Más de mohamedchaouche

219146492 algebre-lineaire
219146492 algebre-lineaire219146492 algebre-lineaire
219146492 algebre-lineairemohamedchaouche
 
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02mohamedchaouche
 
Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_mohamedchaouche
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unmohamedchaouche
 
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)mohamedchaouche
 

Más de mohamedchaouche (13)

219146492 algebre-lineaire
219146492 algebre-lineaire219146492 algebre-lineaire
219146492 algebre-lineaire
 
Un
UnUn
Un
 
Correlation econometrie
Correlation econometrieCorrelation econometrie
Correlation econometrie
 
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02Bourbonnaiseconomtrie partie1-130207100401-phpapp02
Bourbonnaiseconomtrie partie1-130207100401-phpapp02
 
Econometrie
EconometrieEconometrie
Econometrie
 
Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_Cours d econometrie_professeur_philippe_deschamps_edition_
Cours d econometrie_professeur_philippe_deschamps_edition_
 
Series temporelles
Series temporellesSeries temporelles
Series temporelles
 
Tadti crs3-n
Tadti crs3-nTadti crs3-n
Tadti crs3-n
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 
Ch02 seance01-diapos
Ch02 seance01-diaposCh02 seance01-diapos
Ch02 seance01-diapos
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
Regsimple
RegsimpleRegsimple
Regsimple
 
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
[Xin yan, xiao_gang_su]_linear_regression_analysis(book_fi.org)
 

(Statdes regression biv_ensta_21oct2010)

  • 1. ENSTA, Cours D7-1 / Chapitre 5 Modèle de régression linéaire bivarié Laurent Ferrara Jean-Paul Renne Octobre 2010
  • 2. Soit 2 variables continues X et Y. On observe les unités expérimentales : (xi , yi), pour i = 1, …, n. 1. Existe-t-il un lien entre X et Y? 2. Comment le mesurer ? 3. Comment modéliser ce lien?3. Comment modéliser ce lien? 4. Comment estimer les paramètres de ce modèle? 5. Comment valider ce modèle ? 6. Comment tirer partie de ce modèle pour prévoir les valeurs d’une variable d’après les valeurs de l’autre?
  • 3. Exemple : données USA 1992 sur 50 états (state.x77) Existe-t-il un lien entre : les revenus d’un état et le nombre de ses « high-school graduates »? 6065 Inc Gra 3000 3500 4000 4500 5000 5500 6000 40455055
  • 4. Causalité? Existe-t-il un lien entre : Le nombre de meurtres et l ’espérance de vie? 7273 Murder LifeExp 2 4 6 8 10 12 14 68697071
  • 5. Quel type de lien? • Mise en évidence un lien linéaire entre les 2 variables. – Y est considérée comme la variable à expliquer , ou dépendante, ou endogène. – X est considérée comme la variable explicative, ou indépendante, ou– X est considérée comme la variable explicative, ou indépendante, ou exogène. • Relation statistique entre les 2 variables (non-déterministe) : la connaissance de X n’implique pas la connaissance parfaite de Y : il existe une erreur aléatoire autour de la valeur prédite
  • 6. x y -1 0 1 -101 x y2 -1 0 1 0123 x y3 -1 0 1 -4-20246 x yexp -1 0 1 0123456
  • 7. Comment mesurer un lien linéaire? • Outil principal : Coefficient de corrélation linéaire )()( ),( ),( YVXV YXCov YXc = Estimateur empirique : ∑∑ ∑ == = −− −− = n i i n i i n i ii YyXx YyXx YX 1 2 1 2 1 )()( ))(( ),(ρ
  • 8. Comment mesurer un lien linéaire? • Signification : baXYqtbaYXc +=∃⇔= :..,1),( ?1),( <YXc • Test de Student – H0 : – H1 : 0),( =YXρ 0),( ≠YXρ
  • 9. Comment mesurer un lien linéaire? • Sous l’hypothèse nulle H0 : suit une loi de Student à (n-2) dl 2)),(1( ),( 2 −− nYX YX ρ ρ Donc, si est tq : t* > on rejette H0 au seuil de risque α 2/ 2 α −nt 2)),(1( ),( * 2 −− = nYX YX t ρ ρ
  • 10. Attention au piège : dépendance non linéaire le coeff de corrélation ne mesure que la dépendance linéaire. > cor(x, y) [1] 0.99 > cor(x, y2) [1] 0.246 > cor(x, y3) [1] 0.854 > cor(x, yexp) • Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance. • Un coeff de corrélation élevé ne signifie pas forcément une dépendance linéaire. > cor(x, yexp) [1] 0.898
  • 11. Attention au piège : Corrélation fallacieuse Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie économique, physique … ne relie. 2 cas :2 cas : – résultat purement aléatoire – existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le temps) Exemple de Krugman : lien désindustrialisation–délocalisation aux USA (application à la France)
  • 12. empindus 4500,0 4600,0 4700,0 Évolution de l’emploi industriel France (Trimestriel 1991-2003) 4000,0 4100,0 4200,0 4300,0 4400,0 m ars-91 juil-91 nov-91m ars-92 juil-92 nov-92m ars-93 juil-93 nov-93m ars-94 juil-94 nov-94m ars-95 juil-95 nov-95m ars-96 juil-96 nov-96m ars-97 juil-97 nov-97m ars-98 juil-98 nov-98m ars-99 juil-99 nov-99m ars-00 juil-00 nov-00m ars-01 juil-01 nov-01m ars-02 juil-02 nov-02m ars-03
  • 13. Imports 1,70 1,90 2,10 Évolution des importations de biens en volume France 1991-2003 0,70 0,90 1,10 1,30 1,50 m ars-91 juil-91 nov-91m ars-92 juil-92 nov-92m ars-93 juil-93 nov-93m ars-94 juil-94 nov-94m ars-95 juil-95 nov-95m ars-96 juil-96 nov-96m ars-97 juil-97 nov-97m ars-98 juil-98 nov-98m ars-99 juil-99 nov-99m ars-00 juil-00 nov-00m ars-01 juil-01 nov-01m ars-02 juil-02 nov-02m ars-03
  • 14. Corrélation = - 0,50, t de Student = 3,99 → Conclusion statistique : on rejette l’hypothèse H0 de nullité de la corrélation linéaire entre les 2 variables → Conclusion économique rapide : les pays à faibles coûts salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française Or, Krugman a montré qu’en fait les destructions d’emplois industriels étaient causées par la baisse des dépenses (en valeur) des ménages en produits manufacturés, liée à la forte hausse de la productivité dans l’industrie par comparaison avec celle dans les services
  • 15. On remarque également que les coefficients de corrélation entre chacune des variables et le temps sont de : – 0,75 pour l’emploi industriel 0,94 pour les imports Exercice : Proposer des exemples de corrélation fallacieuse
  • 16. Attention au piège : Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans le cas Gaussien) En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle Exemple : lien linéaire entre les variances de X et Y (cas des processus ARCH en séries chronologiques)
  • 17. Autres outils de mesure de dépendance: – Concordance – Corrélation de rang (Tau de Kendall, coefficient de Spearman) – Corrélation conditionnelle – … – L’expression générale de la dépendance ne peut se faire que par la loi jointe. → Si celle-ci n’est pas calculable: concept de copules
  • 18. Comment modéliser un lien linéaire? • Quel est le « meilleur » ajustement linéaire? • Exemple : relation poids / taille 74706662 210 200 190 180 170 160 150 140 130 120 110 height weight w = -266.5 + 6.1 h w = -331.2 + 7.1 h
  • 19. Notation iy est la ième observation de la variable exogène ix est la ième observation de la variable endogènei iyˆ est la valeur ajustée (estimée) de la ième observation équation de la meilleure droite d’ajustement: ii xbby 10 ˆ +=
  • 20. 210 200 190 180 170 160 150 140 weight w = -266.5 + 6.1 h 1 64 121 126.3 ix iy iyˆi 74706662 130 120 height 1 64 121 126.3 2 73 181 181.5 3 71 156 169.2 4 69 162 157.0 5 66 142 138.5 6 69 157 157.0 7 75 208 193.8 8 71 169 169.2 9 63 127 120.1 10 72 165 175.4
  • 21. Erreur de prévision (ou erreur résiduelle) En utilisant iyˆ pour prédire ,iy on fait une erreur de prévision: yye ˆ−= iii yye ˆ−= La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus petites possibles au sens d’un certain critère.
  • 22. Critère des “Moindres Carrés” Objectif : Choisir les valeurs b0 et b1 qui minimise la Equation de la droite : ii xbby 10 ˆ += Objectif : Choisir les valeurs b0 et b1 qui minimise la somme des carrés des erreurs. i.e. : minimiser: ( ) 2 1 ˆ∑= −= n i ii yyQ
  • 23. La droite de régression Par le calcul, minimiser (dériver, annuler et résoudre pour b0 et b1): ( )( ) 2 1 10∑= +−= n i ii xbbyQ 1=i et obtenir les estimateurs des moindres carrés ordinaires (MCO) de b0 et b1: ( )( ) ( )∑ ∑ = = − −− = n i i n i ii xx yyxx b 1 2 1 1 ˆ xbyb 10 ˆˆ −=
  • 24. 170 180 190 200 210ht weight = -266.534 + 6.13758 height S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 % Regression Plot Résultat: 65 70 75 120 130 140 150 160 170 height weigh
  • 25. Remarques En termes géométriques • la droite de régression est celle qui minimise la distance quadratique entre les points et les projections orthogonales de ces points sur cette droite.de ces points sur cette droite. • la droite de régression est celle qui minimise la variance du nuage de points projetés orthogonalement sur cette droite.
  • 26. Formalisation Hypothèses du modèle linéaire : • H1 : E(Yi) fonction linéaire des xi (déterministes) y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n • H2 : Les erreurs, εεεεi, sont indépendantes entre elles • H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)
  • 27. • H4 : E(εεεε2 i) = σ2 , les erreurs sont de variance égale pour toute valeur de X (hypothèse d’homoscédasticité) • H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des valeurs de Xvaleurs de X • H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont identiquement distribuées selon la loi Normale.
  • 28. Estimation des paramètres Quels paramètres ? → b0 , b1 , σ2 → estimés par MCO 2 10 ˆ,ˆ,ˆ σbb 10 ˆ,ˆ bb estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE) 2 ˆσ
  • 29. La MSE est définie par : ( ) 2 ˆ ˆ 1 2 2 − − == ∑= n YY MSE n i ii σ On pondère par le nombre de degrés de liberté du modèle défini par : degrés de liberté = nbre d’observations - nbre de paramètres
  • 30. Loi asymptotique des paramètres Les estimateurs MCO sont sans biais et convergents • On montre que : 00 )ˆ( bbE = 11)ˆ( bbE = • On montre que : Donc ∑= − = n i i Xx bV 1 2 2 1 )( ˆ )ˆ( σ ∞→→ nsibV 0)ˆ( 1
  • 31. Loi asymptotique des paramètres • De même,             − += ∑= n i i Xx X n bV 1 2 2 2 0 )( 1 ˆ)ˆ( σ  =i 1 ∞→→ nsibV 0)ˆ( 0
  • 32. Remarques • Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV • La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le modèle linéaire)modèle linéaire) • La variance résiduelle mesure avec quelle amplitude les valeurs de Y s’écartent de la droite de régression. – C ’est une mesure de la précision du modèle – C ’est une mesure du risque associé au modèle
  • 33. 100 90 80 t S = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 % fahrenheit = 34.1233 + 1.61538 celsius Regression Plot Exemple : la précision de ce thermomètre est-elle meilleure ou moins bonne que ….. 403020100 80 70 60 50 40 30 Celsius Fahrenheit
  • 34. … celle de celui-ci? 100 eit S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 % fahrenheit = 17.0709 + 2.30583 celsius Regression Plot 403020100 50 0 Celsius Fahrenhe
  • 35. Remarques • Quel est le but du jeu de toute tentative de modélisation d’une variable Y ? →→→→ Minimiser la variance résiduelle Y = partie déterministe + partie aléatoire Y = f(X) + ε Par indépendance, V(Y) = V(f(X)) + V(εεεε)
  • 36. Validation du modèle On valide le modèle à l’aide des tests statistiques. 2 types de tests d’hypothèses sont développés : 1) Tests sur les paramètres du modèle 2) Tests sur les résidus du modèle
  • 37. (1-αααα) IC pour la pente Formule “avec des mots” : Paramètre estimé ± (t-multiplier × standard error) 1 ˆb Formule en notations : ( ) ( )           − ×± ∑ −− 22, 2 11 ˆˆ Xx tb i n σ α
  • 38. Test sur la pente Null hypothesis H0: β1 = β (en général =0) Alternative hypothesis H1: β1 ≠ β (en général ≠ 0) ( ) 11 * bb t ββ − =  − =Test statistic 1 ˆb ( ) ( )1 2 * bse xx MSE t i =           − = ∑ Test statistic P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α) La P-value est déterminée par référence à une t- distribution avec n-2 degrés de liberté
  • 39. Formule “avec des mots” : Paramètre estimé ± (t-multiplier × standard error) 0 ˆb(1-αααα) IC pour la constante Formule en notations: ( ) ( )∑ − +×± −− 2 2 2, 2 10 1 ˆˆ Xx x n tb i n σα
  • 40. Null hypothesis H0: β0 = β (en général = 0) Alternative hypothesis HA: β0 ≠ β (en général ≠ 0) 00 * bb t ββ − = − = Test statistic Test sur la constante 0 ˆb P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α) La P-value est déterminée par référence à une t- distribution avec n-2 degrés de liberté. ( ) ( )0 0 2 2 0 1 * bse b xx x n MSE b t i ββ − = − + − = ∑ Test statistic
  • 41. Test sur le terme d’erreur Les intervalles et les tests précédents sont basés sur la Normalité du terme d’erreur. Il importe donc de tester les résidus. – Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …) – Test graphiques (QQ-Plot) Les résultats restent valides en cas d’écart à la loi Normale si l’échantillon est grand (résultats asymptotiques).
  • 42. > w.fit <- lm(weight ~ 1 + height) > summary(w.fit) Call: lm(formula = weight ~ 1 + height) Residuals: Min 1Q Median 3Q Max -13.2 -4.08 -0.0963 4.64 14.2 Exemple : Poids / Taille Coefficients: Value Std. Error t value Pr(>|t|) (Intercept) -266.534 51.032 -5.223 0.001 height 6.138 0.735 8.347 0.000 Residual standard error: 8.64 on 8 degrees of freedom Multiple R-Squared: 0.897 > resid(w.fit) 1 2 3 4 5 6 7 8 9 10 -5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4
  • 43. 180200 Graphique : Poids observé vs. poids estimé Fitted : 1 + height weight 120 140 160 180 120140160
  • 44. Mesure de la qualité du modèle On mesure la qualité du modèle par l’analyse de la variance On montre les 2 relations suivantes : • la somme des résidus est nulle, i.e. : ∑= = n i ie 1 0 • la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. : ∑=i 1 ∑ ∑= = = n i n i ii yy 1 1 ˆ
  • 45. ∑∑∑ +−=− i i i i i i eyyyy 222 )ˆˆ()( On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée
  • 46. • R2 : mesure de la variance expliquée • Le R2 est à valeur entre 0 et 1 ∑= − −= n i i YY R 1 2 2 2 )( ˆ 1 σ • Le R2 est à valeur entre 0 et 1 • Critères d’information : Akaike (1971)
  • 47. Prévision Que veut-on prévoir? • La réponse «moyenne» de la population = E(Yh) pour une valeur xh – Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée? (Plus précis que le poids moyen de l’échantillon) • La réponse Yh(new) à une nouvelle valeur donnée xh – Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?
  • 48. est le meilleur estimateur dans chaque cas.hh xbbY 10 ˆ += En fait les 2 prévisions sont égales : Seuls les intervalles de confiance autour des réponses vont varier.
  • 49. 22 18 etestscore ( ) xxYEY 10 ββµ +== 54321 14 10 6 High school gpa Collegeentrance ( ) ii xY εββ ++= 10
  • 50. Intervalle de confiance pour la réponse moyenne de la population E(Y )E(Yh)
  • 51. Formule “avec des mots” : Sample estimate ± (t-multiplier × standard error) (1-αααα) IC pour la réponse moyenne E(Yh) Formule en notation: ( ) ( ) ( )         − − +××± ∑ −− 2 2 2 2, 2 1 1 ˆˆ Xx Xx n ty i h nh σα
  • 52. Implications sur la précision • Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit, donc l’estimation de E(Yh) est plus précise.h • Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle de confiance est grand, donc l’estimation de E(Yh) est moins précise.
  • 53. Remarques • xh est une valeur correspondant au champ de l’étude mais pas nécessairement une valeur de l’échantillon • L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par une loi Normale • Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme d’erreur s’écarte fortement d’une loi Normale
  • 54. > predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T) $fit: 1 2 102 224 $se.fit: 1 2 7.36 8.33 Exemple : Estimation du poids moyen pour 2 tailles données (60, proche de la moyenne, et 80, plus élevée que la moyenne) $residual.scale: [1] 8.64 $df: [1] 8 $ci.fit: lower upper 1 84.7 119 2 205.3 244 attr(, "conf.level"): [1] 0.95
  • 55. Intervalle de Prévision pour la réponse Yh(new) à une nouvelle valeur xvaleur xh(new)
  • 56. Prévision de Yh(new) si la moyenne E(Y) est connue, i.e. : si les paramètres sont fixés Hypothèse 252 =σ 5=σcàd
  • 57. 0.07 0.08 Prévision de Yh(new) si la moyenne E(Y) est connue 47 52 57 62 67 72 77 0.00 0.01 0.02 0.03 0.04 0.05 0.06 Number of hours Normalcurve 0.997
  • 58. Prévision de Yh(new) si la moyenne E(Y) n’est pas connue i.e. si les paramètres sont estimés → on rajoute une incertitude sur la moyenne de Y
  • 59. La prévision est non biaisée hh xbbY 10 ˆˆˆ += hhh YYe −= ˆ Propriété: hh hhh hhh xbbbb xbbxbb YYe ε ε +−+−= +−++= −= )ˆ()ˆ( )ˆˆ( 1100 1010 0)( =⇒ heE
  • 60. Variance de la prévision Elle dépend de 2 composantes : 1. Variance due à l’estimation de E(Yh) par 2. Variance de Y inhérente à sa distribution hyˆ ( ) ( ) ( ) ( )             − − ++=             − − ++ ∑∑ == n i i h n i i h xx xx n xx xx n 1 2 2 2 1 2 2 22 1 1ˆ 1 ˆˆ σσσEstimation: 2. Variance de Y inhérente à sa distribution
  • 61. Sample prediction ± (t-multiplier × standard error) (1-αααα) IC pour la réponse Yh ( ) ( ) ( )         − − ++×± ∑−− 2 2 2 2, 2 1 1 1ˆˆ xx xx n ty i h nh σα
  • 62. 250 ality S = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 % Mortality = 389.189 - 5.97764 Latitude Regression Plot 504030 150 50 Latitude Morta 95% PI 95% CI Regression