SlideShare una empresa de Scribd logo
1 de 58
Descargar para leer sin conexión
UE4 : Biostatistiques

Chapitre 8

Corrélation et régression
linéaire simple
José LABARERE
Année universitaire 2010/2011
Université Joseph Fourier de Grenoble - Tous droits réservés.
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
III. Régression linéaire simple
Annexes
Plan

I. Corrélation et régression linéaire
1. Nature des variables
2. Corrélation versus régression : exemples
3. Conditions d’application

II. Coefficient de corrélation
III. Régression linéaire simple
Annexes
I.1. Nature des variables

Le terme de corrélation est utilisé dans le langage courant
pour désigner la liaison (relation / association) entre 2
variables quelconques.
En statistique, le terme de corrélation est réservé pour
désigner la liaison entre 2 variables QUANTITATIVES (le
plus souvent continues).

Corrélation / régression : liaison entre 2 variables
quantitatives
Plan

I. Corrélation et régression linéaire
1. Nature des variables
2. Corrélation versus régression : exemples
3. Conditions d’application

II. Coefficient de corrélation
III.Régression linéaire simple
Annexes
I.2. Corrélation versus régression

•
•
•
•

Corrélation :
Liaison entre 2 variables quantitatives X et Y
Rôle symétrique (on peut permuter X et Y)
Rôle asymétrique

• Régression :
• Liaison entre 2 variables quantitatives X et Y
• Rôle asymétrique uniquement :
– X = variable explicative / Y = variable expliquée
– X = variable indépendante / Y = variable dépendante
•

(on ne peut pas permuter X et Y)
I.2. Corrélation versus régression
1. Exemple : corrélation (positive)
•

X = ventes de paires de lunettes de soleil en été

•

Y = ventes de crèmes glacées en été

•

Il existe une liaison entre X et Y :
– Quand X augmente, Y augmente (météo estivale)
– Quand X diminue, Y diminue (météo pluvieuse)

•

La liaison est symétrique :
–
–

mais X ne dépend pas de Y et Y ne dépend pas de X

–

on peut permuter X et Y en abscisses et en ordonnées
ventes glaces

Y ne peut pas être prédite par X
ventes lunettes

•

X est liée à Y, et Y est liée à X

ventes glaces

ventes lunettes
I.2. Corrélation versus régression
2. Exemple : corrélation (négative)
•

X = ventes de paires de lunettes de soleil en été

•

Y = ventes de parapluies en été

•

Il existe une liaison entre X et Y :
– Quand X augmente, Y diminue (météo estivale)
– Quand X diminue, Y augmente (météo pluvieuse)

•

La liaison est symétrique :
–
–

mais X ne dépend pas de Y et Y ne dépend pas de X

–

on peut permuter X et Y en abscisses et en ordonnées

ventes lunettes

ventes lunettes

Y ne peut pas être prédite par X
ventes parapluies

•

X est liée à Y, et Y est liée à X

ventes parapluies
I.2. Corrélation versus régression

3.

Exemple : régression

•

X = âge (de 0 à 15 ans)

•

Y = taille (cm)

•

Il existe une liaison entre X et Y :
–
–

•

Quand l’âge augmente, la taille augmente
Quand l’âge diminue, la taille diminue

La liaison est asymétrique :
–
–

•

la taille dépend de l’âge mais l’âge ne dépend pas de la taille
on ne peut pas permuter X et Y en abscisses et en ordonnées

On peut prédire la taille par l’âge à l’aide d’une équation de droite ou
de courbe de régression (cf carnet de santé)
I.2. Corrélation versus régression

Corrélation

Régression

X = quantitative
Y = quantitative

X = quantitative
Y = quantitative

Oui / Non
Y liée à X
X liée à Y

Non
Y dépend de X
-

Exemples

Y = conso. cannabis
X = température moyenne
annuelle

Y= taille
X = âge

Prédiction

Non

Oui
(équation)

Variables

Symétrie de la
liaison
Plan

I. Corrélation et régression linéaire
1. Nature des variables
2. Corrélation versus régression : exemples
3. Conditions d’application

II. Coefficient de corrélation
III. Régression linéaire simple
Annexes
I.3. Conditions d’application de la corrélation et de la
régression linéaire simple

• Indépendance des observations
• Liaison linéaire entre X et Y
• Distribution conditionnelle normale et de
variance constante
I.3. Conditions d’application de la corrélation et de la
régression linéaire simple

1. Indépendance des observations
•

Ne pas confondre :

-

Indépendance des observations (condition
d’application du test statistique)

-

Indépendance des variables (hypothèse à tester)
Observations indépendantes (et variables corrélées)

Enfant 1

Enfant 2

Enfant 3

Enfant 4

Enfant 5

Enfant n

3 mois
60cm

3 mois
58cm

9 mois
70cm

8 mois
70cm

24 mois
85cm

6 mois
65cm

Observations corrélées (et variables corrélées)

1er juin

2 juin

1010hpa 1013hpa
30.5°C
29.5°C

3 juin
1014hpa
30.5°C

4 juin
1010hpa
31°C

5 juin
1009hpa
29°C

1er octobre
1002hpa
18°C
I.3. Conditions d’application de la corrélation
et de la régression linéaire simple
2. Liaison linéaire entre X et Y
Avant d’appliquer le test du coefficient de corrélation
ou d’estimer la droite de régression, il faut vérifier empiriquement (graphiquement) - que la liaison entre les 2
variables est de nature linéaire.
A défaut, l’interprétation du test du coefficient de
corrélation ou du test de la pente de la droite de
régression peut être erronée.
Coefficient de corrélation nul
Pente de la droite de régression nulle
Cas 1

La nature de la liaison est linéaire (le nuage de points est résumé au
mieux par une droite horizontale d’équation y = a)
La condition d’application est vérifiée
Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables
(conclusion : X et Y sont indépendants [Y constant quelle que soit la
valeur de X])
Coefficient de corrélation nul
Pente de la droite de régression nulle
Cas 2

Il existe une liaison entre X et Y mais cette liaison n’est pas linéaire :
Y varie avec les valeurs de X.
Le nuage de points n’est pas résumé au mieux par une droite mais
plutôt par une fonction quadratique.
La condition d’application n’est pas vérifiée
→ Il ne faut pas utiliser le coefficient de corrélation ni la régression
linéaire simple pour quantifier la liaison entre les 2 variables
Coefficient de corrélation non nul
Pente de la droite de régression non nulle
Cas 3

La nature de la liaison est linéaire (le nuage de points est résumé au
mieux par une droite d’équation y = a+bx)
La condition d’application est vérifiée
Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables
(conclusion : il existe une liaison linéaire entre X et Y)
Coefficient de corrélation non nul
Pente de la droite de régression non nulle
Cas 4

La nature de la liaison n’est pas linéaire (le nuage de points n’est pas
résumé au mieux par une droite mais plutôt par une fonction
exponentielle)
La condition d’application n’est pas vérifiée
→ Il ne faut pas utiliser le coefficient de corrélation ni la régression
linéaire simple pour quantifier la liaison entre les 2 variables
I.3. Conditions d’application de la corrélation et de la
régression linéaire simple

3. Distribution conditionnelle normale et de
variance constante
•

Distribution de Y normale et de variance constante pour chaque
valeur de X

•

(difficilement vérifiable en pratique)
La variance de Y n’est pas
constante pour les différentes
valeurs de X

La distribution de Y n’est pas
normale pour X = x4

La condition d’application n’est pas vérifiée
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
1. Covariance
2. Coefficient de corrélation et interprétation
3. Estimation du coefficient de corrélation
4. Test du coefficient de corrélation

III. Régression linéaire simple
Annexes
II.1. Covariance

• Variance conjointe de 2 variables X et Y
N

cov X, Y  

 X
i 1

i

 µ X Yi  µ Y 
N

• Cas particulier : X = Y → cov(X,Y) = cov(X,X) = var(X)
N

cov X, X  

 X
i 1

i

 µ X X i  µ X 
N

N



 X
i 1

 µX 

2

i

N

 var X 
II.1. Covariance

• X et Y indépendantes
cas particulier Y constant quelle que soit la valeur de X

N

cov X, Y  

 X
i 1

i

 µ X Yi  µ Y 
N

0

0 car Yi = constante =µY
II.1. Covariance
• Equivalent de la formule de Huyghens pour la covariance

 n  n 
  xi   yi 
n
 i1  i1 
 xi yi 
n
i 1
covX, Y 
n

 x 

i
2
 i 1 
 xi  n
varX   i 1
n
n

n

Rappel :

2
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
1. Covariance
2. Coefficient de corrélation et interprétation
3. Estimation du coefficient de corrélation
4. Test du coefficient de corrélation

III. Régression linéaire simple
Annexes
II.2. Coefficient de corrélation
Le coefficient de corrélation entre 2 variables quantitatives X et Y est
égal au rapport de la covariance de X et Y divisé par le produit des
écart-types de X et Y.
Le coefficient de corrélation est noté ρ dans la population.

covX, Y
ρ
varX varY
-1ρ+1
II.2. Interprétation du coefficient de corrélation

1. X et Y indépendantes : ρ = 0
ρ=0
• Y = fluctue autour d’une constante quelle que soit la valeur de X
• Nuage de points horizontal
• cov(X, Y) = 0

ρ

covX, Y 
0
varX  varY 
II.2. Interprétation du coefficient de corrélation

2. X et Y corrélées : ρ > 0

• Liaison linéaire croissante entre X et Y
• cov(X, Y) > 0

covX, Y
ρ
0
varX varY

NB : si Y = X → cov(X,Y) = var(X) et var(Y) = var(X) → ρ =1

ρ>0
II.2. Interprétation du coefficient de corrélation

2. X et Y corrélées : ρ < 0
ρ<0
• Liaison linéaire décroissante entre X et Y
• cov(X, Y) <0

covX, Y
ρ
0
varX varY
NB : si Y = - X → cov(X,Y) = - var(X) et var(Y) = var(X) → ρ =-1
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
1. Covariance
2. Coefficient de corrélation et interprétation
3. Estimation du coefficient de corrélation
4. Test du coefficient de corrélation

III. Régression linéaire simple
Annexes
II.3. Estimation du coefficient de corrélation

population
ρ
échantillon
r

Le coefficient de corrélation estimé sur un échantillon issu d’une
population est noté r.
Il s’interprète comme le coefficient de corrélation ρ mesuré sur la
population.
Il est calculé à partir des estimations de la covariance et des
variances de X et de Y sur l’échantillon.

 x i  m x  yi  m y 
n

cov X, Y  

i 1

n - 1

n

s2 
x

 x i  m x 
i 1

n - 1

 y
n

2

s2 
y

i 1

i  my 

n - 1

2
II.3. Estimation du coefficient de corrélation
Par simplification des (n-1) au dénominateur de la covariance et de
la variance de X et de la variance de Y, on obtient l’expression de
l’estimateur du coefficient de corrélation r à partir d’un échantillon.

x  m y  m 
n

r

i

i 1

x

i

y

x  m  y  m 
n

i 1

2

i

x

n

i 1

2

i

y
II.3. Estimation du coefficient de corrélation
Par simplification des (n-1) au dénominateur de la formule de
Huyghens de la covariance et de la variance de X et de Y, on obtient
une autre expression de l’estimateur du coefficient de corrélation r à
partir d’un échantillon.

r

 n  n 
  x i   y i 
n
x i y i   i 1  i 1 

n
i 1
2
2
n
n


 x 
 y  
 n 2  i 1 i    n 2  i 1 i  
  y 
 
 x i  
 i
n   i 1
n 
 i 1






Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
1. Covariance
2. Coefficient de corrélation et interprétation
3. Estimation du coefficient de corrélation
4. Test du coefficient de corrélation

III. Régression linéaire simple
Annexes
II.4. Test du coefficient de corrélation
Après le calcul du coefficient de corrélation r estimé sur un échantillon,
il faut déterminer si le coefficient de corrélation ρ est significativement
différent de 0.
population
ρ
échantillon
r

rρ

H0 : ρ = 0 (absence de liaison [linéaire] entre X et Y)
H1 bilatérale : ρ  0 (existence d’une liaison entre X et Y)
II.4. Test du coefficient de corrélation
Sous l’hypothèse nulle (H0) :
Le rapport de l’estimateur du coefficient de corrélation r sur son écarttype suit une loi de Student à (n-2) degrés de liberté.
n est l’effectif de l’échantillon.

r
sr

→ t (n-2)ddl

L’estimateur de l’écart-type du coefficient de
corrélation est égal à :

1  r²
sr 
n2
II.4. Test du coefficient de corrélation
Le test du coefficient de corrélation consiste à calculer la grandeur to
et à la comparer à la valeur seuil tα sur la table de la loi de Student à
(n-2) degrés de libertés.

r n 2
to 
1  r²

Conditions d’application
• indépendance des observations
• liaison linéaire entre X et Y
• distribution conditionnelle normale et de variance constante
1–α
(non-rejet de H0)

α/2

α/2

(rejet de H0 = acceptation de H1)

(rejet de H0 = acceptation de H1)

-t α
|to| > tα

0
|to|  tα

tα
|to| > tα

Abscisses : valeurs possibles de t sous H0 (ρ = 0)

to : valeur observée/calculée de t sur
l’échantillon

r n2
t
1  r²
Détermination du degré de signification associé à to (P-value)

Exemple :
• to = 2.12
• n = 20
0.02 < P <0.05
P < α → rejet de H0
(n-2) = 18 ddl

Rappel : P-value = probabilité
d’observer une valeur plus grande que
to sous l’hypothèse nulle H0

X
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
III. Régression linéaire simple
1. Régression linéaire simple
2. Estimation par la méthode des moindres carrés
3. Test de la pente de la droite de régression

Annexes
III.1. Régression linéaire simple
La régression s’adresse à un type de problème où les 2 variables
quantitatives continues X et Y ont un rôle asymétrique : la variable Y
dépend de la variable X.
La liaison entre la variable Y dépendante et la variable X indépendante
peut être modélisée par une fonction de type Y = α + βX, représentée
graphiquement par une droite.

Y = α + βX

Y

Y : variable dépendante (expliquée)
X : variable indépendante (explicative)
α : ordonnée à l’origine (valeur de Y pour
x = 0)

X

β : pente (variation moyenne de la valeur
de Y pour une augmentation d’une unité
de X)
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
III. Régression linéaire simple
1. Régression linéaire simple
2. Estimation par la méthode des moindres carrés
3. Test de la pente de la droite de régression

Annexes
III.2. Estimation par la méthode des moindres carrés

(xi, yi)
Y

X

Chaque individu i est caractérisé par un couple de coordonnées (xi,
yi) et est représenté par un point sur le graphique.
L’ensemble des individus forme un nuage de points.
III.2. Estimation par la méthode des moindres carrés
(xi, yi)
Y

Y = α + βX

^
(xi, yi)
^ = α + βx
yi
i

X

La droite de régression Y = α + βX est la droite qui résume le mieux le
nuage de points. Intuitivement, il s’agit de la droite dont les points du
nuage sont en moyenne les plus proches (c’est-à-dire la droite qui
passe à la plus faible distance de chaque point du nuage, en
moyenne).
III.2. Estimation par la méthode des moindres carrés
^
yi - yi
(xi, yi)
Y

Y = α + βX

^
(xi, yi)
^ = α + βx
yi
i

X

La distance d’un point à la droite est la distance verticale entre l’ordonnée
du point observé (xi, yi) et l’ordonnée du point correspondant sur la droite
(xi, ^yi) .
Cette distance d’un point à la droite (yi - ^yi) peut être positive ou
négative et la somme des distances à la droite s’annule.
III.2. Estimation par la méthode des moindres carrés
^
yi - yi
(xi, yi)
Y

^
(xi, yi)

Y = α + βX

^ = α + βx
yi
i

X

y
SCE = i (yi – ^ i)²
Pour s’affranchir du signe, on calcule la somme des carrés des
distances de chaque point à la droite. La droite de régression est la
droite qui minimise la somme des carrés des écarts. Elle est aussi
appelée droite des moindres carrés.
III.2. Estimation par la méthode des moindres carrés

Y

Y = α + βX

my

mx

X

Une particularité de la droite de régression est de passer par le point
moyen théorique de coordonnée (mx, my).
III.2. Estimation par la méthode des moindres carrés
Y = α + βX

Y

a et b sont les estimations de
l’ordonnée à l’origine α et de la
pente β de la droite de
régression.

my

L’estimation de la pente de la
droite de régression b est égale
au rapport de la covariance de X
et Y sur la variance de X.

cov X, Y 
b
var X 

mx

n

b

 x
i 1

i

 m x  y i  m y 

n

x i  m x 2

i 1

X
III.2. Estimation par la méthode des moindres carrés

Y

Y = α + βX

my

mx

X

L’estimateur de l’ordonnée à l’origine a est déduit de la pente b et
des coordonnées du point moyen (mx, my) :
a = my – b mx
Plan

I. Corrélation et régression linéaire
II. Coefficient de corrélation
III. Régression linéaire simple
1. Régression linéaire simple
2. Estimation par la méthode des moindres carrés
3. Test de la pente de la droite de régression

Annexes
III.3. Test de la pente de la droite de régression
b≈β

population
β
échantillon
b

La droite de régression d’équation Y = α + βX comporte 2
paramètres (α et β).
L’hypothèse nulle est que la pente β de la droite de régression
de Y en X est égale à 0 (soit Y est égal à α, c’est-à-dire que la
droite de régression est horizontale et qu’il n’y a pas de liaison
entre X et Y).

H0 : β = 0 (droite de régression horizontale : Y = α)
H1: β  0
III.3. Test de la pente de la droite de régression
Sous l’hypothèse nulle (H0) :
Le rapport de l’estimateur de la pente b sur son écart-type
suit une loi de Student à (n-2) degrés de liberté.
n est l’effectif de l’échantillon.

b
sb

→ t (n-2)ddl

s2
y
L’estimateur de l’écart-type de la pente est égal à :

sb 

s

2
x

 b2

n2
III.3. Test de la pente de la droite de régression
Le test de la pente consiste à calculer la grandeur to et à la
comparer à la valeur seuil tα sur la table de la loi de Student à
(n-2) degrés de libertés

to 

b

s

2
y
2
x

b

2

s
n 2
Conditions d’application
• indépendance des observations
• liaison linéaire entre X et Y

• distribution conditionnelle normale et de variance constante
Corrélation et régression
Corrélation

Régression

Variables

Quantitatives
symétriques/asymétriques

Quantitatives
asymétriques

Test

Coefficient de corrélation
-1  r  1

Pente de la droite de
régression

non

oui

Prédiction

Conditions

Indépendance des observations
Liaison linéaire
Distribution conditionnelle normale et de variance
constante
Annexe : variance et covariance

• Variance
• var(X) = E(X²) – [E(X)]²


1
2 1
varx     x     x 
 n

n
 x 

n
i
x i2   i 1 

n
i 1
varx  
n
n

2

2
Annexe : variance et covariance

• Covariance
• cov(X,Y) = E(XY) – [E(X) x E(Y)]
  1
 1

1
covx, y     xy     x     y 
  n
 n

n
 n  n 
  x i   y i 
n
x i y i   i 1  i 1 

n
i 1
covX, Y  
n
Mentions légales
L'ensemble de ce document relève des législations française et internationale sur le droit d'auteur
et la propriété intellectuelle. Tous les droits de reproduction de tout ou partie sont réservés pour les
textes ainsi que pour l'ensemble des documents iconographiques, photographiques, vidéos et
sonores.
Ce document est interdit à la vente ou à la location. Sa diffusion, duplication, mise à disposition du
public (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sont
strictement réservées à l’université Joseph Fourier de Grenoble.
L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits en 1ère
année de Médecine ou de Pharmacie de l’Université Joseph Fourier de Grenoble, et non destinée
à une utilisation collective, gratuite ou payante.
Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine de Grenoble (Université Joseph Fourier – Grenoble 1)
en collaboration avec l’Equipe Audiovisuel et Production Multimédia (EAEPM) de l’Université Stendhal de Grenoble.

Más contenido relacionado

La actualidad más candente

Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multipleAdad Med Chérif
 
T test sur des échantillons appariés avec test de normalité
T test sur des  échantillons appariés  avec  test de normalité T test sur des  échantillons appariés  avec  test de normalité
T test sur des échantillons appariés avec test de normalité Adad Med Chérif
 
Statistique descriptive
Statistique descriptiveStatistique descriptive
Statistique descriptiveeninioo
 
Approche GUM
Approche GUMApproche GUM
Approche GUMchris5712
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Adad Med Chérif
 
Coefficient de contingence
Coefficient de contingenceCoefficient de contingence
Coefficient de contingenceSouad Azizi
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdfSidiAbdallah1
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)Adad Med Chérif
 
Modèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioModèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioAS Stitou
 
Presentation stat desc
Presentation stat descPresentation stat desc
Presentation stat deschassan1488
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009mohamedchaouche
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaireFIKRIMAIL
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire Adad Med Chérif
 

La actualidad más candente (20)

Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
T test sur des échantillons appariés avec test de normalité
T test sur des  échantillons appariés  avec  test de normalité T test sur des  échantillons appariés  avec  test de normalité
T test sur des échantillons appariés avec test de normalité
 
Statistique descriptive
Statistique descriptiveStatistique descriptive
Statistique descriptive
 
Approche GUM
Approche GUMApproche GUM
Approche GUM
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
Methodologie des enquete
Methodologie des enqueteMethodologie des enquete
Methodologie des enquete
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
 
Coefficient de contingence
Coefficient de contingenceCoefficient de contingence
Coefficient de contingence
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
regression_logistique.pdf
regression_logistique.pdfregression_logistique.pdf
regression_logistique.pdf
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
 
Modèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur RstudioModèle régression simple, Etude de cas sur Rstudio
Modèle régression simple, Etude de cas sur Rstudio
 
Presentation stat desc
Presentation stat descPresentation stat desc
Presentation stat desc
 
Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009Introduction a l'econometrie luxembourg 2008 2009
Introduction a l'econometrie luxembourg 2008 2009
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
 
Analyse de régression linéaire
Analyse de régression linéaire Analyse de régression linéaire
Analyse de régression linéaire
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 

Destacado

Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01Sami Sahli
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Plus de 10 000 jobs d'été en Italie 2020
Plus de 10 000 jobs d'été en Italie 2020Plus de 10 000 jobs d'été en Italie 2020
Plus de 10 000 jobs d'été en Italie 2020Club TELI
 
Prix asf-1997-titrisation-et-defaisance
Prix asf-1997-titrisation-et-defaisancePrix asf-1997-titrisation-et-defaisance
Prix asf-1997-titrisation-et-defaisancelindatraves
 
Cours domicile qr_code
Cours domicile qr_codeCours domicile qr_code
Cours domicile qr_codeLaurent Cheret
 
Vétérinaire élevage bovins allaitants 0910
Vétérinaire élevage bovins allaitants 0910Vétérinaire élevage bovins allaitants 0910
Vétérinaire élevage bovins allaitants 0910rabahrabah
 
Trabajo practico 12 lucila zamora
Trabajo practico 12 lucila zamoraTrabajo practico 12 lucila zamora
Trabajo practico 12 lucila zamoraluly-z
 
Réseau mobile open source
Réseau mobile open sourceRéseau mobile open source
Réseau mobile open sourcedilan23
 
Atelier Chatham House Rdc 23 24 06 2008 Cm (2)
Atelier Chatham House Rdc  23 24 06 2008 Cm (2)Atelier Chatham House Rdc  23 24 06 2008 Cm (2)
Atelier Chatham House Rdc 23 24 06 2008 Cm (2)jlroux
 
Praesentation_lotus_fr
Praesentation_lotus_frPraesentation_lotus_fr
Praesentation_lotus_frSwissNanoCube
 
Cours bda1
Cours bda1Cours bda1
Cours bda122vieux
 
Comment Aborder Un Exercice (Ou Un ProblèMe
Comment Aborder Un Exercice (Ou Un ProblèMeComment Aborder Un Exercice (Ou Un ProblèMe
Comment Aborder Un Exercice (Ou Un ProblèMeMRFB
 
Synthesis
SynthesisSynthesis
SynthesisAnact
 
Tp 12 lucila zamora
Tp 12 lucila zamoraTp 12 lucila zamora
Tp 12 lucila zamoraluly-z
 
Réseaux humains et réseaux sociaux : règles essentielles
Réseaux humains et réseaux sociaux : règles essentiellesRéseaux humains et réseaux sociaux : règles essentielles
Réseaux humains et réseaux sociaux : règles essentiellesInter-Ligere
 

Destacado (20)

Regression simple
Regression simpleRegression simple
Regression simple
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 
Centralité urbaine 01
Centralité urbaine 01Centralité urbaine 01
Centralité urbaine 01
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Plus de 10 000 jobs d'été en Italie 2020
Plus de 10 000 jobs d'été en Italie 2020Plus de 10 000 jobs d'été en Italie 2020
Plus de 10 000 jobs d'été en Italie 2020
 
Projet
ProjetProjet
Projet
 
Prix asf-1997-titrisation-et-defaisance
Prix asf-1997-titrisation-et-defaisancePrix asf-1997-titrisation-et-defaisance
Prix asf-1997-titrisation-et-defaisance
 
Cours domicile qr_code
Cours domicile qr_codeCours domicile qr_code
Cours domicile qr_code
 
Vétérinaire élevage bovins allaitants 0910
Vétérinaire élevage bovins allaitants 0910Vétérinaire élevage bovins allaitants 0910
Vétérinaire élevage bovins allaitants 0910
 
Trabajo practico 12 lucila zamora
Trabajo practico 12 lucila zamoraTrabajo practico 12 lucila zamora
Trabajo practico 12 lucila zamora
 
Réseau mobile open source
Réseau mobile open sourceRéseau mobile open source
Réseau mobile open source
 
Atelier Chatham House Rdc 23 24 06 2008 Cm (2)
Atelier Chatham House Rdc  23 24 06 2008 Cm (2)Atelier Chatham House Rdc  23 24 06 2008 Cm (2)
Atelier Chatham House Rdc 23 24 06 2008 Cm (2)
 
Praesentation_lotus_fr
Praesentation_lotus_frPraesentation_lotus_fr
Praesentation_lotus_fr
 
Cours bda1
Cours bda1Cours bda1
Cours bda1
 
Comment Aborder Un Exercice (Ou Un ProblèMe
Comment Aborder Un Exercice (Ou Un ProblèMeComment Aborder Un Exercice (Ou Un ProblèMe
Comment Aborder Un Exercice (Ou Un ProblèMe
 
2010 automne-6.1
2010 automne-6.12010 automne-6.1
2010 automne-6.1
 
Synthesis
SynthesisSynthesis
Synthesis
 
Tp 12 lucila zamora
Tp 12 lucila zamoraTp 12 lucila zamora
Tp 12 lucila zamora
 
Réseaux humains et réseaux sociaux : règles essentielles
Réseaux humains et réseaux sociaux : règles essentiellesRéseaux humains et réseaux sociaux : règles essentielles
Réseaux humains et réseaux sociaux : règles essentielles
 

Similar a Regress lineaire simple imp

Controlegestion
ControlegestionControlegestion
Controlegestionhassan1488
 
S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01
S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01
S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01Fsjest Tanger
 
Traitements statistiques de description
Traitements statistiques de descriptionTraitements statistiques de description
Traitements statistiques de descriptionAhmed Benhoumane
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multipleafryma
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Tenseurs poly
Tenseurs polyTenseurs poly
Tenseurs polysbj bj
 

Similar a Regress lineaire simple imp (9)

Stat7 Correlation
Stat7  CorrelationStat7  Correlation
Stat7 Correlation
 
Controlegestion
ControlegestionControlegestion
Controlegestion
 
S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01
S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01
S2 mqii-statistiquedescriptiveii-rsumsdeschapitres-130401181113-phpapp01
 
Traitements statistiques de description
Traitements statistiques de descriptionTraitements statistiques de description
Traitements statistiques de description
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Tenseurs poly
Tenseurs polyTenseurs poly
Tenseurs poly
 

Más de Khawla At

Modél plan affaire buisness plan
Modél plan affaire buisness plan Modél plan affaire buisness plan
Modél plan affaire buisness plan Khawla At
 
la liquidation
 la liquidation la liquidation
la liquidationKhawla At
 
Droit des societes_maroc
Droit des societes_marocDroit des societes_maroc
Droit des societes_marocKhawla At
 
Droit commercial
Droit commercial Droit commercial
Droit commercial Khawla At
 
Code de commerce
Code de commerceCode de commerce
Code de commerceKhawla At
 
Partie iii les sanctions
Partie iii les sanctionsPartie iii les sanctions
Partie iii les sanctionsKhawla At
 

Más de Khawla At (8)

Oil spills
Oil spillsOil spills
Oil spills
 
Cours tva
Cours tvaCours tva
Cours tva
 
Modél plan affaire buisness plan
Modél plan affaire buisness plan Modél plan affaire buisness plan
Modél plan affaire buisness plan
 
la liquidation
 la liquidation la liquidation
la liquidation
 
Droit des societes_maroc
Droit des societes_marocDroit des societes_maroc
Droit des societes_maroc
 
Droit commercial
Droit commercial Droit commercial
Droit commercial
 
Code de commerce
Code de commerceCode de commerce
Code de commerce
 
Partie iii les sanctions
Partie iii les sanctionsPartie iii les sanctions
Partie iii les sanctions
 

Regress lineaire simple imp

  • 1. UE4 : Biostatistiques Chapitre 8 Corrélation et régression linéaire simple José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.
  • 2. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation III. Régression linéaire simple Annexes
  • 3. Plan I. Corrélation et régression linéaire 1. Nature des variables 2. Corrélation versus régression : exemples 3. Conditions d’application II. Coefficient de corrélation III. Régression linéaire simple Annexes
  • 4. I.1. Nature des variables Le terme de corrélation est utilisé dans le langage courant pour désigner la liaison (relation / association) entre 2 variables quelconques. En statistique, le terme de corrélation est réservé pour désigner la liaison entre 2 variables QUANTITATIVES (le plus souvent continues). Corrélation / régression : liaison entre 2 variables quantitatives
  • 5. Plan I. Corrélation et régression linéaire 1. Nature des variables 2. Corrélation versus régression : exemples 3. Conditions d’application II. Coefficient de corrélation III.Régression linéaire simple Annexes
  • 6. I.2. Corrélation versus régression • • • • Corrélation : Liaison entre 2 variables quantitatives X et Y Rôle symétrique (on peut permuter X et Y) Rôle asymétrique • Régression : • Liaison entre 2 variables quantitatives X et Y • Rôle asymétrique uniquement : – X = variable explicative / Y = variable expliquée – X = variable indépendante / Y = variable dépendante • (on ne peut pas permuter X et Y)
  • 7. I.2. Corrélation versus régression 1. Exemple : corrélation (positive) • X = ventes de paires de lunettes de soleil en été • Y = ventes de crèmes glacées en été • Il existe une liaison entre X et Y : – Quand X augmente, Y augmente (météo estivale) – Quand X diminue, Y diminue (météo pluvieuse) • La liaison est symétrique : – – mais X ne dépend pas de Y et Y ne dépend pas de X – on peut permuter X et Y en abscisses et en ordonnées ventes glaces Y ne peut pas être prédite par X ventes lunettes • X est liée à Y, et Y est liée à X ventes glaces ventes lunettes
  • 8. I.2. Corrélation versus régression 2. Exemple : corrélation (négative) • X = ventes de paires de lunettes de soleil en été • Y = ventes de parapluies en été • Il existe une liaison entre X et Y : – Quand X augmente, Y diminue (météo estivale) – Quand X diminue, Y augmente (météo pluvieuse) • La liaison est symétrique : – – mais X ne dépend pas de Y et Y ne dépend pas de X – on peut permuter X et Y en abscisses et en ordonnées ventes lunettes ventes lunettes Y ne peut pas être prédite par X ventes parapluies • X est liée à Y, et Y est liée à X ventes parapluies
  • 9. I.2. Corrélation versus régression 3. Exemple : régression • X = âge (de 0 à 15 ans) • Y = taille (cm) • Il existe une liaison entre X et Y : – – • Quand l’âge augmente, la taille augmente Quand l’âge diminue, la taille diminue La liaison est asymétrique : – – • la taille dépend de l’âge mais l’âge ne dépend pas de la taille on ne peut pas permuter X et Y en abscisses et en ordonnées On peut prédire la taille par l’âge à l’aide d’une équation de droite ou de courbe de régression (cf carnet de santé)
  • 10. I.2. Corrélation versus régression Corrélation Régression X = quantitative Y = quantitative X = quantitative Y = quantitative Oui / Non Y liée à X X liée à Y Non Y dépend de X - Exemples Y = conso. cannabis X = température moyenne annuelle Y= taille X = âge Prédiction Non Oui (équation) Variables Symétrie de la liaison
  • 11. Plan I. Corrélation et régression linéaire 1. Nature des variables 2. Corrélation versus régression : exemples 3. Conditions d’application II. Coefficient de corrélation III. Régression linéaire simple Annexes
  • 12. I.3. Conditions d’application de la corrélation et de la régression linéaire simple • Indépendance des observations • Liaison linéaire entre X et Y • Distribution conditionnelle normale et de variance constante
  • 13. I.3. Conditions d’application de la corrélation et de la régression linéaire simple 1. Indépendance des observations • Ne pas confondre : - Indépendance des observations (condition d’application du test statistique) - Indépendance des variables (hypothèse à tester)
  • 14. Observations indépendantes (et variables corrélées) Enfant 1 Enfant 2 Enfant 3 Enfant 4 Enfant 5 Enfant n 3 mois 60cm 3 mois 58cm 9 mois 70cm 8 mois 70cm 24 mois 85cm 6 mois 65cm Observations corrélées (et variables corrélées) 1er juin 2 juin 1010hpa 1013hpa 30.5°C 29.5°C 3 juin 1014hpa 30.5°C 4 juin 1010hpa 31°C 5 juin 1009hpa 29°C 1er octobre 1002hpa 18°C
  • 15. I.3. Conditions d’application de la corrélation et de la régression linéaire simple 2. Liaison linéaire entre X et Y Avant d’appliquer le test du coefficient de corrélation ou d’estimer la droite de régression, il faut vérifier empiriquement (graphiquement) - que la liaison entre les 2 variables est de nature linéaire. A défaut, l’interprétation du test du coefficient de corrélation ou du test de la pente de la droite de régression peut être erronée.
  • 16. Coefficient de corrélation nul Pente de la droite de régression nulle Cas 1 La nature de la liaison est linéaire (le nuage de points est résumé au mieux par une droite horizontale d’équation y = a) La condition d’application est vérifiée Il est possible d’utiliser le coefficient de corrélation et la régression linéaire simple pour quantifier la liaison entre les 2 variables (conclusion : X et Y sont indépendants [Y constant quelle que soit la valeur de X])
  • 17. Coefficient de corrélation nul Pente de la droite de régression nulle Cas 2 Il existe une liaison entre X et Y mais cette liaison n’est pas linéaire : Y varie avec les valeurs de X. Le nuage de points n’est pas résumé au mieux par une droite mais plutôt par une fonction quadratique. La condition d’application n’est pas vérifiée → Il ne faut pas utiliser le coefficient de corrélation ni la régression linéaire simple pour quantifier la liaison entre les 2 variables
  • 18. Coefficient de corrélation non nul Pente de la droite de régression non nulle Cas 3 La nature de la liaison est linéaire (le nuage de points est résumé au mieux par une droite d’équation y = a+bx) La condition d’application est vérifiée Il est possible d’utiliser le coefficient de corrélation et la régression linéaire simple pour quantifier la liaison entre les 2 variables (conclusion : il existe une liaison linéaire entre X et Y)
  • 19. Coefficient de corrélation non nul Pente de la droite de régression non nulle Cas 4 La nature de la liaison n’est pas linéaire (le nuage de points n’est pas résumé au mieux par une droite mais plutôt par une fonction exponentielle) La condition d’application n’est pas vérifiée → Il ne faut pas utiliser le coefficient de corrélation ni la régression linéaire simple pour quantifier la liaison entre les 2 variables
  • 20. I.3. Conditions d’application de la corrélation et de la régression linéaire simple 3. Distribution conditionnelle normale et de variance constante • Distribution de Y normale et de variance constante pour chaque valeur de X • (difficilement vérifiable en pratique)
  • 21. La variance de Y n’est pas constante pour les différentes valeurs de X La distribution de Y n’est pas normale pour X = x4 La condition d’application n’est pas vérifiée
  • 22. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation 1. Covariance 2. Coefficient de corrélation et interprétation 3. Estimation du coefficient de corrélation 4. Test du coefficient de corrélation III. Régression linéaire simple Annexes
  • 23. II.1. Covariance • Variance conjointe de 2 variables X et Y N cov X, Y    X i 1 i  µ X Yi  µ Y  N • Cas particulier : X = Y → cov(X,Y) = cov(X,X) = var(X) N cov X, X    X i 1 i  µ X X i  µ X  N N   X i 1  µX  2 i N  var X 
  • 24. II.1. Covariance • X et Y indépendantes cas particulier Y constant quelle que soit la valeur de X N cov X, Y    X i 1 i  µ X Yi  µ Y  N 0 0 car Yi = constante =µY
  • 25. II.1. Covariance • Equivalent de la formule de Huyghens pour la covariance  n  n    xi   yi  n  i1  i1   xi yi  n i 1 covX, Y  n  x   i 2  i 1   xi  n varX   i 1 n n n Rappel : 2
  • 26. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation 1. Covariance 2. Coefficient de corrélation et interprétation 3. Estimation du coefficient de corrélation 4. Test du coefficient de corrélation III. Régression linéaire simple Annexes
  • 27. II.2. Coefficient de corrélation Le coefficient de corrélation entre 2 variables quantitatives X et Y est égal au rapport de la covariance de X et Y divisé par le produit des écart-types de X et Y. Le coefficient de corrélation est noté ρ dans la population. covX, Y ρ varX varY -1ρ+1
  • 28. II.2. Interprétation du coefficient de corrélation 1. X et Y indépendantes : ρ = 0 ρ=0 • Y = fluctue autour d’une constante quelle que soit la valeur de X • Nuage de points horizontal • cov(X, Y) = 0 ρ covX, Y  0 varX  varY 
  • 29. II.2. Interprétation du coefficient de corrélation 2. X et Y corrélées : ρ > 0 • Liaison linéaire croissante entre X et Y • cov(X, Y) > 0 covX, Y ρ 0 varX varY NB : si Y = X → cov(X,Y) = var(X) et var(Y) = var(X) → ρ =1 ρ>0
  • 30. II.2. Interprétation du coefficient de corrélation 2. X et Y corrélées : ρ < 0 ρ<0 • Liaison linéaire décroissante entre X et Y • cov(X, Y) <0 covX, Y ρ 0 varX varY NB : si Y = - X → cov(X,Y) = - var(X) et var(Y) = var(X) → ρ =-1
  • 31. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation 1. Covariance 2. Coefficient de corrélation et interprétation 3. Estimation du coefficient de corrélation 4. Test du coefficient de corrélation III. Régression linéaire simple Annexes
  • 32. II.3. Estimation du coefficient de corrélation population ρ échantillon r Le coefficient de corrélation estimé sur un échantillon issu d’une population est noté r. Il s’interprète comme le coefficient de corrélation ρ mesuré sur la population. Il est calculé à partir des estimations de la covariance et des variances de X et de Y sur l’échantillon.  x i  m x  yi  m y  n cov X, Y   i 1 n - 1 n s2  x  x i  m x  i 1 n - 1  y n 2 s2  y i 1 i  my  n - 1 2
  • 33. II.3. Estimation du coefficient de corrélation Par simplification des (n-1) au dénominateur de la covariance et de la variance de X et de la variance de Y, on obtient l’expression de l’estimateur du coefficient de corrélation r à partir d’un échantillon. x  m y  m  n r i i 1 x i y x  m  y  m  n i 1 2 i x n i 1 2 i y
  • 34. II.3. Estimation du coefficient de corrélation Par simplification des (n-1) au dénominateur de la formule de Huyghens de la covariance et de la variance de X et de Y, on obtient une autre expression de l’estimateur du coefficient de corrélation r à partir d’un échantillon. r  n  n    x i   y i  n x i y i   i 1  i 1   n i 1 2 2 n n    x   y    n 2  i 1 i    n 2  i 1 i     y     x i    i n   i 1 n   i 1      
  • 35. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation 1. Covariance 2. Coefficient de corrélation et interprétation 3. Estimation du coefficient de corrélation 4. Test du coefficient de corrélation III. Régression linéaire simple Annexes
  • 36. II.4. Test du coefficient de corrélation Après le calcul du coefficient de corrélation r estimé sur un échantillon, il faut déterminer si le coefficient de corrélation ρ est significativement différent de 0. population ρ échantillon r rρ H0 : ρ = 0 (absence de liaison [linéaire] entre X et Y) H1 bilatérale : ρ  0 (existence d’une liaison entre X et Y)
  • 37. II.4. Test du coefficient de corrélation Sous l’hypothèse nulle (H0) : Le rapport de l’estimateur du coefficient de corrélation r sur son écarttype suit une loi de Student à (n-2) degrés de liberté. n est l’effectif de l’échantillon. r sr → t (n-2)ddl L’estimateur de l’écart-type du coefficient de corrélation est égal à : 1  r² sr  n2
  • 38. II.4. Test du coefficient de corrélation Le test du coefficient de corrélation consiste à calculer la grandeur to et à la comparer à la valeur seuil tα sur la table de la loi de Student à (n-2) degrés de libertés. r n 2 to  1  r² Conditions d’application • indépendance des observations • liaison linéaire entre X et Y • distribution conditionnelle normale et de variance constante
  • 39. 1–α (non-rejet de H0) α/2 α/2 (rejet de H0 = acceptation de H1) (rejet de H0 = acceptation de H1) -t α |to| > tα 0 |to|  tα tα |to| > tα Abscisses : valeurs possibles de t sous H0 (ρ = 0) to : valeur observée/calculée de t sur l’échantillon r n2 t 1  r²
  • 40. Détermination du degré de signification associé à to (P-value) Exemple : • to = 2.12 • n = 20 0.02 < P <0.05 P < α → rejet de H0 (n-2) = 18 ddl Rappel : P-value = probabilité d’observer une valeur plus grande que to sous l’hypothèse nulle H0 X
  • 41. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation III. Régression linéaire simple 1. Régression linéaire simple 2. Estimation par la méthode des moindres carrés 3. Test de la pente de la droite de régression Annexes
  • 42. III.1. Régression linéaire simple La régression s’adresse à un type de problème où les 2 variables quantitatives continues X et Y ont un rôle asymétrique : la variable Y dépend de la variable X. La liaison entre la variable Y dépendante et la variable X indépendante peut être modélisée par une fonction de type Y = α + βX, représentée graphiquement par une droite. Y = α + βX Y Y : variable dépendante (expliquée) X : variable indépendante (explicative) α : ordonnée à l’origine (valeur de Y pour x = 0) X β : pente (variation moyenne de la valeur de Y pour une augmentation d’une unité de X)
  • 43. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation III. Régression linéaire simple 1. Régression linéaire simple 2. Estimation par la méthode des moindres carrés 3. Test de la pente de la droite de régression Annexes
  • 44. III.2. Estimation par la méthode des moindres carrés (xi, yi) Y X Chaque individu i est caractérisé par un couple de coordonnées (xi, yi) et est représenté par un point sur le graphique. L’ensemble des individus forme un nuage de points.
  • 45. III.2. Estimation par la méthode des moindres carrés (xi, yi) Y Y = α + βX ^ (xi, yi) ^ = α + βx yi i X La droite de régression Y = α + βX est la droite qui résume le mieux le nuage de points. Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus proches (c’est-à-dire la droite qui passe à la plus faible distance de chaque point du nuage, en moyenne).
  • 46. III.2. Estimation par la méthode des moindres carrés ^ yi - yi (xi, yi) Y Y = α + βX ^ (xi, yi) ^ = α + βx yi i X La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé (xi, yi) et l’ordonnée du point correspondant sur la droite (xi, ^yi) . Cette distance d’un point à la droite (yi - ^yi) peut être positive ou négative et la somme des distances à la droite s’annule.
  • 47. III.2. Estimation par la méthode des moindres carrés ^ yi - yi (xi, yi) Y ^ (xi, yi) Y = α + βX ^ = α + βx yi i X y SCE = i (yi – ^ i)² Pour s’affranchir du signe, on calcule la somme des carrés des distances de chaque point à la droite. La droite de régression est la droite qui minimise la somme des carrés des écarts. Elle est aussi appelée droite des moindres carrés.
  • 48. III.2. Estimation par la méthode des moindres carrés Y Y = α + βX my mx X Une particularité de la droite de régression est de passer par le point moyen théorique de coordonnée (mx, my).
  • 49. III.2. Estimation par la méthode des moindres carrés Y = α + βX Y a et b sont les estimations de l’ordonnée à l’origine α et de la pente β de la droite de régression. my L’estimation de la pente de la droite de régression b est égale au rapport de la covariance de X et Y sur la variance de X. cov X, Y  b var X  mx n b  x i 1 i  m x  y i  m y  n x i  m x 2  i 1 X
  • 50. III.2. Estimation par la méthode des moindres carrés Y Y = α + βX my mx X L’estimateur de l’ordonnée à l’origine a est déduit de la pente b et des coordonnées du point moyen (mx, my) : a = my – b mx
  • 51. Plan I. Corrélation et régression linéaire II. Coefficient de corrélation III. Régression linéaire simple 1. Régression linéaire simple 2. Estimation par la méthode des moindres carrés 3. Test de la pente de la droite de régression Annexes
  • 52. III.3. Test de la pente de la droite de régression b≈β population β échantillon b La droite de régression d’équation Y = α + βX comporte 2 paramètres (α et β). L’hypothèse nulle est que la pente β de la droite de régression de Y en X est égale à 0 (soit Y est égal à α, c’est-à-dire que la droite de régression est horizontale et qu’il n’y a pas de liaison entre X et Y). H0 : β = 0 (droite de régression horizontale : Y = α) H1: β  0
  • 53. III.3. Test de la pente de la droite de régression Sous l’hypothèse nulle (H0) : Le rapport de l’estimateur de la pente b sur son écart-type suit une loi de Student à (n-2) degrés de liberté. n est l’effectif de l’échantillon. b sb → t (n-2)ddl s2 y L’estimateur de l’écart-type de la pente est égal à : sb  s 2 x  b2 n2
  • 54. III.3. Test de la pente de la droite de régression Le test de la pente consiste à calculer la grandeur to et à la comparer à la valeur seuil tα sur la table de la loi de Student à (n-2) degrés de libertés to  b s 2 y 2 x b 2 s n 2 Conditions d’application • indépendance des observations • liaison linéaire entre X et Y • distribution conditionnelle normale et de variance constante
  • 55. Corrélation et régression Corrélation Régression Variables Quantitatives symétriques/asymétriques Quantitatives asymétriques Test Coefficient de corrélation -1  r  1 Pente de la droite de régression non oui Prédiction Conditions Indépendance des observations Liaison linéaire Distribution conditionnelle normale et de variance constante
  • 56. Annexe : variance et covariance • Variance • var(X) = E(X²) – [E(X)]²  1 2 1 varx     x     x   n  n  x   n i x i2   i 1   n i 1 varx   n n 2 2
  • 57. Annexe : variance et covariance • Covariance • cov(X,Y) = E(XY) – [E(X) x E(Y)]   1  1  1 covx, y     xy     x     y    n  n  n  n  n    x i   y i  n x i y i   i 1  i 1   n i 1 covX, Y   n
  • 58. Mentions légales L'ensemble de ce document relève des législations française et internationale sur le droit d'auteur et la propriété intellectuelle. Tous les droits de reproduction de tout ou partie sont réservés pour les textes ainsi que pour l'ensemble des documents iconographiques, photographiques, vidéos et sonores. Ce document est interdit à la vente ou à la location. Sa diffusion, duplication, mise à disposition du public (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sont strictement réservées à l’université Joseph Fourier de Grenoble. L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits en 1ère année de Médecine ou de Pharmacie de l’Université Joseph Fourier de Grenoble, et non destinée à une utilisation collective, gratuite ou payante. Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine de Grenoble (Université Joseph Fourier – Grenoble 1) en collaboration avec l’Equipe Audiovisuel et Production Multimédia (EAEPM) de l’Université Stendhal de Grenoble.