SlideShare una empresa de Scribd logo
1 de 76
Descargar para leer sin conexión
Notions essentielles de
statistique
Livret 4/4
La méthode statistique
Analyse de variance
Corrélation et régression linéaire
Youcef Elmeddah
________________________________________________________________________________
I _______________________________________________________________________________
STATISTIQUE
TABLE DES MATIÈRES
AVERTISSEMENT ..................................................................................................... 1
PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ...............................................................1
COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ......................................................................1
CONSEILS GÉNÉRAUX DE TRAVAIL ...........................................................................................................2
Séquence de travail n° 1 3
ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION .......................... 3
I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE
VARIANCE ..................................................................................................................................................4
1. But de l'analyse de variance ............................................................................................4
2. Hypothèse à tester............................................................................................................5
3. Conditions d'application de l'analyse de variance ...........................................................5
II. THÉORIE DE L'ANALYSE DE VARIANCE.............................................................................................7
1. Variance intra-population : s2intra..................................................................................7
2. Variance inter-population : s2inter................................................................................7
3. Le rapport F et les tables de distributions F ...................................................................8
III. RÉALISATION DE L'ANALYSE DE VARIANCE ..................................................................................9
1. Echantillons d'effectifs inégaux.....................................................................................10
1. Première étape de l'analyse....................................................................................... 10
2. Deuxième étape de l'analyse...................................................................................... 11
3. Exemple pratique....................................................................................................... 12
2. Echantillons de mêmes effectifs....................................................................................16
1. Première étape de l'analyse....................................................................................... 16
2. Deuxième étape de l'analyse...................................................................................... 17
3. Exemple pratique....................................................................................................... 17
IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS ...........................................19
Séquence de travail n° 2 23
ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION................. 23
I. POSITION DU PROBLÈME.........................................................................................................................24
II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX
CRITÈRES DE CLASSIFICATION........................................................................................................25
1. Présentation des données et des calculs ........................................................................25
_______________________________________________________________________________
II ______________________________________________________________________________
STATISTIQUE
1. Première partie.......................................................................................................... 25
2. Deuxième partie......................................................................................................... 26
2. Application pratique.....................................................................................................28
3. Exécution de l'analyse de variance par le logiciel EXCEL ...........................................31
Séquence de travail n° 3 33
CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE......................................... 33
I. POSITION DU PROBLÈME.........................................................................................................................34
1. Analyse de régression et de corrélation.........................................................................34
2. La relation de causalité en statistique............................................................................35
II. ANALYSE DE RÉGRESSION .....................................................................................................................36
1. Diagramme de dispersion..............................................................................................36
2. Notion de covariance.....................................................................................................38
3. Droite de régression.......................................................................................................39
4. Estimation à l'aide de l'équation de régression..............................................................42
III. L'ERREUR TYPE DE L'ESTIMATION...................................................................................................44
1. Calcul de l'erreur type de l'estimation : Ey.x.................................................................44
2. Intervalles de prédiction ................................................................................................45
IV. ANALYSE DE CORRÉLATION................................................................................................................48
1. Le coefficient de détermination = r2 ............................................................................48
2. Le coefficient de corrélation..........................................................................................50
1. Méthode pratique de calcul du coefficient de corrélation......................................... 50
2. Propriétés du coefficient de corrélation.................................................................... 51
V. TRANSFORMÉE DE FISHER.....................................................................................................................52
1. Position du problème.....................................................................................................52
2. Premier cas : r = 0 .........................................................................................................52
3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle................................................53
TABLE I.................................................................................................................... 55
TABLE DE LA DISTRIBUTION NORMALE RÉDUITE .............................................................................55
TABLE II................................................................................................................... 56
TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART
RÉDUIT ......................................................................................................................................................56
TABLE III.................................................................................................................. 57
TABLE DE STUDENT.......................................................................................................................................57
TABLE IV ................................................................................................................. 58
______________________________________________________________________________
III ______________________________________________________________________________
STATISTIQUE
TABLE DU C2 ..................................................................................................................................................58
TABLE V-A............................................................................................................... 59
TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,05).................................................59
TABLE V-B .............................................................................................................. 60
TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,05)....................................................60
TABLE VI-A.............................................................................................................. 61
TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,01)..................................................61
TABLE VI-B ............................................................................................................. 62
TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,01)....................................................62
TABLE VII ................................................................................................................ 63
CORRÉLATION TRANSFORMÉE DE FISHER...........................................................................................63
BIBLIOGRAPHIE ..................................................................................................... 64
_______________________________________________________________________________
1 ______________________________________________________________________________
Avertissement
AVERTISSEMENT
Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de
mieux comprendre les concepts et les outils de la statistique. C'est un ouvrage d'initiation dont
l'objectif principal est l'acquisition des techniques de base de la statistique ainsi que
l'interprétation des résultats qui en découlent. Pour cela, les fondements mathématiques des
théories exposées ne sont pas développés. Nous avons pensé que ce document est destiné
surtout à des utilisateurs de l'outil statistique et non à des théoriciens.
Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les
connaissances théoriques à l'application pratique, le document réunit l'essentiel des
connaissances avec de nombreux exemples d'application illustrant les parties théoriques.
Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont
signalées en grisé dans le texte.
Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite
suppose que d’autres notions sont connues.
En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples
proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions
précédentes.
Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers
et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant.
Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de
mieux en mieux.
PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET…
Dans ce livret, nous exposons d'abord le principe général de l'analyse de variance. Nous
appliquerons alors ce principe à l'analyse de la variance à un facteur puis à deux facteurs en
gardant toujours la même démarche.
Dans les problèmes relatifs à la corrélation et à la régression, nous nous limiterons à un rapide
exposé sur le principe de l'analyse puis une application directe à la corrélation et à la
régression linéaire simple.
Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une
bonne connaissance du principe des tests statistiques, de la formulation et la résolution des
problèmes de statistique.
Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous aux
livrets 2/4 et 3/4 de la série.
COMMENT TRAITER UN EXERCICE DE STATISTIQUE ?
La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen,
doit être réalisée avec le plus grand soin.
• Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé
en relation avec votre programme.
- Quelles sont les données (nature de la variable, loi de probabilité, taille de
l’échantillon, paramètres donnés…) ?
_______________________________________________________________________________
2 ______________________________________________________________________________
Avertissement
- Que vous demande-t-on ?
- Les questions sont-elles liées ?
- Quelle table statistique utiliser ?
• Commencez alors par résoudre l’exercice sur du brouillon, question par question.
• A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à
la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se
contentant par exemple,
- d' « appliquer » des formules sans expliquer les conditions d'applications,
- d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse
de leurs conclusions.
Si certains exercices proposés précisent les conditions des données, il n'en est pas de
même pour d'autres. C'est donc à vous de le faire en tout début de la rédaction.
Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de
vous « déchiffrer ». Il peut se lasser…
Vous risquez alors de perdre des points inutilement.
- Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être
respectés.
- Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite
conclusion.
CONSEILS GÉNÉRAUX DE TRAVAIL
Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques
formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à
vérifier l'atteinte des objectifs visés par la séquence de travail proposée.
Pour cela, nous vous conseillons :
• de travailler aussi régulièrement que possible ;
• d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé…
• d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une
gomme ;
• de vérifier, chaque fois que vous avez un doute, les calculs développés ;
• de traiter la totalité des exercices d'application proposés avant de passer à la séquence
suivante ;
• d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile
pour la séquence suivante ;
• si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les
données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous
permettra de faire des simulations en changeant les données pour « voir ce qui se passe ».
Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours
de statistique. Tous savent combien il est délicat de traiter un problème de statistique en
faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent
document voudront bien l'utiliser avec indulgence et en nous communiquant,
éventuellement, leurs remarques et suggestions. Nous les remercions par avance.
_______________________________________________________________________________
3 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
Séquence de travail n° 1
6 h
ANALYSE DE VARIANCE À UN CRITÈRE
DE CLASSIFICATION 9
Objectifs pédagogiques
A la fin de cette séquence, mais étape par étape, vous devriez être capable :
1. d'exposer le principe général et le but de l'analyse de variance ;
2. de préciser les conditions d'application de l'analyse de variance ;
3. d'appliquer l'analyse de variance à un critère de classification ;
4. d'utiliser la technique d'analyse de variance et les tables de distributions F
pour prendre les décisions statistiques appropriés concernant la comparaison
des moyennes de trois populations ou plus ;
5. de conduire une comparaison multiple de moyennes par le test de la PPDS.
_______________________________________________________________________________
4 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
I. BUT, HYPOTHÈSES ET CONDITIONS
D'APPLICATION D'UNE ANALYSE DE VARIANCE
1. But de l'analyse de variance
Le but de l'analyse de variance est de déterminer si toutes les moyennes des populations
étudiées sont égales entre elles.
Il s'agit de comparer les moyennes de plusieurs populations supposées normales et de
même variance à partir d'échantillons aléatoires simples et indépendants les uns des
autres.
En pratique, le but de l'analyse de variance est de tester l'influence d'un ou de plusieurs
facteurs ou effets sur une variable mesurable (ou quantifiable) traduisant l'influence de ce
(ou ces) facteur (s).
Par exemples, l'analyse de variance s'impose lorsqu'on veut étudier :
• l'influence du facteur alimentation sur la croissance d'un animal ou la production laitière;
• l'influence des facteurs race et alimentation sur la composition d'un lait de vache ou de
brebis.
Les facteurs dont on veut tester l'influence peuvent être :
• soit des facteurs étudiés pour leur intérêt biologique, zootechnique ou agronomique : sexe,
alimentation, agent fertilisant etc.
• soit des facteurs destinés à contrôler la variabilité due à des facteurs « extérieurs » : effets de
l'année, de l'étable, du bloc, etc.
Chaque facteur étudié ou contrôlé peut présenter plusieurs niveaux comme par exemples :
- 2 niveaux pour le sexe (mâle ou femelle)
- 4 niveaux pour la race : Prim'Holstein, Normande, Montbéliarde, Salers.
Tester l'influence d'un facteur sur la variable étudiée revient à tester l'existence ou l'absence de
différences entre les diverses modalités de ce facteur.
_______________________________________________________________________________
5 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
On peut tester simultanément l'influence de plusieurs facteurs et de leurs interactions, sur la
variable étudiée : on parlera alors d'analyse de variance à deux, trois ou plusieurs facteurs (ou
critères) qui sera étudiée au chapitre suivant.
Dans le présent chapitre, on se limitera à l'étude d'un seul facteur étudié : il s'agit d'une
analyse de variance à un facteur de variation, ou un critère de classification. Nous
étudierons, au chapitre suivant, le cas de l'analyse de variance à deux critères de
classification.
2. Hypothèse à tester
L'hypothèse nulle à tester dans ce cas est :
Ho : les échantillons proviennent de différentes populations dont les moyennes sont
identiques.
Ho
: 
1
= 
2
= 
3
= ... = 
k
k = nombre de populations considérées.
Dans ces conditions, l'hypothèse alternative (H1) sera la suivante : les moyennes des
populations ne sont pas toutes égales entre elles.
Si H1 est acceptée, il faut conclure qu'au moins une moyenne de population diffère des autres
moyennes de population.
Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de
population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec
cette technique, quelles sont les moyennes qui diffèrent.
3. Conditions d'application de l'analyse de variance
Trois conditions essentielles d'application sont requises pour l'analyse de variance :
1. les échantillons sont aléatoires et indépendants ;
2. les distributions des populations sont approximativement normales ou normales ;
3. les populations ont toutes la même variance.
1
2 = 2
2 = 3
2 = ........ = k
2
_______________________________________________________________________________
6 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
Autrement dit, lorsque Ho est vraie et lorsque ces trois conditions sont remplies, la situation
est essentiellement équivalente à celle où tous les échantillons sont prélevés dans la même
population (figure 1)
En revanche, les moyennes des populations ne sont pas égales si Ho est fausse, et les
échantillons pourront être considérés comme provenant de populations telles que celles
illustrées à la figure 2 si les trois conditions sont remplies.
1 2 3
Fig. 1. k populations normales avec : Fig. 2. Trois populations normales avec :
 1 = 2 = 3 =...........k 1 ≠ 2 ≠ 3
 1
2 = 2
2 = 3
2 ...= k
2 1
2 = 2
2 = 3
2
_______________________________________________________________________________
7 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
II. THÉORIE DE L'ANALYSE DE VARIANCE
On examinera des estimations de la variance de la population, 2, afin de déterminer si les
moyennes des populations sont égales et ce, pour les raisons exposées ci-dessous.
Dans une analyse de variance, on calcule deux estimations de la variance de la population
selon deux approches indépendantes.
1. Calculer une estimation de 2 qui demeurera valable, que les moyennes des populations
soient égales ou non.
2. Estimer sans biais 2 si et seulement si les moyennes des populations sont égales. Toute
différence entre les moyennes des populations affectera la valeur de cette estimation 2.
Cependant, s'il n'existait aucune différence entre les moyennes, les deux estimations calculées
de 2 seraient très proches l'une de l'autre (une comparaison de ces deux estimations servira à
tester la validité de Ho ).
Autrement dit :
• Si les deux estimations calculées sont approximativement égales, on peut conclure qu'il n'y
a probablement pas de différence entre les moyennes des populations. Donc, Ho est acceptée.
• S'il existe une différence significative entre les estimations calculées selon les deux
approches, on doit conclure que les différences au sein des moyennes des populations ont
influencé la valeur de la seconde estimation. Donc Ho doit être rejetée.
1. Variance intra-population : 2
intra
2
intra est une estimation de 2 non influencée par les moyennes des populations.
C'est la première estimation de 2 qui consiste en une moyenne des variances à l'intérieur de
chacun des échantillons. Chacune des variances échantillonnales (s2) pourrait, après une
légère modification, servir d'estimateur sans biais de 2 ; cependant, on utilise généralement
la moyenne arithmétique des variances de tous les échantillons pour estimer 2 , l'estimation
obtenue reposant alors sur un plus grand nombre de données.
2. Variance inter-population : 2
inter
2
inter est un estimateur de 2 si Ho est vraie.
C'est la seconde approche qui est basée sur la variation entre les moyennes échantillonnales.
Si Ho est vraie, on peut alors considérer que tous les échantillons proviennent d'une même
population de moyenne .
L'écart type de la distribution d'échantillonnage - ou erreur type de la moyenne échantillonnale
- est obtenu par la formule suivante :
_______________________________________________________________________________
8 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
 x =

n
ou 2
x =
2
n c'est-à-dire n 2
x = 2
Donc, si Ho était vraie, 
inter serait une estimation sans biais de la variance de la population
et devrait être approximativement égal à la valeur de 
intra .
Par contre, s'il devait y avoir une différence significative entre 
intra et 
inter ,
on devrait conclure que cette différence est causée par des différences entre les
moyennes des populations.
3. Le rapport F et les tables de distributions F
Il s'agit de savoir à quel moment la différence entre les deux estimations de 2 est
significative et si la différence entre 
intra et 
inter est due à l'inégalité des moyennes des
populations ou simplement aux fluctuations d'échantillonnage.
En pratique, on analyse le rapport entre 
inter et 
intra plutôt que la différence entre ces
deux valeurs. Ce rapport, appelé valeur F observé (ou calculé), est donc :
F =
2
inter
2
intra
Idéalement, si Ho est vraie, F observé devrait être égal à 1. Cependant, du fait des
fluctuations d'échantillonnage, on s'attend à des différences entre les deux estimations de 2
et ce, même si Ho est vraie. Il faudrait alors déterminer de quelle grandeur doit être cette
différence qui se reflète dans la valeur F calculée pour rejeter légitimement Ho.
La valeur maximale que peut atteindre le rapport F calculé avant le rejet de Ho est donnée
dans les tables de distributions F. ( Voir tables V et VI de distributions F en fin de livret).
La conclusion à tirer concernant Ho sera basée sur la comparaison de F calculé (ou
observé) avec une valeur repérée dans les tables.
Si Fobservé < à la valeur trouvée dans les tables, Ho sera acceptée sinon Ho est
rejetée.
ATTENTION !
Il faut se souvenir que, contrairement au test F appliqué à la
comparaison de deux variances (chapitre 7) qui est un test bilatéral, le
test F appliqué dans l' analyse de variance, est un test unilatéral à
droite pour lequel on doit utiliser les tables V-A ( pour  = 0,05) et VI-
A (pour  = 0,01).
_______________________________________________________________________________
9 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
III. RÉALISATION DE L'ANALYSE DE VARIANCE
L'analyse de variance à un critère de classification ( on dit aussi à un facteur) permet de
comparer les moyennes de plusieurs populations supposées normales et de même variance, à
partir d'échantillons aléatoires simples et indépendants les uns des autres.
Le tableau 1 (page suivante) présente les données relatives à l'analyse de variance à un critère
de classification.
Comment lire ce tableau ?
Le facteur étudié présente p modalités et nous désignerons par i l'une quelconque de ces
modalités (i = 1, 2, 3 … … p) ; il y a donc p échantillons de tailles n1 , n2 … … ni … np avec
ni = n.
Nous désignerons par xik la variable aléatoire, résultat du kième individu soumis à la iième
modalité du facteur étudié.
La moyenne de l'échantillon i sera désignée par xi et la moyenne de tous les échantillons par
x .
Dans ces conditions, le modèle de l'analyse de variance s'écrit :
xik - x = xi - x + xik - xi
ce qui indique que les écarts constatés sur l'individu xik par rapport à la moyenne générale
xik - x auxquels correspond la variation totale, se décomposent en deux éléments
additifs :
• les écarts entre la moyenne de l'échantillon et la moyenne générale, xi - x , auxquels
correspond la variation factorielle.
• les écarts de chaque individu par rapport à la moyenne de l'échantillon, xik - xi ,
auxquels correspond la variation résiduelle.
On démontre que, en élevant au carré les deux membres de cette égalité puis en sommant, on
obtient la décomposition en carrés ci-dessous, appelée l'équation de l'analyse de variance:

i=1
p 
k=1
ni (xik - x ) 2 = 
i=1
p ni ( xi - x )2 + 
i=1
p 
k=1
ni (xik - xi ) 2
______________________________________________________________________________
10 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
Somme des carrés des écarts
totale
SCEt
Somme des carrés des écarts
factorielle
SCEf
Somme des carrés des écarts
résiduelle (ou aléatoire)
SCEr
1. Echantillons d'effectifs inégaux
1. Première étape de l'analyse
La réalisation de l'analyse de variance, dans le cas d'échantillons d'effectifs inégaux se fera
selon la présentation du tableau 1.
Tableau 1. Présentation des données et des calculs lors de la réalisation de l'analyse de
variance à un critère de classification.
i(modalités)
k (individus)
1 2 … p Totaux
1
2
.
.
.
x11
x12
.
.
.
x1n1
x21
x22
.
.
.
.
x2n2
… xp1
xp2
.
.
xpnp
ni n1 n2 … np n. = ni (effectif total)
Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.
 xik
2  x1k
2  x2k
2
…  xpk
2 T =   x2
ik
Xi.
2/ni X1.
2/n1 X2.
2/n2 … Xp.
2/np -
SCEi =  x2
ik -
X2
i.
ni
(pour tout i)
SCE1 SCE2 … SCEp SCEr =  SCEi
^
i
2 =
SCEi
ni-1
(pour tout i)
^
1
2 ^
2
2
… ^
p
2
-
xi =
Xi.
ni
(pour tout i) x1 x2 … xp -
Moyenne générale x =
X..
n.
La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes
:
• Terme correctif : C = X..
2 / n.
• Somme des carrés des écarts totale : SCEt = T - C
______________________________________________________________________________
11 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
• Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr
• Carrés moyens : CMf =
SCEf
p-1 et CMr =
SCEr
n-p
Fobservé =
CMf
CMr =
2
inter
2
intra
______________________________________________________________________________
12 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
2. Deuxième étape de l'analyse
Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la
valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme
degrés de liberté :
1 = p-1 et 2 = n-p
La présentation du tableau de l'analyse de variance se fera ainsi :
Sources de variation ddl SCE CM F
Entre populations -facteur contrôlé-
(2 inter)
1 = p-1 SCEf CMf Fobs =
CMf
CMr
Entre observations, dans les
populations (erreur résiduelle)
(2 intra)
2 = n-p SCEr CMr
Totaux n-1 SCEt
Nous retrouvons bien ce qui a déjà été signalé. En effet, cette façon de procéder indique
que les écarts constatés par rapport à la moyenne générale - auxquels correspond la
variation totale - se décomposent en 2 éléments additifs :
• les écarts par rapport à la moyenne de l'échantillon, auxquels correspond la variation
résiduelle ;
• les écarts entre la moyenne de l'échantillon et la moyenne générale, auxquels correspond
la variation factorielle.
Ce qui se traduit par l'équation de l'analyse de variance ci-dessous :
SCEt = SCEf + SCEr
En divisant ces SCE par le nombre de degrés de libertés correspondant, on obtient les carrés
moyens ou tout simplement les variances.
Si l'hypothèse Ho est vraie, le rapport Fcalculé (on dit aussi Fobservé)
Fobservé =
CMf
CMr
est une variable aléatoire de Fisher-Snedecor à 1 = p-1 et 2 = n-p degrés de liberté.
______________________________________________________________________________
13 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
La règle de décision sera alors la suivante :
• Si Fobservé < Ftable (pour 1 et  ddl et un risque  donné), on garde Ho. Cela veut dire
qu'il n' y a pas d'influence significative du facteur étudié sur la variable considérée.
• Si Fobservé ≥ Ftable (pour 1 et  ddl et un risque  donné), on rejette Ho. Cela veut dire
que le facteur étudié a une influence significative sur la variable considérée.
3. Exemple pratique
On souhaite comparer le poids moyen, à un âge déterminé, de moutons d'une même race
provenant de 3 régions différentes.
Les résultats obtenus sur 3 échantillons sont les suivants (en kg) :
Région 1
Lot 1
Région 2
Lot 2
Région 3
Lot 3
59,8 61,5 58,9
62,1 60,5 60
59,2 60,6 59,3
59,2 61,3 57
58,4 58,5 59,9
61,1 63 59,9
62,3 60,2 58,9
60 62,3 56,8
60,5 60,6 57,6
61,3 61,1 58,7
62,5 62 -
58,9 62,1 -
58,6 65,3 -
- 60,5 -
En fait, il s'agit de savoir si la région d'où provient chacun de ces trois lots, influence le poids
des moutons ou non.
Pour répondre à la question posée, il faudrait réaliser une analyse de variance pour tester
l'hypothèse d'égalité des moyennes des poids qui sont donnés.
Bien évidemment, l'hypothèse nulle consiste à considérer qu'il n' y a pas de différence entre
les moyennes des poids des 3 lots.
Ho : 1 = 2= 3
Sous cette hypothèse Ho, on peut considérer que quelle que soit la région d'où proviennent les
moutons, leur poids est le même ; autrement dit la région n'a aucune influence sur le poids
des animaux.
Le test de l'analyse de variance nous permettra soit d'accepter cette hypothèse d'égalité des
moyennes, soit alors de la rejeter.
______________________________________________________________________________
14 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
Pour cela, réalisons le premier tableau de présentation des données et des calculs.
Pour une meilleure compréhension, ce tableau se présentera de façon légèrement différente du
tableau 1 exposé plus haut.
Lot 1 Lot 2 Lot 3 Totaux
59,8 61,5 58,9
62,1 60,5 60
59,2 60,6 59,3
59,2 61,3 57
58,4 58,5 59,9
61,1 63 59,9
62,3 60,2 58,9
60 62,3 56,8
60,5 60,6 57,6
61,3 61,1 58,7
62,5 62
58,9 62,1
58,6 65,3
60,5
ni 13 14 10 37 = n.
Moyenne 60,30 61,39 58,70 -
 xi = Xi. 783,90 859,50 587,00 2230,4 = X..
 xi
2 = A 47294,15 52799,45 34469,62 134563,22 = T
Xi.
2/ni = B 47269,17 52767,16 34456,9 -
SCEi = A - B 24,98 32,29 12,72 69,99 = SCEr
^
i
2
2,082 2,484 1,413 -
C = X..
2/n. = 134450,9
SCEt = T - C = 112,298
L'étape suivante est la réalisation du tableau de l'analyse de variance
Sources de variation ddl SCE CM F
Différences entre régions 2 42,30 21,153 10,28*** = Fobs
Différences entre les poids
(pour un même lot)
34 69,99 2,058 F0,05,;2,;34 = 3,28
F0,01,;2,;34 = 5,29
Totaux 36 112,297
Au seuil de 5 %, pour ddl1 = 2 et ddl2 = 34, la table V-A donne F = 3,28
Au seuil de 1 %, pour ddl1 = 2 et ddl2 = 34, la table VI-A donne F = 5,29
Au seuil de 1 0/00, pour ddl1 = 2 et ddl2 = 34, F = 8,52
______________________________________________________________________________
15 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
Dans les 3 cas, Fobservé > Ftable . Ceci nous conduit au rejet de HO.
Concrètement cela signifie que la région d'où proviennent les animaux influence leur poids.
Remarques
1. Il est d'usage de marquer les différences significatives d'un, de deux ou de trois
astérisques respectivement pour les niveaux 0,05, 0,01 et 0,001.
Dans notre cas Fobs = 10,28 est supérieur à Ftable même au niveau de 0,001, c'est-à-dire
avec un risque d'erreur de première espèce inférieur à 10/00. Aussi, la valeur 10,28 est
désignée par 3 astérisques.
2. Il faut se souvenir que si H1 est acceptée, ce qui est le cas dans notre exemple, il faut
conclure qu'au moins une moyenne de population diffère des autres moyennes de
population.
Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes
de population sont différentes les unes des autres et, de plus, il est impossible de
déceler, avec cette technique, quelles sont les moyennes qui diffèrent.
Exemple.
Appliquons l'analyse de variance pour les deux premiers lots uniquement (lots 1 et 2)
Après calculs, nous obtenons le tableau suivant :
Sources de variation ddl SCE CM F
2 inter 1 8,051 8,050714 3,51 = Fobs
2 intra 25 57,27 2,290771 F0,05;1;25 = 4,24
F0,01;1;25 = 7,77
Totaux 26 65,320 Décision : on accepte Ho
Dans ce cas, on remarque que Fobs < Ftable . Ce qui nous conduit à accepter Ho, c'est-à-dire
qu'il n' y a pas de différence significative des poids des lots 1 et 2.
Appliquons à présent l'analyse de variance pour les lots 1 et 3
Après calculs, nous obtenons le tableau suivant :
Sources de variation ddl SCE CM F
______________________________________________________________________________
16 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
2 inter 1 14,470 14,469 8,059 = Fobs
2 intra 21 37,70 1,7952 F0,05;1;21 = 4,32
F0,01;1;21 = 8,02
Totaux 22 52,170 Décision : rejet de Ho
Dans ce cas, on remarque que Fobs > Ftable . Ce qui nous conduit à rejeter Ho, c'est-à-dire qu'il
existe une différence significative entre les poids des lots 1 et 3.
______________________________________________________________________________
17 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
2. Echantillons de mêmes effectifs
1. Première étape de l'analyse
Dans ce cas, les calculs sont simplifiés comme le montre le tableau 2.
Tableau 2. Présentation des données et des calculs lors de la réalisation de l'analyse de
variance à un critère de classification (échantillons de mêmes effectifs).
i
k
1 2 … p Totaux
1
2
.
.
.
n
x11
x12
.
.
.
x1n
x21
x22
.
.
.
x2n
… xp1
xp2
.
.
.
xpn
n n n n n. = pn
Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.
 xik
2  x1k
2  x2k
2
…  xpk
2 T =   x2
ik
Xi.
2/n X1.
2/n X2.
2/n … Xp.
2/n -
SCEi =  x2
ik -
X2
i.
n
(pour tout i)
SCE1 SCE2 … SCEp SCEr =  SCEi
xi =
Xi.
n (pour tout i ) x1 x2 … xp -
La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes
:
• Terme correctif : C = X..
2 / pn
• Somme des carrés des écarts : SCEt = T - C
• Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr
• Carrés moyens : CMf = SCEf/p-1et CMr = SCEr/p(n-1)
• Fobservé = CMf/CMr
______________________________________________________________________________
18 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
2. Deuxième étape de l'analyse
Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la
valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme
degrés de liberté :
1 = p-1 et 2 = p (n-1)
La présentation du tableau de l'analyse de variance se fera ainsi :
Sources de variation ddl SCE CM F
Entre populations -facteur contrôlé-
(2 inter)
p-1 SCEf CMf Fobs =
CMf
CMr
Entre observations, dans les
populations (erreur résiduelle)
(2 intra)
p (n-1) SCEr CMr
Totaux pn - 1 SCEt
3. Exemple pratique
On voudrait comparer les rendements en matière sèche (en kg/ha), à une date déterminée, d'un
certain fourrage cultivé sur 3 prairies différentes. Les résultats obtenus dans chaque prairie
sont résumés dans le tableau ci-dessous :
Prairie 1 Prairie 2 Prairie 3
20,5 14,8 12,5
19,6 18,7 17,2
26,4 19,6 17,4
28,5 21,4 18,3
27,9 25,2 20,2
Ho : pas de différence entre les rendements fourragers des 3 types de prairies.
Tableau des données et des calculs.
Prairie 1 Prairie 2 Prairie 3 Totaux
20,5 14,8 12,5
19,6 18,7 17,2
26,4 19,6 17,4
28,5 21,4 18,3
27,9 25,2 20,2
n 5 5 5 15 = n.
Moyenne 24,58 19,94 17,12 -
Xi =  xi 122,90 99,70 85,60 308,2 = X..
 xi
2 = A 3092,03 2045,89 1497,78 6635,7 = T
Xi
2/5 = B 3020,882 1988,018 1465,472 -
SCEi = A-B 71,15 57,87 32,31 161,33 = SCEr
______________________________________________________________________________
19 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
C = X2../15 = 6332,5
SCEt = T-C = 303,217
Le tableau de l'analyse de variance se présente alors ainsi :
Sources de variation ddl SCE CM F
inter 2 141,88 70,94 5,277* = Fobs
intra 12 161,33 13,44 F0,05;2;12 = 3,89
Totaux 14 303,21 F0,01;2;12 = 6,93
Décision statistique :
Fobservé > F0,05;2;12  rejet de Ho à 5%.
Fobservé < F0,01;2;12  acceptation de Ho à 1%
Autrement dit au seuil de 5%, Fobs. > Ftable ; ce qui nous conduit au rejet de l'hypothèse nulle
c'est-à-dire que les rendements en matière sèche sont influencés par le type de prairie.
En revanche, au seuil de 1%, Fobs. < Ftable ; ce qui nous conduit à accepter l'hypothèse nulle.
______________________________________________________________________________
20 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
IV. COMPARAISONS MULTIPLES DE MOYENNES :
TEST DE LA PPDS
Nous avons signalé le fait que, lorsqu'un test d'analyse de variance aboutit au rejet de
l'hypothèse nulle (hétérogénéité des moyennes), la technique utilisée dans cette analyse ne
permettait pas de distinguer les moyennes qui différaient significativement des autres.
Ce problème peut être résolu par différentes méthodes de comparaisons multiples de
moyennes dont la méthode de la « PPDS » ou Plus Petite Différence Significative fait partie.
Il s'agit d'une méthode simple de comparaison de p moyennes deux à deux.
Dans tout ce qui suivra, les conditions d'application de l'analyse de variance sont
supposées remplies. Nous supposerons aussi l'égalité des effectifs de tous les
échantillons à comparer.
Partons d'un exemple…
On voudrait étudier la fréquentation des agents commerciaux pour 4 stands au salon de
l'Agriculture de Paris, sur les 5 premiers jours de la semaine d'ouverture.
On voudrait tester l'hypothèse d'égalité de fréquentation moyenne Ho contre l'inégalité H1, en
supposant le facteur " jour " sans influence. Les jours sont des répétitions. Les résultats sont
consignés dans le tableau ci-dessous.
Stand 1 Stand 2 Stand 3 Stand 4
J1 10 12 8 9
J2 9 10 9 6
J3 11 14 11 11
J4 13 12 8 11
J5 10 12 8 9
Il s'agit de comparer 4 moyennes de fréquentation des stands par les agents commerciaux.
Réalisation de l'analyse de variance
Stand 1 Stand 2 Stand 3 Stand 4 Totaux
J1 10 12 8 9
J2 9 10 9 6
J3 11 14 11 11
J4 13 12 8 11
J5 10 12 8 9
n 5 5 5 5 n. = 20
Moyenne 10,60 12,00 8,80 9,20
Xi =  xi 53,00 60,00 44,00 46,00 X.. = 203
 xi
2 = A 571 728 394 440 T = 2133
Xi
2/5 = B 561,8 720 387,2 423,2
SCEi = A-B 9,20 8,00 6,80 16,80 SCEr = 40,8
______________________________________________________________________________
21 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
C = X2../n. = 2060,5
SCEt = T-C = 72,550
Tableau de l'analyse de variance
Sources variation ddl SCE CM Fobs Ftable
inter 3 31,750 10,5833 4,150327 F3,16,0,05 = 3,24
intra 16 40,80 2,55
total 19 72,550
Conclusion :
Fobs (4,15) > Ftable (3,24) : on rejette l'hypothèse Ho d'égalité des fréquentations moyenne. Il y
a au moins une moyenne qui diffère des autres.
Lorsqu'on se trouve devant cette situation, il est parfois souhaitable de déterminer les signes
d'égalité à éliminer, en comparant les moyennes deux à deux grâce au test t de Student par
exemple.
Pour p moyennes à comparer, il existe
p (p - 1)
2 couples (i,i' ) à comparer.
S'agissant d'une comparaison de deux moyennes observées sur deux petits échantillons de
mêmes effectifs, dont les variances sont inconnues, pour chaque couple de moyennes
comparées, on utilisera la formule :
tobs =
xi - xi'
SCEi + SCEi'
n(n - 1)
avec un ddl = 2n - 2.
Cependant, les conditions de l'analyse de variance étant supposées remplies (variances de
populations égales ), il n'est guère utile de rechercher, pour chacune de ces comparaisons, une
nouvelle estimation de la variance commune par la quantité :
^2 =
SCEi + SCEi'
ni + ni' - 2
Dans ces conditions, on utilise préférentiellement, la quantité :
^2 = CMr
qui représente une estimation globale fournie par le carré moyen résiduel.
Par ailleurs, pour des effectifs égaux, nous pouvons comparer les moyennes observées deux à
deux en calculant les p (p - 1)/2 valeurs du t observé de Student en utilisant la formule :
______________________________________________________________________________
22 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
tobs =
xi - xi'
2 CMr
n
puis en comparant la valeur de tobs aux t de la table de Student.
Cependant, pour des raisons mathématiques, il semble préférable de calculer la quantité :
PPDS  = t , 
2  CMr
n

 étant le risque d'erreur choisi et  le nombre de degrés de liberté de la «résiduelle», puis de
rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence xi -
xi' (en valeur absolue) est supérieure ou égale à la PPDS.
Cette première définition de la PPDS reste valable pour l'analyse de variance à un critère de
classification mais peut être étendue, après modification, à l'analyse de variance à deux
critères.
Ainsi dans notre exemple :
n = 5
CMr = 2,55
 CMr = 16 ddl
ttable ( = 0,05, ddl = 16) = 2,12
d'où :
PPDS  = t , 
2  CMr
n = 2,12 
2  2,55
5 = 2,141
Deux méthodes de représentation des résultats sont alors possibles.
• Première méthode
On peut disposer toutes les différences dans un tableau à double entrée et indiquer par un
astérisque la signification au seuil  = 0,05 et par deux astérisques au seuil de 0,01.
x3 = 8,8 x4 = 9,2 x1 = 10,6 x2 = 12,0 Moyenne
0,4
9,2 - 8,8
1,8
10,6 - 8,8
3,2*
12 - 8,8
x3 = 8,8
1,4
10,6 - 9,2
2,8*
12,0 - 9,2
x4 = 9,2
______________________________________________________________________________
23 _____________________________________________________________________________
9. Analyse de variance à un critère de classification
1,4
12,0 - 10,6
x1 = 10,6
Sur ce tableau les seules valeurs supérieures à la PPDS sont 3,2 et 2,8.
Autrement dit, seules les moyennes 2 et 3 d'une part et 2 et 4 d'autre part diffèrent
significativement au risque de 5 %.
• Deuxième méthode
On peut aussi ordonner les moyennes et souligner celles qui ne diffèrent pas
significativement :
x3
8,8
x4
9,2
x1
10,6
x2
12,0
----------------------------------------
--------------------------
Remarque.
La méthode de la PPDS est critiquée par de nombreux auteurs qui ne la considèrent
pas tout à fait fiable quant à l'interprétation de ses résultats notamment en matière
de risque d'erreur associé à la conclusion.
Sans entrer dans les détails mathématiques, il faut retenir que la méthode de la
PPDS est d'autant moins fiable que le nombre de comparaisons de moyennes deux à
deux, est élevé. Pour un nombre de moyennes « élevé », on risque de déclarer à tort
des différences significatives qui ne le sont pas. Il faut donc éviter d'utiliser la PPDS
dans ce cas ou, à la rigueur, l'utiliser avec un risque de 0,01.
______________________________________________________________________________
25 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
Séquence de travail n° 2
3 h
ANALYSE DE VARIANCE À DEUX
CRITÈRES DE CLASSIFICATION
MODÈLES CROISÉS
ÉCHANTILLONS DE MÊMES EFFECTIFS
10
Objectifs pédagogiques :
A la fin de cette séquence, mais étape par étape, vous devriez être capable :
1. de réaliser une analyse de variance à deux critères de classification ;
2. de définir concrètement une interaction entre deux facteurs ;
3. d'interpréter les résultats d'une analyse de variance à deux critères de
classification.
______________________________________________________________________________
26 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
I. POSITION DU PROBLÈME
Dans l'analyse de variance à un critère de classification, le principe consistait à
diviser la variation totale en deux composantes :
• factorielle
• résiduelle
Cette façon de procéder peut être étendue à deux critères de classification, la
variation totale étant alors divisée en plus de deux composantes : l'une
résiduelle et les autres liées aux deux critères de classification.
Les deux facteurs considérés peuvent être placés sur le même pied (modèles
croisés) ou subordonnés l'un à l'autre (modèles hiérarchisés).
Dans chaque cas, on doit distinguer un modèle fixe, un modèle aléatoire et un
modèle mixte selon que les deux critères de classification sont fixes, aléatoires,
ou l'un fixe, l'autre aléatoire.
Dans ce qui suivra, nous ne considérerons que la réalisation et l'interprétation
de l'analyse de variance à deux critères de classification pour des modèles
croisés et des échantillons de mêmes effectifs.
______________________________________________________________________________
27 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE
VARIANCE À DEUX CRITÈRES DE CLASSIFICATION.
ÉCHANTILLONS DE PLUSIEURS OBSERVATIONS
1. Présentation des données et des calculs
La présentation des tableaux des données et des calculs se fera en deux parties.
1. Première partie
Tableau 1. Analyse de variance à deux critères de classification : réalisation des calculs.
i 1 .......... p Totaux
j
k
1 .......... q .......... 1 .......... q
1
2
.
.
.
n
x111
x112
.
.
.
x11n
..........
..........
..........
x1q1
x1q2
.
.
.
x1qn
..........
..........
..........
xp11
xp12
.
.
.
xp1n
..........
..........
..........
xpq1
xpq2
.
.
.
xpqn
Xij. X11. .......... X1q. .......... Xp1. .......... Xpq. X...

k=1
n x2
ijk 
k=1
n x2
11k .......... 
k=1
n x2
1qk .......... 
k=1
n x2
p1k .......... 
k=1
n x2
pqk T
X2
ij./n X2
11./n .......... X2
1q./n .......... X2
p1./n .......... X2
pq./n -
SCEij SCE11 .......... SCE1q .......... SCEp1 .......... SCEpq SCEr
avec les principales notations et formules suivantes :
• Pour les totaux par échantillon : Xij. = 
k=1
n xijk pour tout i et tout j
• Pour le total général : X... = 
i=1
p 
j=1
q Xij.
• Pour la somme des carrés générale : T = 
i=1
p 
j=1
q 
k=1
n x2
ijk
• Pour le terme correctif : C = X2
.../pqn
• Pour la somme des carrés des écarts totale : SCEt = T - C
• Pour la somme des carrés des écarts par échantillon :
______________________________________________________________________________
28 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
SCEij = 
k=1
n x2
ijk - X2
ij. / n (pour tout i et tout j)
• Pour la somme des carrés des écarts résiduelle :
SCEr = 
i=1
p 
j=1
q SCEij
La différence [ SCEt - SCEr ] est une somme des carrés des écarts relative à l'ensemble des
facteurs contrôlés.
Cette différence sera en fait divisée en trois composantes factorielles :
- les deux premières liées chacune à l'un des 2 facteurs contrôlés
- la troisième à l'interaction des 2 facteurs.
Pour cela, il faut dresser un deuxième tableau de la façon suivante :
- en reportant le contenu de la ligne Xij. du tableau précédant ;
- et en calculant les sommes suivantes :
• Xi.. = 
j=1
q Xij. (pour tout i)
• X.j. = 
i=1
p Xij. (pour tout j)
2. Deuxième partie
Tableau 2. Analyse de variance à deux critères de classification :
Suite de la réalisation des calculs
j
i
1 ................. q Xi..
1
.
.
.
p
X11.
.
.
.
Xp1.
.................
.
.
.
.................
X1q.
.
.
.
Xpq.
X1..
.
.
.
Xp..
X.j. X.1. ................. X.q. X...
Dans ces conditions, on aura évidemment :

i=1
p Xi.. = 
j=1
q X.j. = X...
Les sommes des carrés des écarts liées aux deux facteurs seront :
- SCEf =
1
qn 
i=1
p X2
i.. - C
______________________________________________________________________________
29 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
- SCEb =
1
pn 
j=1
q X2
.j. - C
On obtient alors par différence :
SCEfb = SCEt - SCEr - SCEf - SCEb
ou encore, l'équation de l'analyse de variance pour deux facteurs contrôlés simultanément :
SCEt = SCEf + SCEb + SCEfb + SCEr
Cette équation indique donc que la variation totale (SCEt) peut être décomposée en 4
composantes principales :
• variation due au facteur a : SCEf ;
• variation due au facteur b : SCEb ;
• variation due à l'interaction entre les facteurs a et b : SCEfb ;
• une somme résiduelle.
La notion d'interaction sera précisée plus loin
A ces différentes sommes des carrés sont affectés des nombres de degrés de liberté par la
relation suivante :
pqn - 1 = (p - 1) + (q - 1) + (p - 1) (q - 1) + pq (n - 1)
À cette étape, nous pouvons dresser le tableau d'analyse de la variance en calculant les
nombres de degrés de liberté, les carrés moyens et les valeurs de Ff , Fb et Fab :
Ff =
CMf
CMr
Fb =
CMb
CMr
Ffb =
CMfb
CMr
Tableau 3. Tableau d'analyse de variance
Sources de variation ddl SCE CM F
Facteur a p - 1 SCEf CMf Ff
Facteur b q - 1 SCEb CMb Fb
Interaction (p-1) (q-1) SCEfb CMfb Ffb
Variation résiduelle pq (n-1) SCEr CMr
Totaux pqn - 1 SCEt
______________________________________________________________________________
30 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
2. Application pratique
Supposons que l'on veuille comparer, chez deux races bovines différentes (critère 1), les effets
de 3 régimes alimentaires caractérisés par des teneurs énergétiques différentes (critère 2) :
haut (H), bas (B) et moyen (M).
Le tableau 1 donne les résultats de la production laitière (en kg de lait/jour) obtenus avec
chacun de ces 3 régimes. Pour chaque combinaison entre ces 2 critères, 4 valeurs sont
données.
Tableau 1. Comparaison des productions laitières (en kg de lait/j), chez 2 races bovines
différentes recevant 3 régimes énergétiques différents (H, B ou M).
H
(j = 1)
B
(j = 2)
M
(j = 3)
Moyennes
( x i.. )
33 31 32
Race 1 35 32 34
(i = 1) 36 33 36
43 34 38
36,75 32,50 35,00 34,75
30 25 27
Race 2 30 27 29
(i = 2) 30 30 30
33 30 30
30,75 28,00 29,00 29,25
Moyennes
( x .j. )
33,75 30,25 32,00 32,00
( x ...)
Ainsi calculées, ces moyennes montrent une influence considérable du facteur " race ". En
effet, tous régimes confondus, la race 2 présente une moyenne de 29,25 kg de lait contre
34,75 pour la race 1 soit une différence de 5,5 kg.
Calculées par rapport à la moyenne générale, les différences dues à ce premier critère de
classification sont :
34,75 - 32,00 = 2,75
29,25 - 32,00 = - 2,75
Vous remarquerez que la somme de ces deux termes est forcément nulle.
De la même façon, si on considère le deuxième critère, on aura :
33,75 - 32,00 = 1,75
30,25 - 32,00 = - 1,75
32,00 - 32,00 = 0
la somme de ces 3 termes étant également nulle.
______________________________________________________________________________
31 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
Considérons à présent l'interaction entre le facteur " race " et le facteur " régime "…
Le tableau 2 illustre ce phénomène…
Tableau 2. Calcul des termes de l'interaction entre les 2 facteurs
H B M Somme
Race 1 0,25 -0,50 0,25 0
Race 2 -0,25 0,50 -0,25 0
Somme 0 0 0 0
La première case ombrée (0,25) est obtenue ainsi :
36,75 - 34,75 - 33,75 + 32 = 0,25
De la même façon, la dernière case ombrée (-0,25) est obtenue ainsi :
29 - 29,25 -32 + 32 = - 0,25
et ainsi de suite pour les autres cases…
Ces valeurs ainsi obtenues représentent les termes de l'interaction entre les deux facteurs
étudiés.
Dans le cas présent l'interaction entre le facteur " race " et le facteur " régime " peut être
considérée comme étant faible. On le confirmera plus loin par des calculs.
Imaginons à présent, des valeurs différentes pour la race 2 avec le régime B (valeurs en grisé
dans le tableau ci-dessous).
H
(j = 1)
B
(j = 2)
M
(j = 3)
Moyennes
( x i.. )
33 31 32
race 1 35 32 34
(i = 1) 36 33 36
43 34 38
36,75 32,50 35,00 34,75
30 25,5 27
race 2 30 28,5 29
(i = 2) 30 24,5 30
33 27,5 30
30,75 26,5 29,00 28,75
Moyennes
( x .j. )
33,75 29,50 32,00 31,75
( x ...)
Avec de telles valeurs, tous les termes de l'interaction seraient exactement nuls.
Exemples
Race 1, régime H : 36,75 - 34,75 -33,75 + 31,75 = 0
Race 2, régime B : 26,5 - 28,75 - 29,50 + 31,75 = 0
etc.
______________________________________________________________________________
32 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
Ce cas particulier traduit l'absence totale d'interaction entre les 2 facteurs.
Concrètement cela signifie que les 3 types de régimes donnent exactement la même
différence entre les 2 races. Cet écart s'obtient tout simplement par différence entre les
valeurs moyennes obtenues pour chaque race. Dans notre cas, ce sera :
36,75 - 30,75 (colonne 1) = 32,50 - 26,50 (colonne 2) = 35,00 - 29,00 (colonne 3) = 6
Bien évidemment, cette valeur peut être également obtenue directement par la différence entre
x 1.. ( soit 34,75 pour la race 1) et x 2.. (soit 28,75 pour la race 2). En effet :
34,75 - 28,75 = 6
Vous remarquerez aussi que l'absence d'interaction signifie aussi que les différences entre
les races sont indépendantes des régimes.
Exemples :
36,75 - 32,50 = 30,75 - 26,50 = 4,25 pour les régimes H et B
36,75 - 35,00 = 30,75 - 29,00 = 1,75 pour les régimes H et M
etc.
En revanche, la présence de termes d'interaction non nuls signifie qu'il existe une
" dépendance " entre les 2 facteurs étudiés.
Reprenons à présent les données du tableau 1 et effectuons l'analyse de variance…
Répétitions
(k)
Race 1
(i = 1)
Race 2
(i = 2)
Totaux
H
(j = 1)
B
(j = 2)
M
(j = 3)
H
(j = 1)
B
(j = 2)
M
(j = 3)
1 33 31 32 30 25 27
2 35 32 34 30 27 29
3 36 33 36 30 30 30
4 43 34 38 33 30 30
Moyenne 36,8 32,5 35,0 30,8 28,0 29,0 -
Xij. 147 130 140 123 112 116 X... = 768

k=1
4 x2
ijk
5459 4230 4920 3789 3154 3370 T = 24922
X2
ij./4 5402,25 4225 4900 3782,25 3136 3364 -
SCEij 56,8 5,0 20,0 6,8 18,0 6,0 SCEr = 112,5
______________________________________________________________________________
33 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
H
(j=1)
B
(j=2)
M
(j=3)
Xi..
Race 1 (i = 1) 147 130 140 417
Race 2 (i = 2) 123 112 116 351
270 242 256 768
• Terme correctif : C = X2
.../pqn = 24576
• Somme des carrés des écarts totale : SCEt = T - C = 346,0
• Somme des carrés des écarts résiduelle :
SCEr = 
i=1
p 
j=1
q SCEij = 112,5
• SCEf = (4172 + 3512)/12 - 24576 = 181,5
• SCEb = (2702 + 2422 + 2562) / 8 - 24576 = 49,0
• SCEfb = 346,0 - 112,5 - 181,5 - 49,0 = 3,0
Tableau de l'analyse de variance
Sources de variation ddl SCE CM Fobs Ftable
Race 1 181,5 181,5 29,04*** F1;18;0,05 = 4,41
Régime 2 49,0 24,5 3,92* F2;18;0,05 = 3,55
Interaction 2 3,00 1,5 0,24 F2;18;0,05 = 3,55
Variance résiduelle 18 112,5 6,25
Totaux 23 346,0
Conclusions
• il existe un effet race très important (Fobs >>> Ftable) ;
• il existe un effet régime mais faible (Fobs > Ftable);
• il n'y a pas d'interaction entre la race et le régime (Fobs < Ftable).
3. Exécution de l'analyse de variance par le logiciel EXCEL
Le problème ci-dessus peut être évidemment traité par un logiciel de statistique. Par exemple,
pour EXCEL, les données doivent être introduites ainsi :
Tableau de présentation des données
H M B
race 1 33 31 32
35 32 34
36 33 36
43 34 38
race 2 30 25 27
30 27 29
30 30 30
33 30 30
______________________________________________________________________________
34 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
En utilisant l'« UTILITAIRE D'ANALYSE » du menu « OUTILS », la sortie EXCEL sera
présentée selon les tableaux ci-dessous.
Tableaux de l'édition des résultats de l'analyse par EXCEL
ANALYSE DE VARIANCE : DEUX FACTEURS AVEC RÉPÉTITION D'EXPÉRIENCE
RAPPORT DÉTAILLE H M B Total
race 1
Nombre d'échantillons 4 4 4 12
Somme 147 130 140 417
Moyenne 36,75 32,5 35 34,75
Variance 18,91666667 1,666666667 6,666666667 10,75
race 2
Nombre d'échantillons 4 4 4 12
Somme 123 112 116 351
Moyenne 30,75 28 29 29,25
Variance 2,25 6 2 4,204545455
Total
Nombre d'échantillons 8 8 8
Somme 270 242 256
Moyenne 33,75 30,25 32
Variance 19,35714286 9,071428571 14
ANALYSE DE VARIANCE
Source des
variations
Somme
des carrés
Degré de
liberté
Moyenne
des carrés
F Probabilité Valeur critique
pour F
Échantillon 181,5 1 181,5 29,04 4,03299E-05 4,413863053
Colonnes 49 2 24,5 3,92 0,038620684 3,55456109
Interaction 3 2 1,5 0,24 0,789105089 3,55456109
A l'intérieur du groupe 112,5 18 6,25
Total 346 23
Vous remarquerez qu'on retrouve dans le tableau de l'analyse de variance, les mêmes résultats
effectués précédemment.
• La dernière colonne indique la valeur critique pour F, c'est-à-dire la valeur au-dessus de
laquelle on considère la différence comme significative ; autrement dit, il s'agit du Ftable
donné par les tables V-A ou VI-A pour un risque d'erreur donné.
• La colonne « probabilité » indique le risque d'erreur associé à notre décision d'acceptation ou
de rejet de l'hypothèse nulle.
______________________________________________________________________________
35 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Séquence de travail n° 3
6 h
CORRÉLATION ET RÉGRESSION
LINÉAIRE SIMPLE 11
Objectifs pédagogiques :
A la fin de cette séquence, mais étape par étape, vous devriez être capable :
1. d'expliquer les objectifs de l'analyse de régression et de corrélation ;
2. d'exposer le principe général de l'analyse de corrélation ;
3. d'établir un diagramme de dispersion;
4. d'estimer la liaison entre deux caractères par une équation de régression ;
5. de calculer une erreur type d'estimation et d'établir un intervalle de
prédiction ;
6. de calculer et d'interpréter un coefficient de détermination et de corrélation.
______________________________________________________________________________
36 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
I. POSITION DU PROBLÈME
Il est fréquent, en biologie ou en agronomie, de découvrir une relation très forte entre deux ou
plusieurs variables :
Exemples :
- Relation entre la taille et le poids d'un animal.
- Relation entre la production laitière d'une vache et le stade de lactation
- Relation entre la production laitière et la composition du lait.
- Relation entre l'administration de doses d'un produit et son effet biologique ou physiologique
sur l'organisme.
etc.
La régression et la corrélation sont deux outils qui servent à étudier et à mesurer la relation
statistique existant entre deux - ou plus de deux - variables.
On se limitera, pour notre part, à deux variables, c'est-à-dire au cas de la régression et
corrélation simples. Cependant, il faut savoir que le problème ne change pas
fondamentalement lorsqu'on passe à trois variables ou plus (corrélation et régression
multiples).
1. Analyse de régression et de corrélation
La première et principale étape d'une analyse de régression consiste à déduire, en se basant sur
les données échantillonnales, une équation d'estimation, qui décrit la nature fonctionnelle de
la relation entre les variables.
L'équation d'estimation (ou de régression) servira à estimer la valeur d'une des variables à
partir de la valeur prise par l'autre variable.
La variable dépendante, ou à prédire, est la variable qui doit être estimée. Cette
variable est placée en général sur l'axe des Y (ordonnée).
La variable indépendante ou prédictrice (notée X et portée sur l'axe des abscisses) est
censée exercer une influence sur la variable dépendante Y.
Dans l'analyse de régression, on ne se limite pas à établir une équation de la variable
dépendante. On doit déterminer aussi le degré de fiabilité des prédictions obtenues à l'aide de
cette équation. Autrement dit l'analyse de régression pose la question suivante : " De quel type
est la relation entre les variables ?"
Le but visé dans l'analyse de corrélation est de mesurer le degré d'association entre les
variables. Par conséquent, il s'agit de répondre à la question : "Quelle est la force de la relation
décrite par l'analyse de régression ?".
______________________________________________________________________________
37 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
On devine alors que certaines situations ne se prêtent qu'à une analyse de régression tandis
que d'autres ne se prêtent qu'à une analyse de corrélation. Cependant, en biologie, la plupart
des phénomènes étudiés se prêtent à une analyse conjointe de régression et de corrélation.
En réalité, l'expression "analyse de corrélation" englobe souvent les deux éléments, régression
et corrélation.
2. La relation de causalité en statistique
Le seul fait que deux variables soient reliées entre elles, au sens statistique du terme, n'est pas
suffisant pour conclure à l'existence d'une relation de cause à effet.
En effet, il existe plusieurs explications du fait que deux séries de données varient en même
temps. Il est logique alors d'interpréter les mesures de corrélation dans le sens d'une relation
de cause à effet au moins dans certaines situations.
Si une relation existe entre deux variables, il y aura corrélation entre elles mais la
seule existence d'une corrélation statistique n'est pas une preuve de causalité.
Les relations de causalité peuvent être classées en deux catégories : la cause à effet et la
cause commune.
La relation de cause à effet existe si la variation d'une variable est attribuable à la variation de
l'autre variable.
Exemple : variation de température dans une réaction chimique et variation du résultat de
cette réaction.
Un facteur commun peut influencer conjointement deux variables.
Exemple : variation de la croissance et du poids d'un animal et variation de l'état nutritionnel
de cet animal.
En fait, il s'agit, en régression et en corrélation, de n’étudier que les relations logiques entre
les variables dont on veut analyser le comportement.
______________________________________________________________________________
38 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
II. ANALYSE DE RÉGRESSION
1. Diagramme de dispersion
Étude d'un exemple de régression linéaire simple
On voudrait savoir s'il existe une relation entre les notes obtenues en contrôle continu (x) et
celles obtenues à un concours national (y) pour 8 étudiants.
Le tableau suivant résume ces notes :
Tableau 1.
Étudiants Notes au concours (y) /100 Notes du contrôle continu (x) / 20
A 42 9
B 70 14
C 27 5
D 63 12
E 58 11
F 38 7
G 62 11
H 76 15
Avant tout, il faudrait porter sur un graphique - appelé diagramme de dispersion - les
données disponibles. Sur ce graphique, chaque point représente un couple de valeurs
observées de la variable dépendante et de la variable indépendante.
Diagramme de dispersion
C
F
y = a + bx
droite de regression
0
10
20
30
40
50
60
70
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
notes au contrôle continu ( x )
notesauconcours(y)
Ce diagramme de dispersion remplit deux rôles :
______________________________________________________________________________
39 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
- il aide à déterminer s'il existe une relation entre les deux variables
- il aide aussi à déterminer le type d'équation appropriée pour décrire la relation.
Si l'on prend pour acquis que les notes du contrôle continu reflètent bien le niveau de
l'étudiant, on peut raisonnablement prétendre que les étudiants ayant obtenu les meilleures
notes à ce contrôle seront les meilleurs au concours.
Les données associées à un étudiant représentent un point du diagramme ci-dessus. On
remarque alors que les 8 points semblent se rapprocher d'une même droite. Dans ce cas, la
relation est positive (on dit aussi directe) puisque les 2 variables évoluent dans le même sens.
Il existe bien entendu des situations où la relation est négative (ou inverse).
La relation entre les variables n'est pas toujours linéaire comme le montre la figure ci-dessous
représentant les différents diagrammes de dispersion rencontrés.
Enfin, il est possible qu'aucune relation n'existe entre les variables (cas g de la figure ci-
dessous).
Les droites représentées à la figure ci-dessous décrivent la relation entre les variables.
Ces droites sont appelées droites de régression (ou d'estimation) .
° ° °
°
°
°
°
°
°
°° °
°
°°
°
°°
°°
°
°
°
°
°°
° °
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
° °
°
°
X
Y Y
X
a- Relation linéaire positive b-Relation linéaire postive
avec une plus grande dispersion
°
°°
°
°
° °
° °
°
°°
°
°
°
°
°
°
°
X
Y Y
X X°° ° °°°
°
°
°
°
°
°
°
°
°
° °
°
°
°
°
°
°
°
Y
°° ° °
°
°
°
°
°
°
°
°
°
°°
°
°
°
°
°
°
°
° °
c- Relation linéaire
négative
d- Relation curviligne
positive
e- Relation curviligne
négative
° ° °
°°
°
°
°
°
°
°
°
°°°
°
°
° °
°
°
°° °
°
°
°
° °
°
°
°
° °
°°
°
°° ° °
°
°
°
°
°
°°
°
°° ° °
°
°
°
° °°°
°
°° ° °
°°
°
° °
°°
°°° ° °
°
°
°
Y
X
Y
X
f- Relation curviligne g- Absence de relation
Différents diagrammes de dispersion
______________________________________________________________________________
40 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
2. Notion de covariance
Soit une population dans laquelle on étudie simultanément les deux variables aléatoires X et
Y avec E (X) =  et E(Y) = .
Par définition,
Cov (X , Y) = E [ (X - ) (Y - )]
Si nous utilisons un échantillon de n individus, pour lequel on obtient les moyennes x et y
, l'estimation de Cov (X,Y) sera :
Cov (x,y) =
1
n  (x - x ) (y - y )
autrement dit, la moyenne des produits des écarts (S.P.E) que l'on écrit :
Cov ( x , y) =
S.P.E
n =
 xy -
 x .  y
n
n =
 xy - n x . y
n
Exemple
Calculer la covariance des deux distributions suivantes : (x, y) ; (x',y)
x y xy x' y x'y
6 30 180 12 30 180
9 49 441 10 49 441
3 18 54 8 18 54
8 42 336 7 42 336
7 39 273 9 39 273
5 25 125 14 25 125
8 41 328 8 41 328
10 52 520 10 52 520
n 8 8 8 8
 56 296 2257 78 296 2837
Cov (x,y) =
 xy -
 x .  y
n
n = 23,12 Cov (x',y) =
 x'y -
 x' .  y
n
n = - 6,125
Considérons à présent le nuage de points des valeurs observées de x et y et les droites x = x
et y = y . Ces deux droites partagent le plan en 4 secteurs (figure ci-dessous) :
• secteur I dans lequel x > x et y > y ; donc tout produit (x - x ) (y - y ) > 0 ;
• secteur II dans lequel x < x et y > y ; donc tout produit (x - x ) (y - y ) < 0 ;
______________________________________________________________________________
41 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
• secteur III avec (x - x ) (y - y ) > 0 ;
• secteur IV avec (x - x ) (y - y ) < 0 .
II I
IVIII
x
y
y
x
La covariance sera positive ou négative selon que le nuage de points sera situé surtout dans les
secteurs I et III ou surtout dans les secteurs II et IV. Elle sera d'autant plus élevée en valeur
absolue que le nuage de points sera plus aplati autour de son grand axe ; elle sera nulle lorsque
les points tendent à se répartir uniformément dans les 4 secteurs (nuage en forme de cercle ou
de « patate ») ou si le nuage est allongé et son grand axe parallèle à l'un des axes.
La valeur absolue de la covariance et son signe, sont des indicateurs de la liaison existant
entre deux caractères :
• lorsque la covariance est positive et élevée : les caractères sont liés et varient dans le même
sens ; on parle de liaison positive ;
• lorsque la covariance est négative et élevée : les caractères sont liés et varient en sens inverse
; on parle de liaison négative ;
• lorsque la covariance est voisine de 0 : les caractères sont indépendants ; il n'y pas de liaison
entre les caractères.
3. Droite de régression
L'équation utilisée pour ajuster la droite de régression aux données du diagramme de
dispersion est appelée équation de régression ou d'estimation .
Rappelons que nous nous limiterons à l'étude de la régression linéaire dans le cas d'une
variable prédictrice ; c'est la régression linéaire simple et la fonction obtenue est l'équation
______________________________________________________________________________
42 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
d'une droite : la droite de régression de y sur x ( ou de y en x ) ou droite des moindres carrés
.
Si on considère le nuage de points représentant l'ensemble des données permettant d'obtenir
l'équation de la droite de régression, la droite passe approximativement « au milieu » du nuage
de points.
L'équation de régression sera :
y^ = a + bx
où :
a = ordonnée à l'origine (la valeur de y^ pour x = 0)
b = pente de la droite de régression (la variation de y^ pour une variation d'une unité de x)
x = valeur de la variable indépendante.
y^ = valeur calculée de la variable dépendante
Attention à la confusion ! certains auteurs utilisent l'équation y^ = ax + b
Ainsi, la droite de régression et la droite de tendance sont toutes les deux décrites par
l'équation générale de la droite; cependant la similitude entre ces deux droites ne s'arrête pas
là. En effet, la droite de régression (tout comme la droite de tendance et la moyenne
arithmétique) possède les deux propriétés suivantes :

 ( y - y^ ) = 0
et  ( y - y^ )2 = valeur minimale
Autrement dit, l'ajustement de la droite de régression aux données du diagramme de
dispersion sera tel que les écarts positifs observés entre les points situés au-dessus de la droite
et la droite annuleront les écarts négatifs observés entre les points situés au-dessous de la
droite et celle-ci; la somme des écarts sera alors égale à 0 (figure ci-dessous).
______________________________________________________________________________
43 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
y = a + bx i
x
y
yi
xi
y = a + bx
Les calculs reliés à l'analyse de régression et de corrélation seront simplifiés si les formules
précédentes sont exprimées en termes d'écarts aux moyennes des variables x et y, c'est-à-
dire d'écarts x et y .
Dans ces conditions, les valeurs de a et de b de l'équation de régression sont obtenues à l'aide
des formules suivantes :
b =
 (x - x )  (y - y )
 (x - x )2 et a = y - b x
avec,
b =
 (xi - x ) (yi - y )
 (xi - x )2
=
 xi yi -
 xi .  yi
n
 xi
2 -
[ xi]2
n
=
 xi yi - n x y
 xi
2 - n x 2
En effet,
 (xi - x )2 =  xi
2 - 2 x  xi + x  xi =  xi
2 - n x 2
et,
 (xi - x ) (yi - y ) =  xi yi - x  yi - y  xi + n x y
=  xi yi - x . n y - y . n x + n x y
=  xi yi - n x y
______________________________________________________________________________
44 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
et donc,
b =
n . Cov ( x,y )
n . sx
2 =
Cov ( x,y)
sx
2
où sx
2 représente la variance calculée sur l'échantillon.
b est appelé coefficient de régression de y sur x
Ainsi, l'équation de la droite de régression de y sur x peut s'écrire :
y^ - y = b ( x - x )
Appliquons ces formules aux données du tableau 1.
Le tableau 2 résume l'essentiel des étapes nécessaires au calcul de a et b.
Tableau 2.
Étudiants
Notes au
concours
( y )
Notes du
contrôle
continu
( x )
(y - y ) (x- x ) (y - y ) (x- x ) (x- x )2 (y - y )2
A 42 9 -12,50 -1,50 18,75 2,25 156,25
B 70 14 15,50 3,50 54,25 12,25 240,25
C 27 5 -27,50 -5,50 151,25 30,25 756,25
D 63 12 8,50 1,50 12,75 2,25 72,25
E 58 11 3,50 0,50 1,75 0,25 12,25
F 38 7 -16,50 -3,50 57,75 12,25 272,25
G 62 11 7,50 0,50 3,75 0,25 56,25
H 76 15 21,50 4,50 96,75 20,25 462,25
n = 8 436 84 0 0 397 80 2028
y =  y/n = 436/8 = 54,5 x =  x/n = 84/8 = 10,5
Les valeurs de a et b sont calculées ainsi :
______________________________________________________________________________
45 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
b =
 (y - y ) (x- x )
 (x- x )2 =
397
80 = 4,96
a = y - b x = 54,5 - (4,96) (10,5) = 2,39
L'équation de régression qui décrit la relation entre les notes obtenues au concours et celles
obtenues au contrôle continu est donc :
y^ = 2,39 + 4,96 x
4. Estimation à l'aide de l'équation de régression
L'équation de régression est utilisée principalement pour estimer la valeur de la variable
dépendante pour une valeur donnée de la variable indépendante.
Exemple.
Supposons qu'un étudiant ait 6 de moyenne au contrôle continu.
On peut "raisonnablement" estimer ou prévoir sa note au concours simplement en substituant
6 à x dans l'équation de régression. L'estimation désirée sera donc :
y^ = 2,39 + 4,96 . (6) = 32,15
Cette estimation se retrouve à la figure ci-dessous.
y = 2,39 + 4,96x
droite de régression
0
10
20
30
40
50
60
70
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
notes au contrôle continu ( x )
notesauconcours(y)
32,15
______________________________________________________________________________
46 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
III. L'ERREUR TYPE DE L'ESTIMATION
Du fait que l'on a estimé y en fonction de x à l'aide de l'équation de régression, il est logique
de se demander à quel point cette estimation est fiable.
Considérons les deux exemples ci-dessous :
° ° °
°
°
°
°° °
°
°°
°°
°
°
°
°°
° °
°
°°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
° °
°
°
X
Y Y
X
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
(a) (b)
Deux diagrammes de dispersion présentant des degrés de dispersion différents
Lorsque les points du diagramme de dispersion sont peu éloignés de la droite de régression
(Fig. a), on peut logiquement présumer que l'estimation s'appuyant sur cette relation sera
probablement plus fiable que celle qui aurait été obtenue à partir d'une droite comme celle de
la figure b où on remarque que l'éparpillement est beaucoup plus grand. D'où l'intérêt d'une
mesure de cet éparpillement ou dispersion des points autour de la droite de régression.
Cette mesure nous permettra certainement de mieux juger la fiabilité des estimations obtenues
à partir de la droite.
Comment obtenir cette mesure ?
D'abord, il est logique de penser que plus cette mesure est petite, plus la prévision sera fiable.
On donne le nom d' erreur type de l'estimation à cette mesure qu'on symbolise par Ey.x. Elle
sera donc utilisée afin de quantifier le degré de variation (ou erreur) possible associée à une
estimation obtenue à partir de la droite de régression.
1. Calcul de l'erreur type de l'estimation : Ey.x
L'erreur type de l'estimation se calcule ainsi :
Ey.x =
 (y - y^)2
n - 2
Le tableau 3 résume l'essentiel des étapes permettant de calculer Ey.x.
______________________________________________________________________________
47 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Tableau 3
Notes
au
concours
(y)
Notes du
contrôle
continu
(x)
(y - y ) (x- x ) (y - y ) (x- x
)
(x- x
)2
(y - y )2
y^ (y - y^ ) (y - y^ )2
42 9 -12,50 -1,50 18,75 2,25 156,25 47,06 -5,06 25,57
70 14 15,50 3,50 54,25 12,25 240,25 71,87 -1,87 3,49
27 5 -27,50 -5,50 151,25 30,25 756,25 27,21 -0,21 0,04
63 12 8,50 1,50 12,75 2,25 72,25 61,94 1,06 1,12
58 11 3,50 0,50 1,75 0,25 12,25 56,98 1,02 1,04
38 7 -16,50 -3,50 57,75 12,25 272,25 37,13 0,87 0,75
62 11 7,50 0,50 3,75 0,25 56,25 56,98 5,02 25,19
76 15 21,50 4,50 96,75 20,25 462,25 76,83 -0,83 0,69
436 84 397 80 2028 436* 57,887
*La somme des y est égale à la somme des y^ .
Il en sera toujours ainsi puisque  (y - y^ ) = 0.
Ey.x =
 (y - y^)2
n-2 =
57,887
6 = 9,65 = 3,11
On remarquera que la valeur de Ey.x s'exprime dans les mêmes unités que la variable y.
Bien que la formule Ey.x =
 (y - y^)2
n-2 soit très utile pour expliquer l'erreur type de
l'estimation, la formule suivante s'applique cependant plus facilement :
Ey.x =
 (y - y )2 - b  (x - x ) (y - y )
n - 2
Toutes les valeurs de cette formule se retrouvent dans le tableau 2. Appliquons....
Ey.x =
 (y - y )2 - b  (x - x ) (y - y )
n - 2 =
2028 - (4,96)(397)
8-2 = 3,11
2. Intervalles de prédiction
Rappelons que l'écart type est une mesure de la dispersion autour de la moyenne. Dans le
chapitre 3, nous avons vu que dans une distribution normale :
- 68, 3 % des valeurs centrales de la distribution se situent à moins d'un écart type de chaque
côté de la moyenne
- 95,4 % des valeurs se situent à une distance maximale de deux écarts types de la moyenne
______________________________________________________________________________
48 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
- et qu'enfin 99,7 % des valeurs sont à moins de trois écarts types de cette moyenne.
Signalons par ailleurs la similitude des calculs entre l'écart type et l'erreur type. Il faut savoir
que ces deux mesures se ressemblent aussi quant à leur interprétation.
En effet, si les valeurs de y sont distribuées « normalement » autour de la droite de régression,
on peut supposer que 68 % environ des points du diagramme de dispersion se situeront à
moins d'un écart type de l'estimation au-dessus ou en-dessous de la droite de régression
(Figure ci-dessous)
x1
y1
x
intervalle de
prédiction
y1± 2 (Ey.x)
Interprétation de l'erreur type de l'estimation
^
y
{
{
+ 3 Ey.x
- 3 Ey.x

Cet intervalle ± Ey.x est représenté, sur cette figure, par les deux droites en pointillés les plus
proches de la droite de régression. L'intervalle ± 3 Ey.x englobe presque tous les points du
diagramme de dispersion.
Sur cette même figure, l'estimation y1 a été obtenue par le remplacement de x par x1 (une
valeur donnée) dans l'équation de régression (y1 = a + bx1).
y1 est une estimation ponctuelle et, compte tenu de la dispersion autour de la droite de
régression sur la figure ci-dessus, il est peu probable que cette estimation y1 de la valeur y
pour une valeur x = x1 soit rigoureusement exacte.
La fiabilité de cette estimation ponctuelle dépend largement de la grandeur de l'erreur type de
l'estimation. On sait que plus cette erreur type est petite et plus il est probable que l'estimation
ponctuelle soit voisine de la véritable valeur de la variable dépendante.
______________________________________________________________________________
49 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Autrement dit, la connaissance de l'erreur type de l'estimation permet d'améliorer la méthode
d'estimation. Donc, plutôt que de considérer l'estimation ponctuelle, on peut calculer un
intervalle de prédiction auquel sera attachée une probabilité.
Cet intervalle de prédiction sera :
y^ ±  ( Ey.x )
 étant la valeur de l'écart réduit.
L'intervalle y1 ± 2 (Ey.x) représenté à la figure précédente est un intervalle de prédiction au
niveau de 95,4 %.
Reprenons notre exemple initial…
L'estimation ponctuelle calculée était de 32,15 (note obtenue au concours) pour un étudiant
ayant obtenu 6 en contrôle continu. Nous avons également évalué l'erreur type de l'estimation
à 3,11.
En supposant que, dans cet exemple, les points se distribuent normalement autour de la droite
de régression, on peut établir un intervalle de prédiction à 95 % de cette façon :
Intervalle = y^ ±  (Ey.x)
= 32,15 ± (1,96) (3,11)
= 32,15 ± 6,09
= 26,06 à 38,24
Que signifie concrètement cet intervalle ?
Cela veut dire que 95 % des étudiants qui auront obtenu la note 6 au contrôle continu auront
une note située entre 26,06 et 38,24 au concours.
______________________________________________________________________________
50 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
IV. ANALYSE DE CORRÉLATION
Il nous reste maintenant à savoir comment juger le degré d'association ou de corrélation
existant entre les variables ou, en d'autres termes, juger la qualité de l'ajustement des points
par la droite.
1. Le coefficient de détermination = r2
Examinons d'abord les différents termes et concepts illustrés à la figure ci-dessous.
y
y y
x
point du diagramme de dispersion( y )
ecart expliqué :
ecart inexpliqué :y -
yy -Ecart total =
^y
= a + b x
^y
^y - y
Illustration des concepts d'écart total, d'écart expliqué et d'écart inexpliqué
Supposons que nous nous servions de y , la moyenne des valeurs observées de la variable
dépendante, pour prévoir la valeur de y. Dans ce cas, on s'attend à ce que l'écart entre notre
estimation et la valeur de y soit considérable.
Un point particulier (y) a été choisi dans la figure ci-dessus, pour montrer l'importance de
l'écart total qui existe, dans cet exemple, entre la valeur observée de y et y .
En revanche, en utilisant la droite de régression pour estimer ou prévoir la valeur de la
variable dépendante, il est possible de réduire l'écart probable entre la valeur de y et la valeur
estimée de y. On remarque sur cette même figure que la droite de régression est plus
rapprochée de la majorité des points du diagramme que ne l'est y .
Donc, pour le point unique (y) de cette figure, la droite de régression explique en partie l'écart
entre y et y . Autrement dit, l'écart expliqué par la droite est y^ - y . Mais, la droite de
régression n'explique pas entièrement l'écart entre y et y , puisqu'il reste à expliquer l'écart
entre y et y^ .
______________________________________________________________________________
51 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Nous avons donc :
Écart total = Écart expliqué + Écart inexpliqué
y - y (y^ - y ) (y - y^ )
ou, en termes de « variations »,
Variation totale = Variation expliquée + Variation inexpliquée
 (y - y )2 (y^ - y )2
(y - y^ )2
Avec ces considérations, le coefficient de détermination ( r2 ) est une mesure de la
proportion de la variation dans la variable y qui s'explique par la présence de la
variable x (ou par la droite de régression), c'est-à-dire :
r2 =
Variation expliquée
Variation totale
où la variation totale est  (y - y )2 (revoir tableau 2) et où la variation expliquée  (y^ - y
)2 est donnée par b  (x - x ) (y - y ).
Donc,
r2 =
b . [ (x - x ) (y - y )]
 (y - y )2
Dans notre exemple (voir tableau 2)
r2 =
b . [ (x - x ) (y - y )]
 (y - y )2
=
(4,96) (397)
2028 = 0,971
Que représente alors ce coefficient de détermination r2 ?
Il signifie que 97,1 % de la variation dans la variable y, est expliqué ou attribué à la
variation dans la variable x.
______________________________________________________________________________
52 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Dans notre exemple, on peut dire que 97,1 % de la variation dans les notes obtenues au
concours, est expliqué par la variation des résultats au contrôle continu.
On comprend alors que r2 ne peut être supérieur à 1, puisque c'est une probabilité et que plus
la valeur de ce r2 est grande et plus celle de Ey.x est petite.
2. Le coefficient de corrélation
C'est la racine carrée de r2 tout simplement.
r = r2
Dans notre exemple,
r = 0,971 = 0,985
Le coefficient de corrélation est moins utile que r2 parce qu'il représente une mesure assez
abstraite qui ne se prête pas à une interprétation précise.
r nous donne simplement une idée de l'importance de la liaison linéaire entre les variables x et
y et sa valeur se situera toujours entre -1 et +1.
* Si r = 0 : il y a absence de corrélation linéaire entre les deux variables.
* r = 1 ou -1 : il y a une corrélation linéaire parfaite (positive ou négative) entre x et y.
1. Méthode pratique de calcul du coefficient de corrélation
Le coefficient de corrélation peut également être défini ainsi :
r =
Cov ( x , y )
sx . sy
où, Cov (x,y) représente la covariance du couple (x,y) qui a été déjà définie par :
Cov (x,y) =
1
n xi - x ) (yi - y )
et où sx et sy sont les deux écarts types calculés sur les échantillons :
sx =
 nixi
2
n - x 2 sy =
 niyi
2
n - y 2
Nous pouvons aussi écrire :
r = Erreur !;Erreur !2 . Erreur ! (yi - Erreur !)2)) = Erreur !;Erreur !2 .  (yi -
y )2)) =
S.P.E
SCEx . SCEy
______________________________________________________________________________
53 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
ou encore,
r =
 xiyi -
 xi  yi
n
[ xi
2
-
( xi )
2
n ] [ yi
2
-
( yi )
2
n ]
=
Cov (x , y )
sx sy
2. Propriétés du coefficient de corrélation
Rappelons que le coefficient de corrélation est un indicateur de liaison linéaire et que la
corrélation est une technique qui est utilisée pour établir une relation de cause à effet.
Le coefficient de corrélation mesure la « netteté » de la liaison existant entre les deux séries
d'observations, à condition que cette liaison soit linéaire ou approximativement linéaire.
Dans le cas contraire, le coefficient de corrélation ne présente aucun intérêt.
Le coefficient de corrélation a le même signe que la covariance ; il est nul quand la covariance
est nulle.
Le coefficient de détermination n'indique pas la nature de la relation
qui unit les deux variables ; il n'indique que la part de la variation qui
pourrait être expliquée si une relation de causalité existait.
Il est dangereux d'interpréter le coefficient de corrélation comme un pourcentage.
En effet, si r = 0,6, cela ne veut pas dire que 60 % de la variation de y est expliquée ;
en fait, pour r = 0,6 nous avons r2 = 0,36 ; autrement dit seulement 36 % de la
variation est expliquée.
______________________________________________________________________________
54 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
V. TRANSFORMÉE DE FISHER
1. Position du problème
Nous avons étudié les problèmes relatifs à la corrélation en introduisant la notion de
coefficient de corrélation calculé sur un échantillon de taille n.
A chaque échantillon prélevé, on faisait correspondre une valeur de r. Par analogie avec les
problèmes d'échantillonnage d'une moyenne ou d'une fréquence, on peut envisager ici la
distribution d'échantillonnage de r.
En effet, si l'expérience pouvait être effectuée sur la totalité des individus de la population
considérée, nous obtiendrons la vraie valeur de r que nous désignerons par  (rhô).
Autrement dit, le coefficient de corrélation r, calculé à partir d'observations faites sur
l'échantillon ne constitue qu'une estimation. Lorsque le nombre de mesures est très élevé, il
peut arriver qu'une valeur de r soit le signe d'une liaison, lâche peut être, mais réelle entre les
variables.
Si, au contraire, le nombre de mesures est peu élevé, il peut arriver qu'une valeur de r, même
proche de ± 1 soit due au seul hasard de l'échantillonnage, et ne révèle aucune liaison
significative.
Il est donc indispensable de savoir avec quelle précision le coefficient de corrélation a été
estimé, et plus particulièrement de pouvoir tester par rapport à 0 la valeur r trouvée.
Nous procéderons alors au même type de raisonnement que celui relatif à l'estimation d'une
moyenne d'une population par un intervalle de confiance.
Cependant, nous distinguerons deux cas selon la valeur du coefficient de corrélation :
• A partir d'un échantillon, r sera voisin de 0 ; nous testerons ce résultat pour savoir si nous
pouvons conclure à l'indépendance des deux variables x et y.
• Dans le cas où r ≠ 0, nous déterminerons un intervalle de confiance de r.
2. Premier cas : r = 0
Dans ce cas, la quantité :
tobs =
r  n - 2
1 - r2
obéit à une loi de Student à  = n - 2 degrés de liberté.
Avec un ddl =  et un risque d'erreur  choisi, nous déterminons, dans la table de Student t.
• Si tobs < ttable, on accepte l'hypothèse nulle Ho :  = 0 ;
• Si tobs ≥ ttable, on rejette l'hypothèse nulle Ho ; dans ce cas  ≠ 0.
______________________________________________________________________________
55 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Exemple 1
La valeur d'un coefficient de corrélation, calculé sur un échantillon de taille 20, est égal à
0,24.
Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale.
Autrement dit les deux variables x et y sont-elles indépendantes au risque  de première
espèce ?
********
tobs =
r  n - 2
1 - r2
=
0,24  20 - 2
1 - 0,242
= 1,049
Pour  = 0,05 et ddl = 18, ttable = 2,101
tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0
Exemple 2
Un échantillon de taille 25 a donné r = 0,32
Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. ( =
0,05)
tobs =
r  n - 2
1 - r2
=
0,32  25 - 2
1 - 0,322
= 1,32
Pour  = 0,05 et ddl = 23, ttable = 2,069
tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0
Considérons à présent, le même échantillon mais avec r = 0,68
tobs =
0,68  25 - 2
1 - 0,682
= 4,45
Dans ce cas, nous devons rejeter Ho.
3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle
On définit dans cette situation, une nouvelle variable appelée transformée de Fisher par :
Z =
1
2 Log [
1 + r
1 - r
]
______________________________________________________________________________
56 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
Cette variable Z obéit à une loi normale de moyenne m = 1/2 Log [ 1 + 
1 - 
] , et d'écart
type Z =
1
n - 3
On peut déterminer les limites de  avec un risque .
La valeur de Z est donnée par la table de la transformée de Fisher (Table VII en fin de livret)
dont un extrait est présenté ci-dessous :
Z 0,00 0,01 0,02 0,03 0,04
0,0 0,00000 0,01000 0,02000 0,02999 0,03998
0,1 0,09967 0,10956 0,11943 0,12927 0,13909
0,2 0,19738 0,20697 0,21652 0,22603 0,23550
0,3 0,29131 0,30044 0,30951 0,31852 0,32748
0,4 0,37995 0,38847 0,39693 0,40532 0,41364
0,5 0,46212 0,46995 0,47770 0,48538 0,49299
0,6 0,53705 0,54413 0,55113 0,55805 0,56490
0,7 0,60437 0,61068 0,61691 0,62307 0,62915
0,8 0,66404 0,66959 0,67507 0,68048 0,68581
0,9 0,71630 0,72113 0,72590 0,73059 0,73522
Dans l'exemple 2 ci-dessus, avec r = 0,68, l a table VII donne 0,8 et 0,03 c'est-à-dire Z = 0,83
(valeurs en grisé ci-dessus).
Dans ces conditions, les limites de confiance à 0,95 de mZ sont :
Z -  
1
n - 3
et Z +  
1
n - 3
 étant donné par la table de l'écart réduit
Dans notre exemple,
n = 25 ; = 1,96 ; Z = 0,83
L'intervalle de confiance de  sera donc :
0,83 - 1,96 
1
25 - 3
<  < 0,83 + 1,96 
1
25 - 3
ou
0,3885 <  < 0,8483
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation
Analyse de variance et correlation

Más contenido relacionado

La actualidad más candente

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Tests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deuxTests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deuxYoucef63000
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfnesrinetaamallah
 
Résolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonRésolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonAli SIDIBE
 
9406640 merise60affairesclassees
9406640 merise60affairesclassees9406640 merise60affairesclassees
9406640 merise60affairesclasseesAmine Kahlouni
 
Statistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésStatistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésYoucef63000
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multipleAdad Med Chérif
 
Mini projet statistique bahtat ayoub
Mini projet statistique bahtat ayoubMini projet statistique bahtat ayoub
Mini projet statistique bahtat ayoubAyoub BAHTAT
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression Mariem Chaaben
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée Adad Med Chérif
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMohamed Arar
 
Cours de-gestion-de-maintenance-niveau-1-min
Cours de-gestion-de-maintenance-niveau-1-minCours de-gestion-de-maintenance-niveau-1-min
Cours de-gestion-de-maintenance-niveau-1-minMed yassine Slimane
 
La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaireFIKRIMAIL
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesGiorgio Pauletto
 

La actualidad más candente (20)

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Tests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deuxTests relatifs aux fréquences et au khi deux
Tests relatifs aux fréquences et au khi deux
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Ch6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdfCh6 Introduction à la Science de Données.pdf
Ch6 Introduction à la Science de Données.pdf
 
Résolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en pythonRésolution numérique de l'équation de Black Scholes en python
Résolution numérique de l'équation de Black Scholes en python
 
9406640 merise60affairesclassees
9406640 merise60affairesclassees9406640 merise60affairesclassees
9406640 merise60affairesclassees
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Statistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésStatistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilités
 
Analyse de régression multiple
Analyse de régression multipleAnalyse de régression multiple
Analyse de régression multiple
 
Mini projet statistique bahtat ayoub
Mini projet statistique bahtat ayoubMini projet statistique bahtat ayoub
Mini projet statistique bahtat ayoub
 
les arbres de décision ou de régression
les arbres de décision ou de régression les arbres de décision ou de régression
les arbres de décision ou de régression
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
Cours de probabilites
Cours de probabilitesCours de probabilites
Cours de probabilites
 
(Econometrie) done
(Econometrie) done(Econometrie) done
(Econometrie) done
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventions
 
Cours de-gestion-de-maintenance-niveau-1-min
Cours de-gestion-de-maintenance-niveau-1-minCours de-gestion-de-maintenance-niveau-1-min
Cours de-gestion-de-maintenance-niveau-1-min
 
La Regression lineaire
La Regression lineaireLa Regression lineaire
La Regression lineaire
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Introduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes StatistiquesIntroduction au Data Mining et Méthodes Statistiques
Introduction au Data Mining et Méthodes Statistiques
 

Destacado

Tests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennesTests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennesYoucef63000
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Pierre Robentz Cassion
 
Têtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéTêtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéFabrice Valéry
 
Td1 stats-2008-corrige
Td1 stats-2008-corrigeTd1 stats-2008-corrige
Td1 stats-2008-corrigehassan1488
 
Civilisation français, la vie quotidien
Civilisation français, la vie quotidienCivilisation français, la vie quotidien
Civilisation français, la vie quotidienOpie Noviyanti
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistiqueBoris Guarisma
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4jBoris Guarisma
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data businessVincent de Stoecklin
 
Statistique descriptives1ets2
Statistique descriptives1ets2Statistique descriptives1ets2
Statistique descriptives1ets2Samad Oulasri
 
Generación de las compuadoras 1
Generación de las compuadoras 1Generación de las compuadoras 1
Generación de las compuadoras 1Angeliik Herrera
 
Proyecto 1: Nueva identidad de Homero
Proyecto 1: Nueva identidad de HomeroProyecto 1: Nueva identidad de Homero
Proyecto 1: Nueva identidad de HomeroLuis Suarez
 
Alquimistas
AlquimistasAlquimistas
AlquimistasDian0196
 
Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...
Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...
Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...Gonzalo Garre Rodas
 
PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...
PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...
PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...Nabil EL Moudden
 

Destacado (20)

Tests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennesTests relatifs aux variances et aux moyennes
Tests relatifs aux variances et aux moyennes
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Têtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéTêtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique Reynié
 
Td1 stats-2008-corrige
Td1 stats-2008-corrigeTd1 stats-2008-corrige
Td1 stats-2008-corrige
 
Civilisation français, la vie quotidien
Civilisation français, la vie quotidienCivilisation français, la vie quotidien
Civilisation français, la vie quotidien
 
Biostatistique
BiostatistiqueBiostatistique
Biostatistique
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
03 Apprentissage statistique
03 Apprentissage statistique03 Apprentissage statistique
03 Apprentissage statistique
 
Base de données graphe et Neo4j
Base de données graphe et Neo4jBase de données graphe et Neo4j
Base de données graphe et Neo4j
 
Introduction à la Data Science l data business
Introduction à la Data Science l data businessIntroduction à la Data Science l data business
Introduction à la Data Science l data business
 
Statistique descriptives1ets2
Statistique descriptives1ets2Statistique descriptives1ets2
Statistique descriptives1ets2
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
Temps forts exposition
Temps forts expositionTemps forts exposition
Temps forts exposition
 
Colegio santa maría
Colegio santa maríaColegio santa maría
Colegio santa maría
 
Generación de las compuadoras 1
Generación de las compuadoras 1Generación de las compuadoras 1
Generación de las compuadoras 1
 
Proyecto 1: Nueva identidad de Homero
Proyecto 1: Nueva identidad de HomeroProyecto 1: Nueva identidad de Homero
Proyecto 1: Nueva identidad de Homero
 
Alquimistas
AlquimistasAlquimistas
Alquimistas
 
Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...
Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...
Sesión 3 del Curso Superior en Community Management y Comunicación 2.0 #cscmc...
 
PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...
PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...
PFE :Conception, développement et mise en ligne d’une plateforme Odoo destiné...
 
NathaliaBainas
NathaliaBainasNathaliaBainas
NathaliaBainas
 

Similar a Analyse de variance et correlation

INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE HINDOUSSATI
 
Finance d'entreprise série 2.pdf
Finance d'entreprise série 2.pdfFinance d'entreprise série 2.pdf
Finance d'entreprise série 2.pdfApollinaireKouassi1
 
Bureau virtuel
Bureau virtuelBureau virtuel
Bureau virtuelraymen87
 
Analyse financiere
Analyse financiereAnalyse financiere
Analyse financiereKHALOUF
 
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY QuentinMémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY QuentinQuentin Labridy
 
Cours de comptabilite generale
Cours de comptabilite generaleCours de comptabilite generale
Cours de comptabilite generaleA.Karim bouknis
 
L'impact des médias sociaux sur l'entreprise
L'impact des médias sociaux sur l'entrepriseL'impact des médias sociaux sur l'entreprise
L'impact des médias sociaux sur l'entrepriseIdnition
 
MINI PROJET PV OUMHELLA (AutoRecovered).docx
MINI PROJET PV OUMHELLA (AutoRecovered).docxMINI PROJET PV OUMHELLA (AutoRecovered).docx
MINI PROJET PV OUMHELLA (AutoRecovered).docxYoussefOumhella
 
essentiels du RH.pdf
essentiels du RH.pdfessentiels du RH.pdf
essentiels du RH.pdfsoloa2
 
Conception bd 2
Conception bd 2Conception bd 2
Conception bd 2hassan1488
 
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalApproche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalmedecin dentiste
 
Livre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleLivre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleAref Jdey
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveMouna Ettahiri
 
Bootstrap methodology in claim reserving in Insurance
Bootstrap methodology in claim reserving in InsuranceBootstrap methodology in claim reserving in Insurance
Bootstrap methodology in claim reserving in InsuranceARIJ BenHarrath
 

Similar a Analyse de variance et correlation (20)

INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE INFORMATIQUE DES GESTION : MERISE
INFORMATIQUE DES GESTION : MERISE
 
Finance d'entreprise série 2.pdf
Finance d'entreprise série 2.pdfFinance d'entreprise série 2.pdf
Finance d'entreprise série 2.pdf
 
Bureau virtuel
Bureau virtuelBureau virtuel
Bureau virtuel
 
Analyse financiere
Analyse financiereAnalyse financiere
Analyse financiere
 
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY QuentinMémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
 
Cours de comptabilite generale
Cours de comptabilite generaleCours de comptabilite generale
Cours de comptabilite generale
 
L'impact des médias sociaux sur l'entreprise
L'impact des médias sociaux sur l'entrepriseL'impact des médias sociaux sur l'entreprise
L'impact des médias sociaux sur l'entreprise
 
Bilan & compte_de_resultats
Bilan & compte_de_resultatsBilan & compte_de_resultats
Bilan & compte_de_resultats
 
MINI PROJET PV OUMHELLA (AutoRecovered).docx
MINI PROJET PV OUMHELLA (AutoRecovered).docxMINI PROJET PV OUMHELLA (AutoRecovered).docx
MINI PROJET PV OUMHELLA (AutoRecovered).docx
 
Conception Base de Données
Conception Base de DonnéesConception Base de Données
Conception Base de Données
 
essentiels du RH.pdf
essentiels du RH.pdfessentiels du RH.pdf
essentiels du RH.pdf
 
Conception bd 2
Conception bd 2Conception bd 2
Conception bd 2
 
Metiers de la santé ameliorer les competences
Metiers de la santé ameliorer les competencesMetiers de la santé ameliorer les competences
Metiers de la santé ameliorer les competences
 
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
 
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalApproche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
 
Livre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleLivre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veille
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
Facteur re
Facteur reFacteur re
Facteur re
 
Bootstrap methodology in claim reserving in Insurance
Bootstrap methodology in claim reserving in InsuranceBootstrap methodology in claim reserving in Insurance
Bootstrap methodology in claim reserving in Insurance
 
Pmbok methodes agiles
Pmbok methodes agilesPmbok methodes agiles
Pmbok methodes agiles
 

Analyse de variance et correlation

  • 1. Notions essentielles de statistique Livret 4/4 La méthode statistique Analyse de variance Corrélation et régression linéaire Youcef Elmeddah
  • 2. ________________________________________________________________________________ I _______________________________________________________________________________ STATISTIQUE TABLE DES MATIÈRES AVERTISSEMENT ..................................................................................................... 1 PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ...............................................................1 COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ......................................................................1 CONSEILS GÉNÉRAUX DE TRAVAIL ...........................................................................................................2 Séquence de travail n° 1 3 ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION .......................... 3 I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE VARIANCE ..................................................................................................................................................4 1. But de l'analyse de variance ............................................................................................4 2. Hypothèse à tester............................................................................................................5 3. Conditions d'application de l'analyse de variance ...........................................................5 II. THÉORIE DE L'ANALYSE DE VARIANCE.............................................................................................7 1. Variance intra-population : s2intra..................................................................................7 2. Variance inter-population : s2inter................................................................................7 3. Le rapport F et les tables de distributions F ...................................................................8 III. RÉALISATION DE L'ANALYSE DE VARIANCE ..................................................................................9 1. Echantillons d'effectifs inégaux.....................................................................................10 1. Première étape de l'analyse....................................................................................... 10 2. Deuxième étape de l'analyse...................................................................................... 11 3. Exemple pratique....................................................................................................... 12 2. Echantillons de mêmes effectifs....................................................................................16 1. Première étape de l'analyse....................................................................................... 16 2. Deuxième étape de l'analyse...................................................................................... 17 3. Exemple pratique....................................................................................................... 17 IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS ...........................................19 Séquence de travail n° 2 23 ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION................. 23 I. POSITION DU PROBLÈME.........................................................................................................................24 II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION........................................................................................................25 1. Présentation des données et des calculs ........................................................................25
  • 3. _______________________________________________________________________________ II ______________________________________________________________________________ STATISTIQUE 1. Première partie.......................................................................................................... 25 2. Deuxième partie......................................................................................................... 26 2. Application pratique.....................................................................................................28 3. Exécution de l'analyse de variance par le logiciel EXCEL ...........................................31 Séquence de travail n° 3 33 CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE......................................... 33 I. POSITION DU PROBLÈME.........................................................................................................................34 1. Analyse de régression et de corrélation.........................................................................34 2. La relation de causalité en statistique............................................................................35 II. ANALYSE DE RÉGRESSION .....................................................................................................................36 1. Diagramme de dispersion..............................................................................................36 2. Notion de covariance.....................................................................................................38 3. Droite de régression.......................................................................................................39 4. Estimation à l'aide de l'équation de régression..............................................................42 III. L'ERREUR TYPE DE L'ESTIMATION...................................................................................................44 1. Calcul de l'erreur type de l'estimation : Ey.x.................................................................44 2. Intervalles de prédiction ................................................................................................45 IV. ANALYSE DE CORRÉLATION................................................................................................................48 1. Le coefficient de détermination = r2 ............................................................................48 2. Le coefficient de corrélation..........................................................................................50 1. Méthode pratique de calcul du coefficient de corrélation......................................... 50 2. Propriétés du coefficient de corrélation.................................................................... 51 V. TRANSFORMÉE DE FISHER.....................................................................................................................52 1. Position du problème.....................................................................................................52 2. Premier cas : r = 0 .........................................................................................................52 3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle................................................53 TABLE I.................................................................................................................... 55 TABLE DE LA DISTRIBUTION NORMALE RÉDUITE .............................................................................55 TABLE II................................................................................................................... 56 TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART RÉDUIT ......................................................................................................................................................56 TABLE III.................................................................................................................. 57 TABLE DE STUDENT.......................................................................................................................................57 TABLE IV ................................................................................................................. 58
  • 4. ______________________________________________________________________________ III ______________________________________________________________________________ STATISTIQUE TABLE DU C2 ..................................................................................................................................................58 TABLE V-A............................................................................................................... 59 TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,05).................................................59 TABLE V-B .............................................................................................................. 60 TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,05)....................................................60 TABLE VI-A.............................................................................................................. 61 TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,01)..................................................61 TABLE VI-B ............................................................................................................. 62 TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,01)....................................................62 TABLE VII ................................................................................................................ 63 CORRÉLATION TRANSFORMÉE DE FISHER...........................................................................................63 BIBLIOGRAPHIE ..................................................................................................... 64
  • 5. _______________________________________________________________________________ 1 ______________________________________________________________________________ Avertissement AVERTISSEMENT Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de mieux comprendre les concepts et les outils de la statistique. C'est un ouvrage d'initiation dont l'objectif principal est l'acquisition des techniques de base de la statistique ainsi que l'interprétation des résultats qui en découlent. Pour cela, les fondements mathématiques des théories exposées ne sont pas développés. Nous avons pensé que ce document est destiné surtout à des utilisateurs de l'outil statistique et non à des théoriciens. Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les connaissances théoriques à l'application pratique, le document réunit l'essentiel des connaissances avec de nombreux exemples d'application illustrant les parties théoriques. Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont signalées en grisé dans le texte. Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite suppose que d’autres notions sont connues. En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions précédentes. Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant. Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de mieux en mieux. PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… Dans ce livret, nous exposons d'abord le principe général de l'analyse de variance. Nous appliquerons alors ce principe à l'analyse de la variance à un facteur puis à deux facteurs en gardant toujours la même démarche. Dans les problèmes relatifs à la corrélation et à la régression, nous nous limiterons à un rapide exposé sur le principe de l'analyse puis une application directe à la corrélation et à la régression linéaire simple. Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une bonne connaissance du principe des tests statistiques, de la formulation et la résolution des problèmes de statistique. Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous aux livrets 2/4 et 3/4 de la série. COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen, doit être réalisée avec le plus grand soin. • Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé en relation avec votre programme. - Quelles sont les données (nature de la variable, loi de probabilité, taille de l’échantillon, paramètres donnés…) ?
  • 6. _______________________________________________________________________________ 2 ______________________________________________________________________________ Avertissement - Que vous demande-t-on ? - Les questions sont-elles liées ? - Quelle table statistique utiliser ? • Commencez alors par résoudre l’exercice sur du brouillon, question par question. • A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se contentant par exemple, - d' « appliquer » des formules sans expliquer les conditions d'applications, - d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse de leurs conclusions. Si certains exercices proposés précisent les conditions des données, il n'en est pas de même pour d'autres. C'est donc à vous de le faire en tout début de la rédaction. Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de vous « déchiffrer ». Il peut se lasser… Vous risquez alors de perdre des points inutilement. - Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être respectés. - Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite conclusion. CONSEILS GÉNÉRAUX DE TRAVAIL Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à vérifier l'atteinte des objectifs visés par la séquence de travail proposée. Pour cela, nous vous conseillons : • de travailler aussi régulièrement que possible ; • d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé… • d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une gomme ; • de vérifier, chaque fois que vous avez un doute, les calculs développés ; • de traiter la totalité des exercices d'application proposés avant de passer à la séquence suivante ; • d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile pour la séquence suivante ; • si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous permettra de faire des simulations en changeant les données pour « voir ce qui se passe ». Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours de statistique. Tous savent combien il est délicat de traiter un problème de statistique en faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent document voudront bien l'utiliser avec indulgence et en nous communiquant, éventuellement, leurs remarques et suggestions. Nous les remercions par avance.
  • 7. _______________________________________________________________________________ 3 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification Séquence de travail n° 1 6 h ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION 9 Objectifs pédagogiques A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. d'exposer le principe général et le but de l'analyse de variance ; 2. de préciser les conditions d'application de l'analyse de variance ; 3. d'appliquer l'analyse de variance à un critère de classification ; 4. d'utiliser la technique d'analyse de variance et les tables de distributions F pour prendre les décisions statistiques appropriés concernant la comparaison des moyennes de trois populations ou plus ; 5. de conduire une comparaison multiple de moyennes par le test de la PPDS.
  • 8. _______________________________________________________________________________ 4 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE VARIANCE 1. But de l'analyse de variance Le but de l'analyse de variance est de déterminer si toutes les moyennes des populations étudiées sont égales entre elles. Il s'agit de comparer les moyennes de plusieurs populations supposées normales et de même variance à partir d'échantillons aléatoires simples et indépendants les uns des autres. En pratique, le but de l'analyse de variance est de tester l'influence d'un ou de plusieurs facteurs ou effets sur une variable mesurable (ou quantifiable) traduisant l'influence de ce (ou ces) facteur (s). Par exemples, l'analyse de variance s'impose lorsqu'on veut étudier : • l'influence du facteur alimentation sur la croissance d'un animal ou la production laitière; • l'influence des facteurs race et alimentation sur la composition d'un lait de vache ou de brebis. Les facteurs dont on veut tester l'influence peuvent être : • soit des facteurs étudiés pour leur intérêt biologique, zootechnique ou agronomique : sexe, alimentation, agent fertilisant etc. • soit des facteurs destinés à contrôler la variabilité due à des facteurs « extérieurs » : effets de l'année, de l'étable, du bloc, etc. Chaque facteur étudié ou contrôlé peut présenter plusieurs niveaux comme par exemples : - 2 niveaux pour le sexe (mâle ou femelle) - 4 niveaux pour la race : Prim'Holstein, Normande, Montbéliarde, Salers. Tester l'influence d'un facteur sur la variable étudiée revient à tester l'existence ou l'absence de différences entre les diverses modalités de ce facteur.
  • 9. _______________________________________________________________________________ 5 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification On peut tester simultanément l'influence de plusieurs facteurs et de leurs interactions, sur la variable étudiée : on parlera alors d'analyse de variance à deux, trois ou plusieurs facteurs (ou critères) qui sera étudiée au chapitre suivant. Dans le présent chapitre, on se limitera à l'étude d'un seul facteur étudié : il s'agit d'une analyse de variance à un facteur de variation, ou un critère de classification. Nous étudierons, au chapitre suivant, le cas de l'analyse de variance à deux critères de classification. 2. Hypothèse à tester L'hypothèse nulle à tester dans ce cas est : Ho : les échantillons proviennent de différentes populations dont les moyennes sont identiques. Ho :  1 =  2 =  3 = ... =  k k = nombre de populations considérées. Dans ces conditions, l'hypothèse alternative (H1) sera la suivante : les moyennes des populations ne sont pas toutes égales entre elles. Si H1 est acceptée, il faut conclure qu'au moins une moyenne de population diffère des autres moyennes de population. Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec cette technique, quelles sont les moyennes qui diffèrent. 3. Conditions d'application de l'analyse de variance Trois conditions essentielles d'application sont requises pour l'analyse de variance : 1. les échantillons sont aléatoires et indépendants ; 2. les distributions des populations sont approximativement normales ou normales ; 3. les populations ont toutes la même variance. 1 2 = 2 2 = 3 2 = ........ = k 2
  • 10. _______________________________________________________________________________ 6 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification Autrement dit, lorsque Ho est vraie et lorsque ces trois conditions sont remplies, la situation est essentiellement équivalente à celle où tous les échantillons sont prélevés dans la même population (figure 1) En revanche, les moyennes des populations ne sont pas égales si Ho est fausse, et les échantillons pourront être considérés comme provenant de populations telles que celles illustrées à la figure 2 si les trois conditions sont remplies. 1 2 3 Fig. 1. k populations normales avec : Fig. 2. Trois populations normales avec :  1 = 2 = 3 =...........k 1 ≠ 2 ≠ 3  1 2 = 2 2 = 3 2 ...= k 2 1 2 = 2 2 = 3 2
  • 11. _______________________________________________________________________________ 7 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification II. THÉORIE DE L'ANALYSE DE VARIANCE On examinera des estimations de la variance de la population, 2, afin de déterminer si les moyennes des populations sont égales et ce, pour les raisons exposées ci-dessous. Dans une analyse de variance, on calcule deux estimations de la variance de la population selon deux approches indépendantes. 1. Calculer une estimation de 2 qui demeurera valable, que les moyennes des populations soient égales ou non. 2. Estimer sans biais 2 si et seulement si les moyennes des populations sont égales. Toute différence entre les moyennes des populations affectera la valeur de cette estimation 2. Cependant, s'il n'existait aucune différence entre les moyennes, les deux estimations calculées de 2 seraient très proches l'une de l'autre (une comparaison de ces deux estimations servira à tester la validité de Ho ). Autrement dit : • Si les deux estimations calculées sont approximativement égales, on peut conclure qu'il n'y a probablement pas de différence entre les moyennes des populations. Donc, Ho est acceptée. • S'il existe une différence significative entre les estimations calculées selon les deux approches, on doit conclure que les différences au sein des moyennes des populations ont influencé la valeur de la seconde estimation. Donc Ho doit être rejetée. 1. Variance intra-population : 2 intra 2 intra est une estimation de 2 non influencée par les moyennes des populations. C'est la première estimation de 2 qui consiste en une moyenne des variances à l'intérieur de chacun des échantillons. Chacune des variances échantillonnales (s2) pourrait, après une légère modification, servir d'estimateur sans biais de 2 ; cependant, on utilise généralement la moyenne arithmétique des variances de tous les échantillons pour estimer 2 , l'estimation obtenue reposant alors sur un plus grand nombre de données. 2. Variance inter-population : 2 inter 2 inter est un estimateur de 2 si Ho est vraie. C'est la seconde approche qui est basée sur la variation entre les moyennes échantillonnales. Si Ho est vraie, on peut alors considérer que tous les échantillons proviennent d'une même population de moyenne . L'écart type de la distribution d'échantillonnage - ou erreur type de la moyenne échantillonnale - est obtenu par la formule suivante :
  • 12. _______________________________________________________________________________ 8 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification  x =  n ou 2 x = 2 n c'est-à-dire n 2 x = 2 Donc, si Ho était vraie,  inter serait une estimation sans biais de la variance de la population et devrait être approximativement égal à la valeur de  intra . Par contre, s'il devait y avoir une différence significative entre  intra et  inter , on devrait conclure que cette différence est causée par des différences entre les moyennes des populations. 3. Le rapport F et les tables de distributions F Il s'agit de savoir à quel moment la différence entre les deux estimations de 2 est significative et si la différence entre  intra et  inter est due à l'inégalité des moyennes des populations ou simplement aux fluctuations d'échantillonnage. En pratique, on analyse le rapport entre  inter et  intra plutôt que la différence entre ces deux valeurs. Ce rapport, appelé valeur F observé (ou calculé), est donc : F = 2 inter 2 intra Idéalement, si Ho est vraie, F observé devrait être égal à 1. Cependant, du fait des fluctuations d'échantillonnage, on s'attend à des différences entre les deux estimations de 2 et ce, même si Ho est vraie. Il faudrait alors déterminer de quelle grandeur doit être cette différence qui se reflète dans la valeur F calculée pour rejeter légitimement Ho. La valeur maximale que peut atteindre le rapport F calculé avant le rejet de Ho est donnée dans les tables de distributions F. ( Voir tables V et VI de distributions F en fin de livret). La conclusion à tirer concernant Ho sera basée sur la comparaison de F calculé (ou observé) avec une valeur repérée dans les tables. Si Fobservé < à la valeur trouvée dans les tables, Ho sera acceptée sinon Ho est rejetée. ATTENTION ! Il faut se souvenir que, contrairement au test F appliqué à la comparaison de deux variances (chapitre 7) qui est un test bilatéral, le test F appliqué dans l' analyse de variance, est un test unilatéral à droite pour lequel on doit utiliser les tables V-A ( pour  = 0,05) et VI- A (pour  = 0,01).
  • 13. _______________________________________________________________________________ 9 ______________________________________________________________________________ 9. Analyse de variance à un critère de classification III. RÉALISATION DE L'ANALYSE DE VARIANCE L'analyse de variance à un critère de classification ( on dit aussi à un facteur) permet de comparer les moyennes de plusieurs populations supposées normales et de même variance, à partir d'échantillons aléatoires simples et indépendants les uns des autres. Le tableau 1 (page suivante) présente les données relatives à l'analyse de variance à un critère de classification. Comment lire ce tableau ? Le facteur étudié présente p modalités et nous désignerons par i l'une quelconque de ces modalités (i = 1, 2, 3 … … p) ; il y a donc p échantillons de tailles n1 , n2 … … ni … np avec ni = n. Nous désignerons par xik la variable aléatoire, résultat du kième individu soumis à la iième modalité du facteur étudié. La moyenne de l'échantillon i sera désignée par xi et la moyenne de tous les échantillons par x . Dans ces conditions, le modèle de l'analyse de variance s'écrit : xik - x = xi - x + xik - xi ce qui indique que les écarts constatés sur l'individu xik par rapport à la moyenne générale xik - x auxquels correspond la variation totale, se décomposent en deux éléments additifs : • les écarts entre la moyenne de l'échantillon et la moyenne générale, xi - x , auxquels correspond la variation factorielle. • les écarts de chaque individu par rapport à la moyenne de l'échantillon, xik - xi , auxquels correspond la variation résiduelle. On démontre que, en élevant au carré les deux membres de cette égalité puis en sommant, on obtient la décomposition en carrés ci-dessous, appelée l'équation de l'analyse de variance:  i=1 p  k=1 ni (xik - x ) 2 =  i=1 p ni ( xi - x )2 +  i=1 p  k=1 ni (xik - xi ) 2
  • 14. ______________________________________________________________________________ 10 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification Somme des carrés des écarts totale SCEt Somme des carrés des écarts factorielle SCEf Somme des carrés des écarts résiduelle (ou aléatoire) SCEr 1. Echantillons d'effectifs inégaux 1. Première étape de l'analyse La réalisation de l'analyse de variance, dans le cas d'échantillons d'effectifs inégaux se fera selon la présentation du tableau 1. Tableau 1. Présentation des données et des calculs lors de la réalisation de l'analyse de variance à un critère de classification. i(modalités) k (individus) 1 2 … p Totaux 1 2 . . . x11 x12 . . . x1n1 x21 x22 . . . . x2n2 … xp1 xp2 . . xpnp ni n1 n2 … np n. = ni (effectif total) Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.  xik 2  x1k 2  x2k 2 …  xpk 2 T =   x2 ik Xi. 2/ni X1. 2/n1 X2. 2/n2 … Xp. 2/np - SCEi =  x2 ik - X2 i. ni (pour tout i) SCE1 SCE2 … SCEp SCEr =  SCEi ^ i 2 = SCEi ni-1 (pour tout i) ^ 1 2 ^ 2 2 … ^ p 2 - xi = Xi. ni (pour tout i) x1 x2 … xp - Moyenne générale x = X.. n. La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes : • Terme correctif : C = X.. 2 / n. • Somme des carrés des écarts totale : SCEt = T - C
  • 15. ______________________________________________________________________________ 11 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification • Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr • Carrés moyens : CMf = SCEf p-1 et CMr = SCEr n-p Fobservé = CMf CMr = 2 inter 2 intra
  • 16. ______________________________________________________________________________ 12 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2. Deuxième étape de l'analyse Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme degrés de liberté : 1 = p-1 et 2 = n-p La présentation du tableau de l'analyse de variance se fera ainsi : Sources de variation ddl SCE CM F Entre populations -facteur contrôlé- (2 inter) 1 = p-1 SCEf CMf Fobs = CMf CMr Entre observations, dans les populations (erreur résiduelle) (2 intra) 2 = n-p SCEr CMr Totaux n-1 SCEt Nous retrouvons bien ce qui a déjà été signalé. En effet, cette façon de procéder indique que les écarts constatés par rapport à la moyenne générale - auxquels correspond la variation totale - se décomposent en 2 éléments additifs : • les écarts par rapport à la moyenne de l'échantillon, auxquels correspond la variation résiduelle ; • les écarts entre la moyenne de l'échantillon et la moyenne générale, auxquels correspond la variation factorielle. Ce qui se traduit par l'équation de l'analyse de variance ci-dessous : SCEt = SCEf + SCEr En divisant ces SCE par le nombre de degrés de libertés correspondant, on obtient les carrés moyens ou tout simplement les variances. Si l'hypothèse Ho est vraie, le rapport Fcalculé (on dit aussi Fobservé) Fobservé = CMf CMr est une variable aléatoire de Fisher-Snedecor à 1 = p-1 et 2 = n-p degrés de liberté.
  • 17. ______________________________________________________________________________ 13 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification La règle de décision sera alors la suivante : • Si Fobservé < Ftable (pour 1 et  ddl et un risque  donné), on garde Ho. Cela veut dire qu'il n' y a pas d'influence significative du facteur étudié sur la variable considérée. • Si Fobservé ≥ Ftable (pour 1 et  ddl et un risque  donné), on rejette Ho. Cela veut dire que le facteur étudié a une influence significative sur la variable considérée. 3. Exemple pratique On souhaite comparer le poids moyen, à un âge déterminé, de moutons d'une même race provenant de 3 régions différentes. Les résultats obtenus sur 3 échantillons sont les suivants (en kg) : Région 1 Lot 1 Région 2 Lot 2 Région 3 Lot 3 59,8 61,5 58,9 62,1 60,5 60 59,2 60,6 59,3 59,2 61,3 57 58,4 58,5 59,9 61,1 63 59,9 62,3 60,2 58,9 60 62,3 56,8 60,5 60,6 57,6 61,3 61,1 58,7 62,5 62 - 58,9 62,1 - 58,6 65,3 - - 60,5 - En fait, il s'agit de savoir si la région d'où provient chacun de ces trois lots, influence le poids des moutons ou non. Pour répondre à la question posée, il faudrait réaliser une analyse de variance pour tester l'hypothèse d'égalité des moyennes des poids qui sont donnés. Bien évidemment, l'hypothèse nulle consiste à considérer qu'il n' y a pas de différence entre les moyennes des poids des 3 lots. Ho : 1 = 2= 3 Sous cette hypothèse Ho, on peut considérer que quelle que soit la région d'où proviennent les moutons, leur poids est le même ; autrement dit la région n'a aucune influence sur le poids des animaux. Le test de l'analyse de variance nous permettra soit d'accepter cette hypothèse d'égalité des moyennes, soit alors de la rejeter.
  • 18. ______________________________________________________________________________ 14 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification Pour cela, réalisons le premier tableau de présentation des données et des calculs. Pour une meilleure compréhension, ce tableau se présentera de façon légèrement différente du tableau 1 exposé plus haut. Lot 1 Lot 2 Lot 3 Totaux 59,8 61,5 58,9 62,1 60,5 60 59,2 60,6 59,3 59,2 61,3 57 58,4 58,5 59,9 61,1 63 59,9 62,3 60,2 58,9 60 62,3 56,8 60,5 60,6 57,6 61,3 61,1 58,7 62,5 62 58,9 62,1 58,6 65,3 60,5 ni 13 14 10 37 = n. Moyenne 60,30 61,39 58,70 -  xi = Xi. 783,90 859,50 587,00 2230,4 = X..  xi 2 = A 47294,15 52799,45 34469,62 134563,22 = T Xi. 2/ni = B 47269,17 52767,16 34456,9 - SCEi = A - B 24,98 32,29 12,72 69,99 = SCEr ^ i 2 2,082 2,484 1,413 - C = X.. 2/n. = 134450,9 SCEt = T - C = 112,298 L'étape suivante est la réalisation du tableau de l'analyse de variance Sources de variation ddl SCE CM F Différences entre régions 2 42,30 21,153 10,28*** = Fobs Différences entre les poids (pour un même lot) 34 69,99 2,058 F0,05,;2,;34 = 3,28 F0,01,;2,;34 = 5,29 Totaux 36 112,297 Au seuil de 5 %, pour ddl1 = 2 et ddl2 = 34, la table V-A donne F = 3,28 Au seuil de 1 %, pour ddl1 = 2 et ddl2 = 34, la table VI-A donne F = 5,29 Au seuil de 1 0/00, pour ddl1 = 2 et ddl2 = 34, F = 8,52
  • 19. ______________________________________________________________________________ 15 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification Dans les 3 cas, Fobservé > Ftable . Ceci nous conduit au rejet de HO. Concrètement cela signifie que la région d'où proviennent les animaux influence leur poids. Remarques 1. Il est d'usage de marquer les différences significatives d'un, de deux ou de trois astérisques respectivement pour les niveaux 0,05, 0,01 et 0,001. Dans notre cas Fobs = 10,28 est supérieur à Ftable même au niveau de 0,001, c'est-à-dire avec un risque d'erreur de première espèce inférieur à 10/00. Aussi, la valeur 10,28 est désignée par 3 astérisques. 2. Il faut se souvenir que si H1 est acceptée, ce qui est le cas dans notre exemple, il faut conclure qu'au moins une moyenne de population diffère des autres moyennes de population. Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec cette technique, quelles sont les moyennes qui diffèrent. Exemple. Appliquons l'analyse de variance pour les deux premiers lots uniquement (lots 1 et 2) Après calculs, nous obtenons le tableau suivant : Sources de variation ddl SCE CM F 2 inter 1 8,051 8,050714 3,51 = Fobs 2 intra 25 57,27 2,290771 F0,05;1;25 = 4,24 F0,01;1;25 = 7,77 Totaux 26 65,320 Décision : on accepte Ho Dans ce cas, on remarque que Fobs < Ftable . Ce qui nous conduit à accepter Ho, c'est-à-dire qu'il n' y a pas de différence significative des poids des lots 1 et 2. Appliquons à présent l'analyse de variance pour les lots 1 et 3 Après calculs, nous obtenons le tableau suivant : Sources de variation ddl SCE CM F
  • 20. ______________________________________________________________________________ 16 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2 inter 1 14,470 14,469 8,059 = Fobs 2 intra 21 37,70 1,7952 F0,05;1;21 = 4,32 F0,01;1;21 = 8,02 Totaux 22 52,170 Décision : rejet de Ho Dans ce cas, on remarque que Fobs > Ftable . Ce qui nous conduit à rejeter Ho, c'est-à-dire qu'il existe une différence significative entre les poids des lots 1 et 3.
  • 21. ______________________________________________________________________________ 17 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2. Echantillons de mêmes effectifs 1. Première étape de l'analyse Dans ce cas, les calculs sont simplifiés comme le montre le tableau 2. Tableau 2. Présentation des données et des calculs lors de la réalisation de l'analyse de variance à un critère de classification (échantillons de mêmes effectifs). i k 1 2 … p Totaux 1 2 . . . n x11 x12 . . . x1n x21 x22 . . . x2n … xp1 xp2 . . . xpn n n n n n. = pn Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.  xik 2  x1k 2  x2k 2 …  xpk 2 T =   x2 ik Xi. 2/n X1. 2/n X2. 2/n … Xp. 2/n - SCEi =  x2 ik - X2 i. n (pour tout i) SCE1 SCE2 … SCEp SCEr =  SCEi xi = Xi. n (pour tout i ) x1 x2 … xp - La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes : • Terme correctif : C = X.. 2 / pn • Somme des carrés des écarts : SCEt = T - C • Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr • Carrés moyens : CMf = SCEf/p-1et CMr = SCEr/p(n-1) • Fobservé = CMf/CMr
  • 22. ______________________________________________________________________________ 18 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 2. Deuxième étape de l'analyse Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme degrés de liberté : 1 = p-1 et 2 = p (n-1) La présentation du tableau de l'analyse de variance se fera ainsi : Sources de variation ddl SCE CM F Entre populations -facteur contrôlé- (2 inter) p-1 SCEf CMf Fobs = CMf CMr Entre observations, dans les populations (erreur résiduelle) (2 intra) p (n-1) SCEr CMr Totaux pn - 1 SCEt 3. Exemple pratique On voudrait comparer les rendements en matière sèche (en kg/ha), à une date déterminée, d'un certain fourrage cultivé sur 3 prairies différentes. Les résultats obtenus dans chaque prairie sont résumés dans le tableau ci-dessous : Prairie 1 Prairie 2 Prairie 3 20,5 14,8 12,5 19,6 18,7 17,2 26,4 19,6 17,4 28,5 21,4 18,3 27,9 25,2 20,2 Ho : pas de différence entre les rendements fourragers des 3 types de prairies. Tableau des données et des calculs. Prairie 1 Prairie 2 Prairie 3 Totaux 20,5 14,8 12,5 19,6 18,7 17,2 26,4 19,6 17,4 28,5 21,4 18,3 27,9 25,2 20,2 n 5 5 5 15 = n. Moyenne 24,58 19,94 17,12 - Xi =  xi 122,90 99,70 85,60 308,2 = X..  xi 2 = A 3092,03 2045,89 1497,78 6635,7 = T Xi 2/5 = B 3020,882 1988,018 1465,472 - SCEi = A-B 71,15 57,87 32,31 161,33 = SCEr
  • 23. ______________________________________________________________________________ 19 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification C = X2../15 = 6332,5 SCEt = T-C = 303,217 Le tableau de l'analyse de variance se présente alors ainsi : Sources de variation ddl SCE CM F inter 2 141,88 70,94 5,277* = Fobs intra 12 161,33 13,44 F0,05;2;12 = 3,89 Totaux 14 303,21 F0,01;2;12 = 6,93 Décision statistique : Fobservé > F0,05;2;12  rejet de Ho à 5%. Fobservé < F0,01;2;12  acceptation de Ho à 1% Autrement dit au seuil de 5%, Fobs. > Ftable ; ce qui nous conduit au rejet de l'hypothèse nulle c'est-à-dire que les rendements en matière sèche sont influencés par le type de prairie. En revanche, au seuil de 1%, Fobs. < Ftable ; ce qui nous conduit à accepter l'hypothèse nulle.
  • 24. ______________________________________________________________________________ 20 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS Nous avons signalé le fait que, lorsqu'un test d'analyse de variance aboutit au rejet de l'hypothèse nulle (hétérogénéité des moyennes), la technique utilisée dans cette analyse ne permettait pas de distinguer les moyennes qui différaient significativement des autres. Ce problème peut être résolu par différentes méthodes de comparaisons multiples de moyennes dont la méthode de la « PPDS » ou Plus Petite Différence Significative fait partie. Il s'agit d'une méthode simple de comparaison de p moyennes deux à deux. Dans tout ce qui suivra, les conditions d'application de l'analyse de variance sont supposées remplies. Nous supposerons aussi l'égalité des effectifs de tous les échantillons à comparer. Partons d'un exemple… On voudrait étudier la fréquentation des agents commerciaux pour 4 stands au salon de l'Agriculture de Paris, sur les 5 premiers jours de la semaine d'ouverture. On voudrait tester l'hypothèse d'égalité de fréquentation moyenne Ho contre l'inégalité H1, en supposant le facteur " jour " sans influence. Les jours sont des répétitions. Les résultats sont consignés dans le tableau ci-dessous. Stand 1 Stand 2 Stand 3 Stand 4 J1 10 12 8 9 J2 9 10 9 6 J3 11 14 11 11 J4 13 12 8 11 J5 10 12 8 9 Il s'agit de comparer 4 moyennes de fréquentation des stands par les agents commerciaux. Réalisation de l'analyse de variance Stand 1 Stand 2 Stand 3 Stand 4 Totaux J1 10 12 8 9 J2 9 10 9 6 J3 11 14 11 11 J4 13 12 8 11 J5 10 12 8 9 n 5 5 5 5 n. = 20 Moyenne 10,60 12,00 8,80 9,20 Xi =  xi 53,00 60,00 44,00 46,00 X.. = 203  xi 2 = A 571 728 394 440 T = 2133 Xi 2/5 = B 561,8 720 387,2 423,2 SCEi = A-B 9,20 8,00 6,80 16,80 SCEr = 40,8
  • 25. ______________________________________________________________________________ 21 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification C = X2../n. = 2060,5 SCEt = T-C = 72,550 Tableau de l'analyse de variance Sources variation ddl SCE CM Fobs Ftable inter 3 31,750 10,5833 4,150327 F3,16,0,05 = 3,24 intra 16 40,80 2,55 total 19 72,550 Conclusion : Fobs (4,15) > Ftable (3,24) : on rejette l'hypothèse Ho d'égalité des fréquentations moyenne. Il y a au moins une moyenne qui diffère des autres. Lorsqu'on se trouve devant cette situation, il est parfois souhaitable de déterminer les signes d'égalité à éliminer, en comparant les moyennes deux à deux grâce au test t de Student par exemple. Pour p moyennes à comparer, il existe p (p - 1) 2 couples (i,i' ) à comparer. S'agissant d'une comparaison de deux moyennes observées sur deux petits échantillons de mêmes effectifs, dont les variances sont inconnues, pour chaque couple de moyennes comparées, on utilisera la formule : tobs = xi - xi' SCEi + SCEi' n(n - 1) avec un ddl = 2n - 2. Cependant, les conditions de l'analyse de variance étant supposées remplies (variances de populations égales ), il n'est guère utile de rechercher, pour chacune de ces comparaisons, une nouvelle estimation de la variance commune par la quantité : ^2 = SCEi + SCEi' ni + ni' - 2 Dans ces conditions, on utilise préférentiellement, la quantité : ^2 = CMr qui représente une estimation globale fournie par le carré moyen résiduel. Par ailleurs, pour des effectifs égaux, nous pouvons comparer les moyennes observées deux à deux en calculant les p (p - 1)/2 valeurs du t observé de Student en utilisant la formule :
  • 26. ______________________________________________________________________________ 22 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification tobs = xi - xi' 2 CMr n puis en comparant la valeur de tobs aux t de la table de Student. Cependant, pour des raisons mathématiques, il semble préférable de calculer la quantité : PPDS  = t ,  2  CMr n   étant le risque d'erreur choisi et  le nombre de degrés de liberté de la «résiduelle», puis de rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence xi - xi' (en valeur absolue) est supérieure ou égale à la PPDS. Cette première définition de la PPDS reste valable pour l'analyse de variance à un critère de classification mais peut être étendue, après modification, à l'analyse de variance à deux critères. Ainsi dans notre exemple : n = 5 CMr = 2,55  CMr = 16 ddl ttable ( = 0,05, ddl = 16) = 2,12 d'où : PPDS  = t ,  2  CMr n = 2,12  2  2,55 5 = 2,141 Deux méthodes de représentation des résultats sont alors possibles. • Première méthode On peut disposer toutes les différences dans un tableau à double entrée et indiquer par un astérisque la signification au seuil  = 0,05 et par deux astérisques au seuil de 0,01. x3 = 8,8 x4 = 9,2 x1 = 10,6 x2 = 12,0 Moyenne 0,4 9,2 - 8,8 1,8 10,6 - 8,8 3,2* 12 - 8,8 x3 = 8,8 1,4 10,6 - 9,2 2,8* 12,0 - 9,2 x4 = 9,2
  • 27. ______________________________________________________________________________ 23 _____________________________________________________________________________ 9. Analyse de variance à un critère de classification 1,4 12,0 - 10,6 x1 = 10,6 Sur ce tableau les seules valeurs supérieures à la PPDS sont 3,2 et 2,8. Autrement dit, seules les moyennes 2 et 3 d'une part et 2 et 4 d'autre part diffèrent significativement au risque de 5 %. • Deuxième méthode On peut aussi ordonner les moyennes et souligner celles qui ne diffèrent pas significativement : x3 8,8 x4 9,2 x1 10,6 x2 12,0 ---------------------------------------- -------------------------- Remarque. La méthode de la PPDS est critiquée par de nombreux auteurs qui ne la considèrent pas tout à fait fiable quant à l'interprétation de ses résultats notamment en matière de risque d'erreur associé à la conclusion. Sans entrer dans les détails mathématiques, il faut retenir que la méthode de la PPDS est d'autant moins fiable que le nombre de comparaisons de moyennes deux à deux, est élevé. Pour un nombre de moyennes « élevé », on risque de déclarer à tort des différences significatives qui ne le sont pas. Il faut donc éviter d'utiliser la PPDS dans ce cas ou, à la rigueur, l'utiliser avec un risque de 0,01.
  • 28.
  • 29. ______________________________________________________________________________ 25 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification Séquence de travail n° 2 3 h ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION MODÈLES CROISÉS ÉCHANTILLONS DE MÊMES EFFECTIFS 10 Objectifs pédagogiques : A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. de réaliser une analyse de variance à deux critères de classification ; 2. de définir concrètement une interaction entre deux facteurs ; 3. d'interpréter les résultats d'une analyse de variance à deux critères de classification.
  • 30. ______________________________________________________________________________ 26 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification I. POSITION DU PROBLÈME Dans l'analyse de variance à un critère de classification, le principe consistait à diviser la variation totale en deux composantes : • factorielle • résiduelle Cette façon de procéder peut être étendue à deux critères de classification, la variation totale étant alors divisée en plus de deux composantes : l'une résiduelle et les autres liées aux deux critères de classification. Les deux facteurs considérés peuvent être placés sur le même pied (modèles croisés) ou subordonnés l'un à l'autre (modèles hiérarchisés). Dans chaque cas, on doit distinguer un modèle fixe, un modèle aléatoire et un modèle mixte selon que les deux critères de classification sont fixes, aléatoires, ou l'un fixe, l'autre aléatoire. Dans ce qui suivra, nous ne considérerons que la réalisation et l'interprétation de l'analyse de variance à deux critères de classification pour des modèles croisés et des échantillons de mêmes effectifs.
  • 31. ______________________________________________________________________________ 27 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION. ÉCHANTILLONS DE PLUSIEURS OBSERVATIONS 1. Présentation des données et des calculs La présentation des tableaux des données et des calculs se fera en deux parties. 1. Première partie Tableau 1. Analyse de variance à deux critères de classification : réalisation des calculs. i 1 .......... p Totaux j k 1 .......... q .......... 1 .......... q 1 2 . . . n x111 x112 . . . x11n .......... .......... .......... x1q1 x1q2 . . . x1qn .......... .......... .......... xp11 xp12 . . . xp1n .......... .......... .......... xpq1 xpq2 . . . xpqn Xij. X11. .......... X1q. .......... Xp1. .......... Xpq. X...  k=1 n x2 ijk  k=1 n x2 11k ..........  k=1 n x2 1qk ..........  k=1 n x2 p1k ..........  k=1 n x2 pqk T X2 ij./n X2 11./n .......... X2 1q./n .......... X2 p1./n .......... X2 pq./n - SCEij SCE11 .......... SCE1q .......... SCEp1 .......... SCEpq SCEr avec les principales notations et formules suivantes : • Pour les totaux par échantillon : Xij. =  k=1 n xijk pour tout i et tout j • Pour le total général : X... =  i=1 p  j=1 q Xij. • Pour la somme des carrés générale : T =  i=1 p  j=1 q  k=1 n x2 ijk • Pour le terme correctif : C = X2 .../pqn • Pour la somme des carrés des écarts totale : SCEt = T - C • Pour la somme des carrés des écarts par échantillon :
  • 32. ______________________________________________________________________________ 28 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification SCEij =  k=1 n x2 ijk - X2 ij. / n (pour tout i et tout j) • Pour la somme des carrés des écarts résiduelle : SCEr =  i=1 p  j=1 q SCEij La différence [ SCEt - SCEr ] est une somme des carrés des écarts relative à l'ensemble des facteurs contrôlés. Cette différence sera en fait divisée en trois composantes factorielles : - les deux premières liées chacune à l'un des 2 facteurs contrôlés - la troisième à l'interaction des 2 facteurs. Pour cela, il faut dresser un deuxième tableau de la façon suivante : - en reportant le contenu de la ligne Xij. du tableau précédant ; - et en calculant les sommes suivantes : • Xi.. =  j=1 q Xij. (pour tout i) • X.j. =  i=1 p Xij. (pour tout j) 2. Deuxième partie Tableau 2. Analyse de variance à deux critères de classification : Suite de la réalisation des calculs j i 1 ................. q Xi.. 1 . . . p X11. . . . Xp1. ................. . . . ................. X1q. . . . Xpq. X1.. . . . Xp.. X.j. X.1. ................. X.q. X... Dans ces conditions, on aura évidemment :  i=1 p Xi.. =  j=1 q X.j. = X... Les sommes des carrés des écarts liées aux deux facteurs seront : - SCEf = 1 qn  i=1 p X2 i.. - C
  • 33. ______________________________________________________________________________ 29 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification - SCEb = 1 pn  j=1 q X2 .j. - C On obtient alors par différence : SCEfb = SCEt - SCEr - SCEf - SCEb ou encore, l'équation de l'analyse de variance pour deux facteurs contrôlés simultanément : SCEt = SCEf + SCEb + SCEfb + SCEr Cette équation indique donc que la variation totale (SCEt) peut être décomposée en 4 composantes principales : • variation due au facteur a : SCEf ; • variation due au facteur b : SCEb ; • variation due à l'interaction entre les facteurs a et b : SCEfb ; • une somme résiduelle. La notion d'interaction sera précisée plus loin A ces différentes sommes des carrés sont affectés des nombres de degrés de liberté par la relation suivante : pqn - 1 = (p - 1) + (q - 1) + (p - 1) (q - 1) + pq (n - 1) À cette étape, nous pouvons dresser le tableau d'analyse de la variance en calculant les nombres de degrés de liberté, les carrés moyens et les valeurs de Ff , Fb et Fab : Ff = CMf CMr Fb = CMb CMr Ffb = CMfb CMr Tableau 3. Tableau d'analyse de variance Sources de variation ddl SCE CM F Facteur a p - 1 SCEf CMf Ff Facteur b q - 1 SCEb CMb Fb Interaction (p-1) (q-1) SCEfb CMfb Ffb Variation résiduelle pq (n-1) SCEr CMr Totaux pqn - 1 SCEt
  • 34. ______________________________________________________________________________ 30 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification 2. Application pratique Supposons que l'on veuille comparer, chez deux races bovines différentes (critère 1), les effets de 3 régimes alimentaires caractérisés par des teneurs énergétiques différentes (critère 2) : haut (H), bas (B) et moyen (M). Le tableau 1 donne les résultats de la production laitière (en kg de lait/jour) obtenus avec chacun de ces 3 régimes. Pour chaque combinaison entre ces 2 critères, 4 valeurs sont données. Tableau 1. Comparaison des productions laitières (en kg de lait/j), chez 2 races bovines différentes recevant 3 régimes énergétiques différents (H, B ou M). H (j = 1) B (j = 2) M (j = 3) Moyennes ( x i.. ) 33 31 32 Race 1 35 32 34 (i = 1) 36 33 36 43 34 38 36,75 32,50 35,00 34,75 30 25 27 Race 2 30 27 29 (i = 2) 30 30 30 33 30 30 30,75 28,00 29,00 29,25 Moyennes ( x .j. ) 33,75 30,25 32,00 32,00 ( x ...) Ainsi calculées, ces moyennes montrent une influence considérable du facteur " race ". En effet, tous régimes confondus, la race 2 présente une moyenne de 29,25 kg de lait contre 34,75 pour la race 1 soit une différence de 5,5 kg. Calculées par rapport à la moyenne générale, les différences dues à ce premier critère de classification sont : 34,75 - 32,00 = 2,75 29,25 - 32,00 = - 2,75 Vous remarquerez que la somme de ces deux termes est forcément nulle. De la même façon, si on considère le deuxième critère, on aura : 33,75 - 32,00 = 1,75 30,25 - 32,00 = - 1,75 32,00 - 32,00 = 0 la somme de ces 3 termes étant également nulle.
  • 35. ______________________________________________________________________________ 31 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification Considérons à présent l'interaction entre le facteur " race " et le facteur " régime "… Le tableau 2 illustre ce phénomène… Tableau 2. Calcul des termes de l'interaction entre les 2 facteurs H B M Somme Race 1 0,25 -0,50 0,25 0 Race 2 -0,25 0,50 -0,25 0 Somme 0 0 0 0 La première case ombrée (0,25) est obtenue ainsi : 36,75 - 34,75 - 33,75 + 32 = 0,25 De la même façon, la dernière case ombrée (-0,25) est obtenue ainsi : 29 - 29,25 -32 + 32 = - 0,25 et ainsi de suite pour les autres cases… Ces valeurs ainsi obtenues représentent les termes de l'interaction entre les deux facteurs étudiés. Dans le cas présent l'interaction entre le facteur " race " et le facteur " régime " peut être considérée comme étant faible. On le confirmera plus loin par des calculs. Imaginons à présent, des valeurs différentes pour la race 2 avec le régime B (valeurs en grisé dans le tableau ci-dessous). H (j = 1) B (j = 2) M (j = 3) Moyennes ( x i.. ) 33 31 32 race 1 35 32 34 (i = 1) 36 33 36 43 34 38 36,75 32,50 35,00 34,75 30 25,5 27 race 2 30 28,5 29 (i = 2) 30 24,5 30 33 27,5 30 30,75 26,5 29,00 28,75 Moyennes ( x .j. ) 33,75 29,50 32,00 31,75 ( x ...) Avec de telles valeurs, tous les termes de l'interaction seraient exactement nuls. Exemples Race 1, régime H : 36,75 - 34,75 -33,75 + 31,75 = 0 Race 2, régime B : 26,5 - 28,75 - 29,50 + 31,75 = 0 etc.
  • 36. ______________________________________________________________________________ 32 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification Ce cas particulier traduit l'absence totale d'interaction entre les 2 facteurs. Concrètement cela signifie que les 3 types de régimes donnent exactement la même différence entre les 2 races. Cet écart s'obtient tout simplement par différence entre les valeurs moyennes obtenues pour chaque race. Dans notre cas, ce sera : 36,75 - 30,75 (colonne 1) = 32,50 - 26,50 (colonne 2) = 35,00 - 29,00 (colonne 3) = 6 Bien évidemment, cette valeur peut être également obtenue directement par la différence entre x 1.. ( soit 34,75 pour la race 1) et x 2.. (soit 28,75 pour la race 2). En effet : 34,75 - 28,75 = 6 Vous remarquerez aussi que l'absence d'interaction signifie aussi que les différences entre les races sont indépendantes des régimes. Exemples : 36,75 - 32,50 = 30,75 - 26,50 = 4,25 pour les régimes H et B 36,75 - 35,00 = 30,75 - 29,00 = 1,75 pour les régimes H et M etc. En revanche, la présence de termes d'interaction non nuls signifie qu'il existe une " dépendance " entre les 2 facteurs étudiés. Reprenons à présent les données du tableau 1 et effectuons l'analyse de variance… Répétitions (k) Race 1 (i = 1) Race 2 (i = 2) Totaux H (j = 1) B (j = 2) M (j = 3) H (j = 1) B (j = 2) M (j = 3) 1 33 31 32 30 25 27 2 35 32 34 30 27 29 3 36 33 36 30 30 30 4 43 34 38 33 30 30 Moyenne 36,8 32,5 35,0 30,8 28,0 29,0 - Xij. 147 130 140 123 112 116 X... = 768  k=1 4 x2 ijk 5459 4230 4920 3789 3154 3370 T = 24922 X2 ij./4 5402,25 4225 4900 3782,25 3136 3364 - SCEij 56,8 5,0 20,0 6,8 18,0 6,0 SCEr = 112,5
  • 37. ______________________________________________________________________________ 33 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification H (j=1) B (j=2) M (j=3) Xi.. Race 1 (i = 1) 147 130 140 417 Race 2 (i = 2) 123 112 116 351 270 242 256 768 • Terme correctif : C = X2 .../pqn = 24576 • Somme des carrés des écarts totale : SCEt = T - C = 346,0 • Somme des carrés des écarts résiduelle : SCEr =  i=1 p  j=1 q SCEij = 112,5 • SCEf = (4172 + 3512)/12 - 24576 = 181,5 • SCEb = (2702 + 2422 + 2562) / 8 - 24576 = 49,0 • SCEfb = 346,0 - 112,5 - 181,5 - 49,0 = 3,0 Tableau de l'analyse de variance Sources de variation ddl SCE CM Fobs Ftable Race 1 181,5 181,5 29,04*** F1;18;0,05 = 4,41 Régime 2 49,0 24,5 3,92* F2;18;0,05 = 3,55 Interaction 2 3,00 1,5 0,24 F2;18;0,05 = 3,55 Variance résiduelle 18 112,5 6,25 Totaux 23 346,0 Conclusions • il existe un effet race très important (Fobs >>> Ftable) ; • il existe un effet régime mais faible (Fobs > Ftable); • il n'y a pas d'interaction entre la race et le régime (Fobs < Ftable). 3. Exécution de l'analyse de variance par le logiciel EXCEL Le problème ci-dessus peut être évidemment traité par un logiciel de statistique. Par exemple, pour EXCEL, les données doivent être introduites ainsi : Tableau de présentation des données H M B race 1 33 31 32 35 32 34 36 33 36 43 34 38 race 2 30 25 27 30 27 29 30 30 30 33 30 30
  • 38. ______________________________________________________________________________ 34 _____________________________________________________________________________ 10. Analyse de variance à deux critères de classification En utilisant l'« UTILITAIRE D'ANALYSE » du menu « OUTILS », la sortie EXCEL sera présentée selon les tableaux ci-dessous. Tableaux de l'édition des résultats de l'analyse par EXCEL ANALYSE DE VARIANCE : DEUX FACTEURS AVEC RÉPÉTITION D'EXPÉRIENCE RAPPORT DÉTAILLE H M B Total race 1 Nombre d'échantillons 4 4 4 12 Somme 147 130 140 417 Moyenne 36,75 32,5 35 34,75 Variance 18,91666667 1,666666667 6,666666667 10,75 race 2 Nombre d'échantillons 4 4 4 12 Somme 123 112 116 351 Moyenne 30,75 28 29 29,25 Variance 2,25 6 2 4,204545455 Total Nombre d'échantillons 8 8 8 Somme 270 242 256 Moyenne 33,75 30,25 32 Variance 19,35714286 9,071428571 14 ANALYSE DE VARIANCE Source des variations Somme des carrés Degré de liberté Moyenne des carrés F Probabilité Valeur critique pour F Échantillon 181,5 1 181,5 29,04 4,03299E-05 4,413863053 Colonnes 49 2 24,5 3,92 0,038620684 3,55456109 Interaction 3 2 1,5 0,24 0,789105089 3,55456109 A l'intérieur du groupe 112,5 18 6,25 Total 346 23 Vous remarquerez qu'on retrouve dans le tableau de l'analyse de variance, les mêmes résultats effectués précédemment. • La dernière colonne indique la valeur critique pour F, c'est-à-dire la valeur au-dessus de laquelle on considère la différence comme significative ; autrement dit, il s'agit du Ftable donné par les tables V-A ou VI-A pour un risque d'erreur donné. • La colonne « probabilité » indique le risque d'erreur associé à notre décision d'acceptation ou de rejet de l'hypothèse nulle.
  • 39. ______________________________________________________________________________ 35 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Séquence de travail n° 3 6 h CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE 11 Objectifs pédagogiques : A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. d'expliquer les objectifs de l'analyse de régression et de corrélation ; 2. d'exposer le principe général de l'analyse de corrélation ; 3. d'établir un diagramme de dispersion; 4. d'estimer la liaison entre deux caractères par une équation de régression ; 5. de calculer une erreur type d'estimation et d'établir un intervalle de prédiction ; 6. de calculer et d'interpréter un coefficient de détermination et de corrélation.
  • 40. ______________________________________________________________________________ 36 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple I. POSITION DU PROBLÈME Il est fréquent, en biologie ou en agronomie, de découvrir une relation très forte entre deux ou plusieurs variables : Exemples : - Relation entre la taille et le poids d'un animal. - Relation entre la production laitière d'une vache et le stade de lactation - Relation entre la production laitière et la composition du lait. - Relation entre l'administration de doses d'un produit et son effet biologique ou physiologique sur l'organisme. etc. La régression et la corrélation sont deux outils qui servent à étudier et à mesurer la relation statistique existant entre deux - ou plus de deux - variables. On se limitera, pour notre part, à deux variables, c'est-à-dire au cas de la régression et corrélation simples. Cependant, il faut savoir que le problème ne change pas fondamentalement lorsqu'on passe à trois variables ou plus (corrélation et régression multiples). 1. Analyse de régression et de corrélation La première et principale étape d'une analyse de régression consiste à déduire, en se basant sur les données échantillonnales, une équation d'estimation, qui décrit la nature fonctionnelle de la relation entre les variables. L'équation d'estimation (ou de régression) servira à estimer la valeur d'une des variables à partir de la valeur prise par l'autre variable. La variable dépendante, ou à prédire, est la variable qui doit être estimée. Cette variable est placée en général sur l'axe des Y (ordonnée). La variable indépendante ou prédictrice (notée X et portée sur l'axe des abscisses) est censée exercer une influence sur la variable dépendante Y. Dans l'analyse de régression, on ne se limite pas à établir une équation de la variable dépendante. On doit déterminer aussi le degré de fiabilité des prédictions obtenues à l'aide de cette équation. Autrement dit l'analyse de régression pose la question suivante : " De quel type est la relation entre les variables ?" Le but visé dans l'analyse de corrélation est de mesurer le degré d'association entre les variables. Par conséquent, il s'agit de répondre à la question : "Quelle est la force de la relation décrite par l'analyse de régression ?".
  • 41. ______________________________________________________________________________ 37 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple On devine alors que certaines situations ne se prêtent qu'à une analyse de régression tandis que d'autres ne se prêtent qu'à une analyse de corrélation. Cependant, en biologie, la plupart des phénomènes étudiés se prêtent à une analyse conjointe de régression et de corrélation. En réalité, l'expression "analyse de corrélation" englobe souvent les deux éléments, régression et corrélation. 2. La relation de causalité en statistique Le seul fait que deux variables soient reliées entre elles, au sens statistique du terme, n'est pas suffisant pour conclure à l'existence d'une relation de cause à effet. En effet, il existe plusieurs explications du fait que deux séries de données varient en même temps. Il est logique alors d'interpréter les mesures de corrélation dans le sens d'une relation de cause à effet au moins dans certaines situations. Si une relation existe entre deux variables, il y aura corrélation entre elles mais la seule existence d'une corrélation statistique n'est pas une preuve de causalité. Les relations de causalité peuvent être classées en deux catégories : la cause à effet et la cause commune. La relation de cause à effet existe si la variation d'une variable est attribuable à la variation de l'autre variable. Exemple : variation de température dans une réaction chimique et variation du résultat de cette réaction. Un facteur commun peut influencer conjointement deux variables. Exemple : variation de la croissance et du poids d'un animal et variation de l'état nutritionnel de cet animal. En fait, il s'agit, en régression et en corrélation, de n’étudier que les relations logiques entre les variables dont on veut analyser le comportement.
  • 42. ______________________________________________________________________________ 38 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple II. ANALYSE DE RÉGRESSION 1. Diagramme de dispersion Étude d'un exemple de régression linéaire simple On voudrait savoir s'il existe une relation entre les notes obtenues en contrôle continu (x) et celles obtenues à un concours national (y) pour 8 étudiants. Le tableau suivant résume ces notes : Tableau 1. Étudiants Notes au concours (y) /100 Notes du contrôle continu (x) / 20 A 42 9 B 70 14 C 27 5 D 63 12 E 58 11 F 38 7 G 62 11 H 76 15 Avant tout, il faudrait porter sur un graphique - appelé diagramme de dispersion - les données disponibles. Sur ce graphique, chaque point représente un couple de valeurs observées de la variable dépendante et de la variable indépendante. Diagramme de dispersion C F y = a + bx droite de regression 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 notes au contrôle continu ( x ) notesauconcours(y) Ce diagramme de dispersion remplit deux rôles :
  • 43. ______________________________________________________________________________ 39 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple - il aide à déterminer s'il existe une relation entre les deux variables - il aide aussi à déterminer le type d'équation appropriée pour décrire la relation. Si l'on prend pour acquis que les notes du contrôle continu reflètent bien le niveau de l'étudiant, on peut raisonnablement prétendre que les étudiants ayant obtenu les meilleures notes à ce contrôle seront les meilleurs au concours. Les données associées à un étudiant représentent un point du diagramme ci-dessus. On remarque alors que les 8 points semblent se rapprocher d'une même droite. Dans ce cas, la relation est positive (on dit aussi directe) puisque les 2 variables évoluent dans le même sens. Il existe bien entendu des situations où la relation est négative (ou inverse). La relation entre les variables n'est pas toujours linéaire comme le montre la figure ci-dessous représentant les différents diagrammes de dispersion rencontrés. Enfin, il est possible qu'aucune relation n'existe entre les variables (cas g de la figure ci- dessous). Les droites représentées à la figure ci-dessous décrivent la relation entre les variables. Ces droites sont appelées droites de régression (ou d'estimation) . ° ° ° ° ° ° ° ° ° °° ° ° °° ° °° °° ° ° ° ° °° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° X Y Y X a- Relation linéaire positive b-Relation linéaire postive avec une plus grande dispersion ° °° ° ° ° ° ° ° ° °° ° ° ° ° ° ° ° X Y Y X X°° ° °°° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Y °° ° ° ° ° ° ° ° ° ° ° ° °° ° ° ° ° ° ° ° ° ° c- Relation linéaire négative d- Relation curviligne positive e- Relation curviligne négative ° ° ° °° ° ° ° ° ° ° ° °°° ° ° ° ° ° ° °° ° ° ° ° ° ° ° ° ° ° ° °° ° °° ° ° ° ° ° ° ° °° ° °° ° ° ° ° ° ° °°° ° °° ° ° °° ° ° ° °° °°° ° ° ° ° ° Y X Y X f- Relation curviligne g- Absence de relation Différents diagrammes de dispersion
  • 44. ______________________________________________________________________________ 40 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple 2. Notion de covariance Soit une population dans laquelle on étudie simultanément les deux variables aléatoires X et Y avec E (X) =  et E(Y) = . Par définition, Cov (X , Y) = E [ (X - ) (Y - )] Si nous utilisons un échantillon de n individus, pour lequel on obtient les moyennes x et y , l'estimation de Cov (X,Y) sera : Cov (x,y) = 1 n  (x - x ) (y - y ) autrement dit, la moyenne des produits des écarts (S.P.E) que l'on écrit : Cov ( x , y) = S.P.E n =  xy -  x .  y n n =  xy - n x . y n Exemple Calculer la covariance des deux distributions suivantes : (x, y) ; (x',y) x y xy x' y x'y 6 30 180 12 30 180 9 49 441 10 49 441 3 18 54 8 18 54 8 42 336 7 42 336 7 39 273 9 39 273 5 25 125 14 25 125 8 41 328 8 41 328 10 52 520 10 52 520 n 8 8 8 8  56 296 2257 78 296 2837 Cov (x,y) =  xy -  x .  y n n = 23,12 Cov (x',y) =  x'y -  x' .  y n n = - 6,125 Considérons à présent le nuage de points des valeurs observées de x et y et les droites x = x et y = y . Ces deux droites partagent le plan en 4 secteurs (figure ci-dessous) : • secteur I dans lequel x > x et y > y ; donc tout produit (x - x ) (y - y ) > 0 ; • secteur II dans lequel x < x et y > y ; donc tout produit (x - x ) (y - y ) < 0 ;
  • 45. ______________________________________________________________________________ 41 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple • secteur III avec (x - x ) (y - y ) > 0 ; • secteur IV avec (x - x ) (y - y ) < 0 . II I IVIII x y y x La covariance sera positive ou négative selon que le nuage de points sera situé surtout dans les secteurs I et III ou surtout dans les secteurs II et IV. Elle sera d'autant plus élevée en valeur absolue que le nuage de points sera plus aplati autour de son grand axe ; elle sera nulle lorsque les points tendent à se répartir uniformément dans les 4 secteurs (nuage en forme de cercle ou de « patate ») ou si le nuage est allongé et son grand axe parallèle à l'un des axes. La valeur absolue de la covariance et son signe, sont des indicateurs de la liaison existant entre deux caractères : • lorsque la covariance est positive et élevée : les caractères sont liés et varient dans le même sens ; on parle de liaison positive ; • lorsque la covariance est négative et élevée : les caractères sont liés et varient en sens inverse ; on parle de liaison négative ; • lorsque la covariance est voisine de 0 : les caractères sont indépendants ; il n'y pas de liaison entre les caractères. 3. Droite de régression L'équation utilisée pour ajuster la droite de régression aux données du diagramme de dispersion est appelée équation de régression ou d'estimation . Rappelons que nous nous limiterons à l'étude de la régression linéaire dans le cas d'une variable prédictrice ; c'est la régression linéaire simple et la fonction obtenue est l'équation
  • 46. ______________________________________________________________________________ 42 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple d'une droite : la droite de régression de y sur x ( ou de y en x ) ou droite des moindres carrés . Si on considère le nuage de points représentant l'ensemble des données permettant d'obtenir l'équation de la droite de régression, la droite passe approximativement « au milieu » du nuage de points. L'équation de régression sera : y^ = a + bx où : a = ordonnée à l'origine (la valeur de y^ pour x = 0) b = pente de la droite de régression (la variation de y^ pour une variation d'une unité de x) x = valeur de la variable indépendante. y^ = valeur calculée de la variable dépendante Attention à la confusion ! certains auteurs utilisent l'équation y^ = ax + b Ainsi, la droite de régression et la droite de tendance sont toutes les deux décrites par l'équation générale de la droite; cependant la similitude entre ces deux droites ne s'arrête pas là. En effet, la droite de régression (tout comme la droite de tendance et la moyenne arithmétique) possède les deux propriétés suivantes :   ( y - y^ ) = 0 et  ( y - y^ )2 = valeur minimale Autrement dit, l'ajustement de la droite de régression aux données du diagramme de dispersion sera tel que les écarts positifs observés entre les points situés au-dessus de la droite et la droite annuleront les écarts négatifs observés entre les points situés au-dessous de la droite et celle-ci; la somme des écarts sera alors égale à 0 (figure ci-dessous).
  • 47. ______________________________________________________________________________ 43 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple y = a + bx i x y yi xi y = a + bx Les calculs reliés à l'analyse de régression et de corrélation seront simplifiés si les formules précédentes sont exprimées en termes d'écarts aux moyennes des variables x et y, c'est-à- dire d'écarts x et y . Dans ces conditions, les valeurs de a et de b de l'équation de régression sont obtenues à l'aide des formules suivantes : b =  (x - x )  (y - y )  (x - x )2 et a = y - b x avec, b =  (xi - x ) (yi - y )  (xi - x )2 =  xi yi -  xi .  yi n  xi 2 - [ xi]2 n =  xi yi - n x y  xi 2 - n x 2 En effet,  (xi - x )2 =  xi 2 - 2 x  xi + x  xi =  xi 2 - n x 2 et,  (xi - x ) (yi - y ) =  xi yi - x  yi - y  xi + n x y =  xi yi - x . n y - y . n x + n x y =  xi yi - n x y
  • 48. ______________________________________________________________________________ 44 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple et donc, b = n . Cov ( x,y ) n . sx 2 = Cov ( x,y) sx 2 où sx 2 représente la variance calculée sur l'échantillon. b est appelé coefficient de régression de y sur x Ainsi, l'équation de la droite de régression de y sur x peut s'écrire : y^ - y = b ( x - x ) Appliquons ces formules aux données du tableau 1. Le tableau 2 résume l'essentiel des étapes nécessaires au calcul de a et b. Tableau 2. Étudiants Notes au concours ( y ) Notes du contrôle continu ( x ) (y - y ) (x- x ) (y - y ) (x- x ) (x- x )2 (y - y )2 A 42 9 -12,50 -1,50 18,75 2,25 156,25 B 70 14 15,50 3,50 54,25 12,25 240,25 C 27 5 -27,50 -5,50 151,25 30,25 756,25 D 63 12 8,50 1,50 12,75 2,25 72,25 E 58 11 3,50 0,50 1,75 0,25 12,25 F 38 7 -16,50 -3,50 57,75 12,25 272,25 G 62 11 7,50 0,50 3,75 0,25 56,25 H 76 15 21,50 4,50 96,75 20,25 462,25 n = 8 436 84 0 0 397 80 2028 y =  y/n = 436/8 = 54,5 x =  x/n = 84/8 = 10,5 Les valeurs de a et b sont calculées ainsi :
  • 49. ______________________________________________________________________________ 45 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple b =  (y - y ) (x- x )  (x- x )2 = 397 80 = 4,96 a = y - b x = 54,5 - (4,96) (10,5) = 2,39 L'équation de régression qui décrit la relation entre les notes obtenues au concours et celles obtenues au contrôle continu est donc : y^ = 2,39 + 4,96 x 4. Estimation à l'aide de l'équation de régression L'équation de régression est utilisée principalement pour estimer la valeur de la variable dépendante pour une valeur donnée de la variable indépendante. Exemple. Supposons qu'un étudiant ait 6 de moyenne au contrôle continu. On peut "raisonnablement" estimer ou prévoir sa note au concours simplement en substituant 6 à x dans l'équation de régression. L'estimation désirée sera donc : y^ = 2,39 + 4,96 . (6) = 32,15 Cette estimation se retrouve à la figure ci-dessous. y = 2,39 + 4,96x droite de régression 0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 notes au contrôle continu ( x ) notesauconcours(y) 32,15
  • 50. ______________________________________________________________________________ 46 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple III. L'ERREUR TYPE DE L'ESTIMATION Du fait que l'on a estimé y en fonction de x à l'aide de l'équation de régression, il est logique de se demander à quel point cette estimation est fiable. Considérons les deux exemples ci-dessous : ° ° ° ° ° ° °° ° ° °° °° ° ° ° °° ° ° ° °° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° X Y Y X ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° ° ° ° °° ° ° ° (a) (b) Deux diagrammes de dispersion présentant des degrés de dispersion différents Lorsque les points du diagramme de dispersion sont peu éloignés de la droite de régression (Fig. a), on peut logiquement présumer que l'estimation s'appuyant sur cette relation sera probablement plus fiable que celle qui aurait été obtenue à partir d'une droite comme celle de la figure b où on remarque que l'éparpillement est beaucoup plus grand. D'où l'intérêt d'une mesure de cet éparpillement ou dispersion des points autour de la droite de régression. Cette mesure nous permettra certainement de mieux juger la fiabilité des estimations obtenues à partir de la droite. Comment obtenir cette mesure ? D'abord, il est logique de penser que plus cette mesure est petite, plus la prévision sera fiable. On donne le nom d' erreur type de l'estimation à cette mesure qu'on symbolise par Ey.x. Elle sera donc utilisée afin de quantifier le degré de variation (ou erreur) possible associée à une estimation obtenue à partir de la droite de régression. 1. Calcul de l'erreur type de l'estimation : Ey.x L'erreur type de l'estimation se calcule ainsi : Ey.x =  (y - y^)2 n - 2 Le tableau 3 résume l'essentiel des étapes permettant de calculer Ey.x.
  • 51. ______________________________________________________________________________ 47 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Tableau 3 Notes au concours (y) Notes du contrôle continu (x) (y - y ) (x- x ) (y - y ) (x- x ) (x- x )2 (y - y )2 y^ (y - y^ ) (y - y^ )2 42 9 -12,50 -1,50 18,75 2,25 156,25 47,06 -5,06 25,57 70 14 15,50 3,50 54,25 12,25 240,25 71,87 -1,87 3,49 27 5 -27,50 -5,50 151,25 30,25 756,25 27,21 -0,21 0,04 63 12 8,50 1,50 12,75 2,25 72,25 61,94 1,06 1,12 58 11 3,50 0,50 1,75 0,25 12,25 56,98 1,02 1,04 38 7 -16,50 -3,50 57,75 12,25 272,25 37,13 0,87 0,75 62 11 7,50 0,50 3,75 0,25 56,25 56,98 5,02 25,19 76 15 21,50 4,50 96,75 20,25 462,25 76,83 -0,83 0,69 436 84 397 80 2028 436* 57,887 *La somme des y est égale à la somme des y^ . Il en sera toujours ainsi puisque  (y - y^ ) = 0. Ey.x =  (y - y^)2 n-2 = 57,887 6 = 9,65 = 3,11 On remarquera que la valeur de Ey.x s'exprime dans les mêmes unités que la variable y. Bien que la formule Ey.x =  (y - y^)2 n-2 soit très utile pour expliquer l'erreur type de l'estimation, la formule suivante s'applique cependant plus facilement : Ey.x =  (y - y )2 - b  (x - x ) (y - y ) n - 2 Toutes les valeurs de cette formule se retrouvent dans le tableau 2. Appliquons.... Ey.x =  (y - y )2 - b  (x - x ) (y - y ) n - 2 = 2028 - (4,96)(397) 8-2 = 3,11 2. Intervalles de prédiction Rappelons que l'écart type est une mesure de la dispersion autour de la moyenne. Dans le chapitre 3, nous avons vu que dans une distribution normale : - 68, 3 % des valeurs centrales de la distribution se situent à moins d'un écart type de chaque côté de la moyenne - 95,4 % des valeurs se situent à une distance maximale de deux écarts types de la moyenne
  • 52. ______________________________________________________________________________ 48 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple - et qu'enfin 99,7 % des valeurs sont à moins de trois écarts types de cette moyenne. Signalons par ailleurs la similitude des calculs entre l'écart type et l'erreur type. Il faut savoir que ces deux mesures se ressemblent aussi quant à leur interprétation. En effet, si les valeurs de y sont distribuées « normalement » autour de la droite de régression, on peut supposer que 68 % environ des points du diagramme de dispersion se situeront à moins d'un écart type de l'estimation au-dessus ou en-dessous de la droite de régression (Figure ci-dessous) x1 y1 x intervalle de prédiction y1± 2 (Ey.x) Interprétation de l'erreur type de l'estimation ^ y { { + 3 Ey.x - 3 Ey.x  Cet intervalle ± Ey.x est représenté, sur cette figure, par les deux droites en pointillés les plus proches de la droite de régression. L'intervalle ± 3 Ey.x englobe presque tous les points du diagramme de dispersion. Sur cette même figure, l'estimation y1 a été obtenue par le remplacement de x par x1 (une valeur donnée) dans l'équation de régression (y1 = a + bx1). y1 est une estimation ponctuelle et, compte tenu de la dispersion autour de la droite de régression sur la figure ci-dessus, il est peu probable que cette estimation y1 de la valeur y pour une valeur x = x1 soit rigoureusement exacte. La fiabilité de cette estimation ponctuelle dépend largement de la grandeur de l'erreur type de l'estimation. On sait que plus cette erreur type est petite et plus il est probable que l'estimation ponctuelle soit voisine de la véritable valeur de la variable dépendante.
  • 53. ______________________________________________________________________________ 49 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Autrement dit, la connaissance de l'erreur type de l'estimation permet d'améliorer la méthode d'estimation. Donc, plutôt que de considérer l'estimation ponctuelle, on peut calculer un intervalle de prédiction auquel sera attachée une probabilité. Cet intervalle de prédiction sera : y^ ±  ( Ey.x )  étant la valeur de l'écart réduit. L'intervalle y1 ± 2 (Ey.x) représenté à la figure précédente est un intervalle de prédiction au niveau de 95,4 %. Reprenons notre exemple initial… L'estimation ponctuelle calculée était de 32,15 (note obtenue au concours) pour un étudiant ayant obtenu 6 en contrôle continu. Nous avons également évalué l'erreur type de l'estimation à 3,11. En supposant que, dans cet exemple, les points se distribuent normalement autour de la droite de régression, on peut établir un intervalle de prédiction à 95 % de cette façon : Intervalle = y^ ±  (Ey.x) = 32,15 ± (1,96) (3,11) = 32,15 ± 6,09 = 26,06 à 38,24 Que signifie concrètement cet intervalle ? Cela veut dire que 95 % des étudiants qui auront obtenu la note 6 au contrôle continu auront une note située entre 26,06 et 38,24 au concours.
  • 54. ______________________________________________________________________________ 50 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple IV. ANALYSE DE CORRÉLATION Il nous reste maintenant à savoir comment juger le degré d'association ou de corrélation existant entre les variables ou, en d'autres termes, juger la qualité de l'ajustement des points par la droite. 1. Le coefficient de détermination = r2 Examinons d'abord les différents termes et concepts illustrés à la figure ci-dessous. y y y x point du diagramme de dispersion( y ) ecart expliqué : ecart inexpliqué :y - yy -Ecart total = ^y = a + b x ^y ^y - y Illustration des concepts d'écart total, d'écart expliqué et d'écart inexpliqué Supposons que nous nous servions de y , la moyenne des valeurs observées de la variable dépendante, pour prévoir la valeur de y. Dans ce cas, on s'attend à ce que l'écart entre notre estimation et la valeur de y soit considérable. Un point particulier (y) a été choisi dans la figure ci-dessus, pour montrer l'importance de l'écart total qui existe, dans cet exemple, entre la valeur observée de y et y . En revanche, en utilisant la droite de régression pour estimer ou prévoir la valeur de la variable dépendante, il est possible de réduire l'écart probable entre la valeur de y et la valeur estimée de y. On remarque sur cette même figure que la droite de régression est plus rapprochée de la majorité des points du diagramme que ne l'est y . Donc, pour le point unique (y) de cette figure, la droite de régression explique en partie l'écart entre y et y . Autrement dit, l'écart expliqué par la droite est y^ - y . Mais, la droite de régression n'explique pas entièrement l'écart entre y et y , puisqu'il reste à expliquer l'écart entre y et y^ .
  • 55. ______________________________________________________________________________ 51 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Nous avons donc : Écart total = Écart expliqué + Écart inexpliqué y - y (y^ - y ) (y - y^ ) ou, en termes de « variations », Variation totale = Variation expliquée + Variation inexpliquée  (y - y )2 (y^ - y )2 (y - y^ )2 Avec ces considérations, le coefficient de détermination ( r2 ) est une mesure de la proportion de la variation dans la variable y qui s'explique par la présence de la variable x (ou par la droite de régression), c'est-à-dire : r2 = Variation expliquée Variation totale où la variation totale est  (y - y )2 (revoir tableau 2) et où la variation expliquée  (y^ - y )2 est donnée par b  (x - x ) (y - y ). Donc, r2 = b . [ (x - x ) (y - y )]  (y - y )2 Dans notre exemple (voir tableau 2) r2 = b . [ (x - x ) (y - y )]  (y - y )2 = (4,96) (397) 2028 = 0,971 Que représente alors ce coefficient de détermination r2 ? Il signifie que 97,1 % de la variation dans la variable y, est expliqué ou attribué à la variation dans la variable x.
  • 56. ______________________________________________________________________________ 52 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Dans notre exemple, on peut dire que 97,1 % de la variation dans les notes obtenues au concours, est expliqué par la variation des résultats au contrôle continu. On comprend alors que r2 ne peut être supérieur à 1, puisque c'est une probabilité et que plus la valeur de ce r2 est grande et plus celle de Ey.x est petite. 2. Le coefficient de corrélation C'est la racine carrée de r2 tout simplement. r = r2 Dans notre exemple, r = 0,971 = 0,985 Le coefficient de corrélation est moins utile que r2 parce qu'il représente une mesure assez abstraite qui ne se prête pas à une interprétation précise. r nous donne simplement une idée de l'importance de la liaison linéaire entre les variables x et y et sa valeur se situera toujours entre -1 et +1. * Si r = 0 : il y a absence de corrélation linéaire entre les deux variables. * r = 1 ou -1 : il y a une corrélation linéaire parfaite (positive ou négative) entre x et y. 1. Méthode pratique de calcul du coefficient de corrélation Le coefficient de corrélation peut également être défini ainsi : r = Cov ( x , y ) sx . sy où, Cov (x,y) représente la covariance du couple (x,y) qui a été déjà définie par : Cov (x,y) = 1 n xi - x ) (yi - y ) et où sx et sy sont les deux écarts types calculés sur les échantillons : sx =  nixi 2 n - x 2 sy =  niyi 2 n - y 2 Nous pouvons aussi écrire : r = Erreur !;Erreur !2 . Erreur ! (yi - Erreur !)2)) = Erreur !;Erreur !2 .  (yi - y )2)) = S.P.E SCEx . SCEy
  • 57. ______________________________________________________________________________ 53 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple ou encore, r =  xiyi -  xi  yi n [ xi 2 - ( xi ) 2 n ] [ yi 2 - ( yi ) 2 n ] = Cov (x , y ) sx sy 2. Propriétés du coefficient de corrélation Rappelons que le coefficient de corrélation est un indicateur de liaison linéaire et que la corrélation est une technique qui est utilisée pour établir une relation de cause à effet. Le coefficient de corrélation mesure la « netteté » de la liaison existant entre les deux séries d'observations, à condition que cette liaison soit linéaire ou approximativement linéaire. Dans le cas contraire, le coefficient de corrélation ne présente aucun intérêt. Le coefficient de corrélation a le même signe que la covariance ; il est nul quand la covariance est nulle. Le coefficient de détermination n'indique pas la nature de la relation qui unit les deux variables ; il n'indique que la part de la variation qui pourrait être expliquée si une relation de causalité existait. Il est dangereux d'interpréter le coefficient de corrélation comme un pourcentage. En effet, si r = 0,6, cela ne veut pas dire que 60 % de la variation de y est expliquée ; en fait, pour r = 0,6 nous avons r2 = 0,36 ; autrement dit seulement 36 % de la variation est expliquée.
  • 58. ______________________________________________________________________________ 54 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple V. TRANSFORMÉE DE FISHER 1. Position du problème Nous avons étudié les problèmes relatifs à la corrélation en introduisant la notion de coefficient de corrélation calculé sur un échantillon de taille n. A chaque échantillon prélevé, on faisait correspondre une valeur de r. Par analogie avec les problèmes d'échantillonnage d'une moyenne ou d'une fréquence, on peut envisager ici la distribution d'échantillonnage de r. En effet, si l'expérience pouvait être effectuée sur la totalité des individus de la population considérée, nous obtiendrons la vraie valeur de r que nous désignerons par  (rhô). Autrement dit, le coefficient de corrélation r, calculé à partir d'observations faites sur l'échantillon ne constitue qu'une estimation. Lorsque le nombre de mesures est très élevé, il peut arriver qu'une valeur de r soit le signe d'une liaison, lâche peut être, mais réelle entre les variables. Si, au contraire, le nombre de mesures est peu élevé, il peut arriver qu'une valeur de r, même proche de ± 1 soit due au seul hasard de l'échantillonnage, et ne révèle aucune liaison significative. Il est donc indispensable de savoir avec quelle précision le coefficient de corrélation a été estimé, et plus particulièrement de pouvoir tester par rapport à 0 la valeur r trouvée. Nous procéderons alors au même type de raisonnement que celui relatif à l'estimation d'une moyenne d'une population par un intervalle de confiance. Cependant, nous distinguerons deux cas selon la valeur du coefficient de corrélation : • A partir d'un échantillon, r sera voisin de 0 ; nous testerons ce résultat pour savoir si nous pouvons conclure à l'indépendance des deux variables x et y. • Dans le cas où r ≠ 0, nous déterminerons un intervalle de confiance de r. 2. Premier cas : r = 0 Dans ce cas, la quantité : tobs = r  n - 2 1 - r2 obéit à une loi de Student à  = n - 2 degrés de liberté. Avec un ddl =  et un risque d'erreur  choisi, nous déterminons, dans la table de Student t. • Si tobs < ttable, on accepte l'hypothèse nulle Ho :  = 0 ; • Si tobs ≥ ttable, on rejette l'hypothèse nulle Ho ; dans ce cas  ≠ 0.
  • 59. ______________________________________________________________________________ 55 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Exemple 1 La valeur d'un coefficient de corrélation, calculé sur un échantillon de taille 20, est égal à 0,24. Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. Autrement dit les deux variables x et y sont-elles indépendantes au risque  de première espèce ? ******** tobs = r  n - 2 1 - r2 = 0,24  20 - 2 1 - 0,242 = 1,049 Pour  = 0,05 et ddl = 18, ttable = 2,101 tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0 Exemple 2 Un échantillon de taille 25 a donné r = 0,32 Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. ( = 0,05) tobs = r  n - 2 1 - r2 = 0,32  25 - 2 1 - 0,322 = 1,32 Pour  = 0,05 et ddl = 23, ttable = 2,069 tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0 Considérons à présent, le même échantillon mais avec r = 0,68 tobs = 0,68  25 - 2 1 - 0,682 = 4,45 Dans ce cas, nous devons rejeter Ho. 3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle On définit dans cette situation, une nouvelle variable appelée transformée de Fisher par : Z = 1 2 Log [ 1 + r 1 - r ]
  • 60. ______________________________________________________________________________ 56 _____________________________________________________________________________ 11. Corrélation et régression linéaire simple Cette variable Z obéit à une loi normale de moyenne m = 1/2 Log [ 1 +  1 -  ] , et d'écart type Z = 1 n - 3 On peut déterminer les limites de  avec un risque . La valeur de Z est donnée par la table de la transformée de Fisher (Table VII en fin de livret) dont un extrait est présenté ci-dessous : Z 0,00 0,01 0,02 0,03 0,04 0,0 0,00000 0,01000 0,02000 0,02999 0,03998 0,1 0,09967 0,10956 0,11943 0,12927 0,13909 0,2 0,19738 0,20697 0,21652 0,22603 0,23550 0,3 0,29131 0,30044 0,30951 0,31852 0,32748 0,4 0,37995 0,38847 0,39693 0,40532 0,41364 0,5 0,46212 0,46995 0,47770 0,48538 0,49299 0,6 0,53705 0,54413 0,55113 0,55805 0,56490 0,7 0,60437 0,61068 0,61691 0,62307 0,62915 0,8 0,66404 0,66959 0,67507 0,68048 0,68581 0,9 0,71630 0,72113 0,72590 0,73059 0,73522 Dans l'exemple 2 ci-dessus, avec r = 0,68, l a table VII donne 0,8 et 0,03 c'est-à-dire Z = 0,83 (valeurs en grisé ci-dessus). Dans ces conditions, les limites de confiance à 0,95 de mZ sont : Z -   1 n - 3 et Z +   1 n - 3  étant donné par la table de l'écart réduit Dans notre exemple, n = 25 ; = 1,96 ; Z = 0,83 L'intervalle de confiance de  sera donc : 0,83 - 1,96  1 25 - 3 <  < 0,83 + 1,96  1 25 - 3 ou 0,3885 <  < 0,8483