Analyse de variance et correlation

Notions essentielles de
statistique
Livret 4/4
La méthode statistique
Analyse de variance
Corrélation et régression linéaire
Youcef Elmeddah

________________________________________________________________________________
I _______________________________________________________________________________
STATISTIQUE
TABLE DES MATIÈRES
AVERTISSEMENT ..................................................................................................... 1
PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ...............................................................1
COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ......................................................................1
CONSEILS GÉNÉRAUX DE TRAVAIL ...........................................................................................................2
Séquence de travail n° 1 3
ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION .......................... 3
I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE
VARIANCE ..................................................................................................................................................4
1. But de l'analyse de variance ............................................................................................4
2. Hypothèse à tester............................................................................................................5
3. Conditions d'application de l'analyse de variance ...........................................................5
II. THÉORIE DE L'ANALYSE DE VARIANCE.............................................................................................7
1. Variance intra-population : s2intra..................................................................................7
2. Variance inter-population : s2inter................................................................................7
3. Le rapport F et les tables de distributions F ...................................................................8
III. RÉALISATION DE L'ANALYSE DE VARIANCE ..................................................................................9
1. Echantillons d'effectifs inégaux.....................................................................................10
1. Première étape de l'analyse....................................................................................... 10
2. Deuxième étape de l'analyse...................................................................................... 11
3. Exemple pratique....................................................................................................... 12
2. Echantillons de mêmes effectifs....................................................................................16
1. Première étape de l'analyse....................................................................................... 16
2. Deuxième étape de l'analyse...................................................................................... 17
3. Exemple pratique....................................................................................................... 17
IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS ...........................................19
ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION................. 23
I. POSITION DU PROBLÈME.........................................................................................................................24
II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX
CRITÈRES DE CLASSIFICATION........................................................................................................25
1. Présentation des données et des calculs ........................................................................25

_______________________________________________________________________________
II ______________________________________________________________________________
STATISTIQUE
1. Première partie.......................................................................................................... 25
2. Deuxième partie......................................................................................................... 26
2. Application pratique.....................................................................................................28
3. Exécution de l'analyse de variance par le logiciel EXCEL ...........................................31
CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE......................................... 33
I. POSITION DU PROBLÈME.........................................................................................................................34
1. Analyse de régression et de corrélation.........................................................................34
2. La relation de causalité en statistique............................................................................35
II. ANALYSE DE RÉGRESSION .....................................................................................................................36
1. Diagramme de dispersion..............................................................................................36
2. Notion de covariance.....................................................................................................38
3. Droite de régression.......................................................................................................39
4. Estimation à l'aide de l'équation de régression..............................................................42
III. L'ERREUR TYPE DE L'ESTIMATION...................................................................................................44
1. Calcul de l'erreur type de l'estimation : Ey.x.................................................................44
2. Intervalles de prédiction ................................................................................................45
IV. ANALYSE DE CORRÉLATION................................................................................................................48
1. Le coefficient de détermination = r2 ............................................................................48
2. Le coefficient de corrélation..........................................................................................50
1. Méthode pratique de calcul du coefficient de corrélation......................................... 50
2. Propriétés du coefficient de corrélation.................................................................... 51
V. TRANSFORMÉE DE FISHER.....................................................................................................................52
1. Position du problème.....................................................................................................52
2. Premier cas : r = 0 .........................................................................................................52
3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle................................................53
TABLE I.................................................................................................................... 55
TABLE DE LA DISTRIBUTION NORMALE RÉDUITE .............................................................................55
TABLE II................................................................................................................... 56
TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART
RÉDUIT ......................................................................................................................................................56
TABLE III.................................................................................................................. 57
TABLE DE STUDENT.......................................................................................................................................57
TABLE IV ................................................................................................................. 58

______________________________________________________________________________
III ______________________________________________________________________________
STATISTIQUE
TABLE DU C2 ..................................................................................................................................................58
TABLE V-A............................................................................................................... 59
TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,05).................................................59
TABLE V-B .............................................................................................................. 60
TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,05)....................................................60
TABLE VI-A.............................................................................................................. 61
TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,01)..................................................61
TABLE VI-B ............................................................................................................. 62
TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,01)....................................................62
TABLE VII ................................................................................................................ 63
CORRÉLATION TRANSFORMÉE DE FISHER...........................................................................................63
BIBLIOGRAPHIE ..................................................................................................... 64

_______________________________________________________________________________
1 ______________________________________________________________________________
Avertissement
AVERTISSEMENT
Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de
mieux comprendre les concepts et les outils de la statistique. C'est un ouvrage d'initiation dont
l'objectif principal est l'acquisition des techniques de base de la statistique ainsi que
l'interprétation des résultats qui en découlent. Pour cela, les fondements mathématiques des
théories exposées ne sont pas développés. Nous avons pensé que ce document est destiné
surtout à des utilisateurs de l'outil statistique et non à des théoriciens.
Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les
connaissances théoriques à l'application pratique, le document réunit l'essentiel des
connaissances avec de nombreux exemples d'application illustrant les parties théoriques.
Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont
signalées en grisé dans le texte.
Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite
suppose que d’autres notions sont connues.
En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples
proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions
précédentes.
Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers
et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant.
Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de
mieux en mieux.
PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET…
Dans ce livret, nous exposons d'abord le principe général de l'analyse de variance. Nous
appliquerons alors ce principe à l'analyse de la variance à un facteur puis à deux facteurs en
gardant toujours la même démarche.
Dans les problèmes relatifs à la corrélation et à la régression, nous nous limiterons à un rapide
exposé sur le principe de l'analyse puis une application directe à la corrélation et à la
régression linéaire simple.
Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une
bonne connaissance du principe des tests statistiques, de la formulation et la résolution des
problèmes de statistique.
Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous aux
livrets 2/4 et 3/4 de la série.
COMMENT TRAITER UN EXERCICE DE STATISTIQUE ?
La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen,
doit être réalisée avec le plus grand soin.
• Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé
en relation avec votre programme.
- Quelles sont les données (nature de la variable, loi de probabilité, taille de
l’échantillon, paramètres donnés…) ?

_______________________________________________________________________________
2 ______________________________________________________________________________
Avertissement
- Que vous demande-t-on ?
- Les questions sont-elles liées ?
- Quelle table statistique utiliser ?
• Commencez alors par résoudre l’exercice sur du brouillon, question par question.
• A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à
la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se
contentant par exemple,
- d' « appliquer » des formules sans expliquer les conditions d'applications,
- d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse
de leurs conclusions.
Si certains exercices proposés précisent les conditions des données, il n'en est pas de
même pour d'autres. C'est donc à vous de le faire en tout début de la rédaction.
Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de
vous « déchiffrer ». Il peut se lasser…
Vous risquez alors de perdre des points inutilement.
- Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être
respectés.
- Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite
conclusion.
CONSEILS GÉNÉRAUX DE TRAVAIL
Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques
formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à
vérifier l'atteinte des objectifs visés par la séquence de travail proposée.
Pour cela, nous vous conseillons :
• de travailler aussi régulièrement que possible ;
• d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé…
• d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une
gomme ;
• de vérifier, chaque fois que vous avez un doute, les calculs développés ;
• de traiter la totalité des exercices d'application proposés avant de passer à la séquence
suivante ;
• d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile
pour la séquence suivante ;
• si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les
données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous
permettra de faire des simulations en changeant les données pour « voir ce qui se passe ».
Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours
de statistique. Tous savent combien il est délicat de traiter un problème de statistique en
faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent
document voudront bien l'utiliser avec indulgence et en nous communiquant,
éventuellement, leurs remarques et suggestions. Nous les remercions par avance.

_______________________________________________________________________________
3 ______________________________________________________________________________
9. Analyse de variance à un critère de classification
Séquence de travail n° 1
6 h
ANALYSE DE VARIANCE À UN CRITÈRE
DE CLASSIFICATION 9
Objectifs pédagogiques
A la fin de cette séquence, mais étape par étape, vous devriez être capable :
1. d'exposer le principe général et le but de l'analyse de variance ;
2. de préciser les conditions d'application de l'analyse de variance ;
3. d'appliquer l'analyse de variance à un critère de classification ;
4. d'utiliser la technique d'analyse de variance et les tables de distributions F
pour prendre les décisions statistiques appropriés concernant la comparaison
des moyennes de trois populations ou plus ;
5. de conduire une comparaison multiple de moyennes par le test de la PPDS.

_______________________________________________________________________________
4 ______________________________________________________________________________
I. BUT, HYPOTHÈSES ET CONDITIONS
D'APPLICATION D'UNE ANALYSE DE VARIANCE
1. But de l'analyse de variance
Le but de l'analyse de variance est de déterminer si toutes les moyennes des populations
étudiées sont égales entre elles.
Il s'agit de comparer les moyennes de plusieurs populations supposées normales et de
même variance à partir d'échantillons aléatoires simples et indépendants les uns des
autres.
En pratique, le but de l'analyse de variance est de tester l'influence d'un ou de plusieurs
facteurs ou effets sur une variable mesurable (ou quantifiable) traduisant l'influence de ce
(ou ces) facteur (s).
Par exemples, l'analyse de variance s'impose lorsqu'on veut étudier :
• l'influence du facteur alimentation sur la croissance d'un animal ou la production laitière;
• l'influence des facteurs race et alimentation sur la composition d'un lait de vache ou de
brebis.
Les facteurs dont on veut tester l'influence peuvent être :
• soit des facteurs étudiés pour leur intérêt biologique, zootechnique ou agronomique : sexe,
alimentation, agent fertilisant etc.
• soit des facteurs destinés à contrôler la variabilité due à des facteurs « extérieurs » : effets de
l'année, de l'étable, du bloc, etc.
Chaque facteur étudié ou contrôlé peut présenter plusieurs niveaux comme par exemples :
- 2 niveaux pour le sexe (mâle ou femelle)
- 4 niveaux pour la race : Prim'Holstein, Normande, Montbéliarde, Salers.
Tester l'influence d'un facteur sur la variable étudiée revient à tester l'existence ou l'absence de
différences entre les diverses modalités de ce facteur.

_______________________________________________________________________________
5 ______________________________________________________________________________
On peut tester simultanément l'influence de plusieurs facteurs et de leurs interactions, sur la
variable étudiée : on parlera alors d'analyse de variance à deux, trois ou plusieurs facteurs (ou
critères) qui sera étudiée au chapitre suivant.
Dans le présent chapitre, on se limitera à l'étude d'un seul facteur étudié : il s'agit d'une
analyse de variance à un facteur de variation, ou un critère de classification. Nous
étudierons, au chapitre suivant, le cas de l'analyse de variance à deux critères de
classification.
2. Hypothèse à tester
L'hypothèse nulle à tester dans ce cas est :
Ho : les échantillons proviennent de différentes populations dont les moyennes sont
identiques.
Ho
: 
1
= 
2
= 
3
= ... = 
k
k = nombre de populations considérées.
Dans ces conditions, l'hypothèse alternative (H1) sera la suivante : les moyennes des
populations ne sont pas toutes égales entre elles.
Si H1 est acceptée, il faut conclure qu'au moins une moyenne de population diffère des autres
moyennes de population.
Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de
population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec
cette technique, quelles sont les moyennes qui diffèrent.
3. Conditions d'application de l'analyse de variance
Trois conditions essentielles d'application sont requises pour l'analyse de variance :
1. les échantillons sont aléatoires et indépendants ;
2. les distributions des populations sont approximativement normales ou normales ;
3. les populations ont toutes la même variance.
1
2 = 2
2 = 3
2 = ........ = k
2

_______________________________________________________________________________
6 ______________________________________________________________________________
Autrement dit, lorsque Ho est vraie et lorsque ces trois conditions sont remplies, la situation
est essentiellement équivalente à celle où tous les échantillons sont prélevés dans la même
population (figure 1)
En revanche, les moyennes des populations ne sont pas égales si Ho est fausse, et les
échantillons pourront être considérés comme provenant de populations telles que celles
illustrées à la figure 2 si les trois conditions sont remplies.
1 2 3
Fig. 1. k populations normales avec : Fig. 2. Trois populations normales avec :
 1 = 2 = 3 =...........k 1 ≠ 2 ≠ 3
 1
2 = 2
2 = 3
2 ...= k
2 1
2 = 2
2 = 3
2

_______________________________________________________________________________
7 ______________________________________________________________________________
II. THÉORIE DE L'ANALYSE DE VARIANCE
On examinera des estimations de la variance de la population, 2, afin de déterminer si les
moyennes des populations sont égales et ce, pour les raisons exposées ci-dessous.
Dans une analyse de variance, on calcule deux estimations de la variance de la population
selon deux approches indépendantes.
1. Calculer une estimation de 2 qui demeurera valable, que les moyennes des populations
soient égales ou non.
2. Estimer sans biais 2 si et seulement si les moyennes des populations sont égales. Toute
différence entre les moyennes des populations affectera la valeur de cette estimation 2.
Cependant, s'il n'existait aucune différence entre les moyennes, les deux estimations calculées
de 2 seraient très proches l'une de l'autre (une comparaison de ces deux estimations servira à
tester la validité de Ho ).
Autrement dit :
• Si les deux estimations calculées sont approximativement égales, on peut conclure qu'il n'y
a probablement pas de différence entre les moyennes des populations. Donc, Ho est acceptée.
• S'il existe une différence significative entre les estimations calculées selon les deux
approches, on doit conclure que les différences au sein des moyennes des populations ont
influencé la valeur de la seconde estimation. Donc Ho doit être rejetée.
1. Variance intra-population : 2
intra
2
intra est une estimation de 2 non influencée par les moyennes des populations.
C'est la première estimation de 2 qui consiste en une moyenne des variances à l'intérieur de
chacun des échantillons. Chacune des variances échantillonnales (s2) pourrait, après une
légère modification, servir d'estimateur sans biais de 2 ; cependant, on utilise généralement
la moyenne arithmétique des variances de tous les échantillons pour estimer 2 , l'estimation
obtenue reposant alors sur un plus grand nombre de données.
2. Variance inter-population : 2
inter
2
inter est un estimateur de 2 si Ho est vraie.
C'est la seconde approche qui est basée sur la variation entre les moyennes échantillonnales.
Si Ho est vraie, on peut alors considérer que tous les échantillons proviennent d'une même
population de moyenne .
L'écart type de la distribution d'échantillonnage - ou erreur type de la moyenne échantillonnale
- est obtenu par la formule suivante :

_______________________________________________________________________________
8 ______________________________________________________________________________
 x =

n
ou 2
x =
2
n c'est-à-dire n 2
x = 2
Donc, si Ho était vraie, 
inter serait une estimation sans biais de la variance de la population
et devrait être approximativement égal à la valeur de 
intra .
Par contre, s'il devait y avoir une différence significative entre 
intra et 
inter ,
on devrait conclure que cette différence est causée par des différences entre les
moyennes des populations.
3. Le rapport F et les tables de distributions F
Il s'agit de savoir à quel moment la différence entre les deux estimations de 2 est
significative et si la différence entre 
intra et 
inter est due à l'inégalité des moyennes des
populations ou simplement aux fluctuations d'échantillonnage.
En pratique, on analyse le rapport entre 
inter et 
intra plutôt que la différence entre ces
deux valeurs. Ce rapport, appelé valeur F observé (ou calculé), est donc :
F =
2
inter
2
intra
Idéalement, si Ho est vraie, F observé devrait être égal à 1. Cependant, du fait des
fluctuations d'échantillonnage, on s'attend à des différences entre les deux estimations de 2
et ce, même si Ho est vraie. Il faudrait alors déterminer de quelle grandeur doit être cette
différence qui se reflète dans la valeur F calculée pour rejeter légitimement Ho.
La valeur maximale que peut atteindre le rapport F calculé avant le rejet de Ho est donnée
dans les tables de distributions F. ( Voir tables V et VI de distributions F en fin de livret).
La conclusion à tirer concernant Ho sera basée sur la comparaison de F calculé (ou
observé) avec une valeur repérée dans les tables.
Si Fobservé < à la valeur trouvée dans les tables, Ho sera acceptée sinon Ho est
rejetée.
ATTENTION !
Il faut se souvenir que, contrairement au test F appliqué à la
comparaison de deux variances (chapitre 7) qui est un test bilatéral, le
test F appliqué dans l' analyse de variance, est un test unilatéral à
droite pour lequel on doit utiliser les tables V-A ( pour  = 0,05) et VI-
A (pour  = 0,01).

_______________________________________________________________________________
9 ______________________________________________________________________________
III. RÉALISATION DE L'ANALYSE DE VARIANCE
L'analyse de variance à un critère de classification ( on dit aussi à un facteur) permet de
comparer les moyennes de plusieurs populations supposées normales et de même variance, à
partir d'échantillons aléatoires simples et indépendants les uns des autres.
Le tableau 1 (page suivante) présente les données relatives à l'analyse de variance à un critère
de classification.
Comment lire ce tableau ?
Le facteur étudié présente p modalités et nous désignerons par i l'une quelconque de ces
modalités (i = 1, 2, 3 … … p) ; il y a donc p échantillons de tailles n1 , n2 … … ni … np avec
ni = n.
Nous désignerons par xik la variable aléatoire, résultat du kième individu soumis à la iième
modalité du facteur étudié.
La moyenne de l'échantillon i sera désignée par xi et la moyenne de tous les échantillons par
x .
Dans ces conditions, le modèle de l'analyse de variance s'écrit :
xik - x = xi - x + xik - xi
ce qui indique que les écarts constatés sur l'individu xik par rapport à la moyenne générale
xik - x auxquels correspond la variation totale, se décomposent en deux éléments
additifs :
• les écarts entre la moyenne de l'échantillon et la moyenne générale, xi - x , auxquels
correspond la variation factorielle.
• les écarts de chaque individu par rapport à la moyenne de l'échantillon, xik - xi ,
auxquels correspond la variation résiduelle.
On démontre que, en élevant au carré les deux membres de cette égalité puis en sommant, on
obtient la décomposition en carrés ci-dessous, appelée l'équation de l'analyse de variance:

i=1
p 
k=1
ni (xik - x ) 2 = 
i=1
p ni ( xi - x )2 + 
i=1
p 
k=1
ni (xik - xi ) 2

______________________________________________________________________________
10 _____________________________________________________________________________
Somme des carrés des écarts
totale
SCEt
factorielle
SCEf
résiduelle (ou aléatoire)
SCEr
1. Echantillons d'effectifs inégaux
1. Première étape de l'analyse
La réalisation de l'analyse de variance, dans le cas d'échantillons d'effectifs inégaux se fera
selon la présentation du tableau 1.
Tableau 1. Présentation des données et des calculs lors de la réalisation de l'analyse de
variance à un critère de classification.
i(modalités)
k (individus)
1 2 … p Totaux
1
2
.
.
.
x11
x12
.
.
.
x1n1
x21
x22
.
.
.
.
x2n2
… xp1
xp2
.
.
xpnp
ni n1 n2 … np n. = ni (effectif total)
Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.
 xik
2  x1k
2  x2k
2
…  xpk
2 T =   x2
ik
Xi.
2/ni X1.
2/n1 X2.
2/n2 … Xp.
2/np -
SCEi =  x2
ik -
X2
i.
ni
(pour tout i)
SCE1 SCE2 … SCEp SCEr =  SCEi
^
i
2 =
SCEi
ni-1
(pour tout i)
^
1
2 ^
2
2
… ^
p
2
-
xi =
Xi.
ni
(pour tout i) x1 x2 … xp -
Moyenne générale x =
X..
n.
La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes
:
• Terme correctif : C = X..
2 / n.
• Somme des carrés des écarts totale : SCEt = T - C

______________________________________________________________________________
11 _____________________________________________________________________________
• Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr
• Carrés moyens : CMf =
SCEf
p-1 et CMr =
SCEr
n-p
Fobservé =
CMf
CMr =
2
inter
2
intra

______________________________________________________________________________
12 _____________________________________________________________________________
2. Deuxième étape de l'analyse
Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la
valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme
degrés de liberté :
1 = p-1 et 2 = n-p
La présentation du tableau de l'analyse de variance se fera ainsi :
Sources de variation ddl SCE CM F
Entre populations -facteur contrôlé-
(2 inter)
1 = p-1 SCEf CMf Fobs =
CMf
CMr
Entre observations, dans les
populations (erreur résiduelle)
(2 intra)
2 = n-p SCEr CMr
Totaux n-1 SCEt
Nous retrouvons bien ce qui a déjà été signalé. En effet, cette façon de procéder indique
que les écarts constatés par rapport à la moyenne générale - auxquels correspond la
variation totale - se décomposent en 2 éléments additifs :
• les écarts par rapport à la moyenne de l'échantillon, auxquels correspond la variation
résiduelle ;
• les écarts entre la moyenne de l'échantillon et la moyenne générale, auxquels correspond
la variation factorielle.
Ce qui se traduit par l'équation de l'analyse de variance ci-dessous :
SCEt = SCEf + SCEr
En divisant ces SCE par le nombre de degrés de libertés correspondant, on obtient les carrés
moyens ou tout simplement les variances.
Si l'hypothèse Ho est vraie, le rapport Fcalculé (on dit aussi Fobservé)
Fobservé =
CMf
CMr
est une variable aléatoire de Fisher-Snedecor à 1 = p-1 et 2 = n-p degrés de liberté.

______________________________________________________________________________
13 _____________________________________________________________________________
La règle de décision sera alors la suivante :
• Si Fobservé < Ftable (pour 1 et  ddl et un risque  donné), on garde Ho. Cela veut dire
qu'il n' y a pas d'influence significative du facteur étudié sur la variable considérée.
• Si Fobservé ≥ Ftable (pour 1 et  ddl et un risque  donné), on rejette Ho. Cela veut dire
que le facteur étudié a une influence significative sur la variable considérée.
3. Exemple pratique
On souhaite comparer le poids moyen, à un âge déterminé, de moutons d'une même race
provenant de 3 régions différentes.
Les résultats obtenus sur 3 échantillons sont les suivants (en kg) :
Région 1
Lot 1
Région 2
Lot 2
Région 3
Lot 3
59,8 61,5 58,9
62,1 60,5 60
59,2 60,6 59,3
59,2 61,3 57
58,4 58,5 59,9
61,1 63 59,9
62,3 60,2 58,9
60 62,3 56,8
60,5 60,6 57,6
61,3 61,1 58,7
62,5 62 -
58,9 62,1 -
58,6 65,3 -
- 60,5 -
En fait, il s'agit de savoir si la région d'où provient chacun de ces trois lots, influence le poids
des moutons ou non.
Pour répondre à la question posée, il faudrait réaliser une analyse de variance pour tester
l'hypothèse d'égalité des moyennes des poids qui sont donnés.
Bien évidemment, l'hypothèse nulle consiste à considérer qu'il n' y a pas de différence entre
les moyennes des poids des 3 lots.
Ho : 1 = 2= 3
Sous cette hypothèse Ho, on peut considérer que quelle que soit la région d'où proviennent les
moutons, leur poids est le même ; autrement dit la région n'a aucune influence sur le poids
des animaux.
Le test de l'analyse de variance nous permettra soit d'accepter cette hypothèse d'égalité des
moyennes, soit alors de la rejeter.

______________________________________________________________________________
14 _____________________________________________________________________________
Pour cela, réalisons le premier tableau de présentation des données et des calculs.
Pour une meilleure compréhension, ce tableau se présentera de façon légèrement différente du
tableau 1 exposé plus haut.
Lot 1 Lot 2 Lot 3 Totaux
59,8 61,5 58,9
62,1 60,5 60
59,2 60,6 59,3
59,2 61,3 57
58,4 58,5 59,9
61,1 63 59,9
62,3 60,2 58,9
60 62,3 56,8
60,5 60,6 57,6
61,3 61,1 58,7
62,5 62
58,9 62,1
58,6 65,3
60,5
ni 13 14 10 37 = n.
Moyenne 60,30 61,39 58,70 -
 xi = Xi. 783,90 859,50 587,00 2230,4 = X..
 xi
2 = A 47294,15 52799,45 34469,62 134563,22 = T
Xi.
2/ni = B 47269,17 52767,16 34456,9 -
SCEi = A - B 24,98 32,29 12,72 69,99 = SCEr
^
i
2
2,082 2,484 1,413 -
C = X..
2/n. = 134450,9
SCEt = T - C = 112,298
L'étape suivante est la réalisation du tableau de l'analyse de variance
Différences entre régions 2 42,30 21,153 10,28*** = Fobs
Différences entre les poids
(pour un même lot)
34 69,99 2,058 F0,05,;2,;34 = 3,28
F0,01,;2,;34 = 5,29
Totaux 36 112,297
Au seuil de 5 %, pour ddl1 = 2 et ddl2 = 34, la table V-A donne F = 3,28
Au seuil de 1 %, pour ddl1 = 2 et ddl2 = 34, la table VI-A donne F = 5,29
Au seuil de 1 0/00, pour ddl1 = 2 et ddl2 = 34, F = 8,52

______________________________________________________________________________
15 _____________________________________________________________________________
Dans les 3 cas, Fobservé > Ftable . Ceci nous conduit au rejet de HO.
Concrètement cela signifie que la région d'où proviennent les animaux influence leur poids.
Remarques
1. Il est d'usage de marquer les différences significatives d'un, de deux ou de trois
astérisques respectivement pour les niveaux 0,05, 0,01 et 0,001.
Dans notre cas Fobs = 10,28 est supérieur à Ftable même au niveau de 0,001, c'est-à-dire
avec un risque d'erreur de première espèce inférieur à 10/00. Aussi, la valeur 10,28 est
désignée par 3 astérisques.
2. Il faut se souvenir que si H1 est acceptée, ce qui est le cas dans notre exemple, il faut
conclure qu'au moins une moyenne de population diffère des autres moyennes de
population.
Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes
de population sont différentes les unes des autres et, de plus, il est impossible de
déceler, avec cette technique, quelles sont les moyennes qui diffèrent.
Exemple.
Appliquons l'analyse de variance pour les deux premiers lots uniquement (lots 1 et 2)
Après calculs, nous obtenons le tableau suivant :
2 inter 1 8,051 8,050714 3,51 = Fobs
2 intra 25 57,27 2,290771 F0,05;1;25 = 4,24
F0,01;1;25 = 7,77
Totaux 26 65,320 Décision : on accepte Ho
Dans ce cas, on remarque que Fobs < Ftable . Ce qui nous conduit à accepter Ho, c'est-à-dire
qu'il n' y a pas de différence significative des poids des lots 1 et 2.
Appliquons à présent l'analyse de variance pour les lots 1 et 3
Après calculs, nous obtenons le tableau suivant :

______________________________________________________________________________
16 _____________________________________________________________________________
2 inter 1 14,470 14,469 8,059 = Fobs
2 intra 21 37,70 1,7952 F0,05;1;21 = 4,32
F0,01;1;21 = 8,02
Totaux 22 52,170 Décision : rejet de Ho
Dans ce cas, on remarque que Fobs > Ftable . Ce qui nous conduit à rejeter Ho, c'est-à-dire qu'il
existe une différence significative entre les poids des lots 1 et 3.

______________________________________________________________________________
17 _____________________________________________________________________________
2. Echantillons de mêmes effectifs
1. Première étape de l'analyse
Dans ce cas, les calculs sont simplifiés comme le montre le tableau 2.
Tableau 2. Présentation des données et des calculs lors de la réalisation de l'analyse de
variance à un critère de classification (échantillons de mêmes effectifs).
i
k
1 2 … p Totaux
1
2
.
.
.
n
x11
x12
.
.
.
x1n
x21
x22
.
.
.
x2n
… xp1
xp2
.
.
.
xpn
n n n n n. = pn
Xi. =  xik (pour tout i) X1. X2. … Xp. X.. =  Xi.
 xik
2  x1k
2  x2k
2
…  xpk
2 T =   x2
ik
Xi.
2/n X1.
2/n X2.
2/n … Xp.
2/n -
SCEi =  x2
ik -
X2
i.
n
(pour tout i)
SCE1 SCE2 … SCEp SCEr =  SCEi
xi =
Xi.
n (pour tout i ) x1 x2 … xp -
La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes
:
• Terme correctif : C = X..
2 / pn
• Somme des carrés des écarts : SCEt = T - C
• Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr
• Carrés moyens : CMf = SCEf/p-1et CMr = SCEr/p(n-1)
• Fobservé = CMf/CMr

______________________________________________________________________________
18 _____________________________________________________________________________
2. Deuxième étape de l'analyse
Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la
valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme
degrés de liberté :
1 = p-1 et 2 = p (n-1)
La présentation du tableau de l'analyse de variance se fera ainsi :
Entre populations -facteur contrôlé-
(2 inter)
p-1 SCEf CMf Fobs =
CMf
CMr
Entre observations, dans les
populations (erreur résiduelle)
(2 intra)
p (n-1) SCEr CMr
Totaux pn - 1 SCEt
3. Exemple pratique
On voudrait comparer les rendements en matière sèche (en kg/ha), à une date déterminée, d'un
certain fourrage cultivé sur 3 prairies différentes. Les résultats obtenus dans chaque prairie
sont résumés dans le tableau ci-dessous :
Prairie 1 Prairie 2 Prairie 3
20,5 14,8 12,5
19,6 18,7 17,2
26,4 19,6 17,4
28,5 21,4 18,3
27,9 25,2 20,2
Ho : pas de différence entre les rendements fourragers des 3 types de prairies.
Tableau des données et des calculs.
Prairie 1 Prairie 2 Prairie 3 Totaux
20,5 14,8 12,5
19,6 18,7 17,2
26,4 19,6 17,4
28,5 21,4 18,3
27,9 25,2 20,2
n 5 5 5 15 = n.
Moyenne 24,58 19,94 17,12 -
Xi =  xi 122,90 99,70 85,60 308,2 = X..
 xi
2 = A 3092,03 2045,89 1497,78 6635,7 = T
Xi
2/5 = B 3020,882 1988,018 1465,472 -
SCEi = A-B 71,15 57,87 32,31 161,33 = SCEr

______________________________________________________________________________
19 _____________________________________________________________________________
C = X2../15 = 6332,5
SCEt = T-C = 303,217
Le tableau de l'analyse de variance se présente alors ainsi :
inter 2 141,88 70,94 5,277* = Fobs
intra 12 161,33 13,44 F0,05;2;12 = 3,89
Totaux 14 303,21 F0,01;2;12 = 6,93
Décision statistique :
Fobservé > F0,05;2;12  rejet de Ho à 5%.
Fobservé < F0,01;2;12  acceptation de Ho à 1%
Autrement dit au seuil de 5%, Fobs. > Ftable ; ce qui nous conduit au rejet de l'hypothèse nulle
c'est-à-dire que les rendements en matière sèche sont influencés par le type de prairie.
En revanche, au seuil de 1%, Fobs. < Ftable ; ce qui nous conduit à accepter l'hypothèse nulle.

______________________________________________________________________________
20 _____________________________________________________________________________
IV. COMPARAISONS MULTIPLES DE MOYENNES :
TEST DE LA PPDS
Nous avons signalé le fait que, lorsqu'un test d'analyse de variance aboutit au rejet de
l'hypothèse nulle (hétérogénéité des moyennes), la technique utilisée dans cette analyse ne
permettait pas de distinguer les moyennes qui différaient significativement des autres.
Ce problème peut être résolu par différentes méthodes de comparaisons multiples de
moyennes dont la méthode de la « PPDS » ou Plus Petite Différence Significative fait partie.
Il s'agit d'une méthode simple de comparaison de p moyennes deux à deux.
Dans tout ce qui suivra, les conditions d'application de l'analyse de variance sont
supposées remplies. Nous supposerons aussi l'égalité des effectifs de tous les
échantillons à comparer.
Partons d'un exemple…
On voudrait étudier la fréquentation des agents commerciaux pour 4 stands au salon de
l'Agriculture de Paris, sur les 5 premiers jours de la semaine d'ouverture.
On voudrait tester l'hypothèse d'égalité de fréquentation moyenne Ho contre l'inégalité H1, en
supposant le facteur " jour " sans influence. Les jours sont des répétitions. Les résultats sont
consignés dans le tableau ci-dessous.
Stand 1 Stand 2 Stand 3 Stand 4
J1 10 12 8 9
J2 9 10 9 6
J3 11 14 11 11
J4 13 12 8 11
J5 10 12 8 9
Il s'agit de comparer 4 moyennes de fréquentation des stands par les agents commerciaux.
Réalisation de l'analyse de variance
Stand 1 Stand 2 Stand 3 Stand 4 Totaux
J1 10 12 8 9
J2 9 10 9 6
J3 11 14 11 11
J4 13 12 8 11
J5 10 12 8 9
n 5 5 5 5 n. = 20
Moyenne 10,60 12,00 8,80 9,20
Xi =  xi 53,00 60,00 44,00 46,00 X.. = 203
 xi
2 = A 571 728 394 440 T = 2133
Xi
2/5 = B 561,8 720 387,2 423,2
SCEi = A-B 9,20 8,00 6,80 16,80 SCEr = 40,8

______________________________________________________________________________
21 _____________________________________________________________________________
C = X2../n. = 2060,5
SCEt = T-C = 72,550
Tableau de l'analyse de variance
Sources variation ddl SCE CM Fobs Ftable
inter 3 31,750 10,5833 4,150327 F3,16,0,05 = 3,24
intra 16 40,80 2,55
total 19 72,550
Conclusion :
Fobs (4,15) > Ftable (3,24) : on rejette l'hypothèse Ho d'égalité des fréquentations moyenne. Il y
a au moins une moyenne qui diffère des autres.
Lorsqu'on se trouve devant cette situation, il est parfois souhaitable de déterminer les signes
d'égalité à éliminer, en comparant les moyennes deux à deux grâce au test t de Student par
exemple.
Pour p moyennes à comparer, il existe
p (p - 1)
2 couples (i,i' ) à comparer.
S'agissant d'une comparaison de deux moyennes observées sur deux petits échantillons de
mêmes effectifs, dont les variances sont inconnues, pour chaque couple de moyennes
comparées, on utilisera la formule :
tobs =
xi - xi'
SCEi + SCEi'
n(n - 1)
avec un ddl = 2n - 2.
Cependant, les conditions de l'analyse de variance étant supposées remplies (variances de
populations égales ), il n'est guère utile de rechercher, pour chacune de ces comparaisons, une
nouvelle estimation de la variance commune par la quantité :
^2 =
SCEi + SCEi'
ni + ni' - 2
Dans ces conditions, on utilise préférentiellement, la quantité :
^2 = CMr
qui représente une estimation globale fournie par le carré moyen résiduel.
Par ailleurs, pour des effectifs égaux, nous pouvons comparer les moyennes observées deux à
deux en calculant les p (p - 1)/2 valeurs du t observé de Student en utilisant la formule :

______________________________________________________________________________
22 _____________________________________________________________________________
tobs =
xi - xi'
2 CMr
n
puis en comparant la valeur de tobs aux t de la table de Student.
Cependant, pour des raisons mathématiques, il semble préférable de calculer la quantité :
PPDS  = t , 
2  CMr
n

 étant le risque d'erreur choisi et  le nombre de degrés de liberté de la «résiduelle», puis de
rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence xi -
xi' (en valeur absolue) est supérieure ou égale à la PPDS.
Cette première définition de la PPDS reste valable pour l'analyse de variance à un critère de
classification mais peut être étendue, après modification, à l'analyse de variance à deux
critères.
Ainsi dans notre exemple :
n = 5
CMr = 2,55
 CMr = 16 ddl
ttable ( = 0,05, ddl = 16) = 2,12
d'où :
PPDS  = t , 
2  CMr
n = 2,12 
2  2,55
5 = 2,141
Deux méthodes de représentation des résultats sont alors possibles.
• Première méthode
On peut disposer toutes les différences dans un tableau à double entrée et indiquer par un
astérisque la signification au seuil  = 0,05 et par deux astérisques au seuil de 0,01.
x3 = 8,8 x4 = 9,2 x1 = 10,6 x2 = 12,0 Moyenne
0,4
9,2 - 8,8
1,8
10,6 - 8,8
3,2*
12 - 8,8
x3 = 8,8
1,4
10,6 - 9,2
2,8*
12,0 - 9,2
x4 = 9,2

______________________________________________________________________________
23 _____________________________________________________________________________
1,4
12,0 - 10,6
x1 = 10,6
Sur ce tableau les seules valeurs supérieures à la PPDS sont 3,2 et 2,8.
Autrement dit, seules les moyennes 2 et 3 d'une part et 2 et 4 d'autre part diffèrent
significativement au risque de 5 %.
• Deuxième méthode
On peut aussi ordonner les moyennes et souligner celles qui ne diffèrent pas
significativement :
x3
8,8
x4
9,2
x1
10,6
x2
12,0
----------------------------------------
--------------------------
Remarque.
La méthode de la PPDS est critiquée par de nombreux auteurs qui ne la considèrent
pas tout à fait fiable quant à l'interprétation de ses résultats notamment en matière
de risque d'erreur associé à la conclusion.
Sans entrer dans les détails mathématiques, il faut retenir que la méthode de la
PPDS est d'autant moins fiable que le nombre de comparaisons de moyennes deux à
deux, est élevé. Pour un nombre de moyennes « élevé », on risque de déclarer à tort
des différences significatives qui ne le sont pas. Il faut donc éviter d'utiliser la PPDS
dans ce cas ou, à la rigueur, l'utiliser avec un risque de 0,01.

______________________________________________________________________________
25 _____________________________________________________________________________
10. Analyse de variance à deux critères de classification
3 h
ANALYSE DE VARIANCE À DEUX
CRITÈRES DE CLASSIFICATION
MODÈLES CROISÉS
ÉCHANTILLONS DE MÊMES EFFECTIFS
10
Objectifs pédagogiques :
1. de réaliser une analyse de variance à deux critères de classification ;
2. de définir concrètement une interaction entre deux facteurs ;
3. d'interpréter les résultats d'une analyse de variance à deux critères de
classification.

______________________________________________________________________________
26 _____________________________________________________________________________
I. POSITION DU PROBLÈME
Dans l'analyse de variance à un critère de classification, le principe consistait à
diviser la variation totale en deux composantes :
• factorielle
• résiduelle
Cette façon de procéder peut être étendue à deux critères de classification, la
variation totale étant alors divisée en plus de deux composantes : l'une
résiduelle et les autres liées aux deux critères de classification.
Les deux facteurs considérés peuvent être placés sur le même pied (modèles
croisés) ou subordonnés l'un à l'autre (modèles hiérarchisés).
Dans chaque cas, on doit distinguer un modèle fixe, un modèle aléatoire et un
modèle mixte selon que les deux critères de classification sont fixes, aléatoires,
ou l'un fixe, l'autre aléatoire.
Dans ce qui suivra, nous ne considérerons que la réalisation et l'interprétation
de l'analyse de variance à deux critères de classification pour des modèles
croisés et des échantillons de mêmes effectifs.

______________________________________________________________________________
27 _____________________________________________________________________________
II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE
VARIANCE À DEUX CRITÈRES DE CLASSIFICATION.
ÉCHANTILLONS DE PLUSIEURS OBSERVATIONS
1. Présentation des données et des calculs
La présentation des tableaux des données et des calculs se fera en deux parties.
1. Première partie
Tableau 1. Analyse de variance à deux critères de classification : réalisation des calculs.
i 1 .......... p Totaux
j
k
1 .......... q .......... 1 .......... q
1
2
.
.
.
n
x111
x112
.
.
.
x11n
..........
..........
..........
x1q1
x1q2
.
.
.
x1qn
..........
..........
..........
xp11
xp12
.
.
.
xp1n
..........
..........
..........
xpq1
xpq2
.
.
.
xpqn
Xij. X11. .......... X1q. .......... Xp1. .......... Xpq. X...

k=1
n x2
ijk 
k=1
n x2
11k .......... 
k=1
n x2
1qk .......... 
k=1
n x2
p1k .......... 
k=1
n x2
pqk T
X2
ij./n X2
11./n .......... X2
1q./n .......... X2
p1./n .......... X2
pq./n -
SCEij SCE11 .......... SCE1q .......... SCEp1 .......... SCEpq SCEr
avec les principales notations et formules suivantes :
• Pour les totaux par échantillon : Xij. = 
k=1
n xijk pour tout i et tout j
• Pour le total général : X... = 
i=1
p 
j=1
q Xij.
• Pour la somme des carrés générale : T = 
i=1
p 
j=1
q 
k=1
n x2
ijk
• Pour le terme correctif : C = X2
.../pqn
• Pour la somme des carrés des écarts totale : SCEt = T - C
• Pour la somme des carrés des écarts par échantillon :

______________________________________________________________________________
28 _____________________________________________________________________________
SCEij = 
k=1
n x2
ijk - X2
ij. / n (pour tout i et tout j)
• Pour la somme des carrés des écarts résiduelle :
SCEr = 
i=1
p 
j=1
q SCEij
La différence [ SCEt - SCEr ] est une somme des carrés des écarts relative à l'ensemble des
facteurs contrôlés.
Cette différence sera en fait divisée en trois composantes factorielles :
- les deux premières liées chacune à l'un des 2 facteurs contrôlés
- la troisième à l'interaction des 2 facteurs.
Pour cela, il faut dresser un deuxième tableau de la façon suivante :
- en reportant le contenu de la ligne Xij. du tableau précédant ;
- et en calculant les sommes suivantes :
• Xi.. = 
j=1
q Xij. (pour tout i)
• X.j. = 
i=1
p Xij. (pour tout j)
2. Deuxième partie
Tableau 2. Analyse de variance à deux critères de classification :
Suite de la réalisation des calculs
j
i
1 ................. q Xi..
1
.
.
.
p
X11.
.
.
.
Xp1.
.................
.
.
.
.................
X1q.
.
.
.
Xpq.
X1..
.
.
.
Xp..
X.j. X.1. ................. X.q. X...
Dans ces conditions, on aura évidemment :

i=1
p Xi.. = 
j=1
q X.j. = X...
Les sommes des carrés des écarts liées aux deux facteurs seront :
- SCEf =
1
qn 
i=1
p X2
i.. - C

______________________________________________________________________________
29 _____________________________________________________________________________
- SCEb =
1
pn 
j=1
q X2
.j. - C
On obtient alors par différence :
SCEfb = SCEt - SCEr - SCEf - SCEb
ou encore, l'équation de l'analyse de variance pour deux facteurs contrôlés simultanément :
SCEt = SCEf + SCEb + SCEfb + SCEr
Cette équation indique donc que la variation totale (SCEt) peut être décomposée en 4
composantes principales :
• variation due au facteur a : SCEf ;
• variation due au facteur b : SCEb ;
• variation due à l'interaction entre les facteurs a et b : SCEfb ;
• une somme résiduelle.
La notion d'interaction sera précisée plus loin
A ces différentes sommes des carrés sont affectés des nombres de degrés de liberté par la
relation suivante :
pqn - 1 = (p - 1) + (q - 1) + (p - 1) (q - 1) + pq (n - 1)
À cette étape, nous pouvons dresser le tableau d'analyse de la variance en calculant les
nombres de degrés de liberté, les carrés moyens et les valeurs de Ff , Fb et Fab :
Ff =
CMf
CMr
Fb =
CMb
CMr
Ffb =
CMfb
CMr
Tableau 3. Tableau d'analyse de variance
Facteur a p - 1 SCEf CMf Ff
Facteur b q - 1 SCEb CMb Fb
Interaction (p-1) (q-1) SCEfb CMfb Ffb
Variation résiduelle pq (n-1) SCEr CMr
Totaux pqn - 1 SCEt

______________________________________________________________________________
30 _____________________________________________________________________________
2. Application pratique
Supposons que l'on veuille comparer, chez deux races bovines différentes (critère 1), les effets
de 3 régimes alimentaires caractérisés par des teneurs énergétiques différentes (critère 2) :
haut (H), bas (B) et moyen (M).
Le tableau 1 donne les résultats de la production laitière (en kg de lait/jour) obtenus avec
chacun de ces 3 régimes. Pour chaque combinaison entre ces 2 critères, 4 valeurs sont
données.
Tableau 1. Comparaison des productions laitières (en kg de lait/j), chez 2 races bovines
différentes recevant 3 régimes énergétiques différents (H, B ou M).
H
(j = 1)
B
(j = 2)
M
(j = 3)
Moyennes
( x i.. )
33 31 32
Race 1 35 32 34
(i = 1) 36 33 36
43 34 38
36,75 32,50 35,00 34,75
30 25 27
Race 2 30 27 29
(i = 2) 30 30 30
33 30 30
30,75 28,00 29,00 29,25
Moyennes
( x .j. )
33,75 30,25 32,00 32,00
( x ...)
Ainsi calculées, ces moyennes montrent une influence considérable du facteur " race ". En
effet, tous régimes confondus, la race 2 présente une moyenne de 29,25 kg de lait contre
34,75 pour la race 1 soit une différence de 5,5 kg.
Calculées par rapport à la moyenne générale, les différences dues à ce premier critère de
classification sont :
34,75 - 32,00 = 2,75
29,25 - 32,00 = - 2,75
Vous remarquerez que la somme de ces deux termes est forcément nulle.
De la même façon, si on considère le deuxième critère, on aura :
33,75 - 32,00 = 1,75
30,25 - 32,00 = - 1,75
32,00 - 32,00 = 0
la somme de ces 3 termes étant également nulle.

______________________________________________________________________________
31 _____________________________________________________________________________
Considérons à présent l'interaction entre le facteur " race " et le facteur " régime "…
Le tableau 2 illustre ce phénomène…
Tableau 2. Calcul des termes de l'interaction entre les 2 facteurs
H B M Somme
Race 1 0,25 -0,50 0,25 0
Race 2 -0,25 0,50 -0,25 0
Somme 0 0 0 0
La première case ombrée (0,25) est obtenue ainsi :
36,75 - 34,75 - 33,75 + 32 = 0,25
De la même façon, la dernière case ombrée (-0,25) est obtenue ainsi :
29 - 29,25 -32 + 32 = - 0,25
et ainsi de suite pour les autres cases…
Ces valeurs ainsi obtenues représentent les termes de l'interaction entre les deux facteurs
étudiés.
Dans le cas présent l'interaction entre le facteur " race " et le facteur " régime " peut être
considérée comme étant faible. On le confirmera plus loin par des calculs.
Imaginons à présent, des valeurs différentes pour la race 2 avec le régime B (valeurs en grisé
dans le tableau ci-dessous).
H
(j = 1)
B
(j = 2)
M
(j = 3)
Moyennes
( x i.. )
33 31 32
race 1 35 32 34
(i = 1) 36 33 36
43 34 38
36,75 32,50 35,00 34,75
30 25,5 27
race 2 30 28,5 29
(i = 2) 30 24,5 30
33 27,5 30
30,75 26,5 29,00 28,75
Moyennes
( x .j. )
33,75 29,50 32,00 31,75
( x ...)
Avec de telles valeurs, tous les termes de l'interaction seraient exactement nuls.
Exemples
Race 1, régime H : 36,75 - 34,75 -33,75 + 31,75 = 0
Race 2, régime B : 26,5 - 28,75 - 29,50 + 31,75 = 0
etc.

______________________________________________________________________________
32 _____________________________________________________________________________
Ce cas particulier traduit l'absence totale d'interaction entre les 2 facteurs.
Concrètement cela signifie que les 3 types de régimes donnent exactement la même
différence entre les 2 races. Cet écart s'obtient tout simplement par différence entre les
valeurs moyennes obtenues pour chaque race. Dans notre cas, ce sera :
36,75 - 30,75 (colonne 1) = 32,50 - 26,50 (colonne 2) = 35,00 - 29,00 (colonne 3) = 6
Bien évidemment, cette valeur peut être également obtenue directement par la différence entre
x 1.. ( soit 34,75 pour la race 1) et x 2.. (soit 28,75 pour la race 2). En effet :
34,75 - 28,75 = 6
Vous remarquerez aussi que l'absence d'interaction signifie aussi que les différences entre
les races sont indépendantes des régimes.
Exemples :
36,75 - 32,50 = 30,75 - 26,50 = 4,25 pour les régimes H et B
36,75 - 35,00 = 30,75 - 29,00 = 1,75 pour les régimes H et M
etc.
En revanche, la présence de termes d'interaction non nuls signifie qu'il existe une
" dépendance " entre les 2 facteurs étudiés.
Reprenons à présent les données du tableau 1 et effectuons l'analyse de variance…
Répétitions
(k)
Race 1
(i = 1)
Race 2
(i = 2)
Totaux
H
(j = 1)
B
(j = 2)
M
(j = 3)
H
(j = 1)
B
(j = 2)
M
(j = 3)
1 33 31 32 30 25 27
2 35 32 34 30 27 29
3 36 33 36 30 30 30
4 43 34 38 33 30 30
Moyenne 36,8 32,5 35,0 30,8 28,0 29,0 -
Xij. 147 130 140 123 112 116 X... = 768

k=1
4 x2
ijk
5459 4230 4920 3789 3154 3370 T = 24922
X2
ij./4 5402,25 4225 4900 3782,25 3136 3364 -
SCEij 56,8 5,0 20,0 6,8 18,0 6,0 SCEr = 112,5

______________________________________________________________________________
33 _____________________________________________________________________________
H
(j=1)
B
(j=2)
M
(j=3)
Xi..
Race 1 (i = 1) 147 130 140 417
Race 2 (i = 2) 123 112 116 351
270 242 256 768
• Terme correctif : C = X2
.../pqn = 24576
• Somme des carrés des écarts totale : SCEt = T - C = 346,0
• Somme des carrés des écarts résiduelle :
SCEr = 
i=1
p 
j=1
q SCEij = 112,5
• SCEf = (4172 + 3512)/12 - 24576 = 181,5
• SCEb = (2702 + 2422 + 2562) / 8 - 24576 = 49,0
• SCEfb = 346,0 - 112,5 - 181,5 - 49,0 = 3,0
Tableau de l'analyse de variance
Sources de variation ddl SCE CM Fobs Ftable
Race 1 181,5 181,5 29,04*** F1;18;0,05 = 4,41
Régime 2 49,0 24,5 3,92* F2;18;0,05 = 3,55
Interaction 2 3,00 1,5 0,24 F2;18;0,05 = 3,55
Variance résiduelle 18 112,5 6,25
Totaux 23 346,0
Conclusions
• il existe un effet race très important (Fobs >>> Ftable) ;
• il existe un effet régime mais faible (Fobs > Ftable);
• il n'y a pas d'interaction entre la race et le régime (Fobs < Ftable).
3. Exécution de l'analyse de variance par le logiciel EXCEL
Le problème ci-dessus peut être évidemment traité par un logiciel de statistique. Par exemple,
pour EXCEL, les données doivent être introduites ainsi :
Tableau de présentation des données
H M B
race 1 33 31 32
35 32 34
36 33 36
43 34 38
race 2 30 25 27
30 27 29
30 30 30
33 30 30

______________________________________________________________________________
34 _____________________________________________________________________________
En utilisant l'« UTILITAIRE D'ANALYSE » du menu « OUTILS », la sortie EXCEL sera
présentée selon les tableaux ci-dessous.
Tableaux de l'édition des résultats de l'analyse par EXCEL
ANALYSE DE VARIANCE : DEUX FACTEURS AVEC RÉPÉTITION D'EXPÉRIENCE
RAPPORT DÉTAILLE H M B Total
race 1
Nombre d'échantillons 4 4 4 12
Somme 147 130 140 417
Moyenne 36,75 32,5 35 34,75
Variance 18,91666667 1,666666667 6,666666667 10,75
race 2
Nombre d'échantillons 4 4 4 12
Somme 123 112 116 351
Moyenne 30,75 28 29 29,25
Variance 2,25 6 2 4,204545455
Total
Nombre d'échantillons 8 8 8
Somme 270 242 256
Moyenne 33,75 30,25 32
Variance 19,35714286 9,071428571 14
ANALYSE DE VARIANCE
Source des
variations
Somme
des carrés
Degré de
liberté
Moyenne
des carrés
F Probabilité Valeur critique
pour F
Échantillon 181,5 1 181,5 29,04 4,03299E-05 4,413863053
Colonnes 49 2 24,5 3,92 0,038620684 3,55456109
Interaction 3 2 1,5 0,24 0,789105089 3,55456109
A l'intérieur du groupe 112,5 18 6,25
Total 346 23
Vous remarquerez qu'on retrouve dans le tableau de l'analyse de variance, les mêmes résultats
effectués précédemment.
• La dernière colonne indique la valeur critique pour F, c'est-à-dire la valeur au-dessus de
laquelle on considère la différence comme significative ; autrement dit, il s'agit du Ftable
donné par les tables V-A ou VI-A pour un risque d'erreur donné.
• La colonne « probabilité » indique le risque d'erreur associé à notre décision d'acceptation ou
de rejet de l'hypothèse nulle.

______________________________________________________________________________
35 _____________________________________________________________________________
11. Corrélation et régression linéaire simple
6 h
CORRÉLATION ET RÉGRESSION
LINÉAIRE SIMPLE 11
Objectifs pédagogiques :
1. d'expliquer les objectifs de l'analyse de régression et de corrélation ;
2. d'exposer le principe général de l'analyse de corrélation ;
3. d'établir un diagramme de dispersion;
4. d'estimer la liaison entre deux caractères par une équation de régression ;
5. de calculer une erreur type d'estimation et d'établir un intervalle de
prédiction ;
6. de calculer et d'interpréter un coefficient de détermination et de corrélation.

______________________________________________________________________________
36 _____________________________________________________________________________
I. POSITION DU PROBLÈME
Il est fréquent, en biologie ou en agronomie, de découvrir une relation très forte entre deux ou
plusieurs variables :
Exemples :
- Relation entre la taille et le poids d'un animal.
- Relation entre la production laitière d'une vache et le stade de lactation
- Relation entre la production laitière et la composition du lait.
- Relation entre l'administration de doses d'un produit et son effet biologique ou physiologique
sur l'organisme.
etc.
La régression et la corrélation sont deux outils qui servent à étudier et à mesurer la relation
statistique existant entre deux - ou plus de deux - variables.
On se limitera, pour notre part, à deux variables, c'est-à-dire au cas de la régression et
corrélation simples. Cependant, il faut savoir que le problème ne change pas
fondamentalement lorsqu'on passe à trois variables ou plus (corrélation et régression
multiples).
1. Analyse de régression et de corrélation
La première et principale étape d'une analyse de régression consiste à déduire, en se basant sur
les données échantillonnales, une équation d'estimation, qui décrit la nature fonctionnelle de
la relation entre les variables.
L'équation d'estimation (ou de régression) servira à estimer la valeur d'une des variables à
partir de la valeur prise par l'autre variable.
La variable dépendante, ou à prédire, est la variable qui doit être estimée. Cette
variable est placée en général sur l'axe des Y (ordonnée).
La variable indépendante ou prédictrice (notée X et portée sur l'axe des abscisses) est
censée exercer une influence sur la variable dépendante Y.
Dans l'analyse de régression, on ne se limite pas à établir une équation de la variable
dépendante. On doit déterminer aussi le degré de fiabilité des prédictions obtenues à l'aide de
cette équation. Autrement dit l'analyse de régression pose la question suivante : " De quel type
est la relation entre les variables ?"
Le but visé dans l'analyse de corrélation est de mesurer le degré d'association entre les
variables. Par conséquent, il s'agit de répondre à la question : "Quelle est la force de la relation
décrite par l'analyse de régression ?".

______________________________________________________________________________
37 _____________________________________________________________________________
On devine alors que certaines situations ne se prêtent qu'à une analyse de régression tandis
que d'autres ne se prêtent qu'à une analyse de corrélation. Cependant, en biologie, la plupart
des phénomènes étudiés se prêtent à une analyse conjointe de régression et de corrélation.
En réalité, l'expression "analyse de corrélation" englobe souvent les deux éléments, régression
et corrélation.
2. La relation de causalité en statistique
Le seul fait que deux variables soient reliées entre elles, au sens statistique du terme, n'est pas
suffisant pour conclure à l'existence d'une relation de cause à effet.
En effet, il existe plusieurs explications du fait que deux séries de données varient en même
temps. Il est logique alors d'interpréter les mesures de corrélation dans le sens d'une relation
de cause à effet au moins dans certaines situations.
Si une relation existe entre deux variables, il y aura corrélation entre elles mais la
seule existence d'une corrélation statistique n'est pas une preuve de causalité.
Les relations de causalité peuvent être classées en deux catégories : la cause à effet et la
cause commune.
La relation de cause à effet existe si la variation d'une variable est attribuable à la variation de
l'autre variable.
Exemple : variation de température dans une réaction chimique et variation du résultat de
cette réaction.
Un facteur commun peut influencer conjointement deux variables.
Exemple : variation de la croissance et du poids d'un animal et variation de l'état nutritionnel
de cet animal.
En fait, il s'agit, en régression et en corrélation, de n’étudier que les relations logiques entre
les variables dont on veut analyser le comportement.

______________________________________________________________________________
38 _____________________________________________________________________________
II. ANALYSE DE RÉGRESSION
1. Diagramme de dispersion
Étude d'un exemple de régression linéaire simple
On voudrait savoir s'il existe une relation entre les notes obtenues en contrôle continu (x) et
celles obtenues à un concours national (y) pour 8 étudiants.
Le tableau suivant résume ces notes :
Tableau 1.
Étudiants Notes au concours (y) /100 Notes du contrôle continu (x) / 20
A 42 9
B 70 14
C 27 5
D 63 12
E 58 11
F 38 7
G 62 11
H 76 15
Avant tout, il faudrait porter sur un graphique - appelé diagramme de dispersion - les
données disponibles. Sur ce graphique, chaque point représente un couple de valeurs
observées de la variable dépendante et de la variable indépendante.
Diagramme de dispersion
C
F
y = a + bx
droite de regression
0
10
20
30
40
50
60
70
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
notes au contrôle continu ( x )
notesauconcours(y)
Ce diagramme de dispersion remplit deux rôles :

______________________________________________________________________________
39 _____________________________________________________________________________
- il aide à déterminer s'il existe une relation entre les deux variables
- il aide aussi à déterminer le type d'équation appropriée pour décrire la relation.
Si l'on prend pour acquis que les notes du contrôle continu reflètent bien le niveau de
l'étudiant, on peut raisonnablement prétendre que les étudiants ayant obtenu les meilleures
notes à ce contrôle seront les meilleurs au concours.
Les données associées à un étudiant représentent un point du diagramme ci-dessus. On
remarque alors que les 8 points semblent se rapprocher d'une même droite. Dans ce cas, la
relation est positive (on dit aussi directe) puisque les 2 variables évoluent dans le même sens.
Il existe bien entendu des situations où la relation est négative (ou inverse).
La relation entre les variables n'est pas toujours linéaire comme le montre la figure ci-dessous
représentant les différents diagrammes de dispersion rencontrés.
Enfin, il est possible qu'aucune relation n'existe entre les variables (cas g de la figure ci-
dessous).
Les droites représentées à la figure ci-dessous décrivent la relation entre les variables.
Ces droites sont appelées droites de régression (ou d'estimation) .
° ° °
°
°
°
°
°
°
°° °
°
°°
°
°°
°°
°
°
°
°
°°
° °
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
° °
°
°
X
Y Y
X
a- Relation linéaire positive b-Relation linéaire postive
avec une plus grande dispersion
°
°°
°
°
° °
° °
°
°°
°
°
°
°
°
°
°
X
Y Y
X X°° ° °°°
°
°
°
°
°
°
°
°
°
° °
°
°
°
°
°
°
°
Y
°° ° °
°
°
°
°
°
°
°
°
°
°°
°
°
°
°
°
°
°
° °
c- Relation linéaire
négative
d- Relation curviligne
positive
e- Relation curviligne
négative
° ° °
°°
°
°
°
°
°
°
°
°°°
°
°
° °
°
°
°° °
°
°
°
° °
°
°
°
° °
°°
°
°° ° °
°
°
°
°
°
°°
°
°° ° °
°
°
°
° °°°
°
°° ° °
°°
°
° °
°°
°°° ° °
°
°
°
Y
X
Y
X
f- Relation curviligne g- Absence de relation
Différents diagrammes de dispersion

______________________________________________________________________________
40 _____________________________________________________________________________
2. Notion de covariance
Soit une population dans laquelle on étudie simultanément les deux variables aléatoires X et
Y avec E (X) =  et E(Y) = .
Par définition,
Cov (X , Y) = E [ (X - ) (Y - )]
Si nous utilisons un échantillon de n individus, pour lequel on obtient les moyennes x et y
, l'estimation de Cov (X,Y) sera :
Cov (x,y) =
1
n  (x - x ) (y - y )
autrement dit, la moyenne des produits des écarts (S.P.E) que l'on écrit :
Cov ( x , y) =
S.P.E
n =
 xy -
 x .  y
n
n =
 xy - n x . y
n
Exemple
Calculer la covariance des deux distributions suivantes : (x, y) ; (x',y)
x y xy x' y x'y
6 30 180 12 30 180
9 49 441 10 49 441
3 18 54 8 18 54
8 42 336 7 42 336
7 39 273 9 39 273
5 25 125 14 25 125
8 41 328 8 41 328
10 52 520 10 52 520
n 8 8 8 8
 56 296 2257 78 296 2837
Cov (x,y) =
 xy -
 x .  y
n
n = 23,12 Cov (x',y) =
 x'y -
 x' .  y
n
n = - 6,125
Considérons à présent le nuage de points des valeurs observées de x et y et les droites x = x
et y = y . Ces deux droites partagent le plan en 4 secteurs (figure ci-dessous) :
• secteur I dans lequel x > x et y > y ; donc tout produit (x - x ) (y - y ) > 0 ;
• secteur II dans lequel x < x et y > y ; donc tout produit (x - x ) (y - y ) < 0 ;

______________________________________________________________________________
41 _____________________________________________________________________________
• secteur III avec (x - x ) (y - y ) > 0 ;
• secteur IV avec (x - x ) (y - y ) < 0 .
II I
IVIII
x
y
y
x
La covariance sera positive ou négative selon que le nuage de points sera situé surtout dans les
secteurs I et III ou surtout dans les secteurs II et IV. Elle sera d'autant plus élevée en valeur
absolue que le nuage de points sera plus aplati autour de son grand axe ; elle sera nulle lorsque
les points tendent à se répartir uniformément dans les 4 secteurs (nuage en forme de cercle ou
de « patate ») ou si le nuage est allongé et son grand axe parallèle à l'un des axes.
La valeur absolue de la covariance et son signe, sont des indicateurs de la liaison existant
entre deux caractères :
• lorsque la covariance est positive et élevée : les caractères sont liés et varient dans le même
sens ; on parle de liaison positive ;
• lorsque la covariance est négative et élevée : les caractères sont liés et varient en sens inverse
; on parle de liaison négative ;
• lorsque la covariance est voisine de 0 : les caractères sont indépendants ; il n'y pas de liaison
entre les caractères.
3. Droite de régression
L'équation utilisée pour ajuster la droite de régression aux données du diagramme de
dispersion est appelée équation de régression ou d'estimation .
Rappelons que nous nous limiterons à l'étude de la régression linéaire dans le cas d'une
variable prédictrice ; c'est la régression linéaire simple et la fonction obtenue est l'équation

______________________________________________________________________________
42 _____________________________________________________________________________
d'une droite : la droite de régression de y sur x ( ou de y en x ) ou droite des moindres carrés
.
Si on considère le nuage de points représentant l'ensemble des données permettant d'obtenir
l'équation de la droite de régression, la droite passe approximativement « au milieu » du nuage
de points.
L'équation de régression sera :
y^ = a + bx
où :
a = ordonnée à l'origine (la valeur de y^ pour x = 0)
b = pente de la droite de régression (la variation de y^ pour une variation d'une unité de x)
x = valeur de la variable indépendante.
y^ = valeur calculée de la variable dépendante
Attention à la confusion ! certains auteurs utilisent l'équation y^ = ax + b
Ainsi, la droite de régression et la droite de tendance sont toutes les deux décrites par
l'équation générale de la droite; cependant la similitude entre ces deux droites ne s'arrête pas
là. En effet, la droite de régression (tout comme la droite de tendance et la moyenne
arithmétique) possède les deux propriétés suivantes :

 ( y - y^ ) = 0
et  ( y - y^ )2 = valeur minimale
Autrement dit, l'ajustement de la droite de régression aux données du diagramme de
dispersion sera tel que les écarts positifs observés entre les points situés au-dessus de la droite
et la droite annuleront les écarts négatifs observés entre les points situés au-dessous de la
droite et celle-ci; la somme des écarts sera alors égale à 0 (figure ci-dessous).

______________________________________________________________________________
43 _____________________________________________________________________________
y = a + bx i
x
y
yi
xi
y = a + bx
Les calculs reliés à l'analyse de régression et de corrélation seront simplifiés si les formules
précédentes sont exprimées en termes d'écarts aux moyennes des variables x et y, c'est-à-
dire d'écarts x et y .
Dans ces conditions, les valeurs de a et de b de l'équation de régression sont obtenues à l'aide
des formules suivantes :
b =
 (x - x )  (y - y )
 (x - x )2 et a = y - b x
avec,
b =
 (xi - x ) (yi - y )
 (xi - x )2
=
 xi yi -
 xi .  yi
n
 xi
2 -
[ xi]2
n
=
 xi yi - n x y
 xi
2 - n x 2
En effet,
 (xi - x )2 =  xi
2 - 2 x  xi + x  xi =  xi
2 - n x 2
et,
 (xi - x ) (yi - y ) =  xi yi - x  yi - y  xi + n x y
=  xi yi - x . n y - y . n x + n x y
=  xi yi - n x y

______________________________________________________________________________
44 _____________________________________________________________________________
et donc,
b =
n . Cov ( x,y )
n . sx
2 =
Cov ( x,y)
sx
2
où sx
2 représente la variance calculée sur l'échantillon.
b est appelé coefficient de régression de y sur x
Ainsi, l'équation de la droite de régression de y sur x peut s'écrire :
y^ - y = b ( x - x )
Appliquons ces formules aux données du tableau 1.
Le tableau 2 résume l'essentiel des étapes nécessaires au calcul de a et b.
Tableau 2.
Étudiants
Notes au
concours
( y )
Notes du
contrôle
continu
( x )
(y - y ) (x- x ) (y - y ) (x- x ) (x- x )2 (y - y )2
A 42 9 -12,50 -1,50 18,75 2,25 156,25
B 70 14 15,50 3,50 54,25 12,25 240,25
C 27 5 -27,50 -5,50 151,25 30,25 756,25
D 63 12 8,50 1,50 12,75 2,25 72,25
E 58 11 3,50 0,50 1,75 0,25 12,25
F 38 7 -16,50 -3,50 57,75 12,25 272,25
G 62 11 7,50 0,50 3,75 0,25 56,25
H 76 15 21,50 4,50 96,75 20,25 462,25
n = 8 436 84 0 0 397 80 2028
y =  y/n = 436/8 = 54,5 x =  x/n = 84/8 = 10,5
Les valeurs de a et b sont calculées ainsi :

______________________________________________________________________________
45 _____________________________________________________________________________
b =
 (y - y ) (x- x )
 (x- x )2 =
397
80 = 4,96
a = y - b x = 54,5 - (4,96) (10,5) = 2,39
L'équation de régression qui décrit la relation entre les notes obtenues au concours et celles
obtenues au contrôle continu est donc :
y^ = 2,39 + 4,96 x
4. Estimation à l'aide de l'équation de régression
L'équation de régression est utilisée principalement pour estimer la valeur de la variable
dépendante pour une valeur donnée de la variable indépendante.
Exemple.
Supposons qu'un étudiant ait 6 de moyenne au contrôle continu.
On peut "raisonnablement" estimer ou prévoir sa note au concours simplement en substituant
6 à x dans l'équation de régression. L'estimation désirée sera donc :
y^ = 2,39 + 4,96 . (6) = 32,15
Cette estimation se retrouve à la figure ci-dessous.
y = 2,39 + 4,96x
droite de régression
0
10
20
30
40
50
60
70
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
notes au contrôle continu ( x )
notesauconcours(y)
32,15

______________________________________________________________________________
46 _____________________________________________________________________________
III. L'ERREUR TYPE DE L'ESTIMATION
Du fait que l'on a estimé y en fonction de x à l'aide de l'équation de régression, il est logique
de se demander à quel point cette estimation est fiable.
Considérons les deux exemples ci-dessous :
° ° °
°
°
°
°° °
°
°°
°°
°
°
°
°°
° °
°
°°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
° °
°
°
X
Y Y
X
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
°
°
°
°°
° °
°
(a) (b)
Deux diagrammes de dispersion présentant des degrés de dispersion différents
Lorsque les points du diagramme de dispersion sont peu éloignés de la droite de régression
(Fig. a), on peut logiquement présumer que l'estimation s'appuyant sur cette relation sera
probablement plus fiable que celle qui aurait été obtenue à partir d'une droite comme celle de
la figure b où on remarque que l'éparpillement est beaucoup plus grand. D'où l'intérêt d'une
mesure de cet éparpillement ou dispersion des points autour de la droite de régression.
Cette mesure nous permettra certainement de mieux juger la fiabilité des estimations obtenues
à partir de la droite.
Comment obtenir cette mesure ?
D'abord, il est logique de penser que plus cette mesure est petite, plus la prévision sera fiable.
On donne le nom d' erreur type de l'estimation à cette mesure qu'on symbolise par Ey.x. Elle
sera donc utilisée afin de quantifier le degré de variation (ou erreur) possible associée à une
estimation obtenue à partir de la droite de régression.
1. Calcul de l'erreur type de l'estimation : Ey.x
L'erreur type de l'estimation se calcule ainsi :
Ey.x =
 (y - y^)2
n - 2
Le tableau 3 résume l'essentiel des étapes permettant de calculer Ey.x.

______________________________________________________________________________
47 _____________________________________________________________________________
Tableau 3
Notes
au
concours
(y)
Notes du
contrôle
continu
(x)
(y - y ) (x- x ) (y - y ) (x- x
)
(x- x
)2
(y - y )2
y^ (y - y^ ) (y - y^ )2
42 9 -12,50 -1,50 18,75 2,25 156,25 47,06 -5,06 25,57
70 14 15,50 3,50 54,25 12,25 240,25 71,87 -1,87 3,49
27 5 -27,50 -5,50 151,25 30,25 756,25 27,21 -0,21 0,04
63 12 8,50 1,50 12,75 2,25 72,25 61,94 1,06 1,12
58 11 3,50 0,50 1,75 0,25 12,25 56,98 1,02 1,04
38 7 -16,50 -3,50 57,75 12,25 272,25 37,13 0,87 0,75
62 11 7,50 0,50 3,75 0,25 56,25 56,98 5,02 25,19
76 15 21,50 4,50 96,75 20,25 462,25 76,83 -0,83 0,69
436 84 397 80 2028 436* 57,887
*La somme des y est égale à la somme des y^ .
Il en sera toujours ainsi puisque  (y - y^ ) = 0.
Ey.x =
 (y - y^)2
n-2 =
57,887
6 = 9,65 = 3,11
On remarquera que la valeur de Ey.x s'exprime dans les mêmes unités que la variable y.
Bien que la formule Ey.x =
 (y - y^)2
n-2 soit très utile pour expliquer l'erreur type de
l'estimation, la formule suivante s'applique cependant plus facilement :
Ey.x =
 (y - y )2 - b  (x - x ) (y - y )
n - 2
Toutes les valeurs de cette formule se retrouvent dans le tableau 2. Appliquons....
Ey.x =
 (y - y )2 - b  (x - x ) (y - y )
n - 2 =
2028 - (4,96)(397)
8-2 = 3,11
2. Intervalles de prédiction
Rappelons que l'écart type est une mesure de la dispersion autour de la moyenne. Dans le
chapitre 3, nous avons vu que dans une distribution normale :
- 68, 3 % des valeurs centrales de la distribution se situent à moins d'un écart type de chaque
côté de la moyenne
- 95,4 % des valeurs se situent à une distance maximale de deux écarts types de la moyenne

______________________________________________________________________________
48 _____________________________________________________________________________
- et qu'enfin 99,7 % des valeurs sont à moins de trois écarts types de cette moyenne.
Signalons par ailleurs la similitude des calculs entre l'écart type et l'erreur type. Il faut savoir
que ces deux mesures se ressemblent aussi quant à leur interprétation.
En effet, si les valeurs de y sont distribuées « normalement » autour de la droite de régression,
on peut supposer que 68 % environ des points du diagramme de dispersion se situeront à
moins d'un écart type de l'estimation au-dessus ou en-dessous de la droite de régression
(Figure ci-dessous)
x1
y1
x
intervalle de
prédiction
y1± 2 (Ey.x)
Interprétation de l'erreur type de l'estimation
^
y
{
{
+ 3 Ey.x
- 3 Ey.x

Cet intervalle ± Ey.x est représenté, sur cette figure, par les deux droites en pointillés les plus
proches de la droite de régression. L'intervalle ± 3 Ey.x englobe presque tous les points du
diagramme de dispersion.
Sur cette même figure, l'estimation y1 a été obtenue par le remplacement de x par x1 (une
valeur donnée) dans l'équation de régression (y1 = a + bx1).
y1 est une estimation ponctuelle et, compte tenu de la dispersion autour de la droite de
régression sur la figure ci-dessus, il est peu probable que cette estimation y1 de la valeur y
pour une valeur x = x1 soit rigoureusement exacte.
La fiabilité de cette estimation ponctuelle dépend largement de la grandeur de l'erreur type de
l'estimation. On sait que plus cette erreur type est petite et plus il est probable que l'estimation
ponctuelle soit voisine de la véritable valeur de la variable dépendante.

______________________________________________________________________________
49 _____________________________________________________________________________
Autrement dit, la connaissance de l'erreur type de l'estimation permet d'améliorer la méthode
d'estimation. Donc, plutôt que de considérer l'estimation ponctuelle, on peut calculer un
intervalle de prédiction auquel sera attachée une probabilité.
Cet intervalle de prédiction sera :
y^ ±  ( Ey.x )
 étant la valeur de l'écart réduit.
L'intervalle y1 ± 2 (Ey.x) représenté à la figure précédente est un intervalle de prédiction au
niveau de 95,4 %.
Reprenons notre exemple initial…
L'estimation ponctuelle calculée était de 32,15 (note obtenue au concours) pour un étudiant
ayant obtenu 6 en contrôle continu. Nous avons également évalué l'erreur type de l'estimation
à 3,11.
En supposant que, dans cet exemple, les points se distribuent normalement autour de la droite
de régression, on peut établir un intervalle de prédiction à 95 % de cette façon :
Intervalle = y^ ±  (Ey.x)
= 32,15 ± (1,96) (3,11)
= 32,15 ± 6,09
= 26,06 à 38,24
Que signifie concrètement cet intervalle ?
Cela veut dire que 95 % des étudiants qui auront obtenu la note 6 au contrôle continu auront
une note située entre 26,06 et 38,24 au concours.

______________________________________________________________________________
50 _____________________________________________________________________________
IV. ANALYSE DE CORRÉLATION
Il nous reste maintenant à savoir comment juger le degré d'association ou de corrélation
existant entre les variables ou, en d'autres termes, juger la qualité de l'ajustement des points
par la droite.
1. Le coefficient de détermination = r2
Examinons d'abord les différents termes et concepts illustrés à la figure ci-dessous.
y
y y
x
point du diagramme de dispersion( y )
ecart expliqué :
ecart inexpliqué :y -
yy -Ecart total =
^y
= a + b x
^y
^y - y
Illustration des concepts d'écart total, d'écart expliqué et d'écart inexpliqué
Supposons que nous nous servions de y , la moyenne des valeurs observées de la variable
dépendante, pour prévoir la valeur de y. Dans ce cas, on s'attend à ce que l'écart entre notre
estimation et la valeur de y soit considérable.
Un point particulier (y) a été choisi dans la figure ci-dessus, pour montrer l'importance de
l'écart total qui existe, dans cet exemple, entre la valeur observée de y et y .
En revanche, en utilisant la droite de régression pour estimer ou prévoir la valeur de la
variable dépendante, il est possible de réduire l'écart probable entre la valeur de y et la valeur
estimée de y. On remarque sur cette même figure que la droite de régression est plus
rapprochée de la majorité des points du diagramme que ne l'est y .
Donc, pour le point unique (y) de cette figure, la droite de régression explique en partie l'écart
entre y et y . Autrement dit, l'écart expliqué par la droite est y^ - y . Mais, la droite de
régression n'explique pas entièrement l'écart entre y et y , puisqu'il reste à expliquer l'écart
entre y et y^ .

______________________________________________________________________________
51 _____________________________________________________________________________
Nous avons donc :
Écart total = Écart expliqué + Écart inexpliqué
y - y (y^ - y ) (y - y^ )
ou, en termes de « variations »,
Variation totale = Variation expliquée + Variation inexpliquée
 (y - y )2 (y^ - y )2
(y - y^ )2
Avec ces considérations, le coefficient de détermination ( r2 ) est une mesure de la
proportion de la variation dans la variable y qui s'explique par la présence de la
variable x (ou par la droite de régression), c'est-à-dire :
r2 =
Variation expliquée
Variation totale
où la variation totale est  (y - y )2 (revoir tableau 2) et où la variation expliquée  (y^ - y
)2 est donnée par b  (x - x ) (y - y ).
Donc,
r2 =
b . [ (x - x ) (y - y )]
 (y - y )2
Dans notre exemple (voir tableau 2)
r2 =
b . [ (x - x ) (y - y )]
 (y - y )2
=
(4,96) (397)
2028 = 0,971
Que représente alors ce coefficient de détermination r2 ?
Il signifie que 97,1 % de la variation dans la variable y, est expliqué ou attribué à la
variation dans la variable x.

______________________________________________________________________________
52 _____________________________________________________________________________
Dans notre exemple, on peut dire que 97,1 % de la variation dans les notes obtenues au
concours, est expliqué par la variation des résultats au contrôle continu.
On comprend alors que r2 ne peut être supérieur à 1, puisque c'est une probabilité et que plus
la valeur de ce r2 est grande et plus celle de Ey.x est petite.
2. Le coefficient de corrélation
C'est la racine carrée de r2 tout simplement.
r = r2
Dans notre exemple,
r = 0,971 = 0,985
Le coefficient de corrélation est moins utile que r2 parce qu'il représente une mesure assez
abstraite qui ne se prête pas à une interprétation précise.
r nous donne simplement une idée de l'importance de la liaison linéaire entre les variables x et
y et sa valeur se situera toujours entre -1 et +1.
* Si r = 0 : il y a absence de corrélation linéaire entre les deux variables.
* r = 1 ou -1 : il y a une corrélation linéaire parfaite (positive ou négative) entre x et y.
1. Méthode pratique de calcul du coefficient de corrélation
Le coefficient de corrélation peut également être défini ainsi :
r =
Cov ( x , y )
sx . sy
où, Cov (x,y) représente la covariance du couple (x,y) qui a été déjà définie par :
Cov (x,y) =
1
n xi - x ) (yi - y )
et où sx et sy sont les deux écarts types calculés sur les échantillons :
sx =
 nixi
2
n - x 2 sy =
 niyi
2
n - y 2
Nous pouvons aussi écrire :
r = Erreur !;Erreur !2 . Erreur ! (yi - Erreur !)2)) = Erreur !;Erreur !2 .  (yi -
y )2)) =
S.P.E
SCEx . SCEy

______________________________________________________________________________
53 _____________________________________________________________________________
ou encore,
r =
 xiyi -
 xi  yi
n
[ xi
2
-
( xi )
2
n ] [ yi
2
-
( yi )
2
n ]
=
Cov (x , y )
sx sy
2. Propriétés du coefficient de corrélation
Rappelons que le coefficient de corrélation est un indicateur de liaison linéaire et que la
corrélation est une technique qui est utilisée pour établir une relation de cause à effet.
Le coefficient de corrélation mesure la « netteté » de la liaison existant entre les deux séries
d'observations, à condition que cette liaison soit linéaire ou approximativement linéaire.
Dans le cas contraire, le coefficient de corrélation ne présente aucun intérêt.
Le coefficient de corrélation a le même signe que la covariance ; il est nul quand la covariance
est nulle.
Le coefficient de détermination n'indique pas la nature de la relation
qui unit les deux variables ; il n'indique que la part de la variation qui
pourrait être expliquée si une relation de causalité existait.
Il est dangereux d'interpréter le coefficient de corrélation comme un pourcentage.
En effet, si r = 0,6, cela ne veut pas dire que 60 % de la variation de y est expliquée ;
en fait, pour r = 0,6 nous avons r2 = 0,36 ; autrement dit seulement 36 % de la
variation est expliquée.

______________________________________________________________________________
54 _____________________________________________________________________________
V. TRANSFORMÉE DE FISHER
1. Position du problème
Nous avons étudié les problèmes relatifs à la corrélation en introduisant la notion de
coefficient de corrélation calculé sur un échantillon de taille n.
A chaque échantillon prélevé, on faisait correspondre une valeur de r. Par analogie avec les
problèmes d'échantillonnage d'une moyenne ou d'une fréquence, on peut envisager ici la
distribution d'échantillonnage de r.
En effet, si l'expérience pouvait être effectuée sur la totalité des individus de la population
considérée, nous obtiendrons la vraie valeur de r que nous désignerons par  (rhô).
Autrement dit, le coefficient de corrélation r, calculé à partir d'observations faites sur
l'échantillon ne constitue qu'une estimation. Lorsque le nombre de mesures est très élevé, il
peut arriver qu'une valeur de r soit le signe d'une liaison, lâche peut être, mais réelle entre les
variables.
Si, au contraire, le nombre de mesures est peu élevé, il peut arriver qu'une valeur de r, même
proche de ± 1 soit due au seul hasard de l'échantillonnage, et ne révèle aucune liaison
significative.
Il est donc indispensable de savoir avec quelle précision le coefficient de corrélation a été
estimé, et plus particulièrement de pouvoir tester par rapport à 0 la valeur r trouvée.
Nous procéderons alors au même type de raisonnement que celui relatif à l'estimation d'une
moyenne d'une population par un intervalle de confiance.
Cependant, nous distinguerons deux cas selon la valeur du coefficient de corrélation :
• A partir d'un échantillon, r sera voisin de 0 ; nous testerons ce résultat pour savoir si nous
pouvons conclure à l'indépendance des deux variables x et y.
• Dans le cas où r ≠ 0, nous déterminerons un intervalle de confiance de r.
2. Premier cas : r = 0
Dans ce cas, la quantité :
tobs =
r  n - 2
1 - r2
obéit à une loi de Student à  = n - 2 degrés de liberté.
Avec un ddl =  et un risque d'erreur  choisi, nous déterminons, dans la table de Student t.
• Si tobs < ttable, on accepte l'hypothèse nulle Ho :  = 0 ;
• Si tobs ≥ ttable, on rejette l'hypothèse nulle Ho ; dans ce cas  ≠ 0.

______________________________________________________________________________
55 _____________________________________________________________________________
Exemple 1
La valeur d'un coefficient de corrélation, calculé sur un échantillon de taille 20, est égal à
0,24.
Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale.
Autrement dit les deux variables x et y sont-elles indépendantes au risque  de première
espèce ?
********
tobs =
r  n - 2
1 - r2
=
0,24  20 - 2
1 - 0,242
= 1,049
Pour  = 0,05 et ddl = 18, ttable = 2,101
tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0
Exemple 2
Un échantillon de taille 25 a donné r = 0,32
Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. ( =
0,05)
tobs =
r  n - 2
1 - r2
=
0,32  25 - 2
1 - 0,322
= 1,32
Pour  = 0,05 et ddl = 23, ttable = 2,069
tobs < ttable : on accepte l'hypothèse nulle Ho :  = 0
Considérons à présent, le même échantillon mais avec r = 0,68
tobs =
0,68  25 - 2
1 - 0,682
= 4,45
Dans ce cas, nous devons rejeter Ho.
3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle
On définit dans cette situation, une nouvelle variable appelée transformée de Fisher par :
Z =
1
2 Log [
1 + r
1 - r
]

______________________________________________________________________________
56 _____________________________________________________________________________
Cette variable Z obéit à une loi normale de moyenne m = 1/2 Log [ 1 + 
1 - 
] , et d'écart
type Z =
1
n - 3
On peut déterminer les limites de  avec un risque .
La valeur de Z est donnée par la table de la transformée de Fisher (Table VII en fin de livret)
dont un extrait est présenté ci-dessous :
Z 0,00 0,01 0,02 0,03 0,04
0,0 0,00000 0,01000 0,02000 0,02999 0,03998
0,1 0,09967 0,10956 0,11943 0,12927 0,13909
0,2 0,19738 0,20697 0,21652 0,22603 0,23550
0,3 0,29131 0,30044 0,30951 0,31852 0,32748
0,4 0,37995 0,38847 0,39693 0,40532 0,41364
0,5 0,46212 0,46995 0,47770 0,48538 0,49299
0,6 0,53705 0,54413 0,55113 0,55805 0,56490
0,7 0,60437 0,61068 0,61691 0,62307 0,62915
0,8 0,66404 0,66959 0,67507 0,68048 0,68581
0,9 0,71630 0,72113 0,72590 0,73059 0,73522
Dans l'exemple 2 ci-dessus, avec r = 0,68, l a table VII donne 0,8 et 0,03 c'est-à-dire Z = 0,83
(valeurs en grisé ci-dessus).
Dans ces conditions, les limites de confiance à 0,95 de mZ sont :
Z -  
1
n - 3
et Z +  
1
n - 3
 étant donné par la table de l'écart réduit
Dans notre exemple,
n = 25 ; = 1,96 ; Z = 0,83
L'intervalle de confiance de  sera donc :
0,83 - 1,96 
1
25 - 3
<  < 0,83 + 1,96 
1
25 - 3
ou
0,3885 <  < 0,8483

Analyse de variance et correlation

Analyse de variance et correlation

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Analyse de variance et correlation

Similar a Analyse de variance et correlation (20)

Analyse de variance et correlation