1. Statistique descriptive à une dimension
PREMIERE PARTIE
STATISTQUE
DESCRIPTIVE A UNE
DIMENSION
M.ACHRIT
Page 1
2. Statistique descriptive à une dimension
SOMMAIRE
1. Introduction :
Objet de la statistique
Termes statistiques de base
2. Distributions statistiques :
2.1.Les séries statistiques
2.2.Le caractère qualitatif et le caractère quantitatif discret
2.3.Le caractère quantitatif continu
3. Représentations graphiques :
3.1.Représentation d’un caractère qualitatif
3.2.Représentation d’un caractère quantitatif discret
3.3.Représentation d’un caractère quantitatif continu
4. Paramètre :
4.1.Introduction
4.2.Paramètres de position
4.3.Paramètres de dispersion
5. Exercices d’application
M.ACHRIT
Page 2
3. Statistique descriptive à une dimension
INTRODUCTION
Objet de la statistique descriptive :
La statistique descriptive a pour but de résumer et de présenter les données observées
d’une manière telle que l’on puisse en prendre connaissance facilement, par exemple sous
forme de tableaux et de graphiques.
Terminologie
1. Statistique :
La statistique est une méthode scientifique dont l’objet est de recueillir, d’organiser, de
résumer et d’analyser les données d’une enquête, d’une étude ou d’une expérience, aussi bien
que de tirer les conclusions logiques et de prendre les décisions qui s’imposent à partir des
analyses effectuées.
2. Population :
Ensemble d'individus définis par une propriété commune donnée.
Exemple : si l’on veut étudier la taille des plantes par zone dans une ville, la population
considérée est l’ensemble de toutes les plantes de la ville.
3. Échantillon :
Sous-ensemble de la population.
Exemple : pour établir la taille des plantes d’une ville donnée, on peut
Prélever au hasard un certain nombre de plante - un échantillon- dans un quartier parmi celles
qui existe dans la ville.
4. Individu ou unité statistique :
Chaque élément de la population ou de l’échantillon.
Exemple : dans l’exemple précédant, chaque plante constitue un individu ou une unité
Statistique.
5. La taille :
Représente le nombre d’individus d’un échantillon ou d’une population. Elle est symbolisée
par « n » dans le cas d’un échantillon et par « N » dans le cas d’une population.
6. Le caractère :
C’est l’aspect particulier que l’on désire étudier pour une variable statistique.il peut être soit
qualitatif ou bien quantitatif.
Exemple : concernant un groupe de personnes, on peut s’intéresser à leur âge, leur sexe, leur
taille…
7. Les modalités :
Les différentes manières d’être que peut présenter un caractère.
Exemple 1 : le sexe est un caractère qui présente deux modalités :
Féminin ou masculin
Exemple 2 : quant au nombre d’enfants par famille, les modalités de ce caractère peuvent être
0, 1, 2, 3…,20.
8. Caractère qualitatif :
Ses modalités ne s’expriment pas par un nombre mais par des mots.
Exemple : la religion, la couleur, la situation patrimoniale…
9. Caractère quantitatif :
Ses modalités sont numériques.
Exemple : l’âge, la taille, le poids…
10. Caractère quantitatif discret
L’ensemble des valeurs que peut prendre le caractère est fini ou dénombrable. Le plus
Souvent, ces valeurs sont des nombres entiers positifs.
Exemple : le nombre d’enfant dans une famille, le nombre de téléviseurs par foyer.
11. Caractère quantitatif continu :
M.ACHRIT
Page 3
4. Statistique descriptive à une dimension
Le caractère peut prendre théoriquement n’importe quelle valeur dans un intervalle donné de
nombres réels.
Exemple : la taille d’un individu, le poids…
12. Série statistique :
L’ensemble des différentes données associées à un certain nombre d’individus.
Exemple : la série suivante résulte d’une courte enquête auprès de quelques personnes pour
connaître leur âge :
18 21 19 19 17 22 27 18 18 17 20 20 23
La statistique descriptive peut faire l’objet d’une variable, et on parlera de statistique
descriptive à une variable ou à une dimension. Elle peut concerner deux variables, on parle
alors de statistique descriptive à deux variables ou à deux dimensions.
STATISTIQUE DESCRIPTIVE À UNE DIMENSION
Le but de simplification de la statistique descriptive peut être atteint en condensant les
observations sous trois formes distinctes :
Les tableaux statistiques : Permettent de présenter les données sous la forme
numérique de distributions de fréquences.
Les diagrammes : Permettent de représenter graphiquement ces distributions.
Les paramètres : Les données peuvent être condensées sous forme de
quelques paramètres statistiques.
1. DISTRIBUTIONS STATISTIQUES:
1.1.Les séries de statistiques :
Une série statistique est une simple énumération des observations :
X1, X2, X 3,………, Xi, ………, Xn
Ces observations étant rangées par ordre croissant :
X1 ≤ X2 ≤ X3 ≤ ......... ≤ Xi ≤ ……… ≤ Xn
*Effectif : n est le nombre total d’observations.
*Étendue : La différence entre la valeur la plus grande et la valeur la plus petite est
appelée étendue.
Exemple : Soit la série statistique suivante des poids (en Kg) de 12 paquets.
20,4 ; 25,4 ; 25,6 ; 26,6 ; 28,6 ; 28,7 ; 28,7 ; 29 ; 29,8 ; 30,5 ; 31,1 ; 31,2
Les caractéristiques de la série :
Unité de base : Un paquet
Population : 12 paquets
Caractère : Le poids
Sa nature : Un caractère quantitatif continu.
M.ACHRIT
Page 4
5. Statistique descriptive à une dimension
Effectif : n = 12
Étendue = X max – X min =31,2 - 20,4 = 10,8
2.2. Les distributions non groupées en classe :
Lorsque les observations sont nombreuses, il est nécessaire de les condenser sous forme
d’un tableau statistique appelé distribution de fréquences.
2.2.1.
le caractère qualitatif :
Modalités
Fréquences absolues ni
Fréquences relatives fi
C1
n1
f1
C2
n2
f2
ni
fi
Ck
nk
fk
Total
n
1
.
.
Ci
.
.
n1 est le nombre de fois qu’on a observé la modalité C1
ni est dite fréquence absolue de la modalité Ci
n = n1 + n2 + …. + ni + …. + nk
M.ACHRIT
Page 5
6. Statistique descriptive à une dimension
Exemple :
On a observé dans un jardin la couleur de 100 roses.
Population : 100 roses
Effectif
: n=100
Caractère : La couleur
Sa nature : C’est un caractère qualitatif
Ses modalités : Jaune, blanche, rouge k=3
Modalité
Fréquence absolue (ni )
Fréquence relative (fi)
Jaune
29
0,29
Blanche
38
0,38
Rouge
33
0,33
Total
100
1
2.2.3.
le caractère quantitatif discret :
Caractère Fréquence
absolue
Fréquence
cumulée
croissante
Fréquence
cumulée
décroissante
Fréquence
relative
Xi
F.c.c
F.c.d
Fi
X1
n1
n1
n
F1
X2
n2
n1 + n2
nk +…. + n2
F2
.
.
.
.
.
.
.
.
.
.
Xi
ni
n1 + n2 + ….+ni
nk + …. +ni
Fi
.
.
.
.
.
.
.
.
.
.
Xk
nk
n
nk
Fk
TOTAL
M.ACHRIT
ni
n
1
Page 6
7. Statistique descriptive à une dimension
Exemple : Distribution du nombre de pièces pour 750 appartements
Population : 750 appartements
Caractère : nombre de pièces
Sa nature : c’est un caractère quantitatif discontinu
Nombre
de pièces
Xi
Nombre
d’appartements
ni
Fréquence
cumulée
croissante
Fréquence
cumulée
décroissante
Fréquence
relative
1
90
90
750
0,12
2
110
200
660
0,15
3
240
440
550
0,32
4
210
650
310
0,28
5
70
720
100
0,09
6
30
750
30
0,04
Total
750
1
Le tableau peut se lire comme suit :
-Le nombre d’appartements comportant une seule pièce est 90
-La colonne des fréquences absolues cumulées croissantes : permet de répondre aux
questions du genre : quel est le nombre d’appartements ayant au plus 1 pièce,2
pièces….etc
-La colonne des fréquences absolues cumulées décroissantes : permet de répondre aux
questions du genre : quel est le nombre d’appartements ayant au moins 1 pièce,
2pièce….etc
Remarque : De la même manière que pour les fréquences absolues on peut calculer
les fréquences relatives cumulées croissantes et les fréquences relatives cumulées
décroissantes.
M.ACHRIT
Page 7
8. Statistique descriptive à une dimension
2.2.3.
Le caractère quantitatif continu :
Quand le nombre des valeurs observées (Xi) est élevé, il est nécessaire de
condenser encore les tableaux statistiques, en groupant les observations en classes, on
obtient ainsi une distribution de fréquence groupée. C’est généralement le cas des
variables quantitatives continues.
Chaque classe [a – b] est caractérisée par :
une borne inférieure a , une borne supérieure b
une amplitude qui est l’écart entre les deux bornes amplitude (ai ) = b-a
un point central correspondant au milieu de cette classe et s’obtient en
ajoutant la borne inférieure et supérieure de la classe et en divisant par deux.
Ci= (a+b)/2
Exemple : Répartition de 300 salaries d’une entreprise selon l’âge
Population : 3000 entreprises
Caractère : l’âge
Sa nature : C’est un caractère quantitatif continu.
Âges
Nombre de salaries (ni)
[20 à 25[
172
[25 à 30[
61
[30 à 35[
39
[35 à 40[
11
[40 à 45[
17
Total
300
Lecture du tableau :
-Le nombre de salaries ayant leur âge inférieur à 25 est 172.
-La première classe a comme borne inférieure 20 et comme borne supérieure 25.
-L’amplitude de la première classe est 5.
M.ACHRIT
Page 8
9. Statistique descriptive à une dimension
De la même manière que pour les distributions non groupées ( caractère qualitatif
et caractère quantitatif discret), on peut calculer les fréquences absolues cumulées
croissantes, les fréquences absolues cumulées décroissantes, les fréquences relatives,
les fréquences relatives cumulées croissantes et les fréquences relatives cumulées
décroissantes :
Âges
Fréquences
absolues
Fréquences
absolues
cumulées
croissantes
Fréquences
absolues
cumulées
décroissantes
Fréquences
relatives
Fréquences
relatives
cumulées
croissantes
Fréquences
relatives
cumulées
décroissantes
Amplitudes
Point
central
Xi
Ni
Ni cc
Ni cd
Fi
Fi cc
Fi cd
Ai
Ci
[20 à 25[
172
172
300
0,57
0,57
1
5
22,5
[25 à 30[
61
233
128
0,20
0,77
0,43
5
27,5
[30 à 35[
39
272
67
0,13
0,90
0,23
5
32,5
[35 à 40[
11
283
28
0,04
0,94
0,10
5
37,5
[40 à 45[
17
300
17
0,06
1
0,06
5
42,5
Total
300
≠
≠
1
≠
≠
≠
≠
M.ACHRIT
Page 9
10. Statistique descriptive à une dimension
3. LES REPRÉSENTATIONS GRAPHIQUES :
Bien qu’un tableau statistique renferme toute l’information rassemblée, il est très
utile de le traduire par un graphique. La représentation graphique d’une distribution
statistique permet de visualiser et de déceler ses principales caractéristiques.
Suivant la nature du caractère étudié on utilise différents modes de représentations
graphiques.
3.1. Représentation du caractère qualitatif :
Il existe deux modes de représentation d’une distribution à caractère qualitatif :
diagramme en barres ou en tuyaux d’orgue et le diagramme circulaire
3.1.1. Diagramme en ‘’Tuyaux d’orgue’’ :
Ce diagramme consiste à représenter chaque modalité du caractère qualitatif par un
rectangle dont la hauteur est proportionnelle à l’effectif correspondant et dont la base
est constante.
Exemple : un agriculteur a compté l’ensemble de ses animaux selon leur espèce.
Espèce
Bovins
Ovins
Caprins
Total
Effectif
3346
13515
5335
22196
Représentation graphique :
16000
ovins
14000
12000
10000
Espèce
8000
Caprins
6000
4000
Effectif
Bovins
2000
0
Especes d’animaux
M.ACHRIT
Page 10
11. Statistique descriptive à une dimension
3.1.2. Diagramme circulaire (graphique à secteurs) :
Dans le diagramme circulaire chaque modalité est représentée par un secteur dont
l’angle est proportionnel à l’effectif correspondant. La totalité de la circonférence
correspond à l’effectif total.
Exemple : le même tableau des espèces d’animaux peut se présenté graphiquement
par un diagramme circulaire
Espèce
Bovins
Ovins
Caprins
Total
Effectif
3346
13515
5335
22196
Méthode de calcul des degrés de chaque angle (ou secteur) du cercle :
Effectif total
: 221961 correspond à 360°
Effectif bovins : 3346 Correspond à l’angle a1
Effectif ovins : 13515 Correspond à a2
Effectif caprins : 5335 correspond à a3
Espece d'animaux
Bovins
Caprins
Ovins
Diagramme circulaire
M.ACHRIT
Page 11
12. Statistique descriptive à une dimension
3.2. Représentation d’une variable discrète :
3.2.1. Diagramme en bâtons :
Le diagramme en bâtons consiste à représenter chaque valeur de la variable statistique
par un bâton dont la hauteur est proportionnelle à l’effectif correspondant.
Exemple :
Pour un ensemble de 147 ménages, le nombre d’enfants se répartit comme suit :
ni nombre de ménages
Nombre
D’enfants(Xi)
0
1
2
3
4
5
6
7
8
Total
Nombre de
Ménages (ni)
15
20
22
10
31
28
12
4
5
147
ni cumulée
croissante
15
35
57
67
98
126
138
142
147
ni cumulée
décroissante
147
132
112
90
80
49
21
9
5
Nombre d'enfants par ménages
35
30
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9
xi nombre d'enfant
Diagramme en bâtons
M.ACHRIT
Page 12
13. Statistique descriptive à une dimension
3.2.2. Polygone de fréquences
Les polygones de fréquences sont construits en joignant par une ligne les sommets des
bâtons du diagramme en bâtons.
Nombre d'enfant par ménage
35
30
25
20
15
10
5
0
0
2
4
6
8
10
Polygone de fréquences
nombre de ménages (ni cc)
3.2.3. Histogramme et Polygone de fréquences :
Le polygone de fréquences cumulées est construit en escalier. On dessine des
segments de droites de longueurs proportionnelles aux fréquences cumulées mais décalant
progressivement vers le haut ensuite on joint les bâtons par des segments horizontaux.
160
140
120
100
80
60
40
20
0
0
1
2
3
4
5
6
7
8
Nombre d'enfants (xi)
Polygone de fréquences cumulées
M.ACHRIT
Page 13
14. Statistique descriptive à une dimension
3.3. Représentation d’un caractère quantitatif continu :
Pour représenter une variable continue on utilise le plus souvent ce qu’on appelle
Histogramme.
Les histogrammes se composent de rectangles dont les amplitudes des classes sont les
bases et les fréquences sont les hauteurs, de telle sorte que la surface du rectangle soit
proportionnelle à l’effectif correspondant.
Exemple : Considérons la distribution des salaires horaires d’un groupe de 91 ouvriers :
Salaires horaires Xi
(en 10 DRH)
[1 – 2[
[2 – 3[
[3 – 4[
[4 – 5[
[5 – 6[
[6 – 7[
[7 – 8[
TOTAL
Effectif
(ni)
7
13
22
28
14
5
2
91
Salaires horaires de 91 ouvriers
30
effectif ni
25
20
15
10
5
0
[1-2[
[2-3[
[3-4[
[4-5[
[5-6[
[6-7[
[7-8[
salaires horaires en 10 dh
M.ACHRIT
Page 14
15. Statistique descriptive à une dimension
4. LES PARAMÈTRES :
4.1. Introduction :
Les paramètres permettent de caractériser de façon simple les séries statistiques et les
distributions observées.
Les paramètres les plus utilisés sont :
Les paramètres de position
Les paramètres de dispersion
4.2. Paramètres de tendance centrale :
Appelés valeurs de tendance central. Les principaux paramètres de position sont :
La moyenne arithmétique,
La moyenne géométrique,
La moyenne harmonique,
La moyenne quadratique,
La médiane,
La médiale et
Le mode.
Ces paramètres statistiques doivent satisfaire à plusieurs conditions définies par le
statisticien YULE
4.2.1. Moyenne arithmétique :
* Définition : La moyenne arithmétique, qu’on appelle tout simplement moyenne, est égale
à la somme des valeurs observées divisée par le nombre d’observations.
*Interprétation : Le ‘’caractère’’ moyen est égale à…
*Cas d’une série statistique :
Soit série suivante :
X1, X2, X3, …. , X1, ….. , Xn
* Cas d’un caractère discret :
K est le nombre de valeurs distinctes que peut prendre la variable xi et de la valeur absolue
ni.
M.ACHRIT
Page 15
16. Statistique descriptive à une dimension
*Moyenne d’un caractère continu :
Ci est le point central des classes.
4.3.2. Moyenne arithmétique pondérée :
Il s’agit de la moyenne d’une série d’observation affectées chacune d’un
certain coefficient appelé coefficient de pondération :
Exemple :
Prix
en dh Poids
10
4
14
Total
en kg
1
1
1
3
10
4
14
28
: est le poids affecté à l’obervation i.
1 kg de pomme coûte 10 Dhs
1 kg d’orange coûte 4 Dhs
1 kg de bananes coûte 14 Dhs
Gardons les mêmes prix mais pour des poids différents :
Prix
en dh Poids
en kg
10
2
4
4
14
3
Total
9
2 kg de pommes coûtent 10 Dhs
4 kg d’oranges coûtent 4 Dhs
3 kg de bananes coûtent 14 Dhs
M.ACHRIT
20
16
42
78
Page 16
17. Statistique descriptive à une dimension
4.3.3. Moyenne géométrique :
La moyenne géométrique, notée
est calculée pour des observations positives.
*Cas d’une série statistique :
ou
*Cas d’un caractère quantitatif discret :
Cas d’un caractère quantitatif continu :
La moyenne géométrique et aussi égale à l’exponentielle de la moyenne
arithmétique des logarithmes népérien.
4.3.4. Moyenne quadratique et harmonique :
Moyenne quadratique
La moyenne quadratique et la moyenne d’ordre 2 :
La moyenne quadratique, c’est la racine carrée de la moyenne arithmétique des
carrés.
Moyenne harmonique :
La moyenne harmonique est la moyenne d’ordre -1 :
La moyenne harmonique, c’est aussi l’inverse de la moyenne arithmétique
des inverses.
M.ACHRIT
Page 17
18. Statistique descriptive à une dimension
On montre que la moyenne harmonique est inférieure ou égale à la moyenne
géométrique qui est inférieure ou égale à la moyenne arithmétique qui est inférieure
ou égale à la moyenne quadratique.
Exemple : Salaires horaires de 91 employés.
Salaire
horaire
(en 10dh)
1-2
2-3
3-4
4-5
5-6
6-7
7-8
Total
M.ACHRIT
ni
Ci
ni ci
ni ln ci
ni Ci2
ni/ci
7
13
22
28
14
5
2
91
1,5
2,5
3,5
4,5
5,5
6,5
7,5
10,5
32,5
77,0
126,0
77,0
32,5
15,0
370,5
2,838
11,912
27,561
42,114
23,866
9,359
4,030
121,68
15,75
81,25
269,50
567,00
423,50
211,25
112,50
1680,75
4,667
5,200
6,286
6,222
2,545
0,769
0,267
25,956
Page 18
19. Statistique descriptive à une dimension
4.3.5. Mode :
a- Cas d’une série statistique :
Le mode d’une série statistique est le nombre que l’on rencontre le plus
fréquemment. Le mode peut ne pas exister et s’il exister, il peut ne pas être unique.
Exemple :
Série 1 : 2 2 5 7 9 9 9 10 10 11 12
le mode est 9
Série 2 : 3 5 8 10 12 15 16
n’a pas de mode
Série 3 : 2 3 4 4 4 5 5 7 7 7 9
a deux modes 4 et 7
b- Cas d’un caractère quantitatif discret :
Le mode correspond à ni le plus grand et au maximum du diagramme en
bâton.
Exemple :
Nombre d’enfant
0
1
2
3
4
5
Total
Effectif
12
16
14
25
13
10
90
Le mode de cette distribution du nombre d’enfant est Mo= 3 : C'est à dire, la
plupart des familles ont 3 enfants.
c- Cas du caractère quantitatif continu :
Le mode correspond à ni le plus grand qui correspond à la classe modale
On peut déterminer la valeur du mode à l’aide de la formule de calcul suivante :
Mode = B0 +
Tel que :
B0 : borne inferieur de la classe modale
A : amplitude de la classe modale
Ni : l’effectif le plus grand
M.ACHRIT
Page 19
20. Statistique descriptive à une dimension
Exemple :
Salaire horaire
[20 – 40[
[40 – 60[
Mo ϵ [60 – 80[
[80 – 100[
[100– 120[
Total
Effectif
5
8 Ni-1
12 Ni
10 Ni+1
8
43
La classe modale de cette distribution des salaires horaires est la classe [60 – 80[.
Donc : Mode = 60 +
Mode = 60+
Mode=73,34 dh
4.3.6. Médiane :
Définition : La médiane d’une variable statistique est la valeur pour laquelle la moitié
des observations lui sont inférieures ou égales et la moitié supérieure ou égales.
Interprétation : Il y a autant de caractère inferieur à la Me que de caractère
supérieur à Me.
*Cas d’une statistique :
Pour une série de valeurs rangées par ordre croissant :
X1, X2, X3, …. , XI, …., XN
Si n est impair, le rang de la médiane est : Rang = (n+1)/2, donc : Me = X (n+1)/2
Si n est pair, le rang de la médiane est : Rang = n/2, donc :
Exemple :
Soit la série :
n = 5 (impair)
10
11
12
18
11
12
14
Me = X (5+1)/2=X3= 11
Soit la série :
M.ACHRIT
8
8
10
18
Page 20
21. Statistique descriptive à une dimension
*Cas d’un caractère quantitatif discret :
Si le Rang Me = 50% voir Ficc Me
Si le Rang Me proche de 50% voir Ficc Interpolation linéaire Me
Exemple :
Soit la valeur des exportations des entreprises d’une région au Maroc :
Exportations
En 1000 dh
[50 – 100[
[100 – 150[
[150 – 200[
[200 – 250[
[250 – 300[
Total
ni
fi
Fi cumulées croissantes
7
13
46
14
30
110
0,06
0,12
0,41
0,12
0,29
1
0,06
0,18
0,59
0,71
1
Rang Me proche de 0,50 Par interpolation linéaire :
150
Me
200
0,18
0,5
0,59
Me = 189,02 (en 1000Dh)
*Cas d’un caractère quantitatif continu :
Pour des données en classe, la classe médiane est la classe qui contient la
médiane. On détermine par interpolation linéaire.
Salaire horaire
En 10 dh
[2 – 4[
[4 – 6[
Me ϵ [6 – 8[
[8 – 10[
[10 – 12[
Total
M.ACHRIT
ni
5
8
12 nc
10
8
43
ni cumulées croissantes
5
13 ncc-1
25 ncc
34 ncc+1
43
Page 21
22. Statistique descriptive à une dimension
Méthode de calcul :
n=43 n est impair Rang de la médiane =
=
13<Rang Me=22<25 Me se trouve dans la classe médiane [6-8[.
La Me se trouve dans la classe médiane [6-8], pour déterminer sa valeur exacte on
utilise deux méthodes, l’Interpolation linéaire ou la formule de calcul:
Méthode 1 : Par interpolation linéaire :
6
Me
8
13
22
25
Me = 7,5 Dh
Interprétation : Il y a autant de salaires inférieurs à 7,5 Dhs que de salaires
supérieurs à 7,5 Dhs.
Méthode 2 : la formule :
Dans le cas d’une variable groupée en classes, on peut calculer la médiane par la
formule suivante (si n est impair) sinon on met n/2
Me=
B0=6 : Borne inférieure de la classe médiane
ai =2 : Amplitude de la classe médiane
n =43 : Nombre total des observations
=13: Fréquence absolue cumulée croissante de la classe inférieure à la classe
médiane
Nc=12 : Fréquence absolue de la classe médiane
M.ACHRIT
Page 22
23. Statistique descriptive à une dimension
4.3.7. Médiale :
Définition : La médiane est une valeur telle que la somme des observations qui lui
sont inférieures est égale à la somme des observations qui lui sont supérieures.
La médiale partage la masse total ∑ ni xi en deux parties égale :
Interprétation : La moitié de la somme totale du caractère est distribuée sous forme
de caractère inférieur à Ml.
Cas d’un caractère quantitatif discret et continu :
RangMl =
NIXI CC Classe médiale par interpolation linéaireMl
Dans le cas du caractère quantitatif continu : on remplace Xi par Ci
Exemple :
Salaire
horaire en
10 dh
[2 – 4[
[4 – 6[
[6 – 8[
[8 – 10[
[10 – 12[
Total
CI
NI
NI CI
NI CI cumulées
croissantes
3
5
7
9
11
5
8
12
10
8
43
15
40
84
90
88
317
15
55
139
229
317
NIXI CC : 139<158,5<229 médiale ϵ[8 -10[
RangMl =
Par interpolation linéaire :
La médiale est la valeur pour laquelle la somme des observations qui lui sont
inférieures est égale à 158,5. Elle se trouve dans la classe médiale [8 – 10[.
8
139
Ml
158,5
10
229
Me = 8 ,43 en 10Dhs
M.ACHRIT
Page 23
24. Statistique descriptive à une dimension
Interprétation :La moitié de la somme totale des salaires est distribuée sous
forme de salaires inférieurs à 84,3 Dhs.
Remarque : Parmi les différents paramètres de tendance centrale, la
moyenne arithmétique est le paramètre qui répond le mieux aux conditions de YULE,
c’est le paramètre statistique le plus utilisé.
4.4. Les paramètres de dispersion :
Ces paramètres permettent de chiffrer la variabilité (les écarts de xi par rapport à la
moyenne). Les principaux paramètres de dispersion sont :
La variance,
L’écart-type,
Le coefficient de variation,
L’écart moyen absolu,
L’écart interdécile,
L’écart interquartile,
L’étendue,
Le coefficient de concentration.
4.4.1. Variance et Ecart-type :
Définition : La variance est la moyenne arithmétique des écarts des observations par
rapport à leur moyenne.
L’écart –type est la racine carrée de la variance.
Formule développée de la variance :
M.ACHRIT
Page 24
25. Statistique descriptive à une dimension
La variance est égale à la différence entre la moyenne des carrés et le carré
de la moyenne.
Interprétation : L’écart type n’a pas un sens très concret. Il ne prend de
signification que pour comparer deux distributions.
Si par exemple dans une entreprise, la distribution des salaires des
fonctionnaires a pour écart-type 400Dhs alors que la distribution des salaires des
ouvriers a pour écart-type 200 Dhs. On dira que les salaires des fonctionnaires sont
deux fois plus dispersés que les salaires des ouvriers.
4.4.2. Coefficient de variation :
Le coefficient de variation est le rapport de écart-type par rapport à la
moyenne.
Le coefficient de variation est le plus souvent exprimé sous la forme d’un
pourcentage. Le coefficient de variation est indépendant des unités choisies, il est
utile pour comparer des distributions qui ont des unités différentes.
Exemple :
Entreprise 1 :
Salaire horaire
en 10 dh
[1 – 3[
[3 – 5[
[5 – 7[
[7 – 9[
[9 - 11[
ni
xi
ni x i
ni xi2
20
18
20
14
15
2
4
6
8
10
40
72
120
112
150
80
288
720
896
1500
Total
87
494
3484
M.ACHRIT
Page 25
26. Statistique descriptive à une dimension
Entreprise 2 :
Salaire horaire
En 10 dh
[3 – 5[
[5 – 7[
[7 – 9[
TOTAL
ni
xi
ni x i
ni xi2
33
35
19
87
4
6
8
132
210
152
494
528
1260
1216
3004
Constatation :
-Les 2 entreprises ont la même masse salariale horaire totale qui est de 494 Dhs.
- Les deux entreprises ont Le même nombre d’ouvriers 87, donc le salaire moyen est
le même.
Si cette valeur centrale qui est la moyenne donne la même grandeur concernant le
salaire pour les deux entreprises, on peut constater que les salaires ne sont pas
distribués de la même manière. Les paramètres de dispersion résument la manière
dont sont distribués les caractères.
Entreprise 1 :
Entreprise 2 :
Les salaires sont plus dispersés dans l’entreprise 1 que dans l’entreprise
M.ACHRIT
Page 26
27. Statistique descriptive à une dimension
4.4.3. L’écart absolu moyen :
Définition : L’écart absolu moyen est la moyenne des valeurs absolues des
écarts par rapport à la moyenne.
Interprétation : En moyenne, les valeurs Xi s’écartent de la moyenne de EAM
Cas d’une série statistique :
Cas d’une distribution de fréquences :
Exemple :
Trouver l’écart absolu moyen des nombres suivants :
2 3
6
8
11
En moyenne, ces valeurs s’écartent de la moyenne de 2,8
4.4.4. Quartiles et Déciles :
a. Les quartiles q1, q2 et q3 :
Définition :
q1 : est la valeur de la variable telle que un quart des observations lui sont
inférieures ou égales et trois quarts des observations lui sont supérieures ou égale.
q2 : est la valeur de la variable telle que deux quarts des observations lui sont
inférieures ou égales et deux quarts des observations lui sont supérieures ou égale.
C’est aussi égal à la médiane.
q3 : est la valeur de la variable telle que trois quarts des observations lui sont
inférieures ou égales et un quart des observations lui sont supérieures ou égales.
Effectif
25%
25%
q1
25%
q2
50%
M.ACHRIT
25%
q3
75%
Page 27
28. Statistique descriptive à une dimension
b. Ecart interquartile :
Ecart interquartile = q3 – q1
L’intervalle interquartile [q1, q3] contient 50% des observations qui se situent au
centre de la distribution en laissant 25% des observations à droite et 25% à gauche.
Effectif
25%
50%
25%
q1
q3
Pour la détermination des quartiles et des déciles on utilise la même
méthode de calcul que pour la médiane.
c. Les déciles :
En procédant comme pour la médiane et les quartiles, il est possible de définir
et de calculer les déciles d1 à d9 par interpolation linéaire.
d1 : est la valeur de la variable telle qu’un 1/10 des observations lui sont inférieures
ou égales et 9/10 des observations lui sont supérieures ou égales.
di : est la valeur de la variable telle que i /10 des observations lui sont inférieures ou
égales et (10 - i)/10 des observations lui sont supérieures ou égales.
Effectif
10%
10%
d1
10%
d2
10%
d3
10%
d4
10%
d5
10%
d6
10%
d7
10%
d8
10%
d9
d. Ecart interdecile :
Ecart interquartile = d9 – d1
L’intervalle interquartile [d1, d9] contient 80% des observations qui se situent
au centre de la distribution en laissant 10% des observations à droite et 10% à
gauche.
Pour la détermination des quartiles et des déciles on utilise la même
méthode de calcul que pour la médiane.
4.4.5. L’étendue :
L’étendue est l’écart entre la valeur maximale et la valeur minimale de la variable
statistique.
E =Xmax - Xmin
M.ACHRIT
Page 28
29. Statistique descriptive à une dimension
4.4.6. L’indice de concentration :
*Courbe de concentration :
Cette courbe est obtenue en calculant les fréquences relatives cumulées
croissante des observations après les avoir classé par ordre croissant et les masses
relatives cumulées croissantes.
ni / n cumulées croissantes
La courbe de concentration ou courbe de LORENZ s’inscrit toujours dans un
carré de côté unitaire dont les abscisses sont les fréquences relatives cumulées
croissantes et les ordonnées sont les masses relatives cumulées croissantes.
Dans le cas où toutes les observations seraient égales entre, la courbe de
concentration correspond à la bissectrice. Plus la courbe s’éloigne de la bissectrice
plus la concentration n’est élevée.
*Coefficient de concentration :
On mesure la concentration par la surface comprise entre la courbe de
LORENZ et la bissectrice. Le coefficient de concentration ou coefficient de GINI est
égale à deux fois cette surface. y = 2A
*Indice de concentration :
On peut étudier la concentration directement à partir de la diffèrence entre
la médiale et la médiane d’une distribution.
4.4.7. Utilisation des différents de dispersion :
La variance, l’écart-type et le coefficient de variation sont les paramètres de
dispersion les plus utilisés. En particulier le coefficient de variation qui permet de
comparer la variabilié relative de plusieurs qui différent fortement par leur ordre de
grandeur et éventullement même par leur unité de mesure.
M.ACHRIT
Page 29
30. Statistique descriptive à une dimension
EXERCICES : STATISTIQUE DESCRIPTIVE A UNE DIMENSION
Exercices 1 :
Spécifier la nature des caractères suivants :
12345-
Nombre d’actions vendues chaque jour à la bourse.
Durée de vie des tubes de télévision fabriqués par une société.
Salaires annuels des employés d’une société.
Nationalité des résidents dans une cité universitaire internationale.
Nombre de millimétres de pluie qui tombent sur une ville pendant différents mois
de l’année.
6- Vitesse d’une voiture.
Exercice 2 :
Le tableau suivant présent la siituation familiale d’un échanllon de 500 personnes
choisies au hasard parmi les habitants d’une ville.
Situations familiales
Célibataire
223
Marié
187
Divorcé
32
Veuf
55
séparé
3
TOTAL
12345-
Nombre de personnes
500
Quelle est la population étudiée ?
De quel type d’enquêtes s’agit-il ?
Quel est le caractère étudié ? Quelle est sa nature ?
Quelle est la proportion des personnes mariées ?
Représenter graaphiquement cette distribution.
Exercice 3 :
Le nombre d’enfants dans 300 familles est réparti comme suit :
M.ACHRIT
Page 30
31. Statistique descriptive à une dimension
Nombre d’enfant
0
1
2
3
4
5
6
7
TOTAL
Nombre de familles
13
22
46
49
58
42
39
31
300
T.A.F :
123456-
Quel est le caractére étudié ? Quelle est sa nature ?
Quel est le nombre de familles qui ont au moins un enfant ?
Quel est le nombre de familles qui ont au plus 4 enfants ?
Quelle est la proportion des familles qui ont moins de 5 enfants ?
Quelle est la proportion des familles qui ont plus de 2 enfants ?
Représenter grahiquement cette distribution.
Exercice 4 :
L’étude de la répartition des personnes d’un échantillon a donné les résultats
suivants :
Classes de revenus
Effectifs
1 à 15
32
1 à 30
48
1 à 45
14
46 à 60
12
61 à 75
10
76 à 90
16
91 à 105
6
106 à 120
2
T.A.F :
1- Quel est le caractère étudié ? Quelle est sa nature ?
2- Représenter graphiquement cette distibution.
3- Calculer les indicateurs de tendence suivants :
Moyenne arithmétique
Médiane
Médiale
Interpréter les résultts obtenus.
4- Calculer les indicateurs de dispersion suivants :
M.ACHRIT
Page 31
32. Statistique descriptive à une dimension
Variance
Ecart-type
Coefficient de variation
L’écart absolu moyen
L’écart interquartile
Interpréter les résultats obtenus.
5- Donner une mesure de concentration.
Exercice 5 :
Un autombiliste a roulé sur trajet de 100 Km/à une vitesse de 90 Km/h sur
les 10 premiers kilomètres ; 100 Km/h sur un trajet de 30 Km et 120 Km/h sur les 60 derniers
kilomètres. Quelle est la vitesse moyenne avec laquelle l’automobilite a parcouru les 100
kilomètres ?
Exercice 6 :
Le tableau suivant donne la répartition d’âge de 120 résidents dans une maison de retraite :
Age
90 – 100
80 - 89
70 - 79
60 - 69
50 - 59
40 - 49
30 - 39
Nombre de
personnes
9
32
43
21
11
3
1
TOTAL
120
1- Quel est l’âge moyen des résidents de cette maison de retraite ?
2- Calculer un indicateur de dispersion de l’âge ?
3- Quelle est la tranche d’âge centrale qui regroupe 60% de personnes ?
Exercice 7 :
Les recettes journalières de 80 magasins d’un centre commercial répartissent
comme suit :
Recettes (DH)
90 – 100
100 – 110
110 – 120
120 – 130
M.ACHRIT
Nombre de magasins
5
9
16
25
Page 32
33. Statistique descriptive à une dimension
130 – 140
140 – 150
150 – 160
160 – 170
TOTAL
13
7
3
2
80
1- Calculer la recette moenne journalière.
2- Calculer le coefficient de variation des recettes journalières.
3- Si toutes les recettes journalières ont augmenté de 20% ; calculrer la nouvelle
moyenne et le nouveau coefficient de variation.
Exercice 8
Le poids moyen et la variance du poids de 10 colis sont respectivement 5,9 et 4,83.
On a remplacé un colis pesant 8,5 Kg par un autre colis qui pèse 6,5 Kg. Quelle sont
les nouvelles valeurs de la moyenne et la variance ?
SOLUTIONS DES EXERCICES :
Exercice 1 :
1- Le nombre d’actions, vendues chaque jour à la bourse, est un caractère
mesurable, il ne prend par de valeurs décimales. C’est donc un caractère
quantitatif discret.
2- Durée de vie des tubes de télévision, c’est une caractéristique mesurqble,
généralement exprimée en heures, elle peut prendre des valeurs décimales. Il
s’agit donc d’un caractère quantitatif continu.
3- Les salaires annuels sont mesurables et peuvent prendre des valeurs
décimales. C’est un caractère quantitatif continu
4- La nationalité est une caractéristique non mesurable, c’est un caractére
qualitatifa.
5- Le nombre de millimètres de pluie est une caractéristique mesurable et peut
prendre des valeurs décimales, c’est un caractère quantitatif continu.
6- La vitesse d’une voiture est une caractéristique mesurable et peut prendre
des valeurs décimles, c’est un caractère quantitatif continu.
Exercice 2 :
1- La population étudieé est constituée est l’ensemble des habitants de laville.
M.ACHRIT
Page 33
34. Statistique descriptive à une dimension
2- Seulement une partie de la population (500 personnes) a été
réellement.observée, il s'agit donc d’une enquête partielle ou enquête par
échantillonnage.
3- Le caractère étudié est la sitution familiale, il n’est pas mesurable, c’est un
caractère qualitatif.
4- Les proportions correspondent aux fréquences relatives f i.
Situation familiale
Fréquences absolue
Célibataire
Marié
Divorcé
Veuf
séparé
223
187
32
55
3
Fréquences relatives
0,446
0,374
0,064
0,110
0,006
TOTAL
500
1,000
La proportion des personnes mariées est donc :
f2 100 = 0,374
100 = 37,4%
5- La situation familiale est un caractère qualitatif, on peut la représenter
graghiquement par un diagramme en tuyaux d’orgue ou par un diiagramme
circulair.
70
70
60
60
50
50
40
40
Series1
30
30
20
20
10
10
0
0
1
0
M.ACHRIT
2
1
3
2
4
3
5
4
Page 34
35. Statistique descriptive à une dimension
Exercice 3 :
1- Le nombre d’enfant est un caractère mesurable, il ne peut pas prendre
des valeurs décimmales, c’est un ccaractère quantitatif discontinu.
Le tableau suivant regroupe les fréquences absolues (ni), les fréquences
absolues cumulées croissantes (ni cum Décrois.), les fréquences
absolues cumulées décroissantes (ni cum Décrois.), les fréquences
relatives (fi), les fréquences relatives cumulées croissantes (fi cum
Décrois.) et les fréquences (fi cum Décrois.)
Ndre
d’enfant
Ni
Ni cum.
Crois.
Fi cum.
Décrois.
Fi
Fi cum.
Crois.
Fi cum.
Décrois.
0
1
2
3
4
5
6
Plus de 6
13
22
46
49
58
42
39
31
13
35
81
130
188
230
269
300
300
287
265
219
170
112
70
31
0,043
0,73
0,153
0,163
0,194
0,410
0,130
0,104
0,043
0,116
0,269
0,432
0,626
0,766
0,896
1,000
1,000
0,957
0,884
0,731
0,569
0,374
0,234
0,104
TOTAL
300
-
-
1,000
-
-
2- Nombre de familles qui ont au moins 1 enfant est égale à la deuxième
fréquence cumulée décroissante, c'est à dire 287.
3- Nombre de familles qui ont au plus 4 enfants est égale à la cinquième
fréquence absolue cumulée croissante, c'est-à-dire 188.
4- Propportion des familles qui ont moins de 5 enfants est égale à la
cinquième fréquence relative cumulée croissante, c'est à dire 0,626 ou
62,6%.
5- Proportion des familles qui ont plus de 2 enfants est égale à la quatrième
relative cumulée décroissante, c'est à dire 0,731 ou 73,1%.
6- Le nombre d’enfants est un caractère quantitatif discontinu, ou peut le
représenter graphiquement par un diagramme en bâtons.
M.ACHRIT
Page 35
36. Statistique descriptive à une dimension
70
60
50
40
30
20
10
0
0
1
2
3
4
5
6
7
8
9
Exercice 4 :
1- Le revenu est une caractéristique mesurable qui peut prendre des valeus
décimali, c’est un caractére quantitatif continu.
2- Une variable statistique continue est représentée graphiquement, le plus
souvent, par un histogramme.
3- Pour le calcul des paramètres statistiques, le tableau suivant regroupe le
détail des calculs.
Point
central ci
ni
ni ci
8
23
38
53
68
83
98
113
TOTAL
32
48
14
12
10
16
6
2
140
256
1104
532
636
680
1328
588
226
5350
M.ACHRIT
ni cum
Crois
32
80
94
106
116
132
138
140
-
ni ci cum
Crois
256
1360
1892
2528
3208
4536
5124
5350
-
ni ci2
2048
25392
20216
33708
46240
110224
57642
25538
320990
30,2
15,2
0,2
14,8
29,8
44,8
59,8
74,8
-
966,4
729,6
2,8
177,6
289
716,8
358,8
149,6
3399,6
Page 36
37. Statistique descriptive à une dimension
Moyenne arithmétique :
Le revenu moyen d’une personne est égal à 38,2
Médiane :
La médiane se situe entre l’observation de ranga 70 et l’obervation de rang 71, elle se trouve
dans la classe 16 à 30.
= 16+14[(70,5 -32)/48] =27,22
La moitié de personnes de ont revenu inférieur ou égal à 27,22.
médiale :
La médiale est l’observation qui partager la masse total 5350 en deux partiés-égales dont le
totale des revenus est égal à (5350 /2) c'est à dire 2675.
La médiale appartient à la classe 61 à 75.
2528
61
2675
Ml
3208
75
La moitié du total des revenus de l’ensemble des personnes de l’échantillon sont distribués
sous forme de revenus inférieurs ou égales à 64,02.
La concentration est de 31%.
Exercice 5 :
M.ACHRIT
Page 37
38. Statistique descriptive à une dimension
L’automobiliste a parcouru les 100 Km avec 3 vitesses différentes :
vitesse
trajet
V1 = 90
N1 = 10
V2 =100
N2 = 30
V3 =120
N3 = 60
total
100
Une vitesse est un rapport entre la distance parcourue et le temps mispour parcourir cette
distance.
La vitesse moyenne avec laquelle l’automobiliste a parcouru les 100 Km est égale au raport
de la distance parcouru sur le temps mis pour parcourir les 100 Km.
Le temps mis pour parcourir les 100 Km est égale à la somme des temps mis pour parcourir
chaque trajet.
Le temps mis pour parcourir un trajet est égale au rapport de la distance du trajet sur la
vitesse.
Il s’agit d’une moyenne harmonique de la vitesse et non par la moyenne arithmétique.
Exercice 6
Tranche
M.ACHRIT
Point
ni
ni cumu.
Ci ni
Ni ci2
Page 38
39. Statistique descriptive à une dimension
d’âge
30 - 40
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
90 - 100
Total
Central ci
35
45
55
65
75
85
95
-
1
3
11
21
43
32
9
120
Crois.
1
4
15
36
79
111
120
-
35
135
605
1365
3225
3720
855
8940
1225
6075
33275
88725
241875
231200
81225
683600
1- L’âge moyen des résidents :
2- La variance est un indicateur de dispersion
= 146,41
3- La tranche d’âge centrale qui regroupe 60% des personnes a 20% de personnes à sa
gauche et 20% à sa droite.
10%
10%
d1
60%
d2
10%
d8
10%
d9
C’est donc la tranche comprise entre le deuxième décile et le huitième décile.
d2 Correspond à l’âge du 24ème personne, il appartient à la tranche d’âge 60 – 70 ans.
15
24
36
60
d2
70
M.ACHRIT
Page 39
40. Statistique descriptive à une dimension
d8 correspond à l’âge du 96ème personne, il appartient à la tranche 80 – 90
79
96
111
80
d8
90
La tranche d’âge centrale qui regroupe 60% des résidqnts est donc lq trqnche 64 - 85 ans
Exercice 7 :
1- Pour simplifier les calculs on peut effectuer un changement de variable, en
remplacant la variable étudiée ( x points centraux ) par une autre variable y.
2- On choisit a et b de telle sorte que les valeurs de y soient les plus simples possible.
La valeur la plus simple est la valeur zéro, on préfère qu’elle soit au centre de la
distribution, a doit donc être égale au point central qui est au centre de la
distribution, b est le plus grand diviseur commun généralement c’est l’amplitude des
classes.
ci
95
105
115
125
135
145
155
165
TOTAL
M.ACHRIT
y
-3
-2
-1
0
1
2
3
4
ni
5
9
16
25
13
7
3
2
80
ni yi
-15
-18
-16
0
13
14
9
8
-5
ni yi2
45
36
16
0
13
28
27
32
197
Page 40
41. Statistique descriptive à une dimension
3- Toutes les recettes ont augmenté de 20%, la nouvelle variable x’ est donc :
Toutes les observations ont augmenté d’une même proportion par conséquent, le
coefficient de variation n’a pas changé.
Exercice 8 :
Soit x la variable statistique qui représente le poids des colis.
1- Eléminons l’observation qui a la valeur 8,5 Kg.
M.ACHRIT
Page 41
42. Statistique descriptive à une dimension
2- Ajoutons la nouvelle observation qui a la valeur 6,5 Kg.
Les nouvelles valeurs de la moyenne et la variance sont :
M.ACHRIT
Page 42