1. Statistique Descriptive
Chapitre 1 : Les tableaux et
représentations graphiques
Pr. Abdelkrim EL MOUATASIM
EST & FE de Guelmim
Maroc
Site internet : http://el-mouatasim.webs.com
2. Statistiques descriptives à une variable : représentations
Objectifs de ce module
Savoir décrire et
représenter une série
statistique par un tableau
et un ou plusieurs
graphiques adaptés.
On fera des choix des
représentations différents
selon la nature du
caractère.
3. Introduction
La représentation tabulaire est préalable à
toute analyse statistique.
Elle fait suite au travail préliminaire de
collecte des données.
La représentation graphique d’un seul
caractère repose sur une règle de
proportionnalité des hauteurs ou aires des
graphiques aux effectifs (ou fréquences).
Le choix d’un type de graphique dépendra de
la nature du caractère étudié.
4. Plan du chapitre 1
Voici les parties que nous allons aborder :
I. Caractères qualitatifs.
II. Caractères quantitatifs
discrets.
III. Caractères quantitatifs
continus.
5. Ⅰ. Caractères qualitatifs
Plan de la partie
Voici les chapitres que nous allons aborder :
1. Représentation tabulaire.
2. Diagramme à bande.
3. Diagramme circulaire.
6. Ⅰ. Caractères qualitatifs
1. Représentation tabulaire
Tableau à simple entrée, sans hiérarchie
(sauf si le caractère est ordinal).
La première colonne renseigne les modalités
et les deux suivantes les effectifs et
fréquences.
Si le caractère est ordinal, on pourra rajouter
une dernière colonne avec les fréquences
cumulées.
7. Ⅰ. Caractères qualitatifs
1. Représentation tabulaire
Noms Situation de famille
Exemple: On a noté la M.Azim Marié
situation familiale des MFarid Veuf
Mme Latifi Mariée
150 employés d'une
Melle Fatiha Célibataire
entreprise.
M. Ahmed Divorcé
M. Salih Marié
M. Berrada Divorcé
Mme Réda Divorcée
Melle Fatiha Célibataire
M. Halim Marié
M. Chadi Veuf
Mme Faouzi Mariée
... ...
8. On ne s'intéresse pas à la situation personnelle
de M. Azim ou de M. Farid, mais à la répartition
du caractère "situation familiale" dans la
population des 150 employés.
Pour cela il faut, pour chacune des modalités de
la variable, déterminer l'effectif correspondant,
c'est-à-dire le nombre de personnes ayant cette
modalité : il faut dénombrer le nombre de
célibataires, le nombre de mariés, etc..
9. Cela peut se résumer par :
Modalités Effectifs
Marié 80
Célibataire 30
Veuf 20
Divorcé 20
10. On notera x1, x2, ..., xk les différentes
modalités, et n1, n2, ... , nk les effectifs
associés.
Dans le tableau ci-dessus, x1 = "marié",
n1 =
k=
La somme des effectifs vaut :
La variable que nous venons de voir
est…
11. On aurait pu tout aussi bien présenter les résultats sous la
forme ci-dessus, par exemple.
Modalité Effectif
Célibataire 30
Marié 80
Divorcé 20
Veuf 20
12. Par contre, s'il s'agit d'une variable ordinale, les modalités
sont toujours présentées dans l'ordre :
x1 < x2 < .... < xk , comme dans l'exemple ci-dessous.
Effectifs = Nombre de personnes de
Modalités = tailles
cette taille
XS 10
S 25
M 40
L 32
XL 23
XXL 20
13. L'ensemble des couples
{ (xi , ni ), i = 1, ... , k }
est une série statistique (ordonnée), ou
distribution observée de la variable.
La somme de tous les ni est-elle toujours égale à
n, nombre des observations ?
On notera ceci :
effectif total
14. On appellera fréquence relative la valeur
que l'on peut aussi exprimer en pourcentage
par fi x 100, c'est le pourcentage d'individus
pour lesquels la variable a pris la valeur xi.
15. Complétez le tableau :
Modalités xi Effectif ni Fréquence relative fi %
Célibataire 30 0.2 20
Marié 80
Divorcé 20
Veuf 20
Effectif total : 150
A quoi est égal ici le total de la colonne fréquence ?
Et celui de la colonne "pourcentage" ?
Il y a, parmi les 150 employés, …….% qui sont mariés.
16. Ⅰ. Caractères qualitatifs
2. Diagramme à bandes
Aussi appelé représentation par « tuyaux
d’orgue ».
Les modalités sont placées sur un axe
horizontal.
Les effectifs (ou fréquences) sont placés sur
un axe vertical.
La hauteur de chaque tuyau est
proportionnelle à l’effectif correspondant.
Permet de comparer d’un « coup d’œil » les
différentes modalités.
18. Ⅰ. Caractères qualitatifs
3. Diagramme circulaire
L’aire, et donc l’angle au centre d’un secteur,
est proportionnelle à la fréquence (ou
l’effectif) de la modalité considérée (d’où un
angle de fi x 360° pour la modalité i).
Permet de bien visualiser la part relative de
chaque modalité.
21. Ⅱ. Caractères quantitatifs discrets
Plan de la partie
Voici les chapitres que nous allons aborder :
1. Représentation tabulaire.
2. Diagramme bâton.
3. Courbe des fréquences
cumulées.
22. Ⅱ. Caractères quantitatifs discrets
1. Représentation tabulaire
Tableau à simple entrée, où les données sont
classées par ordre croissant.
La première colonne renseigne les
différentes valeurs du caractère, et les trois
suivantes les effectifs, fréquences et
fréquences cumulées.
23. De même, pour une variable discrète, on
notera x1 , x2 , ... , xk les valeurs rangées par
ordre croissant, et n1 , n2 , ... , nk les effectifs
correspondants.
24. Noms Nombre d'enfants
M.Azim 2
MFarid 3
Mme Latifi 0
Melle Fatiha 0
M. Ahmed 1
M. Salih 0
M. Berrada 1
Mme Réda 0
Melle Fatiha 2
M. Halim 4
M. Chadi 1
Mme Faouzi 3
M. Ali 2
Melle Loubna 0
M Fatih 0
M. Said 1
M. Radi 2
Mme Faraj 2
25. Ainsi,à partir de la série brute ci-dessus,
construisez le tableau :
Nombre d'enfants xi Effectifs ni
0 6
26. Nombre d'enfants xi Effectif ni Fréquence relative fi
0 6 0.33
1 4 0.22
2 5 0.28
3 2 0.11
4 1 0.06
Total : 18 1
27. Voyons un autre exemple : Pour étudier
les appels téléphoniques arrivant à un
central, on a noté, sur 96 jours
comparables, le nombre d'appels reçus
entre 9 h et 9 h 10. Les résultats sont
consignés dans ce tableau :
28. Quelle est la proportion de jours où le
nombre d'appels a été de 2 ?
Nombre Nombre de Fréquence
% fi × 100
d'appels xi jours ni relative fi
0 2 0.0208 2.08
1 14 0.1458 14.58
2 23 0.2396 23.96
3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
29. Quelle est la proportion de jours où le nombre
d'appels a été supérieur ou égale à 3?
Nombre Nombre de Fréquence
% fi × 100
d'appels xi jours ni relative fi
0 2 0.0208 2.08
1 14 0.1458 14.58
2 23 0.2396 23.96
3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
30. Combien y-a-t-il eu de jours où le nombre
d'appels a été inférieur ou égal à 2 ?
Nombre Nombre de Fréquence
% fi × 100
d'appels xi jours ni relative fi
0 2 0.0208 2.08
1 14 0.1458 14.58
2 23 0.2396 23.96
3 24 0.2500 25.00
4 18 0.1875 18.75
5 9 0.0938 9.38
6 6 0.0625 6.25
Total : 96 1 100
31. Plus généralement, si
{ (xi , ni ), i = 1, ..., K }
est la distribution observée d'une variable
discrète, n1 + n2 + ... + ni = Ni est le nombre
d'individus pour lesquels la variable a été
inférieure ou égale à xi..
On peut calculer Ni de proche en proche :
N1 = n1, N2 = N1 + n2, N3 = N2 + n3, etc ...
Les Ni sont les effectifs cumulés
croissants.
32. De même ni + ni+1 + ... + nk = N'i est le
nombre d'individus pour lesquels la
variable a été supérieure ou égale à xi.
Il
peut se calculer de proche en proche :
N'k = nk , N'k-1 = nk + nk-1 ,
LesN'i sont les effectifs cumulés
décroissants.
33. On peut définir de même :
Fi = f1 + f2 + ... + fi , fréquences relative
cumulées croissantes obtenues de proche en
proche par Fi+1 = fi+1 + Fi
F'i = fi + fi+1 + ... + fk , fréquences relative
cumulées décroissantes obtenues de proche
en proche par F'i = F'i+1 + fi
Fi et F'i peuvent s'exprimer aussi en pourcentage
(en multipliant tout par 100).
35. Ⅱ. Caractères quantitatifs discrets
2. Diagramme bâton
Diagramme bâton des effectifs
A chaque valeur du caractère portée en
abscisse, on associe un « bâton » vertical
dont la hauteur est proportionnelle à l’effectif.
Cette représentation permet de comparer les
effectifs de chaque valeur du caractère.
36.
37. Ⅱ. Caractères quantitatifs discrets
3. Courbe des fréquences
cumulées
Représente l’évolution des fréquences
cumulées.
Le caractère étant discret, la courbe est en
« escalier ».
En effet, les valeurs étant séparées, entre
chacune d’elle la fréquence cumulée est
inchangée, d’où ces paliers.
40. Ⅲ. Caractères quantitatifs continus
Plan de la partie
Voici les chapitres que nous allons aborder :
1. Représentation tabulaire.
2. Histogramme des densités de
fréquence.
3. Polygone de fréquences
4. Courbe des fréquences cumulées.
41. Ⅲ. Caractères quantitatifs continus
1. Représentation tabulaire
Tableau à simple entrée, où les classes de
données sont triées par ordre croissant.
La première colonne renseigne les
différentes classes de valeurs du caractère,
et les trois suivantes les effectifs, fréquences
relatifs et fréquences cumulées.
Si les classes ne sont pas toutes de même
amplitude, on rajoute une colonne contenant
les densités de fréquence, i.e. la fréquence
de la classe divisée par son amplitude.
42. 1. Représentation tabulaire
Lorsque la variable est continue, ou que la variable peut prendre
un grand nombre de valeurs différentes, même si celle-ci est une
variable discrète, il convient de regrouper ces valeurs en classes.
À chaque classe on fait correspondre une fréquence ou une
fréquence relative, et l’on obtient alors une distribution de
fréquence ou de fréquence relative pour valeurs groupées.
Pour construire une distribution de fréquence, de fréquence
relative ou de fréquence relative cumulée pour valeurs groupées
on doit procéder de la manière suivante :
1. Déterminer le nombre de classes
2. Déterminer l’amplitude des classes
3. Déterminer les différentes classes
43. 1. Représentation tabulaire
Exemple 1
Voyons l'exemple d'une série brute de 60
valeurs du CA mensuelle d’une entreprise (en
1000dh), et le tableau des effectifs obtenus.
L'inconvénient est que, comme on aura toujours
un grand nombre de valeurs différentes, on
obtiendra un grand nombre de petits effectifs, ne
résumant finalement pas grande chose !
46. Une variable continue ne prend pas des
valeurs isolées, mais des valeurs
appartenant à des intervalles. C'est
pourquoi, au lieu de définir des effectifs
par valeurs, on définira des effectifs par
intervalles, appelés classes.
47. Afin de simplifier la présentation on peut, quitte à
perdre un peu d'information, regrouper les
effectifs proches, par exemple
175 d’ effectif 1
176 d’ effectif 2
177 d’ effectif 1
peut être remplacé par [ 175 ; 178 [ d’ effectif 4.
48. On découpera ainsi l'intervalle des valeurs
en classes contiguës, de la forme :
[ e1 ; e2 [ [ e2 ; e3 [ [ e3 ; e4 [ ....
[ ek ; ek+1 [
et on notera n1, n2, ... , nk les effectifs
associés.
ni est le nombre d'individus appartenant à
la classe [ ei ; ei+1 [.
49. Exemple 1
Classes de CA ( en 1000dh) Effectifs
[159 - 165 [ 6
[165 - 168 [ 8
[168 - 171 [ 20
[171 - 174 [ 20
[174 - 177 [ 5
[177 - 179 [ 1
50. Exemple 1
Classes de CA ( en 1000dh) Effectifs
moins de 160 1
[160 - 165 [ 5
[165 - 170 [ 21
[170 - 175 [ 29
175 et plus 4
51. Quel que soit le type de variable on a
finalement, pour toute modalité, valeur xi ,
ou classe [ ei , ei+1 [, un effectif ni , tel que
Ilest parfois utile, surtout pour faire des
comparaisons entre plusieurs séries, de
raisonner plutôt avec des fréquences
relatifs.
53. 1. Représentation tabulaire
1. Déterminer le nombre de classes :
1) N C = 1 + 3.3Log (n)(règle de Sturges)
2) NC = n
Nombre d’observations
dans la série statistique
54. 1. Représentation tabulaire
2. Calculer l’amplitude des classes :
1) D’une façon plus ou moins arbitraire
2) En utilisant l’étendue
E = xmax − xmin = (Plus grande valeur de la série statistique)
– Plus petite
valeur de la série statistique
E
AC =
NC
Des classes d’amplitudes
égales
55. 1. Représentation tabulaire
3. Déterminer les différentes classes :
xmin ≤ Classe1 < xmin + Ac
xmin + Ac ≤ Classe2 < xmin + 2 Ac
xmin + (k − 1) Ac ≤ Classek < xmin + kAc
xmin + ( N c − 1) Ac ≤ Classe N c < xmin + N c Ac
56. Exemple 2 : Le tableau statistique (valeurs groupées)
Pour les trois dernières années, le débit mensuel moyen d'une rivière,
exprimé en milliers de mètres cubes par seconde, a été le suivant :
Variable continue
Posons X = la variable statistique représentant le débit mensuel moyen
d’une rivière.
57. Exemple 2 : Le tableau statistique (valeurs groupées)
(1) Nombre de classes :
N C = 1 + 3.3Log (36) = 6.1358 classes
N C = 36 = 6 classes Débit D
(en milliers de m 3 )
(2) L’amplitude des classes : 0.08 ≤ Classe1 < 0.25
E = 1.05 − 0.08 = 0.97 0.25 ≤ Classe2 < 0.42
0.97 0.42 ≤ Classe3 < 0.59
AC = = 0.1617 ≈ 0.17
6 0.59 ≤ Classe4 < 0.76
(3) Détermination des classes : 0.76 ≤ Classe5 < 0.93
0.93 ≤ Classe6 < 1.10
58. Exemple 2 : Le tableau statistique (valeurs groupées)
Distribution de fréquence, de fréquence relative et de
fréquence relative cumulée :
59. Ⅲ. Caractères quantitatifs continus
2. Histogramme des densités de
fréquence.
Ensemble de rectangles contigus.
Pour chaque classe on trace un rectangle :
de base B proportionnelle à l’amplitude de la
classe
de hauteur h proportionnelle à la densité de
fréquence de la classe
L’aire du rectangle sera alors proportionnelle
à la fréquence de la classe.
60. Ⅲ. Caractères quantitatifs continus
2. Histogramme des densités de
fréquence.
Double interprétation :
On comparera les densités de fréquence des
classes en comparant les hauteurs des
rectangles.
On comparera les fréquences des classes en
comparant les aires des rectangles.
61. Nombre de
personnes
Age (ans)
dans cette
tranche d'âge
20 à 30 100
30 à 40 150
40 à 50 90
50 à 65 20
62. Histogramme de fréquence pour valeurs groupées (exemple 2)
Histogramme de fréquence
25
20
15
Fréquence
10
5
0
0,08 - 0,249 0,25 - 0,419 0,42 - 0,589 0,59 - 0,759 0,76 - 0,929 0,93 et plus
Débit D (en milliers m3/sec)
63. Histogramme de fréquence relative pour valeurs
groupées (exemple 2)
Histogramme de fréquence relative
0,7
0,6
0,5
Fréquence relative
0,4
0,3
0,2
0,1
0
0,08 - 0,249 0,25 - 0,419 0,42 - 0,589 0,59 - 0,759 0,76 - 0,929 0,93 et plus
Débit D (en milliers de m3/sec)
64. 3. Polygone de fréquences pour valeurs
groupées (exemple 2)
Polygone de fréquence
25
20
Fréquence
15
10
5
0
moins de 0,08 - 0,249 0,25 - 0,419 0,42 - 0,589 0,59 - 0,759 0,76 - 0,929 0,93 et plus
0,08
Débit D (en milliers de m3/sec)
65. 3. Polygone de fréquence relative pour
valeurs groupées
Polygone de fréquence relative
0,7
0,6
0,5
Fréquence relative
0,4
0,3
0,2
0,1
0
moins de 0,08 - 0,249 0,25 - 0,419 0,42 - 0,589 0,59 - 0,759 0,76 - 0,929 0,93 et plus
0,08
Débit D ( en milliers m3/sec)
66. Ⅲ. Caractères quantitatifs continus
4. Courbe des fréquences cumulées
Représente l’évolution des fréquences
cumulées.
Le caractère étant continu, la courbe l’est
également.
Pour la construire, on joint les points de
coordonnées (bi,Fi) où bi désigne l’extrémité
supérieure de la ième classe.
67. Ogive de fréquence relative cumulée pour valeurs
groupées
Ogive de fréquence relative cumulée
120,00%
100,00%
Fréquence relative cumulée
80,00%
60,00%
40,00%
20,00%
,00%
moins de 0,08 - 0,25 - 0,42 - 0,59 - 0,76 - 0,93 et
0,08 0,249 0,419 0,589 0,759 0,929 plus
Débit D (en milliers m3/sec)
68. Synthèse
En plus des tableaux et graphiques, on
résume l'observation d'une variable
quantitative par un petit nombre de
paramètres.
Notas del editor
Les graphiques de ce module ont été effectués avec Excel. Et ça n’a pas toujours été très facile… L’étudiant est invité à consulter la page http://www.astro.ulg.ac.be/cours/magain/stat/stat25.html où il verra les « pièges » des graphiques statistiques.
Le diagramme à bandes fait partie de la famille des diagrammes différentiels, c’est-à-dire qu’il met en évidence les différences d’effectifs entre les modalités.
Si l’on veut comparer plusieurs diagrammes circulaires entre eux, les rayons de chaque diagramme doivent être proportionnels à la racine carrée de l’effectif total de la série qu’ils représentent. Ainsi l’aire de chacun des disques sera proportionnelle à l’effectif total de la série considérée. C’est le cas d’études sur plusieurs années par exemple.
C’est un diagramme différentiel.
On dit qu’un tel graphique est de type intégral ou cumulatif.
Ce type de graphique n’est pas standard pour Excel…
Comparer des densités de fréquence est plus « juste » que de comparer des fréquences dans le cas de classes d’amplitude différentes. En effet si une classe a une très forte amplitude, on peut s’attendre à ce qu’elle ait également une forte fréquence.
C’est un graphique de type différentiel.
On émet implicitement l’hypothèse que la répartition des valeurs dans chaque classe est uniforme.