3. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
1. Introduction
Objectifs
Définir les quantités statistiques basiques
Présenter les outils graphiques de la stat. descriptive
On travaillera sur le jeu de données x1; : : : ; xn sans faire d’hypothèse a priori sur
l’existence éventuelle d’un modèle probabiliste sous-jacent
4. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
2. Séries numériques
L’objet de base = les données
x1; : : : ; xn
Dans ce premier cours, on considère le cas xi 2 R
On parle de série numérique.
On distinguera deux types de variables
les variables discrètes
I On dit qu’une série numérique correspond à une variable discrète si le
nombre de valeurs différentes prises par x1; : : : ; xn est petit devant n
les variables continues
I les autres, typiquement x1; : : : ; xn correspond à n valeurs distinctes.
5. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Histogrammes
L’histogramme représente graphiquement le nombre de données par unité/bloc
Histogramme, cas discret
h(x) =
Xn
i=1
1x=xi
0 5 10 15 20
rpois(100,lambda=5)
1 2 3 4 5 6 7 8 9 10
Remarque : L’histogramme normalisé est donné par h(x) = 1
n
Pni
=1 1x=xi .
6. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Histogrammes
Histogramme, cas continu
On se donne
I Un nombre k de classes
I Une partition de R en k intervalles I1; : : : ; Ik
nj =
Xk
j=1
1xi2Ij
Alors
h(x) =
1
n
nj
jIj j
; si x 2 Ij
Histogram of x
x
Density
-1 0 1 2 3 4 5
0.0 0.1 0.2 0.3 0.4
7. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Histogrammes, choix du nombre de classes
Les choix de k et de la partition I1; : : : ; Ik sont délicats.
Souvent, on prend
Une partition uniforme
On cherche à avoir au moins 5 points par intervalle
Histogram of x
x
Density
-2 -1 0 1 2 3 4 5
0.0 0.1 0.2 0.3
Histogram of x
x
Density
-1 0 1 2 3 4 5
0.0 0.1 0.2 0.3 0.4
Histogram of x
x
Density
-1 0 1 2 3 4 5
0.0 0.1 0.2 0.3 0.4
8. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Fonction de répartition empirique
Série numérique x1; : : : ; xn
Definition
La valeur en x de la fonction de répartition empirique associée à (x1; : : : ; xn) est
la proportion d’éléments de la série plus petits que x
^Fn(x) =
1
n
Xn
i=1
1xix
Propriétés
^Fn : R ! [0; 1]
^Fn est en escalier, croissante
^Fn vaut 0 pour x mini xi et 1 pour x maxi xi
9. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Fonction de répartition empirique
0 2 4 6 8 10 12
0.0 0.2 0.4 0.6 0.8 1.0
x
Fn(x)
Exemple 1 : variable discrète
n = 100 x1; : : : ; xn tirés
selon une loi P(5)
10. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Fonction de répartition empirique
0 2 4 6 8 10 12
0.0 0.2 0.4 0.6 0.8 1.0
x
Fn(x)
Exemple 1 : variable discrète
n = 100 x1; : : : ; xn tirés
selon une loi P(5)
11. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Fonction de répartition empirique
0 1 2 3 4
0.0 0.2 0.4 0.6 0.8 1.0
ecdf(x2)
x
Fn(x)
Exemple 2 : variable continue
n = 100
x1; : : : ; xn tirés
selon une loi N(2; 1)
12. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Fonction de répartition empirique
0 1 2 3 4
0.0 0.2 0.4 0.6 0.8 1.0
ecdf(x2)
x
Fn(x)
Exemple 2 : variable continue
n = 100
x1; : : : ; xn tirés
selon une loi N(2; 1)
13. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Statistiques
Une statistique est une fonction des données, à valeurs dans Rp
S(x1; : : : ; xn) 2 Rp
Exemple S(x1; : : : ; xn) = max(x1; : : : ; xn)
Les statistiques sont des aspects des données
Idéalement, on cherche un petit nombre de statistiques qui va résumer les
données x1; : : : ; xn. On distingue les
statistiques de position
statistiques de dispersion
statistiques d’ordre (et quantiles)
: : :
14. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Statistiques de position de x1; : : : ; xn
Moyenne x
x =
1
n
Xn
i=1
xi
Médiane Medx C’est un nombre m qui sépare les données rangées dans l’ordre en
deux ensembles de même taille.
x(1) x(2) : : : j : : : x(n1) x(n)
Il y a deux cas
n = 2p + 1 impair x(1) : : : x(p) x(p+1) x(p+2) : : : x(2p+1)
Medx = x(p+1)
n = 2p pair x(1) : : : x(p) m x(p+1) : : : x(2p)
Medx =
x(p) + x(p+1)
2
Remarque. Lorsque n est pair, il y a en général plusieurs nombres qui
conviennent. Le choix ci-dessus est habituel.
15. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exercices et exemples
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au
sein des données.
16. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exercices et exemples
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au
sein des données.
Exercice. Calculer moyenne, médiane et mode de
s = (2;1; 0; 5; 8)
t = (4; 1;3; 5; 3; 3;3; 6)
x = (1; 1; 2; 3; 3; 3; 3; 9; 20)
17. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exercices et exemples
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au
sein des données.
Exercice. Calculer moyenne, médiane et mode de
s = (2;1; 0; 5; 8)
t = (4; 1;3; 5; 3; 3;3; 6)
x = (1; 1; 2; 3; 3; 3; 3; 9; 20)
s = 2 Medx = 0 Modex =
t = 1 Medx = 2 Modex =
x = 5 Medx = 3 Modex = 3
18. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exercices et exemples
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au
sein des données.
Exercice. Calculer moyenne, médiane et mode de
s = (2;1; 0; 5; 8)
t = (4; 1;3; 5; 3; 3;3; 6)
x = (1; 1; 2; 3; 3; 3; 3; 9; 20)
s = 2 Medx = 0 Modex =
t = 1 Medx = 2 Modex =
x = 5 Medx = 3 Modex = 3
Illustration phénomène moyenne/médiane
Salaire net moyen 2008 en France : 2069 euros/mois
Salaire net médian 2008 en France : 1655 euros/mois
19. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exemple
Exemple : moyenne/médiane pour un échantillon de loi de Cauchy
-20 0 20 40 60 80
-1.0 -0.5 0.0 0.5 1.0
y
z
Exemple : Loi de Cauchy
n = 50
x1; : : : ; xn tirés
selon une loi C(0; 1)
20. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exemple
Exemple : moyenne/médiane pour un échantillon de loi de Cauchy
-20 0 20 40 60 80
-1.0 -0.5 0.0 0.5 1.0
y
z
Exemple : Loi de Cauchy
n = 50
x1; : : : ; xn tirés
selon une loi C(0; 1)
Moyenne = 4.54
Médiane = 0.27
21. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Statistiques de dispersion de x1; : : : ; xn
Variance vx
vx =
1
n
Xn
i=1
(xi x)2
Écart-type sx
sx =
p
vx
Premier quartile Q1 : médiane des données Medx
Troisième quartile Q3 : médiane des données Medx
Écart inter-quartile : Q3 Q1
Remarque : Le deuxième quartile est la médiane des données
22. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Exercices
Exercice 1 : Moyenne et médiane d’échantillons
Exercice 2 : Lesquelles des quantités précédentes sont invariantes par permutation
des données, par translation des données d’une même quantité ? Que
deviennent-elles si on multiplie les données par 0 ?
Exercice 3 : Distribution exactement symétrique
On dit que x1; : : : ; xn est (exactement) symétrique par rapport au réel si
8a 0, la fréquence de + a est égale à celle de a.
Calculer la moyenne et la médiane d’une série symétrique par rapport à .
23. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Statistiques d’ordre et quantiles de x1; : : : ; xn
Il est souvent utile de ranger les données dans l’ordre
x(1) = min
1in
xi ; x(n) = max
1in
xi
Il existe une permutation 2 n telle que
x(1) x(2) x(n)
On note x(k) = x(k) la statistique d’ordre de rang k.
24. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Statistiques d’ordre et quantiles de x1; : : : ; xn
Il est souvent utile de ranger les données dans l’ordre
x(1) = min
1in
xi ; x(n) = max
1in
xi
Il existe une permutation 2 n telle que
x(1) x(2) x(n)
On note x(k) = x(k) la statistique d’ordre de rang k.
Le quantile d’ordre noté qx
est
x(m); avec m = bnc
On peut redéfinir quartiles et médiane par
Q1 = qx
0:25; Medx = qx
0:5; Q3 = qx
0:75
Remarque : peut différer très légèrement de la définition précédente mais pas grave
25. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Box plots (boîtes à moustaches)
Un résumé pratique des données x1; : : : ; xn est donné par
Medx , la médiane de l’échantillon
Q1;Q3, premier et troisième quartiles
A;B limites en dehors desquelles les données seront considérées comme
aberrantes (atypiques, outliers). Souvent,
A = minfxi : xi Q1 1:5(Q3 Q1)g
B = maxfxi : xi Q3 + 1:5(Q3 Q1)
Intérêts
Résumé des données
Comparaison d’échantillons
26. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Box plots (boîtes à moustaches)
-2 -1 0 1
Exemple 1 : loi normale
n = 50
x1; : : : ; xn tirés
selon une loi N(0; 1)
Remarque. Si on prend les quartiles théoriques pour une loi N(0; 1), la proba pour un tirage x1 de ne pas
être dans [A; B] est 0:7%
27. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Box plots, exemples
-15 -10 -5 0 5 10
Exemple 1 : loi de Cauchy
n = 50
x1; : : : ; xn tirés
selon une loi C(0; 1)
28. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Comparaison de deux séries numériques
On dispose de deux séries x1; : : : ; xn et y1; : : : ; yn qu’on veut comparer
Exemples
Etude du lien éventuel entre x et y
I Taille et poids d’un même individu
I Température et niveau de pollution à Paris un même jour
Savoir si x proche d’une distribution théorique donnée (ex. normale)
29. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Covariance et corrélation
La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est
sx;y =
1
n
Xn
i=1
(xi x)(yi y)
30. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Covariance et corrélation
La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est
sx;y =
1
n
Xn
i=1
(xi x)(yi y)
Le coefficient de corrélation linéaire x;y de x1; : : : ; xn et y1; : : : ; yn est
xy =
sxy
sx sy
31. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Covariance et corrélation
La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est
sx;y =
1
n
Xn
i=1
(xi x)(yi y)
Le coefficient de corrélation linéaire x;y de x1; : : : ; xn et y1; : : : ; yn est
xy =
sxy
sx sy
Proposition
Pour toutes séries x et y,
1 xy 1
Cas d’égalité : jxy j = 1 si et seulement si les séries sont réliées par un relation
affine : il existe a; b avec xi = ayi + b pour tout i = 1; : : : ; n.
32. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Covariance et corrélation
Exercice : Démontrer la Proposition
33. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Nuage de points
Le nuage de points associé aux séries x1; : : : ; xn et y1; : : : ; yn est la représentation
des points de coordonnées (xi ; yi ) dans le plan.
Parfois, on effectue un transformation préalable des données
Exemple : nuage de points (log(xi ); log(yi ))
34. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Droite de régression
Pour un nuage de points (xi ; yi )i=1;:::;n, notons
Mi le point de coordonnées (xi ; yi )
la droite d’équation y = ax + b
M0
i le point de coordonnées (xi ; axi + b)
(projection verticale de Mi sur la droite )
Droite de régression de Y sur X
C’est la droite qui minimise la quantité
Xn
i=1
i )2;
d(Mi ;M0
avec d(M;N) distance euclidienne entre les points M et N.
35. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Droite de régression, exemple
-4 -2 0 2 4
-5 0 5
x
y
36. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Droite de régression, exemple
-4 -2 0 2 4
-5 0 5
x
y
37. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Droite de régression
Proposition
L’équation de la droite de régression de Y sur X est donnée par y = ax + b, avec
a =
sxy
s2
x
; b = y ax
Exercice
1 Interpréter géométriquement le coefficient b
2 Démontrer la proposition
3 Les droites de régression de Y sur X et de X sur Y coincident-elles ?
38. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Droite de régression, exemple
-4 -2 0 2 4
-5 0 5
x
y
39. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Droite de régression, exemple
-4 -2 0 2 4
-5 0 5
x
y
40. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
QQ-plots
Premier cas : On cherche à répondre à la question
Les séries x1; : : : ; xn et y1; : : : ; yn suivent-elles la même ‘distribution’ ?
Le QQ-plot est dans ce cas le nuage de points (qy
j ), où les qy
j ; qx
j ; qx
j sont une
suite de quantiles de y et x.
Deuxième cas : On cherche à répondre à la question
La série observée x1; : : : ; xn se représente-t-elle bien par une certaine loi
théorique ?
Le QQ-plot est dans ce cas le nuage de points (q
j ; qx
j sont une
j ; qx
j ), où les q
suite de quantiles resp. de la loi théorique et des données x.
41. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
QQ-plots, exemple, cas 1
Données précédentes droite de régression
y = ax + b + 2, N(0; 1)
-4 -2 0 2 4
-5 0 5
x
y
42. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
QQ-plots, exemple, cas 1
Données précédentes droite de régression
y = ax + b + 2, N(0; 1)
-4 -2 0 2 4
-5 0 5
x
y
43. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
QQ-plots, exemple, cas 2
-2 -1 0 1 2
-1 0 1 2 3 4
Normal Q-Q Plot
Theoretical Quantiles
Sample Quantiles
Exemple : loi normale
Échantillon x1; : : : ; xn
de loi N(0; 1)
QQ-plot
Comparaison à la loi
théorique N(0; 1)
44. Stat
descriptive
Introduction
Séries
numériques
Variables
discrètes /
continues
Représentation
graphique
Statistiques
Deux séries
numériques
Statistiques
Régression :
Introduction
QQ-plots
Un dernier exercice
Exercice : Répartition du PIB/habitant
Faire l’Exercice 1.1 du polycopié