SlideShare una empresa de Scribd logo
1 de 60
Descargar para leer sin conexión
Les relations statistiques
échantillon-population
Jérôme CAREL
Mai 2022
Plan de la séquence
Variables quantitatives Variables qualitatives
Vérifier la conformité d’un
échantillon avec une
population connue
① ④
Estimer une moyenne /
une fréquence d’une
population à partir d’un
échantillon
② ⑤
Comparer deux
populations à partir de
deux échantillons
③ ⑥
Jérôme CAREL - Mai 2022 2
Il faut distinguer les variables quantitatives des variables qualitatives
Jérôme CAREL - Mai 2022 3
Le cas des variables
quantitatives continues
Jérôme CAREL - Mai 2022 4
On travaille ici avec une
distribution normale (Gauss)
Moyenne = Mode = Médiane
Jérôme CAREL - Mai 2022 5
Exemple n°1* : la taille des femmes
qui ont accouché en 2021 en France
• Imaginons qu’on mesure toutes
les femmes lorsqu’elles viennent
accoucher en 2021
→ 742 400 femmes
• Supposons que la série de
données suive une loi normale,
avec µ = 164,88 et σ = 12.
• Cela donne donc :
Tailles (cm) Nb de femmes Fréquences (%)
107 0 0,0000
108 0 0,0000
109 0 0,0000
110 1 0,0000
111 1 0,0000
112 1 0,0000
113 2 0,0000
114 3 0,0000
Tailles (cm) Nb de femmes Fréquences (%)
160 22722 0,0306
161 23424 0,0316
162 23981 0,0323
163 24380 0,0328
164 24615 0,0332
165 24680 0,0332
166 24574 0,0331
167 24299 0,0327
Tailles (cm) Nb de femmes Fréquences (%)
197 686 0,0009
198 547 0,0007
199 433 0,0006
200 341 0,0005
201 266 0,0004
202 206 0,0003
203 159 0,0002
204 122 0,0002
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 6
Les caractéristiques de la loi normale centrée réduite
Jérôme CAREL - Mai 2022 7
Exemple n°1 : la taille des femmes
qui ont accouché en 2021 en France
• On ramène toute la population à 100
individus (on exprime en %).
• On calcule les valeurs centrées
réduites qui correspondant aux
effectifs pour chaque des valeurs de
la taille.
• On obtient donc des valeurs
positives de Z (celles qui sont
supérieures à la moyenne µ) et des
valeurs de Z négatives (celles qui
sont inférieures à la moyenne µ).
• Cela donne donc :
Z (valeur centrée réduite) Fréquences (%)
-4,82333 0,0000
-4,74000 0,0000
-4,65667 0,0000
-4,57333 0,0000
-4,49000 0,0000
-4,40667 0,0000
-4,32333 0,0000
-4,24000 0,0000
Z (valeur centrée réduite) Fréquences (%)
-0,40667 0,0306
-0,32333 0,0316
-0,24000 0,0323
-0,15667 0,0328
-0,07333 0,0332
0,01000 0,0332
0,09333 0,0331
0,17667 0,0327
Z (valeur centrée réduite) Fréquences (%)
2,67667 0,0009
2,76000 0,0007
2,84333 0,0006
2,92667 0,0005
3,01000 0,0004
3,09333 0,0003
3,17667 0,0002
3,26000 0,0002
Jérôme CAREL - Mai 2022 8
Les paramètres utilisés
• Pour la population • Pour un échantillon
Les valeurs centrées réduites
Jérôme CAREL - Mai 2022 9
Vérifier la conformité d’un
échantillon avec une
population connue
Jérôme CAREL - Mai 2022 10
POPULATION → ÉCHANTILLON ?
On connaît les paramètres d’une population (µ; σ)
On souhaite vérifier la probabilité qu’un
échantillon donné soit bien issu de cette
population
Jérôme CAREL - Mai 2022 11
Exemple n°1 : la taille des femmes
qui ont accouché en 2021 en France
• Pour les besoins d’une étude, on
sélectionne au hasard un
échantillon de 15806 femmes
(donc 15806 tailles)
• On souhaite déterminer si cet
échantillon (vu sa X et son S) est
effectivement issu de notre
population initiale, en acceptant
un risque d’erreur de 5%.
• Cela donne donc :
Tailles (cm) Nb de femmes Fréquences (%)
125 0 0,0000%
126 0 0,0000%
127 1 0,0063%
128 1 0,0063%
129 0 0,0000%
130 0 0,0000%
131 1 0,0063%
132 0 0,0000%
Tailles (cm) Nb de femmes Fréquences (%)
160 505 3,1950%
161 567 3,5872%
162 603 3,8150%
163 640 4,0491%
164 671 4,2452%
165 663 4,1946%
166 655 4,1440%
167 628 3,9732%
Tailles (cm) Nb de femmes Fréquences (%)
197 8 0,0506%
198 5 0,0316%
199 0 0,0000%
200 4 0,0253%
201 2 0,0127%
202 0 0,0000%
203 3 0,0190%
204 1 0,0063%
Jérôme CAREL - Mai 2022 12
Exemple n°1 : la taille des femmes
qui ont accouché en 2021 en France
On peut calculer :
• X = 168,648
• S = 10,164
Pour rappel, on sait que :
• µ = 164,88
• σ = 12
• A l’évidence, les valeurs ne sont pas
identiques.
• Peut-on néanmoins affirmer qu’elles
sont suffisamment différentes pour
considérer que l’échantillon n’est pas
représentatif de la population (en
supportant un risque d’erreur de 5%) ?
Tailles (cm) Nb de femmes Fréquences (%)
125 0 0,0000%
126 0 0,0000%
127 1 0,0063%
128 1 0,0063%
129 0 0,0000%
130 0 0,0000%
131 1 0,0063%
132 0 0,0000%
Tailles (cm) Nb de femmes Fréquences (%)
160 505 3,1950%
161 567 3,5872%
162 603 3,8150%
163 640 4,0491%
164 671 4,2452%
165 663 4,1946%
166 655 4,1440%
167 628 3,9732%
Tailles (cm) Nb de femmes Fréquences (%)
197 8 0,0506%
198 5 0,0316%
199 0 0,0000%
200 4 0,0253%
201 2 0,0127%
202 0 0,0000%
203 3 0,0190%
204 1 0,0063%
Jérôme CAREL - Mai 2022 13
Exemple n°1 : la taille des femmes
qui ont accouché en 2021 en France
NB:
Si on ne connaît que
la moyenne de la
population (µ) mais
pas son écart-type (σ),
alors on utilise le test
t de Student.
Jérôme CAREL - Mai 2022 14
Exemple n°1 : la taille des femmes
qui ont accouché en 2021 en France
Test z pour un échantillon / Test bilatéral :
Intervalle de confiance à 95% autour de la moyenne :
[ 168,461; 168,836 ]
Différence 3,768
z (Valeur observée) 39,482
|z| (Valeur critique) 1,960
p-value (bilatérale) <0,0001
alpha 0,050
Interprétation du test :
H0 : La moyenne est égale à 164,88.
Ha : La moyenne est différente de 164,88.
Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle H0,
et retenir l'hypothèse alternative Ha.
CONCLUSION :
On peut donc conclure que l’échantillon n’est
pas représentatif de la population étudiée.
Jérôme CAREL - Mai 2022 15
Estimer la moyenne d’une population
à partir d’un échantillon
Jérôme CAREL - Mai 2022 16
ÉCHANTILLON → POPULATION?
On connaît les paramètres d’un échantillon (X; S)
On souhaite estimer la moyenne de la population
(µ) à partir des paramètres de l’échantillon.
Jérôme CAREL - Mai 2022 17
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• On estime à environ 20 grammes par m² les besoins annuels en azote
pour un gazon récréatif commun (soit en moyenne 2mg par pied).
• L’entreprise AMENAVERT a conclu des contrats pour entretenir de
vastes étendues de gazon pour un client important. Elle effectue des
apports d’engrais contenant de l’azote régulièrement mais n’est pas
en mesure d’affirmer que les quantités épandues sont réellement
efficaces.
• N’ayant pas de moyens technologiques avancés (drones, caméras,
images satellites), elle décide d’effectuer des prélèvements de gazon
et de vérifier la teneur en azote pied par pied.
Jérôme CAREL - Mai 2022 18
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• L’entreprise a ainsi collecté au hasard 1398 pieds sur les gazons
qu’elle entretient et a obtenu la teneur en azote par pied (en µg).
• Elle se pose donc la question suivante :
➢Peut-on dire que l’apport en azote est suffisant ou bien faut-il le modifier ?
• Pour résumer, on a donc :
➢ = 1896 µg et S = 173 µg
➢ µ = ? et σ = ?
• Et on voudrait vérifier si µ est suffisamment proche de 2000 µg
• Pour cela, il faut donc ESTIMER µ.
Jérôme CAREL - Mai 2022 19
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• A l’aide des paramètres de l’échantillon, on va donc construire un
intervalle de confiance tel qu’on aura statistiquement 95% de chance
d’y trouver µ. Autrement dit, on accepte un risque d’erreur de 5%
(α=5%).
Jérôme CAREL - Mai 2022 20
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
Cette valeur correspond à la
valeur t2,5% qu’on trouve dans la
table de Student en
sélectionnant un degré de liberté
de 1397
(n-1 = 1398-1 = 1397)
Moyenne de l’échantillon
Ecart-type de l’échantillon
Effectif de l’échantillon
Jérôme CAREL - Mai 2022 21
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
Extrait de la table de Student
Degrés de liberté
Risques α/2
Jérôme CAREL - Mai 2022 22
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• On obtient donc :
1896 – 1,96 × (173 / √1398) ≤ µ ≤ 1896 + 1,96 × (173 / √1398)
1886,93 ≤ µ ≤ 1905,07
On constate alors que 2000 (la valeur moyenne « visée » pour la teneur en
azote par pied, en µg) ne fait pas partie de l’intervalle de confiance.
En l’occurrence, l’intervalle de confiance est plus faible.
On peut donc en conclure avec un risque d’erreur de 5% que l’apport moyen
en azote par pied demeure insuffisant par rapport à l’objectif visé de
2 mg/pied.
Jérôme CAREL - Mai 2022 23
Comparer deux populations à partir de
deux échantillons indépendants
Jérôme CAREL - Mai 2022 24
POPULATION? = POPULATION?
On connaît les paramètres de deux échantillons :
(X1; S1) et (X2; S2)
On souhaite comparer les moyennes de deux
populations estimées à partir des paramètres de
deux échantillons respectifs.
?
Jérôme CAREL - Mai 2022 25
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Imaginons maintenant qu’on arrive à identifier 2 sous-catégories dans notre
échantillon de 1398 données : elles reflètent le fait que les échantillons ont
été prélevés sur 2 parcelles distinctes.
• On obtient alors :
➢ 1 = 1891,55 et S1 = 173,87
➢ 2 = 1900,99 et S2 = 172,58
La question posée est alors :
Est-ce que la moyenne estimée de la population 1 (µ 1) est significativement
différente de la moyenne estimée de la population 2 (µ 2) ?
Jérôme CAREL - Mai 2022 26
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Pour répondre à cette question, on formule 2 hypothèses et on fait un test t
de Student pour échantillons indépendants.
• H0 : Les moyennes d’azote dans les deux parcelles ne sont pas significativement différentes
• H1 : Les moyennes d’azote dans les deux parcelles sont significativement différentes
Jérôme CAREL - Mai 2022 27
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Pour répondre à cette question, on fait un test t de Student pour échantillons
indépendants. Ce test consiste à comparer les moyennes des échantillons.
avec
• Si ‫׀‬tSTAT ‫>׀‬ ‫׀‬tcritique‫׀‬ , alors on peut rejeter l’hypothèse H0 et conclure à une
différence significative entre les deux moyennes.
Jérôme CAREL - Mai 2022 28
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Ce test suppose l’égalité des variances des deux échantillons.
On peut tester cette égalité de variances à l’aide du test de Fisher :
Jérôme CAREL - Mai 2022 29
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Ici, on constate que l’égalité des variances est vérifiée.
• Dans le cas contraire, on pourrait tout de même continuer avec le test t de Student car l’échantillon est suffisamment grand.
Test F de Fisher / Test bilatéral :
Intervalle de confiance à 95% autour du rapport des variances :
[ 0,875; 1,178 ]
Rapport 1,015
F (Valeur observée)1,015
F (Valeur critique) 1,160
DDL1 698
DDL2 698
p-value (bilatérale) 0,844
alpha 0,050
Interprétation du test :
H0 : Le rapport entre les variances est égal à 1.
Ha : Le rapport entre les variances est différent de 1.
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas
rejeter l'hypothèse nulle H0.
Jérôme CAREL - Mai 2022 30
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Le test t de Student donne une p-value > α
• On ne peut donc pas exclure H0. On ne peut donc pas affirmer que les
moyennes des populations sont significativement différentes.
Jérôme CAREL - Mai 2022 31
Test t pour deux échantillons indépendants / Test bilatéral :
Intervalle de confiance à 95% autour de la différence des moyennes :
[ -27,618; 8,736 ]
Différence -9,441
t (Valeur observée)-1,019
|t| (Valeur critique)1,962
DDL 1396
p-value (bilatérale) 0,308
alpha 0,050
Interprétation du test :
H0 : La différence entre les moyennes est égale à 0.
Ha : La différence entre les moyennes est différente de 0.
Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas
rejeter l'hypothèse nulle H0.
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
• Le test t de Student donne une p-value > α
Jérôme CAREL - Mai 2022 32
Exemple n°2* : L’apport d’engrais
azoté sur un gazon
Au final, on peut donc dire que le gazon manque d’azote, que ce soit
sur la parcelle 1 ou la parcelle 2, sans qu’il y ait de différence notable
entre les deux parcelles.
Jérôme CAREL - Mai 2022 33
Le cas des variables
qualitatives
Jérôme CAREL - Mai 2022 34
Les caractéristiques des données qualitatives
Données nominales.
Ici, la variable « sexe »
admet 2 modalités :
➢ Homme
➢ Femme
Bien que ce ne soit pas le cas ici, un chiffre peut
aussi être une donnée qualitative s’il s’agit d’un
numéro d’ordre (dans un classement).
Par ex:
Ce pourrait être ici l’ordre du répondant parmi
tous les enfants mis au monde par sa mère.
Données quantitatives
Effectifs par modalité. (=fréquences absolues)
Fréquences relatives =
Effectif de la modalité / Effectif total
Jérôme CAREL - Mai 2022 35
Convertir des données quantitatives en données qualitatives
Il est possible de convertir des données quantitatives en données qualitatives mais
cela implique une certaine « perte d’information » dans les données car on
attribue de façon arbitraire un qualitatif (donc un sens sémantique) à une donnée
chiffrée.
Par exemple, la taille d’un individu peut être qualifiée de « grande », « moyenne »
ou « petite ». On peut ainsi attribuer des intervalles de grandeur à chacun de ces
qualificatifs de sorte qu’ils soient mutuellement exclusifs.
Taille en cm
Taille en valeur
nominale
186
184
184
183
180
178
178
175
174
170
170
170
166
166
163
162
162
161
159
158
156
155
155
Petit
Moyen
Grand
Jérôme CAREL - Mai 2022 36
Etudier une modalité d’intérêt
On peut ainsi calculer la fréquence relative des « petits » :
p = X/n avec X = effectif de la modalité étudiée;
n = effectif total de l’échantillon
On trouve ainsi p = 6/23 ≈ 26,09%
La proportion de cette même modalité d’intérêt dans la
population est donnée par π.
Taille en cm
Taille en valeur
nominale
186
184
184
183
180
178
178
175
174
170
170
170
166
166
163
162
162
161
159
158
156
155
155
Petit
Moyen
Grand
Jérôme CAREL - Mai 2022 37
Les paramètres utilisés
• Pour la population • Pour un échantillon
La valeur centrée réduite
π
• Pour l’ensemble des échantillons
possibles (d’une certaine taille)
parmi une population :
Erreur standard de la proportion
Jérôme CAREL - Mai 2022 38
Vérifier la conformité d’un
échantillon avec une
population connue
Jérôme CAREL - Mai 2022 39
POPULATION → ÉCHANTILLON?
On connaît la proportion d’intérêt (π) dans une
population.
On souhaite vérifier si la proportion (p) associée à une modalité dans un
échantillon est significativement différente de la proportion (π) de la même
modalité dans la population de référence.
Autrement dit, on vérifie si la différence entre p et π peut s’expliquer simplement par l’erreur
d’échantillonnage ou pas.
Jérôme CAREL - Mai 2022 40
Exemple n°3* : Navigateur internet
• Afin de limiter les problèmes d’incompatibilité technique, on souhaite
étudier les comportements et usages des navigateurs internet dans
une entreprise multinationale rassemblant plusieurs milliers de
salariés.
Malheureusement, il est impossible de rassembler les données
techniques de toutes les antennes à travers le monde. Le DSI décide
donc de lancer une enquête auprès d’un échantillon de salariés. Le
résultat montre que sur 100 salariés, 60 utilisent le navigateur Google
Chrome.
• Or, une étude statistique extensive menée par Google et reprenant les
données télécom de tous les pays dans le monde a montré que
56,43% des internautes utilisent Google Chrome en guise de
navigateur internet.
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 41
Exemple n°3* : Navigateur internet
Ici, on connaît donc :
• p = 0,60
• π = 0,5643
Peut-on dire que la part d’utilisateurs de Google Chrome dans
l’entreprise est semblable à celle qui est observée dans le monde en
acceptant un risque d’erreur de 5% dans la réponse qui sera formulée?
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 42
Exemple n°3* : Navigateur internet
Cette valeur correspond à la valeur
Z2,5% qu’on trouve dans la table Z
(loi normale centrée réduite).
Proportion de l’échantillon
Variance de l’échantillon
Effectif de l’échantillon
Jérôme CAREL - Mai 2022 43
Exemple n°3* : Navigateur internet
Extrait de la table Z
(loi normale centrée réduite)
Risque (1-α/2)
α est « réparti » sur les 2
queues de distribution.
On s’intéresse donc à α/2
puisqu’il s’agit de la probabilité
cumulée de -∞ à Z.
Jérôme CAREL - Mai 2022 44
Exemple n°3* : Navigateur internet
Pour répondre à cette question, on calcule donc :
• Dans la table Z, on lit :
Zα/2 = Z2,5% = Z0,025 = 1,96
• On connaît déjà p = 0,6 et n = 100. On peut donc calculer l’intervalle d’encadrement de la proportion estimée pour la population :
On constate ici que la proportion de référence (56,43% dans le monde) fait bien partie de
l’intervalle de confiance. On ne peut pas donc dire que la proportion dans
l’entreprise est significativement différente de celle rencontrée dans le monde.
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 45
Estimer la probabilité d’obtenir une
proportion dans une population en
connaissant celle d’un échantillon
Jérôme CAREL - Mai 2022 46
ÉCHANTILLON → POPULATION?
Pour une modalité donnée, on connaît la proportion
d’intérêt (p) dans un échantillon.
On souhaite calculer les probabilités associées à
cette même modalité pour la population dont est
tiré l’échantillon.
Jérôme CAREL - Mai 2022 47
Exemple n°4* : Résultats d’élections
• Un cabinet de sondages est mandaté pour donner des prévisions de
résultats lors de la nuit de dépouillement d’une élection politique
importante.
• Il n’y a que 2 candidat.e.s qui se présentent au scrutin.
• Pour être élu.e, la personne doit recevoir au moins la moitié des
suffrages plus un.
• Cependant, en guise de précaution, l’institut de sondage estime qu’il
faut que l’un des candidats ait reçu au moins 55% des votes exprimés
pour le déclarer vainqueur (par anticipation) du suffrage.
• L’institut de sondage prévoit interroger 100 personnes « à la sortie des
urnes » d’un bureau de vote représentatif de la population sur la
nature des expressions politiques.
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 48
Exemple n°4* : Résultats d’élections
Quelle est la probabilité pour qu’un candidat soit déclaré vainqueur
par anticipation s’il reçoit au final 60% des suffrages exprimés par
l’ensemble de la population (une fois le dépouillement terminé) ?
• Pour répondre à cette question, on utilise la valeur Z. La probabilité correspond à la probabilité
cumulée que Z soit supérieur à cette valeur « plancher ».
• On sait que p = 0,55 π = 0,60 n = 100
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 49
Exemple n°4* : Résultats d’élections
• On sait que p = 0,55 π = 0,60 n = 100
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation.
Z ≈ -1,0206
Dans la table Z, on trouve p(Z ≤ -1,02) = 15,39%
Donc p(Z > -1,02) = 84,61%
On a donc près de 85% de chance de proclamer le candidat
vainqueur à la sortie des urnes avec un échantillon de 100
personnes si le résultat final lui donne 60% des voix.
Jérôme CAREL - Mai 2022 50
Exemple n°4* : Résultats d’élections
Quelle est la probabilité pour qu’un candidat soit déclaré vainqueur
par anticipation (et par erreur) s’il reçoit au final 49% des suffrages
exprimés par l’ensemble de la population ?
• Pour répondre à cette question, on utilise la valeur Z. La probabilité correspond à la probabilité
cumulée que Z soit supérieur à cette valeur « plancher ».
• On sait que p = 0,55 π = 0,49 n = 100
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 51
Exemple n°4* : Résultats d’élections
• On sait que p = 0,55 π = 0,49 n = 100
NB:
* Il s’agit ici d’un exemple fictif, avec des données reconstituées
pour les besoins statistiques de la présentation.
Z ≈ 1,2002
Dans la table Z, on trouve p(Z ≤ 1,20) = 88,49%
Donc p(Z > 1,20) = 11,51%
On a donc 11,5% de risque de proclamer un candidat vainqueur de
l’élection alors qu’il échoue de peu à l’élection.
Jérôme CAREL - Mai 2022 52
Comparer deux populations à partir de
deux échantillons distincts
Jérôme CAREL - Mai 2022 53
POPULATION? = POPULATION?
On connaît la proportion d’une même modalité dans
deux échantillons (p1) et (p2).
On souhaite comparer les proportions π1 et π2 des
deux populations estimées à partir des paramètres
de deux échantillons respectifs.
?
Jérôme CAREL - Mai 2022 54
Exemple n°4* : Résultats d’élections
Un 2ème institut de sondage a été mandaté pour faire le même travail que le
premier mais sur un échantillon différent de 120 personnes, lui aussi connu
pour être représentatif des comportements de électeurs.
Le 1er institut obtient un score d’échantillon de 49% des voix pour le candidat
étudié. Le 2ème institut obtient un score d’échantillon de 53% des voix pour ce
même candidat.
Peut-on affirmer que les scores estimés pour la population dans chacun des
cas sont statistiquement semblables en admettant un risque d’erreur de 5% ?
Jérôme CAREL - Mai 2022 55
Exemple n°4* : Résultats d’élections
Pour résumer, on a :
p1 = 0,49 et p2 = 0,53
Le principe ici consiste à analyser la différence de proportion entre les échantillons
par rapport à la différence de proportion entre les populations estimées.
Si les deux populations estimées sont en réalité une seule et même population, alors
on a : π1 = π2; autrement dit π1 - π2 = 0.
On fait donc un test d’hypothèses :
H0 : Les proportions estimées pour chacune des 2 populations ne sont pas
significativement différentes l’une de l’autre
H1 : Les proportions estimées pour chacune des 2 populations sont significativement
différentes l’une de l’autre.
Jérôme CAREL - Mai 2022 56
Exemple n°4* :
Résultats
d’élections
On calcule alors un ZSTAT que
l’on compare à une valeur
critique Z-2,5%.
Si ZSTAT > Z2,5% ou bien si ZSTAT < Z-
2,5% , alors on peut dire qu’on a
bien 2 estimations différentes.
Jérôme CAREL - Mai 2022 57
Exemple n°4* : Résultats d’élections
On calcule donc
Avec
On obtient
Soit Z = -0,59
Jérôme CAREL - Mai 2022 58
Exemple n°4* : Résultats d’élections
Dans la table Z de la loi normale centrée réduite, on trouve :
Z-2,5% = -1,96
On constate donc que Z-2,5% ≤ ZSTAT ≤ Z+2,5%
On ne peut donc pas rejeter H0.
On ne peut donc pas affirmer que les résultats obtenus par l’un et l’autre des
instituts de sondage sont significativement différents.
Conclusion :
L’un donnant le candidat gagnant et l’autre perdant, on peut conclure à une impossibilité de
donner le nom d’un gagnant.
Pour pouvoir espérer affiner les résultats, il faudrait notamment augmenter la taille des
échantillons de population.
Jérôme CAREL - Mai 2022 59
La clé de la réussite ?
L’entraînement et les exercices réguliers
Jérôme CAREL - Mai 2022 60

Más contenido relacionado

Similar a Les relations statistiques échantillon-population.pdf

Evaluation des incertitudes de mesure avec biais eil ou crm
Evaluation des incertitudes de mesure avec biais eil ou crmEvaluation des incertitudes de mesure avec biais eil ou crm
Evaluation des incertitudes de mesure avec biais eil ou crmMaurice Maeck
 
Cours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulCours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulProfesseur Falloul
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multmohamedchaouche
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdfArkadaar
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unmohamedchaouche
 

Similar a Les relations statistiques échantillon-population.pdf (7)

Evaluation des incertitudes de mesure avec biais eil ou crm
Evaluation des incertitudes de mesure avec biais eil ou crmEvaluation des incertitudes de mesure avec biais eil ou crm
Evaluation des incertitudes de mesure avec biais eil ou crm
 
Td5correction
Td5correctionTd5correction
Td5correction
 
Cours gestion de la production Pr Falloul
Cours gestion de la production Pr FalloulCours gestion de la production Pr Falloul
Cours gestion de la production Pr Falloul
 
M1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-multM1 l3-econom etrie-serien-2-reg-lin-mult
M1 l3-econom etrie-serien-2-reg-lin-mult
 
Td statistique
Td statistiqueTd statistique
Td statistique
 
cours_statistiques_master.pdf
cours_statistiques_master.pdfcours_statistiques_master.pdf
cours_statistiques_master.pdf
 
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-unM1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
M1 l3-econom etrie-serie-corrigee-n-1-modeles-econometriques-a-un
 

Les relations statistiques échantillon-population.pdf

  • 2. Plan de la séquence Variables quantitatives Variables qualitatives Vérifier la conformité d’un échantillon avec une population connue ① ④ Estimer une moyenne / une fréquence d’une population à partir d’un échantillon ② ⑤ Comparer deux populations à partir de deux échantillons ③ ⑥ Jérôme CAREL - Mai 2022 2
  • 3. Il faut distinguer les variables quantitatives des variables qualitatives Jérôme CAREL - Mai 2022 3
  • 4. Le cas des variables quantitatives continues Jérôme CAREL - Mai 2022 4
  • 5. On travaille ici avec une distribution normale (Gauss) Moyenne = Mode = Médiane Jérôme CAREL - Mai 2022 5
  • 6. Exemple n°1* : la taille des femmes qui ont accouché en 2021 en France • Imaginons qu’on mesure toutes les femmes lorsqu’elles viennent accoucher en 2021 → 742 400 femmes • Supposons que la série de données suive une loi normale, avec µ = 164,88 et σ = 12. • Cela donne donc : Tailles (cm) Nb de femmes Fréquences (%) 107 0 0,0000 108 0 0,0000 109 0 0,0000 110 1 0,0000 111 1 0,0000 112 1 0,0000 113 2 0,0000 114 3 0,0000 Tailles (cm) Nb de femmes Fréquences (%) 160 22722 0,0306 161 23424 0,0316 162 23981 0,0323 163 24380 0,0328 164 24615 0,0332 165 24680 0,0332 166 24574 0,0331 167 24299 0,0327 Tailles (cm) Nb de femmes Fréquences (%) 197 686 0,0009 198 547 0,0007 199 433 0,0006 200 341 0,0005 201 266 0,0004 202 206 0,0003 203 159 0,0002 204 122 0,0002 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 6
  • 7. Les caractéristiques de la loi normale centrée réduite Jérôme CAREL - Mai 2022 7
  • 8. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France • On ramène toute la population à 100 individus (on exprime en %). • On calcule les valeurs centrées réduites qui correspondant aux effectifs pour chaque des valeurs de la taille. • On obtient donc des valeurs positives de Z (celles qui sont supérieures à la moyenne µ) et des valeurs de Z négatives (celles qui sont inférieures à la moyenne µ). • Cela donne donc : Z (valeur centrée réduite) Fréquences (%) -4,82333 0,0000 -4,74000 0,0000 -4,65667 0,0000 -4,57333 0,0000 -4,49000 0,0000 -4,40667 0,0000 -4,32333 0,0000 -4,24000 0,0000 Z (valeur centrée réduite) Fréquences (%) -0,40667 0,0306 -0,32333 0,0316 -0,24000 0,0323 -0,15667 0,0328 -0,07333 0,0332 0,01000 0,0332 0,09333 0,0331 0,17667 0,0327 Z (valeur centrée réduite) Fréquences (%) 2,67667 0,0009 2,76000 0,0007 2,84333 0,0006 2,92667 0,0005 3,01000 0,0004 3,09333 0,0003 3,17667 0,0002 3,26000 0,0002 Jérôme CAREL - Mai 2022 8
  • 9. Les paramètres utilisés • Pour la population • Pour un échantillon Les valeurs centrées réduites Jérôme CAREL - Mai 2022 9
  • 10. Vérifier la conformité d’un échantillon avec une population connue Jérôme CAREL - Mai 2022 10
  • 11. POPULATION → ÉCHANTILLON ? On connaît les paramètres d’une population (µ; σ) On souhaite vérifier la probabilité qu’un échantillon donné soit bien issu de cette population Jérôme CAREL - Mai 2022 11
  • 12. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France • Pour les besoins d’une étude, on sélectionne au hasard un échantillon de 15806 femmes (donc 15806 tailles) • On souhaite déterminer si cet échantillon (vu sa X et son S) est effectivement issu de notre population initiale, en acceptant un risque d’erreur de 5%. • Cela donne donc : Tailles (cm) Nb de femmes Fréquences (%) 125 0 0,0000% 126 0 0,0000% 127 1 0,0063% 128 1 0,0063% 129 0 0,0000% 130 0 0,0000% 131 1 0,0063% 132 0 0,0000% Tailles (cm) Nb de femmes Fréquences (%) 160 505 3,1950% 161 567 3,5872% 162 603 3,8150% 163 640 4,0491% 164 671 4,2452% 165 663 4,1946% 166 655 4,1440% 167 628 3,9732% Tailles (cm) Nb de femmes Fréquences (%) 197 8 0,0506% 198 5 0,0316% 199 0 0,0000% 200 4 0,0253% 201 2 0,0127% 202 0 0,0000% 203 3 0,0190% 204 1 0,0063% Jérôme CAREL - Mai 2022 12
  • 13. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France On peut calculer : • X = 168,648 • S = 10,164 Pour rappel, on sait que : • µ = 164,88 • σ = 12 • A l’évidence, les valeurs ne sont pas identiques. • Peut-on néanmoins affirmer qu’elles sont suffisamment différentes pour considérer que l’échantillon n’est pas représentatif de la population (en supportant un risque d’erreur de 5%) ? Tailles (cm) Nb de femmes Fréquences (%) 125 0 0,0000% 126 0 0,0000% 127 1 0,0063% 128 1 0,0063% 129 0 0,0000% 130 0 0,0000% 131 1 0,0063% 132 0 0,0000% Tailles (cm) Nb de femmes Fréquences (%) 160 505 3,1950% 161 567 3,5872% 162 603 3,8150% 163 640 4,0491% 164 671 4,2452% 165 663 4,1946% 166 655 4,1440% 167 628 3,9732% Tailles (cm) Nb de femmes Fréquences (%) 197 8 0,0506% 198 5 0,0316% 199 0 0,0000% 200 4 0,0253% 201 2 0,0127% 202 0 0,0000% 203 3 0,0190% 204 1 0,0063% Jérôme CAREL - Mai 2022 13
  • 14. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France NB: Si on ne connaît que la moyenne de la population (µ) mais pas son écart-type (σ), alors on utilise le test t de Student. Jérôme CAREL - Mai 2022 14
  • 15. Exemple n°1 : la taille des femmes qui ont accouché en 2021 en France Test z pour un échantillon / Test bilatéral : Intervalle de confiance à 95% autour de la moyenne : [ 168,461; 168,836 ] Différence 3,768 z (Valeur observée) 39,482 |z| (Valeur critique) 1,960 p-value (bilatérale) <0,0001 alpha 0,050 Interprétation du test : H0 : La moyenne est égale à 164,88. Ha : La moyenne est différente de 164,88. Etant donné que la p-value calculée est inférieure au niveau de signification alpha=0,05, on doit rejeter l'hypothèse nulle H0, et retenir l'hypothèse alternative Ha. CONCLUSION : On peut donc conclure que l’échantillon n’est pas représentatif de la population étudiée. Jérôme CAREL - Mai 2022 15
  • 16. Estimer la moyenne d’une population à partir d’un échantillon Jérôme CAREL - Mai 2022 16
  • 17. ÉCHANTILLON → POPULATION? On connaît les paramètres d’un échantillon (X; S) On souhaite estimer la moyenne de la population (µ) à partir des paramètres de l’échantillon. Jérôme CAREL - Mai 2022 17
  • 18. Exemple n°2* : L’apport d’engrais azoté sur un gazon • On estime à environ 20 grammes par m² les besoins annuels en azote pour un gazon récréatif commun (soit en moyenne 2mg par pied). • L’entreprise AMENAVERT a conclu des contrats pour entretenir de vastes étendues de gazon pour un client important. Elle effectue des apports d’engrais contenant de l’azote régulièrement mais n’est pas en mesure d’affirmer que les quantités épandues sont réellement efficaces. • N’ayant pas de moyens technologiques avancés (drones, caméras, images satellites), elle décide d’effectuer des prélèvements de gazon et de vérifier la teneur en azote pied par pied. Jérôme CAREL - Mai 2022 18
  • 19. Exemple n°2* : L’apport d’engrais azoté sur un gazon • L’entreprise a ainsi collecté au hasard 1398 pieds sur les gazons qu’elle entretient et a obtenu la teneur en azote par pied (en µg). • Elle se pose donc la question suivante : ➢Peut-on dire que l’apport en azote est suffisant ou bien faut-il le modifier ? • Pour résumer, on a donc : ➢ = 1896 µg et S = 173 µg ➢ µ = ? et σ = ? • Et on voudrait vérifier si µ est suffisamment proche de 2000 µg • Pour cela, il faut donc ESTIMER µ. Jérôme CAREL - Mai 2022 19
  • 20. Exemple n°2* : L’apport d’engrais azoté sur un gazon • A l’aide des paramètres de l’échantillon, on va donc construire un intervalle de confiance tel qu’on aura statistiquement 95% de chance d’y trouver µ. Autrement dit, on accepte un risque d’erreur de 5% (α=5%). Jérôme CAREL - Mai 2022 20
  • 21. Exemple n°2* : L’apport d’engrais azoté sur un gazon Cette valeur correspond à la valeur t2,5% qu’on trouve dans la table de Student en sélectionnant un degré de liberté de 1397 (n-1 = 1398-1 = 1397) Moyenne de l’échantillon Ecart-type de l’échantillon Effectif de l’échantillon Jérôme CAREL - Mai 2022 21
  • 22. Exemple n°2* : L’apport d’engrais azoté sur un gazon Extrait de la table de Student Degrés de liberté Risques α/2 Jérôme CAREL - Mai 2022 22
  • 23. Exemple n°2* : L’apport d’engrais azoté sur un gazon • On obtient donc : 1896 – 1,96 × (173 / √1398) ≤ µ ≤ 1896 + 1,96 × (173 / √1398) 1886,93 ≤ µ ≤ 1905,07 On constate alors que 2000 (la valeur moyenne « visée » pour la teneur en azote par pied, en µg) ne fait pas partie de l’intervalle de confiance. En l’occurrence, l’intervalle de confiance est plus faible. On peut donc en conclure avec un risque d’erreur de 5% que l’apport moyen en azote par pied demeure insuffisant par rapport à l’objectif visé de 2 mg/pied. Jérôme CAREL - Mai 2022 23
  • 24. Comparer deux populations à partir de deux échantillons indépendants Jérôme CAREL - Mai 2022 24
  • 25. POPULATION? = POPULATION? On connaît les paramètres de deux échantillons : (X1; S1) et (X2; S2) On souhaite comparer les moyennes de deux populations estimées à partir des paramètres de deux échantillons respectifs. ? Jérôme CAREL - Mai 2022 25
  • 26. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Imaginons maintenant qu’on arrive à identifier 2 sous-catégories dans notre échantillon de 1398 données : elles reflètent le fait que les échantillons ont été prélevés sur 2 parcelles distinctes. • On obtient alors : ➢ 1 = 1891,55 et S1 = 173,87 ➢ 2 = 1900,99 et S2 = 172,58 La question posée est alors : Est-ce que la moyenne estimée de la population 1 (µ 1) est significativement différente de la moyenne estimée de la population 2 (µ 2) ? Jérôme CAREL - Mai 2022 26
  • 27. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Pour répondre à cette question, on formule 2 hypothèses et on fait un test t de Student pour échantillons indépendants. • H0 : Les moyennes d’azote dans les deux parcelles ne sont pas significativement différentes • H1 : Les moyennes d’azote dans les deux parcelles sont significativement différentes Jérôme CAREL - Mai 2022 27
  • 28. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Pour répondre à cette question, on fait un test t de Student pour échantillons indépendants. Ce test consiste à comparer les moyennes des échantillons. avec • Si ‫׀‬tSTAT ‫>׀‬ ‫׀‬tcritique‫׀‬ , alors on peut rejeter l’hypothèse H0 et conclure à une différence significative entre les deux moyennes. Jérôme CAREL - Mai 2022 28
  • 29. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Ce test suppose l’égalité des variances des deux échantillons. On peut tester cette égalité de variances à l’aide du test de Fisher : Jérôme CAREL - Mai 2022 29
  • 30. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Ici, on constate que l’égalité des variances est vérifiée. • Dans le cas contraire, on pourrait tout de même continuer avec le test t de Student car l’échantillon est suffisamment grand. Test F de Fisher / Test bilatéral : Intervalle de confiance à 95% autour du rapport des variances : [ 0,875; 1,178 ] Rapport 1,015 F (Valeur observée)1,015 F (Valeur critique) 1,160 DDL1 698 DDL2 698 p-value (bilatérale) 0,844 alpha 0,050 Interprétation du test : H0 : Le rapport entre les variances est égal à 1. Ha : Le rapport entre les variances est différent de 1. Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0. Jérôme CAREL - Mai 2022 30
  • 31. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Le test t de Student donne une p-value > α • On ne peut donc pas exclure H0. On ne peut donc pas affirmer que les moyennes des populations sont significativement différentes. Jérôme CAREL - Mai 2022 31 Test t pour deux échantillons indépendants / Test bilatéral : Intervalle de confiance à 95% autour de la différence des moyennes : [ -27,618; 8,736 ] Différence -9,441 t (Valeur observée)-1,019 |t| (Valeur critique)1,962 DDL 1396 p-value (bilatérale) 0,308 alpha 0,050 Interprétation du test : H0 : La différence entre les moyennes est égale à 0. Ha : La différence entre les moyennes est différente de 0. Etant donné que la p-value calculée est supérieure au niveau de signification seuil alpha=0,05, on ne peut pas rejeter l'hypothèse nulle H0.
  • 32. Exemple n°2* : L’apport d’engrais azoté sur un gazon • Le test t de Student donne une p-value > α Jérôme CAREL - Mai 2022 32
  • 33. Exemple n°2* : L’apport d’engrais azoté sur un gazon Au final, on peut donc dire que le gazon manque d’azote, que ce soit sur la parcelle 1 ou la parcelle 2, sans qu’il y ait de différence notable entre les deux parcelles. Jérôme CAREL - Mai 2022 33
  • 34. Le cas des variables qualitatives Jérôme CAREL - Mai 2022 34
  • 35. Les caractéristiques des données qualitatives Données nominales. Ici, la variable « sexe » admet 2 modalités : ➢ Homme ➢ Femme Bien que ce ne soit pas le cas ici, un chiffre peut aussi être une donnée qualitative s’il s’agit d’un numéro d’ordre (dans un classement). Par ex: Ce pourrait être ici l’ordre du répondant parmi tous les enfants mis au monde par sa mère. Données quantitatives Effectifs par modalité. (=fréquences absolues) Fréquences relatives = Effectif de la modalité / Effectif total Jérôme CAREL - Mai 2022 35
  • 36. Convertir des données quantitatives en données qualitatives Il est possible de convertir des données quantitatives en données qualitatives mais cela implique une certaine « perte d’information » dans les données car on attribue de façon arbitraire un qualitatif (donc un sens sémantique) à une donnée chiffrée. Par exemple, la taille d’un individu peut être qualifiée de « grande », « moyenne » ou « petite ». On peut ainsi attribuer des intervalles de grandeur à chacun de ces qualificatifs de sorte qu’ils soient mutuellement exclusifs. Taille en cm Taille en valeur nominale 186 184 184 183 180 178 178 175 174 170 170 170 166 166 163 162 162 161 159 158 156 155 155 Petit Moyen Grand Jérôme CAREL - Mai 2022 36
  • 37. Etudier une modalité d’intérêt On peut ainsi calculer la fréquence relative des « petits » : p = X/n avec X = effectif de la modalité étudiée; n = effectif total de l’échantillon On trouve ainsi p = 6/23 ≈ 26,09% La proportion de cette même modalité d’intérêt dans la population est donnée par π. Taille en cm Taille en valeur nominale 186 184 184 183 180 178 178 175 174 170 170 170 166 166 163 162 162 161 159 158 156 155 155 Petit Moyen Grand Jérôme CAREL - Mai 2022 37
  • 38. Les paramètres utilisés • Pour la population • Pour un échantillon La valeur centrée réduite π • Pour l’ensemble des échantillons possibles (d’une certaine taille) parmi une population : Erreur standard de la proportion Jérôme CAREL - Mai 2022 38
  • 39. Vérifier la conformité d’un échantillon avec une population connue Jérôme CAREL - Mai 2022 39
  • 40. POPULATION → ÉCHANTILLON? On connaît la proportion d’intérêt (π) dans une population. On souhaite vérifier si la proportion (p) associée à une modalité dans un échantillon est significativement différente de la proportion (π) de la même modalité dans la population de référence. Autrement dit, on vérifie si la différence entre p et π peut s’expliquer simplement par l’erreur d’échantillonnage ou pas. Jérôme CAREL - Mai 2022 40
  • 41. Exemple n°3* : Navigateur internet • Afin de limiter les problèmes d’incompatibilité technique, on souhaite étudier les comportements et usages des navigateurs internet dans une entreprise multinationale rassemblant plusieurs milliers de salariés. Malheureusement, il est impossible de rassembler les données techniques de toutes les antennes à travers le monde. Le DSI décide donc de lancer une enquête auprès d’un échantillon de salariés. Le résultat montre que sur 100 salariés, 60 utilisent le navigateur Google Chrome. • Or, une étude statistique extensive menée par Google et reprenant les données télécom de tous les pays dans le monde a montré que 56,43% des internautes utilisent Google Chrome en guise de navigateur internet. NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 41
  • 42. Exemple n°3* : Navigateur internet Ici, on connaît donc : • p = 0,60 • π = 0,5643 Peut-on dire que la part d’utilisateurs de Google Chrome dans l’entreprise est semblable à celle qui est observée dans le monde en acceptant un risque d’erreur de 5% dans la réponse qui sera formulée? NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 42
  • 43. Exemple n°3* : Navigateur internet Cette valeur correspond à la valeur Z2,5% qu’on trouve dans la table Z (loi normale centrée réduite). Proportion de l’échantillon Variance de l’échantillon Effectif de l’échantillon Jérôme CAREL - Mai 2022 43
  • 44. Exemple n°3* : Navigateur internet Extrait de la table Z (loi normale centrée réduite) Risque (1-α/2) α est « réparti » sur les 2 queues de distribution. On s’intéresse donc à α/2 puisqu’il s’agit de la probabilité cumulée de -∞ à Z. Jérôme CAREL - Mai 2022 44
  • 45. Exemple n°3* : Navigateur internet Pour répondre à cette question, on calcule donc : • Dans la table Z, on lit : Zα/2 = Z2,5% = Z0,025 = 1,96 • On connaît déjà p = 0,6 et n = 100. On peut donc calculer l’intervalle d’encadrement de la proportion estimée pour la population : On constate ici que la proportion de référence (56,43% dans le monde) fait bien partie de l’intervalle de confiance. On ne peut pas donc dire que la proportion dans l’entreprise est significativement différente de celle rencontrée dans le monde. NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 45
  • 46. Estimer la probabilité d’obtenir une proportion dans une population en connaissant celle d’un échantillon Jérôme CAREL - Mai 2022 46
  • 47. ÉCHANTILLON → POPULATION? Pour une modalité donnée, on connaît la proportion d’intérêt (p) dans un échantillon. On souhaite calculer les probabilités associées à cette même modalité pour la population dont est tiré l’échantillon. Jérôme CAREL - Mai 2022 47
  • 48. Exemple n°4* : Résultats d’élections • Un cabinet de sondages est mandaté pour donner des prévisions de résultats lors de la nuit de dépouillement d’une élection politique importante. • Il n’y a que 2 candidat.e.s qui se présentent au scrutin. • Pour être élu.e, la personne doit recevoir au moins la moitié des suffrages plus un. • Cependant, en guise de précaution, l’institut de sondage estime qu’il faut que l’un des candidats ait reçu au moins 55% des votes exprimés pour le déclarer vainqueur (par anticipation) du suffrage. • L’institut de sondage prévoit interroger 100 personnes « à la sortie des urnes » d’un bureau de vote représentatif de la population sur la nature des expressions politiques. NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 48
  • 49. Exemple n°4* : Résultats d’élections Quelle est la probabilité pour qu’un candidat soit déclaré vainqueur par anticipation s’il reçoit au final 60% des suffrages exprimés par l’ensemble de la population (une fois le dépouillement terminé) ? • Pour répondre à cette question, on utilise la valeur Z. La probabilité correspond à la probabilité cumulée que Z soit supérieur à cette valeur « plancher ». • On sait que p = 0,55 π = 0,60 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 49
  • 50. Exemple n°4* : Résultats d’élections • On sait que p = 0,55 π = 0,60 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Z ≈ -1,0206 Dans la table Z, on trouve p(Z ≤ -1,02) = 15,39% Donc p(Z > -1,02) = 84,61% On a donc près de 85% de chance de proclamer le candidat vainqueur à la sortie des urnes avec un échantillon de 100 personnes si le résultat final lui donne 60% des voix. Jérôme CAREL - Mai 2022 50
  • 51. Exemple n°4* : Résultats d’élections Quelle est la probabilité pour qu’un candidat soit déclaré vainqueur par anticipation (et par erreur) s’il reçoit au final 49% des suffrages exprimés par l’ensemble de la population ? • Pour répondre à cette question, on utilise la valeur Z. La probabilité correspond à la probabilité cumulée que Z soit supérieur à cette valeur « plancher ». • On sait que p = 0,55 π = 0,49 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Jérôme CAREL - Mai 2022 51
  • 52. Exemple n°4* : Résultats d’élections • On sait que p = 0,55 π = 0,49 n = 100 NB: * Il s’agit ici d’un exemple fictif, avec des données reconstituées pour les besoins statistiques de la présentation. Z ≈ 1,2002 Dans la table Z, on trouve p(Z ≤ 1,20) = 88,49% Donc p(Z > 1,20) = 11,51% On a donc 11,5% de risque de proclamer un candidat vainqueur de l’élection alors qu’il échoue de peu à l’élection. Jérôme CAREL - Mai 2022 52
  • 53. Comparer deux populations à partir de deux échantillons distincts Jérôme CAREL - Mai 2022 53
  • 54. POPULATION? = POPULATION? On connaît la proportion d’une même modalité dans deux échantillons (p1) et (p2). On souhaite comparer les proportions π1 et π2 des deux populations estimées à partir des paramètres de deux échantillons respectifs. ? Jérôme CAREL - Mai 2022 54
  • 55. Exemple n°4* : Résultats d’élections Un 2ème institut de sondage a été mandaté pour faire le même travail que le premier mais sur un échantillon différent de 120 personnes, lui aussi connu pour être représentatif des comportements de électeurs. Le 1er institut obtient un score d’échantillon de 49% des voix pour le candidat étudié. Le 2ème institut obtient un score d’échantillon de 53% des voix pour ce même candidat. Peut-on affirmer que les scores estimés pour la population dans chacun des cas sont statistiquement semblables en admettant un risque d’erreur de 5% ? Jérôme CAREL - Mai 2022 55
  • 56. Exemple n°4* : Résultats d’élections Pour résumer, on a : p1 = 0,49 et p2 = 0,53 Le principe ici consiste à analyser la différence de proportion entre les échantillons par rapport à la différence de proportion entre les populations estimées. Si les deux populations estimées sont en réalité une seule et même population, alors on a : π1 = π2; autrement dit π1 - π2 = 0. On fait donc un test d’hypothèses : H0 : Les proportions estimées pour chacune des 2 populations ne sont pas significativement différentes l’une de l’autre H1 : Les proportions estimées pour chacune des 2 populations sont significativement différentes l’une de l’autre. Jérôme CAREL - Mai 2022 56
  • 57. Exemple n°4* : Résultats d’élections On calcule alors un ZSTAT que l’on compare à une valeur critique Z-2,5%. Si ZSTAT > Z2,5% ou bien si ZSTAT < Z- 2,5% , alors on peut dire qu’on a bien 2 estimations différentes. Jérôme CAREL - Mai 2022 57
  • 58. Exemple n°4* : Résultats d’élections On calcule donc Avec On obtient Soit Z = -0,59 Jérôme CAREL - Mai 2022 58
  • 59. Exemple n°4* : Résultats d’élections Dans la table Z de la loi normale centrée réduite, on trouve : Z-2,5% = -1,96 On constate donc que Z-2,5% ≤ ZSTAT ≤ Z+2,5% On ne peut donc pas rejeter H0. On ne peut donc pas affirmer que les résultats obtenus par l’un et l’autre des instituts de sondage sont significativement différents. Conclusion : L’un donnant le candidat gagnant et l’autre perdant, on peut conclure à une impossibilité de donner le nom d’un gagnant. Pour pouvoir espérer affiner les résultats, il faudrait notamment augmenter la taille des échantillons de population. Jérôme CAREL - Mai 2022 59
  • 60. La clé de la réussite ? L’entraînement et les exercices réguliers Jérôme CAREL - Mai 2022 60