1. Utilisation des proc´ dures SAS dans l’enseignement des sondages
e
Yves Aragon ¡ Anne Ruiz-Gazen
e-mail: aragon@cict.fr, ruiz@cict.fr
1. Introduction
Depuis la version 8, SAS [6] propose trois proc´ dures pour les questions d’estimation en sondages. Il s’agit des
e
proc surveyselect pour la s´ lection d’´ chantillons, surveymeans pour l’estimation de moyennes, totaux
e
e
et ratios et surveyreg pour l’estimation des coefficients d’une r´ gression. Les proc´ dure SAS sont relativement
e
e
faciles d’utilisation. Elles permettent de compl´ ter des exercices de travaux dirig´ s et, si on dispose d’une popue
e
lation exhaustive, d’exp´ rimenter des propri´ t´ s th´ oriques par simulation. La proc surveyselect offre de
e
ee e
nombreuses possibilit´ s de tirages al´ atoires tandis que surveymeans et surveyreg tiennent compte de plans
e
e
de sondages complexes dans les estimations. Nous pr´ sentons ces diff´ rentes proc´ dures et illustrons leur usage sur
e
e
e
la population des 554 communes de moins de 10000 habitants de la Haute-Garonne pour lesquelles nous disposons
de donn´ es issues du recensement de 1999. Nous nous int´ ressons a l’estimation du nombre total de logements
e
e
`
vacants. L’ensemble des communes est partitionn´ en 32 Bassins de vie quotidienne (BVQ). La variable nombre
e
de logements est consid´ r´ e comme une information auxiliaire. Les communes sont r´ parties en 4 strates d’apr` s
ee
e
e
la variable auxiliaire. L’information exhaustive est connue mais, dans un but p´ dagogique, nous echantillonnons
e
´
suivant diff´ rentes m´ thodes. Ce choix de donn´ es est inspir´ de l’exemple des municipalit´ s de Su` de de [5].
e
e
e
e
e
e
2. Tirage d’´ chantillons
e
La proc surveyselect offre un ensemble d’algorithmes de tirages d’´ chantillons, notamment des tirages
e
avec probabilit´ s proportionnelles a la taille, avec ou sans remise (voir [2] pour une description synth´ tique et
e
`
e
compl` te des possibilit´ s).
e
e
2.1. Exemple de plan a un degr´
e
`
Les donn´ es sont dans la table COMpop et les strates sont d´ finies par la variable stratloge. Consid´ rons la
e
e
e
s´ lection d’´ chantillons d´ crite par la syntaxe suivante :
e
e
e
proc surveyselect data=COMpop method=srs
n=(5 10 21 34)
seed=57926 out=logestsi rep=1000;
strata stratloge;
run;
Le plan de sondage est un plan stratifi´ simple. La m´ thode de tirage est donn´ e par srs (simple random
e
e
e
sampling) et les tailles d’´ chantillon dans chaque strate sont donn´ es par n. La graine du g´ n´ rateur de nombres
e
e
e e
al´ atoires a et´ fix´ e (seed=...) et l’option rep=1000 permet de tirer 1000 echantillons, ce qui est utile pour
e
´e e
´
faire des comparaisons empiriques de m´ thodes (voir la section 5).
e
SAS fournit en sortie les echantillons et les probabilit´ s d’inclusion du premier ordre, les poids (SamplingWeight),
´
e
inverses des probabilit´ s d’inclusion, utilis´ s pour l’´ tape d’estimation et, pour certains plans, les probabilit´ s
e
e
e
e
d’inclusion du second ordre (option JTPROBS).
Yves Aragon et Anne Ruiz-Gazen: GREMAQ, UMR CNRS C5604, Universit´ de Toulouse 1, 21 all´ e de Brienne, 31000
e
e
Toulouse, France et Laboratoire de Statistique et Probabilit´ s, UMR CNRS C5583, Universit´ Paul Sabatier, Toulouse.
e
e
2. 2
Yves Aragon, Anne Ruiz-Gazen
2.2. Exemple de plan a un degr´ avec remise et probabilit´ s proportionnelles a la taille
e
e
`
`
On utilise l’information auxiliaire nombre de logements (loge) pour tirer avec remise un echantillon de 70 com´
munes.
proc surveyselect data=COMpop method=pps_wr n=70
seed=98556 out=logepps rep=1000 outhits ;
size loge;
run;
Dans un plan avec remise, SAS cr´ e une variable (NumberHits) indiquant le nombre d’apparitions de chaque
e
observation. Par l’option outhits, chaque unit´ figure dans le fichier de sortie autant de fois qu’elle a et´ tir´ e.
e
´e e
Il est pr´ f´ rable d’utiliser cette option en vue des etapes d’estimation suivantes.
ee
´
2.3. Exemple de plan a deux degr´ s
e
`
Æ
¿¾ BVQ. On veut tirer un echantillon de communes
´
On dispose de la table BVQpop des identifiants des Á
pr´ sentant une dispersion spatiale. Pour ce faire on met en œuvre un plan a deux degr´ s.
e
`
e
¯ Degr´ 1. On tire un echantillon × Á de ÒÁ ´
e
´
µ BVQ suivant un plan SI, taux de sondage :
Á
ÒÁ ÆÁ .
proc surveyselect data= BVQpop sampsize= 6 seed= 25123
stats out=bvqsel rep=500;
run;
La table en sortie contient notamment les variables replicate, num´ ro d’´ chantillon, et BVQ_N, identifiant des
e
e
BVQ tir´ s dans chaque echantillon. On forme ensuite dans une etape data le fichier des communes des BVQ
e
´
´
echantillonn´ s : comsel1 o` les poids du sondage de ce premier degr´ sont renomm´ s w1.
´
e
u
e
e
¯ Degr´ 2. Dans chaque BVQ ¾ × Á , de Æ communes, on tire un echantillon × de Ò
e
´
Ò Æ.
plan SI, taux de sondage :
´ ¿µ communes suivant un
proc surveyselect data= comsel1 sampsize= 3
seed= 55268 out=comsel2 stats;
strata BVQ_N;
by replicate;
run;
On renomme w2 les poids de sondage de ce degr´ .
e
Dans le cas d’un plan a deux degr´ s, il est important que l’utilisateur stocke par une etape data le produit des
`
e
´
poids des deux degr´ s w12 = w1 * w2 en vue de l’´ tape d’estimation.
e
e
3. Estimation de totaux, moyennes et ratios
Les proc surveymeans et surveyreg permettent de calculer des estimateurs de totaux, moyennes, ratios,
et coefficients de r´ gressions lin´ aires, en tenant compte du plan d’´ chantillonnage. Les poids d’observation sont
e
e
e
pris en compte par la commande weight (qui existe aussi dans les proc means et reg) tandis que la structure
du plan de sondage est donn´ e par les commandes strata et cluster. Une moyenne est consid´ r´ e comme
e
ee
un ratio et elle est estim´ e a l’aide de l’estimateur de Hajek, quotient des estimateurs du total et de la taille de
e `
l’´ chantillon.
e
3.1. Exemple d’utilisation de la proc surveymeans
On tire 1000 echantillons de 70 communes selon un plan SI et on obtient les 1000 estimations du nombre total de
´
logements vacants (variable logevac) stock´ es dans le fichier resultat par la syntaxe suivante :
e
proc surveyselect data=COMpop method=srs n=70 stats
seed=47279 out=logsi rep=1000;
run;
3. Utilisation des proc´ dures SAS dans l’enseignement des sondages
e
3
proc surveymeans data=logsi total=554 sum;
var logevac;
by Replicate;
weight Samplingweight;
ods select none;
ods output Statistics = resultat;
run;
ods select all;
C’est l’Output Delivery System (ODS) qui g` re les sorties des proc´ dures surveymeans et surveyreg. La
e
e
commande ods output Statistics = resultat; envoie ces sorties dans un fichier resultat et la
commande ods select none; supprime toute impression dans la fenˆ tre output.
e
3.2. Exemples d’utilisation de la proc surveyreg
Cette proc´ dure r´ alise essentiellement l’estimation des coefficients d’une r´ gression a l’aide de donn´ es obtenues
e
e
e
`
e
par echantillonnage. Mais elle permet egalement des estimations par r´ gression et par ratio de totaux ou de
´
´
e
moyennes.
Consid´ rons l’estimation par r´ gression du nombre total de logements vacants (logevac) a l’aide de l’information
e
e
`
auxiliaire nombre de logements, d’apr` s le mod` le :
e
e
logevac
¬¼ · ¬½loge · Ù Ù
´¼ ¾ µ
Sachant que le nombre total de logements est 197314, l’estimateur du total est :
syntaxe suivante r´ alise cette estimation :
e
¬¼ ¢
· ¬½ ¢ ½ ¿½
. La
proc surveyreg data=logsi total=554;
model logevac = loge / Solution;
by Replicate;
Estimate "logevac" Intercept 554 loge 197314;
ods select none;
ods output Estimates = resultat;
run;
ods select all;
Une estimation par ratio du nombre total de logements vacants correspond au mod` le :
e
logevac
¬½ loge · Ù Ù
´¼
¾
loge
µ
Apr` s avoir calcul´ la variable ratiologe = 1/loge, on estime le total par la syntaxe :
e
e
proc surveyreg data=logsi total=554;
model logevac = loge /Noint Solution;
Weight ratiologe;
by Replicate;
Estimate "logevac" loge 197314;
ods select none;
ods output Estimates = resultat;
run;
ods select all;
Des commandes strata et cluster sont egalement disponibles pour d´ crire la structure du plan. En pr´ sence
´
e
e
de poids de sondages in´ gaux et d’un mod` le sur la variance, l’utilisateur doit calculer pr´ alablement la variable
e
e
e
de la commande Weight. Pour l’estimation par r´ gression, SAS retient essentiellement une approche bas ee sur
e
´
un mod` le et non assist´ e par un mod` le (voir les discussions de [5] et [8] sur cette distinction).
e
e
e
4. 4
Yves Aragon, Anne Ruiz-Gazen
4. Estimation de variances
4.1. Principe
SAS estime les variances des estimateurs de totaux, moyennes, ratios et coefficients de r´ gression. Quand l’estimateur
e
n’est pas lin´ aire, cas d’un ratio par exemple, SAS utilise la technique de lin´ arisation a la facon de [9] (voir aussi
e
e
`
¸
[7] pour un expos´ r´ cent). Par les commandes strata et cluster, SAS permet de prendre en compte les plans
e e
stratifi´ s et a plusieurs degr´ s. Pour un plan a plusieurs degr´ s, l’utilisateur doit fournir le produit des poids des
e
`
e
`
e
diff´ rents degr´ s mais ne peut indiquer la structure du plan que pour le premier degr´ . Illustrons cette limitation
e
e
e
sur un plan SI,SI.
4.2. Exemple d’estimation de variance dans un plan a deux degr´ s
e
`
Dans un plan a plusieurs degr´ s, la variance de l’estimateur du total est la somme des variances correspondant aux
`
e
diff´ rents degr´ s (voir [5] p. 137). Consid´ rons en particulier un plan a deux degr´ s SI,SI. L’estimation sans biais
e
e
e
`
e
de la variance du total s’´ crit :
e
var´
ص
·
avec
ÆÁ¾ ½ Á Ëؾ ×
Ò
Á
Á
et
ÆÁ
ÒÁ
×Á
¾
Æ ¾ ½ ËÝ ×
Ò
Attention. (resp. ) n’est pas un estimateur sans biais de la variance du premier (resp. deuxi` me) degr´ et le
e
e
e
terme surestime la variance du premier degr´ (voir par exemple [5] p. 137).
Sur l’exemple du plan a deux degr´ s de la section 2.3, deux solutions s’offrent a nous pour estimer la variance de
`
e
`
l’estimateur par les valeurs dilat´ es du nombre total de logements.
e
(1) Suivre les suggestions de SAS c’est-` -dire :
a
– pr´ ciser le plan du premier degr´ par la commande cluster bvq_n;,
e
e
– utiliser les poids produits des deux degr´ s (w12 = w1 * w2),
e
– pr´ ciser la correction de population finie (fpc1 = Á
e
¿¾ ¼ ½ ) par l’option rate=fpc1.
On obtient, , estimateur biais´ de la variance comme on l’a indiqu´ ci-dessus.
e
e
Ø
(2) Calculer l’estimateur sans biais var´ µ en calculant aussi
total dans un plan stratifi´ (strata BVQ_n).
e
. Au facteur
Æ Á ÒÁ pr`s,
e
est la variance d’un
5. Comparaisons empiriques
Revenons a l’estimation du nombre de logements vacants. Les tableaux ci-dessous permettent de comparer diff´ rents
`
e
plans de sondage et diff´ rentes m´ thodes d’estimation. Pour chaque plan, on a r´ alis´ 1000 tirages et on donne les
e
e
e e
estimations moyennes du total et les coefficients de variation des estimateurs calcul´ s a partir des variances eme `
piriques. Le nombre total de logements vacants fourni par le recensement est 10768.
5.1. Comparaison de plans d’ echantillonnage
´
Nous avons consid´ r´ les plans suivants :
ee
SI : plan simple de taille
Ò
¼ communes,
STSI taille : plan simple stratifi´ avec affectation proportionnelle a la taille en nombre de communes,
e
`
STSI loge : plan simple stratifi´ avec affectation proportionnelle au nombre de logements,
e
pps : plan avec remise et probabilit´ s proportionnelles au nombre de logements,
e
grappe : plan simple de taille
Ò
BVQ et tirage des 4 grappes de communes associ´ es.
e
5. Utilisation des proc´ dures SAS dans l’enseignement des sondages
e
5
On a fix´ les tailles d’´ chantillons a 4 BVQ pour le plan en grappes et a 70 communes pour les autres plans car
e
e
`
`
4 BVQ correspondent en moyenne a 70 communes.
`
Plan
SI
STSI taille
STSI loge
pps
grappe
Estimation total
10668
10776
10745
10779
10758
Coefficient de variation
18.84%
13.35%
6.97%
7.45%
31.96%
Tableau 1
Le tableau 1 illustre que, comparativement a un plan SI, un plan stratifi´ permet d’am´ liorer la pr´ cision tandis
`
e
e
e
qu’un plan en grappes conduit g´ n´ ralement a une perte de pr´ cision. Les meilleurs r´ sultats sont obtenus en
e e
`
e
e
prenant en compte l’information auxiliaire, nombre de logements, que ce soit par echantillonnage stratifi´ ou par
´
e
echantillonnage avec probabilit´ proportionnelle a la taille.
´
e
`
5.2. Comparaison des estimateurs par valeurs dilat ees, par ratio et par r´ gression pour un plan SI
e
´
Le tableau 2 ci-dessous, obtenu pour un plan SI de taille 70, montre l’int´ rˆ t de prendre en compte la variable
ee
auxiliaire nombre de logements dans l’estimation.
M´ thode d’estimation
e
par valeurs dilat´ es
e
par
ratio
par r´ gression
e
Estimation total
10668
10854
10828
Coefficient de variation
18.84%
11.25%
11.72%
Tableau 2
0
50
100
150
200
5.3. Comparaison des estimations de variance dans le plan a deux degr´ s
e
`
0.7
0.8
0.9
1.0
Fig. 1. Histogramme du rapport “estimation sugg´ r´ e par SAS/estimation sans biais”.
ee
La figure ci-dessus donne l’histogramme des rapports A/(A+B) d´ finis section 4.2 ; le num´ rateur correspond
e
e
a l’estimation de variance sugg´ r´ e par SAS tandis que le d´ nominateur donne l’estimation sans biais. On observe
`
ee
e
que la grande majorit´ des valeurs sont sup´ rieures a 80%, ce qui justifie pour cet exemple l’utilisation de la
e
e
`
formule simplifi´ e sugg´ r´ e par SAS.
e
ee
6. 6
Yves Aragon, Anne Ruiz-Gazen: Utilisation des proc´ dures SAS dans l’enseignement des sondages
e
6. Conclusion
La proc´ dure surveyselect offre un choix important d’algorithmes de tirage avec des temps d’ex´ cution tr` s
e
e
e
satisfaisants. Les proc´ dures surveymeans, surveyreg et, dans la version 9, surveylogistic (voir [1])
e
qui prennent en compte la structure de plans de sondage relativement complexes, constituent des avanc´ es significae
tives par rapport aux proc´ dures classiques means, reg et logistic. L’acc` s aux techniques de sondage s’en
e
e
trouve facilit´ , que ce soit pour un enseignement ou dans une entreprise ne disposant pas d’un logiciel sp´ cifique.
e
e
Notons enfin que SAS propose aussi deux proc´ dures pour le traitement des valeurs manquantes : les proc
e
mi et mianalyze.
References
1. An, R.P. (2002). ”Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure”, SUGI 27
Paper 258-27 .
2. An, R.P., Watts D. and Stocks M. (1999). ”SAS Procedures for Analysis of Sample Survey Data”, The Survey Statistician,
No. 41, http://www.cbs.nl/isi/survey-41-2.htm, part 2.
3. Berglund, P.A. (2002). ”Analysis of Complex Sample Survey Data Using the SURVEYMEANS and SURVEYREG Procedures
and Macro Coding”, SUGI 27 Paper 263-27.
4. Gossett, J.M., Simpson P., Parker J.G. and Simon W.L. (2002). ”How Complex Can Complex Survey Analysis Be with SAS
?”, SUGI 27 Paper 266-27 .
5. S¨ rndal, C.E., Swensson B. and Wretman J. (1992). Model Assisted Survey Sampling, Springer-Verlag, New-York, 694
a
pages.
6. SAS/STAT (2000). User’s Guide, Version 8, SAS Institute, Cary NC.
7. Till´ Y. (2001). Th´ orie des sondages - Echantillonnage et estimation en populations finies, Dunod, Paris, 284 pages.
e
e
8. Valliant R., Dorfman A.H. and Royall R.M. (2000) Finite Population Sampling and Inference: A Prediction Approach,
Wiley, New-York, 536 pages.
9. Woodruff R.S. (1971). ”A Simple Method for Approximating the Variance of a Complicated Estimate”, Journal of the
American Statistical Association, Vol. 66, pp. 411-414.