SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 1 sur 16
SUPPORT DE FORMATION POUR STATA
(version 13)
1 INTRODUCTION AU LOGICIEL STATA
Stata est un logiciel de traitement et d’analyse statistique et économétrique, développé par
Stata Corporation. Il fonctionne globalement avec des lignes de commande (le langage « ado-
file ») saisies (différent de SPSS, pareil que SAS).
Le recours aux lignes de commande a des avantages.
-On peut facilement reproduire l’affichage des résultats ou le traitement des données en
suivant la procédure de commande (notamment dans le do file).Or avec un logiciel à
interface, il n'y a pas de trace de quels clics ont été faits.
-le logiciel s'enrichit en permanence. Il est possible de créer une commande en utilisant
plusieurs autres sur internet https://www.stata.com/ . Or, les interfaces sont figées et ne
changent qu'à la parution de nouvelles versions.
-Enfin il couvre la quasi-totalité des domaines des statistiques et de l'économétrie abordés
dans différentes sciences comme l'économie, la santé, l'épidémiologie.
Dans ce document, nous allons apprendre à utiliser des commandes STATA pour :
Créer une base de données avec des variables,
Traiter et gérer des variables
Afficher les résultats sous format graphique ou tabulaire
Procéder à des tests statistiques
1.1 Fichiers et répertoires
Le logiciel STATA utilise plusieurs types de fichiers nommés d’après leurs extensions (.dta
.do .ado .gph) :
-Fichier .dta : ce sont des fichiers de données au format Stata.
-Fichier .do : fichiers de commandes, au format texte. Ils permettent à l’utilisateur de lancer
plusieurs commandes Stata en une seule opération et de garder une trace des commandes
-Fichier .ado : fichier de programmes, définissant une ou plusieurs commandes. Ces fichiers
sont au format texte ;
-Fichier.gph enregistré en format Stata contient les graphiques.
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 2 sur 16
1.2 Présentation de l'interface Stata
Le logiciel STATA se présente sous la forme de 4 fenêtres.
- La fenêtre Command où vous tapez les commandes STATA,
- La fenêtre Results où les résultats STATA sont présentés,
- La fenêtre Review où les commandes précédentes sont présentées,
- La fenêtre Variables qui liste toutes les variables présentes dans la base de données
en cours d’utilisation1
.
1.3 L'éditeur de Do-Files
L'éditeur de dofile est un fichier assimilable à un brouillon sur lequel on lance et manipule les
commandes. Il est souvent recommandé quand on veut pouvoir reproduire son analyse autant
de fois qu'on le souhaite Il permet entre autres, de :
-Editer et de copier-coller les commandes.
-Ajouter des annotations en fin de ligne comme des commentaires2
en faisant précéder la
ligne de "*" ou en terminant une commande par " //"
- Créer des macros
- Générer des variables qui ne vont exister que le temps du programme
1.4 Le Data Editor
Le data editor permet d'afficher le contenu d'un fichier de données et de le modifier
directement à l'écran (non recommandé). Il permet aussi de copier-coller les données
provenant d'un tableur Excel par exemple. Le data editor peut soit être appelé par la
commande edit, soit appelé en cliquant sur son icone3
.
1
Attention ! STATA ne peut ouvrir qu’une seule base de données en même temps
2
Un commentaire est simplement affiché dans la fenêtre de résultats, sans que Stata cherche à l'exécuter.
3
En haut à droite se trouvent la liste des variables présentes dans le fichier. On coche/décoche les variables que
l'on souhaite (ou non) avoir à l'écran. Au milieu à droite se trouve un éditeur des propriétés des variables. On peut
modifier ici directement le label de variable, son type, son format d'affichage, ses étiquettes de valeurs.
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 3 sur 16
2 LA SYNTAXE DE BASE DES COMMANDES ET LES OPERATEURS STATA
De façon générale, toutes les commandes Stata4
sont appelées selon une syntaxe uniforme.
Une fois que l’on connaît la forme générale, on sait alors comment appeler toute commande.
2.1 Organisation générale de la syntaxe 5
La forme générale de la syntaxe dans STATA est la suivante6
:
command [varlist] [if expr] [in range] [weight] [, options]
command est le nom (ou l’abréviation) d’un programme Stata conçu pour remplir une tâche
spécifique
varlist est une liste de nom de variables (ou de leurs abréviations) séparés par des espaces ;
if exp restreint l’exécution de la commande aux observations satisfaisant aux conditions
énoncées
in range restreint l’exécution de la commande aux observations contenues dans une plage
spécifique
options modifient les paramètres par défaut d’une commande et sont habituellement propres à
chaque commande.
2.2 Quelques éléments de langage : les opérateurs et les expressions
Les opérateurs et les expressions sont fondamentales lors de l’affichage des variables, des
résultats mais aussi au moment du traitement des données.
2.2.1 Les opérateurs sous STATA
Les opérateurs permettent de retrouver des informations ayant certaines caractéristiques et de
créer ainsi des sous bases de données à partir de la base de données générale. Ils permettent
aussi de procéder à des résultats sous conditions. On distingue souvent les opérateurs de
relation, les opérations logiques et les opérations arithmétiques7
.
4
NOTE : La syntaxe Stata est économe : toute commande peut être autant abrégée que possible, i.e.que cela ne
crée aucune ambiguïté. Ainsi, summarize peut s’abréger indifféremment en summari, sum ou su. On ne peut pas
l’abréger en s, car il y aurait alors confusion possible avec une autre commande, sort.
5
Les arguments encadrés par des crochets sont facultatifs et ne sont pas utilisés avec toutes les commandes. Plus
précisément :
6
Par convention, la paire de crochets [ ] dénote le caractère optionnel de la commande qu’elle comporte. Les mots
clefs sont en gras. Dans la ligne de syntaxe, à part la commande command qui est obligatoire, tout le reste est
optionnel.
7
L’ordre de préséance des opérateurs est comme suit : !, ^, -(négation), /,*,-,+,!=,>,<,<=,>= ,==, & et |. Pour des
opérateurs de préséance égale, l’expression est évaluée de gauche à droite
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 4 sur 16
Arithmetic Logical Relational
+ Addition & And > Greater Than
- Subtraction | Or < Less Than
* Multiplication ! Not >= Greater Than or Equal
/ Division ~ Not <= Less Than or Equal
^ Power == Equal
- Negation != Not Equal
+ String Concatenation ~= Not Equal
2.2.2 Les expressions sous STATA : les fondamentales : by, if et in
By, if et in sont des trois expressions très sollicitées en analyse de données avec STATA.
Elles peuvent s’utiliser avec la majorité des commandes et on peut les combiner les unes avec
les autres.
 by permet d’appliquer une commande à chaque valeur (ou modalité) d’une variable.
La syntaxe de cette expression est8
: by variable : commande variable.
On peut utiliser sort avant le by, ou pour classer et effectuer le by en même temps, bysort.
Exemple : bysort Genre : summarize salaire
Cette commande permet d’obtenir le salaire moyen des femmes et des hommes.
 if permet de n’appliquer la commande qu’aux observations remplissant une condition.
La Syntaxe : commande variable if condition.
Exemple 1: summarize salaire if (Age ==18)
Exemple 2: summarize salaire if Age==18 | Age>20 & Age<=25
Cet exemple de commande donne les statistiques descriptives de la variable salaire pour les
observations dont la variable âge est égale à 18 (remarquer le double signe =, il s’agit d’un
test) ou comprise entre 20 (exclu) et 50 (inclus)9
.
 in permet de n’appliquer la commande qu’aux observations se situant dans un
intervalle donné.
La syntaxe est la suivante : commande variable in condition.
Exemple : summarize salaire in 10/14 donne les statistiques descriptives de la variable
salaire pour les observations de la 10ème à la 14ème ligne de la base de données.
8
Après by il faut utiliser deux points avant de préciser la commande
9
L’opérateur & est prioritaire, les parenthèses sont inutiles ici.
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 5 sur 16
3 LECTURE DES DONNEES ET CREATION DE FICHIERS
3.1 Lire un fichier de données
Pour lire un fichier on peut utiliser la commande use. En effet use permet d’ouvrir une table
au format STATA.
-soit la table entière.
Exemple 1 : use auto.dta clear10
-soit quelques variables de cette table.
Exemple 2: use sexe age using auto.dta
-soit quelques observations de cette table:
Exemple 3 : use auto.dta if Genre== “homme” clear
-soit la combinaison des deux:
Exemple 4: use sexe age using auto.dta if sexe== “homme”
3.2 Création d’un fichier de données Stata11
Pour entrer des données dans Stata,
il existe plusieurs moyens, à utiliser en fonction de la nature des données :
– Si il n’y a que quelques données à rentrer, on peut utiliser la commande input :
input str20 ville age str6 sexe taille ancienneté salaire
"Brest" 17 homme 160 10 1500
"Dakar" 17 femme 175 15
"Ziguinchor" 20 homme 180 20 1500
end
On peut également saisir directement les données dans le Data Editor (edit), comme on
ferait avec Excel.
– Si l’utilisateur dispose déjà d’une base de données au format Stata (.dta), nommée par
exemple base.dta, use base.dta on procède à l’ouverture de cette base
10
L’option clear permet de vider les données en mémoire avant l’ouverture d’un nouveau fichier
11
Stata ne peut gérer qu’une seule base de données à la fois. Avant d’en ouvrir une, il convient
donc de fermer celle qui est actuellement utilisée (clear).
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 6 sur 16
3.3 Importation d’un fichier de données externes
Stata peut lire les fichiers externes Excel12
, ASCII délimités, créés par un tableur ou un
gestionnaire de base de données (séparateur de variables différent de l'espace)13
.
Menu File   , cliquer sur "Browse" et sélectionner le fichier
qui se trouve dans votre répertoire de travail. Ne pas oublier de cocher si votre fichier de
données contient les entêtes de colonnes.
La 1ère ligne du fichier doit contenir les noms de variables. Si ce n'est pas le cas, il faut
rajouter l'option "noname" lors de l'importation.
3.4 Copier-coller des données depuis Excel
Si vous travaillez sur de petits fichiers, il est possible de copier-coller les données directement
depuis Excel14
.
3.5 Exportation et sauvegarde des données
Plusieurs formats de sauvegarde des données sont possibles. On peut tout simplement sauver
des données dans le format de Stata (save mabase.dta), pour utilisation future.
On peut également exporter des données pour les utiliser ensuite avec un tableur ou un autre
logiciel, grâce à l’onglet file….export….data to xls ….on laisse la case de variables vide… on
donne un nom au fichier à exporter… submit…ok
12
Attention ; Stata ne reconnait pas les virgules. Donc pour les nombreux décimaux changer la virgule par un point
avant d’importer le fichier. Les données manquantes sont des cases vides a faire sur Excel
13
Des données propres sont des données organisées avec une ligne par observation, les variables en colonne, les
chaînes de caractères identifiées par des guillemets et les séparateurs tous identiques (virgule ou tabulation. Pas
d’espace !).
14
Ouvrez sous Excel le fichier Sélectionner les colonnes et copier leur contenu (avec les entêtes de colonnes).
Sous stata, tapez clear pour fermer votre fichier de données (si vous en aviez un d'affiché à l'écran).Cliquez sur le
bouton "Data editor". Coller. Fermer le data éditor. Enregistrez le fichier
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 7 sur 16
4 Création et gestion d’une base de données sous STATA
Les variables sous Stata peuvent être numériques ou alphanumériques.
Les variables numériques peuvent être de différents types selon la précision nécessaire.
Les variables alphanumériques sont des chaînes de caractères quelconques (string, str),
d’une longueur maximale de 244 caractères15
.
Les variables peuvent prendre plusieurs noms selon leurs caractéristiques :
byte ; int ;long ; float ; double ; str.
4.1 Créer des variables et des modalités
Pour créer de nouvelles variables, deux commandes existent : generate et egenerate
generate permet de créer des variables qui nécessitent des calculs « simples »
egenerate (extended generate) s’impose lorsque les calculs se complexifient un peu ou que
l’utilisation de fonctions statistiques spécifiques est nécessaire.
Exemples d’utilisation de generate :
La syntaxe générale de cette commande est : generate [type] newvar = expr [if expr] [in range
 gen x = 12. Crée une constante nommée x, qui vaut 12.
 gen var=. Crée une variable avec des cases vides16
:
 gen x = "Bonsoir". x est une chaîne de caractères, égale à « Bonjour » pour toutes
les observations.
 gen x = (sexe=="Homme"). x est égale à 1 si la variable sexe contient la chaîne de
caractère « Homme », zéro sinon.
 gen x = salaire[4]. x est une constante, égale au contenu de la 4ème observation
pour la variable salaire.
 generate var3=var1+var2 pour créer une variable combinant l’addition de deux
variables
15
Stata gère les noms longs, mais pour des raisons pratiques ou de compatibilité avec d’autres logiciels, ll faut
privilégier les noms courts pour variables. De plus le logiciel fait une différence entre un nom en majuscule et en
minuscule qu’il considère comme deux noms distincts/
16
Pour remplir les cases vides on peut utiliser des commandes replace avec les conditions
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 8 sur 16
 generate var4=5*var1 pour une variable qui est la multiplication de deux variables
 generate double price2 = price * price
 generate taille= recode (nb,0,5 ;10 ;15) regroupe le nombre de salariés nb en 4
classes : 0 ;entre 1 et 5 inclus ; entre 6 et 10 inclus ; et 11 et plus. La variable taille
ainsi crééeaura les modalités 0, 5 et 15.
 Egen taillegr=cut (taille),groupe (5)decoupela variable taille en 5 groupes
homogenes de point de vue des frequences.
 Egen taillegr=cut (taille) at (5,10,15) crée deux groupes à partir de la variabletaille,
l’un codé 5(de 5 à moins de 9), et l’autre 10 (de 10 à moins de 15).
4.2 Gestion et manipulations des variables
4.2.1 Les labels sous STATA : label var, label define, label value
Stata affiche les données selon leur nature
Les variables numériques s'affichent en noir,
Les variables numériques avec label sur les valeurs s'affichent en bleu,
Les variables de nature texte s'affichent en rouge.
La commande Label var + variable permet d’affecter un label à une variable
Exemple label var var6 poids
Label define
Label définie permet de définir un label pour les modalités d’une variable
Exemple : label define oui non 1 ‘’oui’’ 0 ‘’non’’ définit le codage ouinon
Label define lab_sexe 1 ‘’Homme’’ 2 ‘’ Femme’’ définit le codage sexe
Label value
La commande label value permet d’affecter le préalablement défini à la variable désirée
Exemple : label value genre lab_sexe affecte à la variable genre le label lab_sexe
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 9 sur 16
4.2.2 Changer le nom d’une variable
STATA permet de renommer une variable
Exemple : rename sexe genre
On peut aussi changer le nom de plusieurs variables en utilisant des parenthèses pour spécifier
les multiples variables anciennes et nouvelles variables. rename (v1 v2) (v2 v1) Echange le
nom de v1 pour v2 et v2 pour v1.
4.2.3 Changer le format d’une variable
Pour transformer une chaîne en variable numérique, on utilise la commande destring
variable, options. Parmi les options, gen(var) ou replace.
destring [varlist] , {generate(newvarlist)|replace} [destring_options]
Pour convertir des variables numériques en variables textes
tostring varlist , {generate(newvarlist)|replace} [tostring_options]
La première option crée une nouvelle variable, nommée var contenant la transformation
demandée, la seconde écrase au contraire la variable chaîne pour la remplacer par sa
transformation.
4.2.4 Recoder une variable
Encode permet de convertir une variable chaine en numérique en créant une autre variable
Exemple : encode SEXE, gen(GENRE)
On peut aussi recoder en regroupant les informations
Recode (2 3=4) (6 7=5, generate (zone 2) regroupe les modalités d’une variable numérique
avec un recodage permettant d’avoir un regroupement en 4 pour les modalités 2 et 3 et en 5
pour les modalités 6 et 7. L’option generate permet de créer une nouvelle variable recodée
renommée zone 2 ?
Pour recoder les valeurs manquantes de toutes les variables en 999, on utilise :
mvrecode_all, mv(999).
Par ailleurs, on peut utiliser replace pour regrouper des modalités
Replace zone=4 if zone==2 | zone== 3 permet de regrouper les modalités 2 et 3 en 4 de la
variable zone
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 10 sur 16
4.3 Traitement de données ou de variables
Lors du traitement des données, il arrive que l’on souhaite supprimer, garder ou restaurer des
données supprimées ; STATA permet de réaliser ces opérations à travers les commandes,
drop, keep, restore, ….
4.3.1 Supprimer une variable ou des observations
Pour supprimer une variable on utilise la commande drop
Exemple : drop salaire
drop x. Supprime la variable x.
drop _all. Supprime toutes les variables
drop in 5 supprime l’observation 5
drop in 10/50 supprime les observations 10 à 50
drop in 15/-2 supprime les observations de la ligne 15 jusqu’à l’avant dernière ligne
drop if sexe==1 supprime les observations pour lesquelles la variable sexe égal à 1
4.3.1.1 Garder des variables ou des observations
Keep qui est le pendant de drop ne garde que les observations désirées. Il s’utilise comme
drop.
Exemple Keep age
keep x. Conserve la variable x, supprime toutes les autres.
On peut utiliser cette commande par lot en utilisant by
Exemple: by sexe : keep if-n==1
On ne conservera qu’une observation (la première) pour chaque modalité de la variable sexe
4.3.1.2 Restaurer une variable
Il est utile parfois de restaurer une variable supprimée par erreur afin de garder une
information dans la base de données. Pour restaurer, il faut écrire restore
Exemple ; preserve drop var10 restore.
Attention ! Avant de supprimer il faut écrire d’abord preserve drop var et exécuter ensuite.
Cela permet d’effacer la ou les variables ciblées.
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 11 sur 16
4.3.1.3 Modification de variables existantes :
Pour remplacer des valeurs (ou manquants) par des valeurs d’une variable on utilise la
commande replace
Exemple : replace AGE = age
Exemple : replace AGE = 1 if AGE==20 & AGE!=.
4.3.2 Gestion des données manquantes :
Pour des variables numériques, les cellules vides seront considérées comme des infinis
positifs
Pour des variables en texte, les cellules vides sont considérées comme les valeurs les plus
faibles
Ainsi, si on trie par une variable ayant des valeurs manquantes, celles-ci seront donc triées en
début du fichier si cette variable est de nature texte, en fin de fichier si elle est de nature
numérique.
4.3.3 Décrire le fichier, en avoir un aperçu
Une fois saisies dans la base de données, on souhaite découvrir les données, les parcourir, les
explorer ou les décrire. Les commandes suivantes permettent de faciliter le travail.
4.3.3.1 Les commandes d’affichage
Edit
La commande Edit permet d’ouvrir la base de données STATA et de modifier les modalités
- edit + nom de la variable ou edit + condition : édition de la variable ou des individus
répondant aux critères de sélection.
Browse
Pour voir simplement les données, on peut utiliser la commande
browse: browse[varlist] [if exp] [in range]
Si on veut voir une partie des données selon une variable
browse if salaire==1500 montre les données selon que le salaire est égal à 1500
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 12 sur 16
4.3.3.2 Commandes descriptives
Il existe plusieurs manières d’examiner une base de données dans STATA en ayant un aperçu
rapide du contenu des variables, telles que :
inspect describe, list, codebook, count, list et summarize.
inspect
Cette commande renseigne sur le nombre de valeurs négatives, nulles, positives, uniques ou
manquantes des variables numériques et produit aussi un petit histogramme
codebook
Permet de décrire le contenu des variables
codebook [varlist] [if] [in] [, options]
Important car permet de voir l'existence de valeurs manquantes + les caractéristiques de la
variable
codebook * : donne des informations sur tout le fichier
count
permet d’obtenir quelques chiffres rapides
count [if] [in]
describe
La commande describe produit un résumé du contenu d’une base de données (nombre
d’observations et de variables, description des variables : nom, type, format, labels).
describe using filename (décrit une base de données STATA)
Il est possible aussi de décrire seulement une partie des variables d’une base de données, en
spécifiant describe varlist (décrit un groupe de variables)
Exemple 1 : describe var1-var10 (décrit toutes les variables entre var1 et var10)
Exemple 2 : describe var* (décrit toutes les variables dont le nom commence par var)
list
Pour afficher une liste d’observations affichant la valeur des variables, on pourra utiliser cette
commande list
Dans le cas où aucune variable n’est précisée (varlist) toutes les variables seront affichées
Exemple 1 : list age in 3 (liste la valeur de âge pour la 3e observation)
Exemple 2 : list age in 1/100 (liste la valeur de age pour les observations de 1 jusqu’à 100)
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 13 sur 16
5 TABLES, GRAPHIQUES ET STATISTIQUES AVEC STATA
5.1 Tableaux plats et tableaux croisés
-Tabulate ou Tab
La commande tabulate est très utilisée et produit des tableaux de fréquences simples ou
croisés.
Pour les tableaux simples, on a la commande tabulate var ;
Tab1 tab2 permet de créer des séries de tableaux de fréquences simples ou croisés en
spécifiant une liste de variables.
Exemple : Tab1 sexe age secteur
Une telle commande réalise trois tableaux successifs sur chacune des variables
Exemple : tab2 sexe age secteur
Cette commande crée toutes les combinaisons possibles de tableaux croisés (3 tableaux dans
notre exemple) entre les variables spécifiés dans la liste ?
Aussi, pour un tableau croisé il faut utiliser la commande : tabulate var1 var2.
NOTE : Par défaut, "tabulate var1 var2" donne les fréquences (nombre d’observations)
dans chaque cellule, mais il est possible et très pratique d’utiliser cette commande pour
obtenir des pourcentages, avec les options cell (% par cellule), col (% par colonne) ou row (%
par lignes). Pour n’avoir que des pourcentages, ajouter l’option nofreq
Aussi, la commande Tabulate sexe stage, row col : donne un tableau croisé avec des
pourcentages en lignes et en colonnes.
- Par ailleurs, la commande tabulate est adaptée à la description de variables dichotomiques
ou catégorielles, mais peut aussi être utilisée pour résumer des variables continues par
catégorie.
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 14 sur 16
Aussi, en ajoutant à "tabulate var1 [var2]" l’option summarize (var3), on obtient un tableau
croisé contenant la moyenne de la variable ‘var3’ dans chaque cellule, ainsi que son écart-type
et le nombre d’observations :
Exemple : tabulate var, summarize(var3)
On peut souhaiter faire ou ne pas faire apparaitre les données manquantes. Dans ce cas,
STATA suggère d’utiliser les commandes suivantes.
Tabulate sexe, nolabel : fournit un tableau simple sans le label afin de conserver le codage
Tabulate sexe, missing : donne un tableau simple mais en faisant apparaitre les valeurs
manquantes.
5.2 Statistiques descriptives et inférentielles
STATA est un logiciel qui permet certes d’organiser, de traiter et d’afficher les données, mais
c’est aussi, un outil pour calculer des statistiques descriptives et différentielles.
5.2.1 Statistiques descriptives
Pour commencer, on peut continuer avec la commande tabulate qui permet d’afficher
quelques statistiques usuelles.
Par exemple : tabulate sexe, sum (salaire) : fournit la moyenne et l’écart-type du salaire
selon le sexe
Pour n’avoir que les moyennes, ajouter les options nof (pas de fréquences) et nost (pas
d’écarts-type).
Mean et Means
On peut utiliser aussi les commandes mean et mean pour avoir la moyenne d’une variable.
Toutefois, mean ne donne que la moyenne arithmétique tandis que means estime les
moyennes géométriques, harmoniques, … ainsi que les intervalles de confiance respectifs.
Exemple 1: tabulate var1 var2, summarize(var3) nof nost
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 15 sur 16
summarize, tabstat et collapse
Par ailleurs, les commandes summarize, tabstat et collapse sont très utiles pour afficher des
statistiques.
summarize variable permet d’obtenir les statistiques descriptives usuelles. L’option
détail permet d’en avoir plus.
La commande tabstat variable permet de faire presque la même chose que summarize, mais
permet plus de flexibilité pour faire un tableau de statistiques.
collapse permet de créer une base de données contenant les statistiques descriptives
d’une autre.
Exemple : collapse (mean) age educ (median)revenu, by(pays) calcule les âges et niveaux
d’éducation nationaux moyens et les revenus nationaux médians et ne conserve que ces
moyennes dans la base de données.
5.2.2 Statistiques inférentielles
Corrélation
Pour effectuer une corrélation entre des variables quantitatives on appelle la commande
pwcorr
Exemple 1 : pwcorr variable1 variable2 donne la matrice de corrélations entre les variables.
Exemple 2 : pwcorr variable1 variable2 variable3 permet d’obtenir les coefficients de
corrélation partielle entre les variables prises deux à deux.
L’option sig permet d’obtenir le résultat du test de nullité du coefficient de corrélation.
En outre, corr variable1 variable2, cov permet d’obtenir la matrice des variance-covariances.
Tests sur la moyenne, la variance et la distribution des variables
ttest permet de comparer les moyennes de deux variables
Exemple 1 : ttest salaire, by(sexe), pour tester la significativité de la différence de salaire
entre hommes et femmes.
Exemple 2 : ttest salaire=1000 pour savoir si la moyenne des salaires est égale à 1 000 euros.
Exemple 3 : sdtest permet de comparer les variances de deux variables. sdtest salaire, by
sexe.
Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 16 sur 16
5.3 Les graphiques avec STATA
5.3.1 Les graphiques avec une seule variable
La création de graphiques avec Stata n’est pas toujours simple, en particulier lorsqu’on
souhaite que les graphiques soient « présentables »:
– Pour obtenir un graphique circulaire (un « camembert »),
graph pie salaire bonus
prime avantages_nature.
– Pour un diagramme en bâtons (ne pas le confondre avec un histogramme...) :
graph
bar salaire, over(sexe, descend gap(-20)) over(pays).
Pour des bâtons verticaux : graph hbar.
5.3.2 Les graphiques avec une deux variables
Pour tous les graphiques (X,Y), la commande débute par twoway suivi du type de graphique
X,Y souhaité. Parmi les principaux types :
– tw histogram variable, options génère un histogramme17
.
– tw scatter variable_ordonnee variable_abscisse, options permet d’obtenir un nuage de
points.
– tw line variable_ordonnee variable_abscisse, options permet d’obtenir
un graphique avec des points reliés par une ligne.
– tw area variable_ordonnee variable_abscisse, options crée un graphique
avec une ligne reliant les points (x,y) et une aire colorée entre la ligne et l’axe des abscisses.
17
L’option normal ajoute à l’histogramme une loi normale

Más contenido relacionado

La actualidad más candente

Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Khalid Benammi
 
L’Econométrie des Données de Panel
L’Econométrie des Données de PanelL’Econométrie des Données de Panel
L’Econométrie des Données de PanelCherif Allah
 
Trois Essais sur la Stabilité Financière dans la CEMAC
Trois Essais sur la Stabilité Financière dans la CEMAC Trois Essais sur la Stabilité Financière dans la CEMAC
Trois Essais sur la Stabilité Financière dans la CEMAC Université de Dschang
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulProfesseur Falloul
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesMohamed Heny SELMI
 
Business Intelligence system
Business Intelligence system Business Intelligence system
Business Intelligence system Basma Saad
 
Conception d’un balanced scorecard
Conception d’un balanced scorecard Conception d’un balanced scorecard
Conception d’un balanced scorecard Hassan Elalami
 
Project time series ppt
Project time series pptProject time series ppt
Project time series pptamar patil
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofpptkhawla atir
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
Concepts de Base Economie Industrielle
Concepts de Base Economie IndustrielleConcepts de Base Economie Industrielle
Concepts de Base Economie IndustrielleMansour Jribi
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcRémi Bachelet
 

La actualidad más candente (20)

COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
556ef78d93c3b
556ef78d93c3b556ef78d93c3b
556ef78d93c3b
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]
 
L’Econométrie des Données de Panel
L’Econométrie des Données de PanelL’Econométrie des Données de Panel
L’Econométrie des Données de Panel
 
Trois Essais sur la Stabilité Financière dans la CEMAC
Trois Essais sur la Stabilité Financière dans la CEMAC Trois Essais sur la Stabilité Financière dans la CEMAC
Trois Essais sur la Stabilité Financière dans la CEMAC
 
Cours Statistique descriptive pr Falloul
Cours Statistique descriptive pr FalloulCours Statistique descriptive pr Falloul
Cours Statistique descriptive pr Falloul
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Serie td economie_revenus_2016_10_04_15_51_54_624
Serie td economie_revenus_2016_10_04_15_51_54_624Serie td economie_revenus_2016_10_04_15_51_54_624
Serie td economie_revenus_2016_10_04_15_51_54_624
 
Business Intelligence system
Business Intelligence system Business Intelligence system
Business Intelligence system
 
Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
Conception d’un balanced scorecard
Conception d’un balanced scorecard Conception d’un balanced scorecard
Conception d’un balanced scorecard
 
Project time series ppt
Project time series pptProject time series ppt
Project time series ppt
 
Statistiques ofppt
Statistiques ofpptStatistiques ofppt
Statistiques ofppt
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Concepts de Base Economie Industrielle
Concepts de Base Economie IndustrielleConcepts de Base Economie Industrielle
Concepts de Base Economie Industrielle
 
Statistique Descriptive s1
Statistique Descriptive s1Statistique Descriptive s1
Statistique Descriptive s1
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
1 er pas epi info 7
1 er  pas epi info 71 er  pas epi info 7
1 er pas epi info 7
 

Similar a Mamadou Aguibou DIALLO - STATA

Cours doumi spss 2013 2014
Cours doumi spss 2013 2014Cours doumi spss 2013 2014
Cours doumi spss 2013 2014tsuhel
 
cours-gratuit.com--system1id048.pdf
cours-gratuit.com--system1id048.pdfcours-gratuit.com--system1id048.pdf
cours-gratuit.com--system1id048.pdfKamalZeghdar
 
Généralités sur la notion d’Algorithme
Généralités sur la notion d’AlgorithmeGénéralités sur la notion d’Algorithme
Généralités sur la notion d’AlgorithmeInforMatica34
 
JBoss clustering et tuning (lab 3/3)
JBoss clustering et tuning (lab 3/3)JBoss clustering et tuning (lab 3/3)
JBoss clustering et tuning (lab 3/3)Fourat Zouari
 
Guide scilab
Guide scilabGuide scilab
Guide scilabzan
 
DataDrill EXPRESS: Les équations dans DataDrill
DataDrill EXPRESS: Les équations dans DataDrill DataDrill EXPRESS: Les équations dans DataDrill
DataDrill EXPRESS: Les équations dans DataDrill Olivier Pinette
 
Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Lénaïc CAPELLE
 
Guide sap normes de developpement abap
Guide sap normes de developpement abapGuide sap normes de developpement abap
Guide sap normes de developpement abapMICKAEL QUESNOT
 
Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)Adrien Barbaresi
 
ch3_les variables_dynamiques.pdf
ch3_les variables_dynamiques.pdfch3_les variables_dynamiques.pdf
ch3_les variables_dynamiques.pdfFadouaBouafifSamoud
 
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...Hamidou Leyo Idriss
 
19613 sas macros
19613 sas macros19613 sas macros
19613 sas macrosmckoil
 
Java 5, un blian
Java 5, un blianJava 5, un blian
Java 5, un bliantareq
 
Java 5, un bilan
Java 5,  un bilanJava 5,  un bilan
Java 5, un bilanteejug
 

Similar a Mamadou Aguibou DIALLO - STATA (20)

Cours doumi spss 2013 2014
Cours doumi spss 2013 2014Cours doumi spss 2013 2014
Cours doumi spss 2013 2014
 
Tp1 matlab
Tp1 matlab Tp1 matlab
Tp1 matlab
 
cours-gratuit.com--system1id048.pdf
cours-gratuit.com--system1id048.pdfcours-gratuit.com--system1id048.pdf
cours-gratuit.com--system1id048.pdf
 
Saspdf
SaspdfSaspdf
Saspdf
 
Généralités sur la notion d’Algorithme
Généralités sur la notion d’AlgorithmeGénéralités sur la notion d’Algorithme
Généralités sur la notion d’Algorithme
 
JBoss clustering et tuning (lab 3/3)
JBoss clustering et tuning (lab 3/3)JBoss clustering et tuning (lab 3/3)
JBoss clustering et tuning (lab 3/3)
 
Guide scilab
Guide scilabGuide scilab
Guide scilab
 
DataDrill EXPRESS: Les équations dans DataDrill
DataDrill EXPRESS: Les équations dans DataDrill DataDrill EXPRESS: Les équations dans DataDrill
DataDrill EXPRESS: Les équations dans DataDrill
 
Drools et les moteurs de règles
Drools et les moteurs de règlesDrools et les moteurs de règles
Drools et les moteurs de règles
 
Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831
 
Guide sap normes de developpement abap
Guide sap normes de developpement abapGuide sap normes de developpement abap
Guide sap normes de developpement abap
 
Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)Cours d’approfondissement de LaTeX (intermédiaire-avancé)
Cours d’approfondissement de LaTeX (intermédiaire-avancé)
 
Linux Administrateur
Linux AdministrateurLinux Administrateur
Linux Administrateur
 
Memo stad professionnel
Memo stad professionnelMemo stad professionnel
Memo stad professionnel
 
ch3_les variables_dynamiques.pdf
ch3_les variables_dynamiques.pdfch3_les variables_dynamiques.pdf
ch3_les variables_dynamiques.pdf
 
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...
 
19613 sas macros
19613 sas macros19613 sas macros
19613 sas macros
 
oracle : le PL-SQL
oracle : le PL-SQLoracle : le PL-SQL
oracle : le PL-SQL
 
Java 5, un blian
Java 5, un blianJava 5, un blian
Java 5, un blian
 
Java 5, un bilan
Java 5,  un bilanJava 5,  un bilan
Java 5, un bilan
 

Último

To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 

Último (6)

To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 

Mamadou Aguibou DIALLO - STATA

  • 1. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 1 sur 16 SUPPORT DE FORMATION POUR STATA (version 13) 1 INTRODUCTION AU LOGICIEL STATA Stata est un logiciel de traitement et d’analyse statistique et économétrique, développé par Stata Corporation. Il fonctionne globalement avec des lignes de commande (le langage « ado- file ») saisies (différent de SPSS, pareil que SAS). Le recours aux lignes de commande a des avantages. -On peut facilement reproduire l’affichage des résultats ou le traitement des données en suivant la procédure de commande (notamment dans le do file).Or avec un logiciel à interface, il n'y a pas de trace de quels clics ont été faits. -le logiciel s'enrichit en permanence. Il est possible de créer une commande en utilisant plusieurs autres sur internet https://www.stata.com/ . Or, les interfaces sont figées et ne changent qu'à la parution de nouvelles versions. -Enfin il couvre la quasi-totalité des domaines des statistiques et de l'économétrie abordés dans différentes sciences comme l'économie, la santé, l'épidémiologie. Dans ce document, nous allons apprendre à utiliser des commandes STATA pour : Créer une base de données avec des variables, Traiter et gérer des variables Afficher les résultats sous format graphique ou tabulaire Procéder à des tests statistiques 1.1 Fichiers et répertoires Le logiciel STATA utilise plusieurs types de fichiers nommés d’après leurs extensions (.dta .do .ado .gph) : -Fichier .dta : ce sont des fichiers de données au format Stata. -Fichier .do : fichiers de commandes, au format texte. Ils permettent à l’utilisateur de lancer plusieurs commandes Stata en une seule opération et de garder une trace des commandes -Fichier .ado : fichier de programmes, définissant une ou plusieurs commandes. Ces fichiers sont au format texte ; -Fichier.gph enregistré en format Stata contient les graphiques.
  • 2. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 2 sur 16 1.2 Présentation de l'interface Stata Le logiciel STATA se présente sous la forme de 4 fenêtres. - La fenêtre Command où vous tapez les commandes STATA, - La fenêtre Results où les résultats STATA sont présentés, - La fenêtre Review où les commandes précédentes sont présentées, - La fenêtre Variables qui liste toutes les variables présentes dans la base de données en cours d’utilisation1 . 1.3 L'éditeur de Do-Files L'éditeur de dofile est un fichier assimilable à un brouillon sur lequel on lance et manipule les commandes. Il est souvent recommandé quand on veut pouvoir reproduire son analyse autant de fois qu'on le souhaite Il permet entre autres, de : -Editer et de copier-coller les commandes. -Ajouter des annotations en fin de ligne comme des commentaires2 en faisant précéder la ligne de "*" ou en terminant une commande par " //" - Créer des macros - Générer des variables qui ne vont exister que le temps du programme 1.4 Le Data Editor Le data editor permet d'afficher le contenu d'un fichier de données et de le modifier directement à l'écran (non recommandé). Il permet aussi de copier-coller les données provenant d'un tableur Excel par exemple. Le data editor peut soit être appelé par la commande edit, soit appelé en cliquant sur son icone3 . 1 Attention ! STATA ne peut ouvrir qu’une seule base de données en même temps 2 Un commentaire est simplement affiché dans la fenêtre de résultats, sans que Stata cherche à l'exécuter. 3 En haut à droite se trouvent la liste des variables présentes dans le fichier. On coche/décoche les variables que l'on souhaite (ou non) avoir à l'écran. Au milieu à droite se trouve un éditeur des propriétés des variables. On peut modifier ici directement le label de variable, son type, son format d'affichage, ses étiquettes de valeurs.
  • 3. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 3 sur 16 2 LA SYNTAXE DE BASE DES COMMANDES ET LES OPERATEURS STATA De façon générale, toutes les commandes Stata4 sont appelées selon une syntaxe uniforme. Une fois que l’on connaît la forme générale, on sait alors comment appeler toute commande. 2.1 Organisation générale de la syntaxe 5 La forme générale de la syntaxe dans STATA est la suivante6 : command [varlist] [if expr] [in range] [weight] [, options] command est le nom (ou l’abréviation) d’un programme Stata conçu pour remplir une tâche spécifique varlist est une liste de nom de variables (ou de leurs abréviations) séparés par des espaces ; if exp restreint l’exécution de la commande aux observations satisfaisant aux conditions énoncées in range restreint l’exécution de la commande aux observations contenues dans une plage spécifique options modifient les paramètres par défaut d’une commande et sont habituellement propres à chaque commande. 2.2 Quelques éléments de langage : les opérateurs et les expressions Les opérateurs et les expressions sont fondamentales lors de l’affichage des variables, des résultats mais aussi au moment du traitement des données. 2.2.1 Les opérateurs sous STATA Les opérateurs permettent de retrouver des informations ayant certaines caractéristiques et de créer ainsi des sous bases de données à partir de la base de données générale. Ils permettent aussi de procéder à des résultats sous conditions. On distingue souvent les opérateurs de relation, les opérations logiques et les opérations arithmétiques7 . 4 NOTE : La syntaxe Stata est économe : toute commande peut être autant abrégée que possible, i.e.que cela ne crée aucune ambiguïté. Ainsi, summarize peut s’abréger indifféremment en summari, sum ou su. On ne peut pas l’abréger en s, car il y aurait alors confusion possible avec une autre commande, sort. 5 Les arguments encadrés par des crochets sont facultatifs et ne sont pas utilisés avec toutes les commandes. Plus précisément : 6 Par convention, la paire de crochets [ ] dénote le caractère optionnel de la commande qu’elle comporte. Les mots clefs sont en gras. Dans la ligne de syntaxe, à part la commande command qui est obligatoire, tout le reste est optionnel. 7 L’ordre de préséance des opérateurs est comme suit : !, ^, -(négation), /,*,-,+,!=,>,<,<=,>= ,==, & et |. Pour des opérateurs de préséance égale, l’expression est évaluée de gauche à droite
  • 4. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 4 sur 16 Arithmetic Logical Relational + Addition & And > Greater Than - Subtraction | Or < Less Than * Multiplication ! Not >= Greater Than or Equal / Division ~ Not <= Less Than or Equal ^ Power == Equal - Negation != Not Equal + String Concatenation ~= Not Equal 2.2.2 Les expressions sous STATA : les fondamentales : by, if et in By, if et in sont des trois expressions très sollicitées en analyse de données avec STATA. Elles peuvent s’utiliser avec la majorité des commandes et on peut les combiner les unes avec les autres.  by permet d’appliquer une commande à chaque valeur (ou modalité) d’une variable. La syntaxe de cette expression est8 : by variable : commande variable. On peut utiliser sort avant le by, ou pour classer et effectuer le by en même temps, bysort. Exemple : bysort Genre : summarize salaire Cette commande permet d’obtenir le salaire moyen des femmes et des hommes.  if permet de n’appliquer la commande qu’aux observations remplissant une condition. La Syntaxe : commande variable if condition. Exemple 1: summarize salaire if (Age ==18) Exemple 2: summarize salaire if Age==18 | Age>20 & Age<=25 Cet exemple de commande donne les statistiques descriptives de la variable salaire pour les observations dont la variable âge est égale à 18 (remarquer le double signe =, il s’agit d’un test) ou comprise entre 20 (exclu) et 50 (inclus)9 .  in permet de n’appliquer la commande qu’aux observations se situant dans un intervalle donné. La syntaxe est la suivante : commande variable in condition. Exemple : summarize salaire in 10/14 donne les statistiques descriptives de la variable salaire pour les observations de la 10ème à la 14ème ligne de la base de données. 8 Après by il faut utiliser deux points avant de préciser la commande 9 L’opérateur & est prioritaire, les parenthèses sont inutiles ici.
  • 5. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 5 sur 16 3 LECTURE DES DONNEES ET CREATION DE FICHIERS 3.1 Lire un fichier de données Pour lire un fichier on peut utiliser la commande use. En effet use permet d’ouvrir une table au format STATA. -soit la table entière. Exemple 1 : use auto.dta clear10 -soit quelques variables de cette table. Exemple 2: use sexe age using auto.dta -soit quelques observations de cette table: Exemple 3 : use auto.dta if Genre== “homme” clear -soit la combinaison des deux: Exemple 4: use sexe age using auto.dta if sexe== “homme” 3.2 Création d’un fichier de données Stata11 Pour entrer des données dans Stata, il existe plusieurs moyens, à utiliser en fonction de la nature des données : – Si il n’y a que quelques données à rentrer, on peut utiliser la commande input : input str20 ville age str6 sexe taille ancienneté salaire "Brest" 17 homme 160 10 1500 "Dakar" 17 femme 175 15 "Ziguinchor" 20 homme 180 20 1500 end On peut également saisir directement les données dans le Data Editor (edit), comme on ferait avec Excel. – Si l’utilisateur dispose déjà d’une base de données au format Stata (.dta), nommée par exemple base.dta, use base.dta on procède à l’ouverture de cette base 10 L’option clear permet de vider les données en mémoire avant l’ouverture d’un nouveau fichier 11 Stata ne peut gérer qu’une seule base de données à la fois. Avant d’en ouvrir une, il convient donc de fermer celle qui est actuellement utilisée (clear).
  • 6. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 6 sur 16 3.3 Importation d’un fichier de données externes Stata peut lire les fichiers externes Excel12 , ASCII délimités, créés par un tableur ou un gestionnaire de base de données (séparateur de variables différent de l'espace)13 . Menu File   , cliquer sur "Browse" et sélectionner le fichier qui se trouve dans votre répertoire de travail. Ne pas oublier de cocher si votre fichier de données contient les entêtes de colonnes. La 1ère ligne du fichier doit contenir les noms de variables. Si ce n'est pas le cas, il faut rajouter l'option "noname" lors de l'importation. 3.4 Copier-coller des données depuis Excel Si vous travaillez sur de petits fichiers, il est possible de copier-coller les données directement depuis Excel14 . 3.5 Exportation et sauvegarde des données Plusieurs formats de sauvegarde des données sont possibles. On peut tout simplement sauver des données dans le format de Stata (save mabase.dta), pour utilisation future. On peut également exporter des données pour les utiliser ensuite avec un tableur ou un autre logiciel, grâce à l’onglet file….export….data to xls ….on laisse la case de variables vide… on donne un nom au fichier à exporter… submit…ok 12 Attention ; Stata ne reconnait pas les virgules. Donc pour les nombreux décimaux changer la virgule par un point avant d’importer le fichier. Les données manquantes sont des cases vides a faire sur Excel 13 Des données propres sont des données organisées avec une ligne par observation, les variables en colonne, les chaînes de caractères identifiées par des guillemets et les séparateurs tous identiques (virgule ou tabulation. Pas d’espace !). 14 Ouvrez sous Excel le fichier Sélectionner les colonnes et copier leur contenu (avec les entêtes de colonnes). Sous stata, tapez clear pour fermer votre fichier de données (si vous en aviez un d'affiché à l'écran).Cliquez sur le bouton "Data editor". Coller. Fermer le data éditor. Enregistrez le fichier
  • 7. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 7 sur 16 4 Création et gestion d’une base de données sous STATA Les variables sous Stata peuvent être numériques ou alphanumériques. Les variables numériques peuvent être de différents types selon la précision nécessaire. Les variables alphanumériques sont des chaînes de caractères quelconques (string, str), d’une longueur maximale de 244 caractères15 . Les variables peuvent prendre plusieurs noms selon leurs caractéristiques : byte ; int ;long ; float ; double ; str. 4.1 Créer des variables et des modalités Pour créer de nouvelles variables, deux commandes existent : generate et egenerate generate permet de créer des variables qui nécessitent des calculs « simples » egenerate (extended generate) s’impose lorsque les calculs se complexifient un peu ou que l’utilisation de fonctions statistiques spécifiques est nécessaire. Exemples d’utilisation de generate : La syntaxe générale de cette commande est : generate [type] newvar = expr [if expr] [in range  gen x = 12. Crée une constante nommée x, qui vaut 12.  gen var=. Crée une variable avec des cases vides16 :  gen x = "Bonsoir". x est une chaîne de caractères, égale à « Bonjour » pour toutes les observations.  gen x = (sexe=="Homme"). x est égale à 1 si la variable sexe contient la chaîne de caractère « Homme », zéro sinon.  gen x = salaire[4]. x est une constante, égale au contenu de la 4ème observation pour la variable salaire.  generate var3=var1+var2 pour créer une variable combinant l’addition de deux variables 15 Stata gère les noms longs, mais pour des raisons pratiques ou de compatibilité avec d’autres logiciels, ll faut privilégier les noms courts pour variables. De plus le logiciel fait une différence entre un nom en majuscule et en minuscule qu’il considère comme deux noms distincts/ 16 Pour remplir les cases vides on peut utiliser des commandes replace avec les conditions
  • 8. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 8 sur 16  generate var4=5*var1 pour une variable qui est la multiplication de deux variables  generate double price2 = price * price  generate taille= recode (nb,0,5 ;10 ;15) regroupe le nombre de salariés nb en 4 classes : 0 ;entre 1 et 5 inclus ; entre 6 et 10 inclus ; et 11 et plus. La variable taille ainsi crééeaura les modalités 0, 5 et 15.  Egen taillegr=cut (taille),groupe (5)decoupela variable taille en 5 groupes homogenes de point de vue des frequences.  Egen taillegr=cut (taille) at (5,10,15) crée deux groupes à partir de la variabletaille, l’un codé 5(de 5 à moins de 9), et l’autre 10 (de 10 à moins de 15). 4.2 Gestion et manipulations des variables 4.2.1 Les labels sous STATA : label var, label define, label value Stata affiche les données selon leur nature Les variables numériques s'affichent en noir, Les variables numériques avec label sur les valeurs s'affichent en bleu, Les variables de nature texte s'affichent en rouge. La commande Label var + variable permet d’affecter un label à une variable Exemple label var var6 poids Label define Label définie permet de définir un label pour les modalités d’une variable Exemple : label define oui non 1 ‘’oui’’ 0 ‘’non’’ définit le codage ouinon Label define lab_sexe 1 ‘’Homme’’ 2 ‘’ Femme’’ définit le codage sexe Label value La commande label value permet d’affecter le préalablement défini à la variable désirée Exemple : label value genre lab_sexe affecte à la variable genre le label lab_sexe
  • 9. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 9 sur 16 4.2.2 Changer le nom d’une variable STATA permet de renommer une variable Exemple : rename sexe genre On peut aussi changer le nom de plusieurs variables en utilisant des parenthèses pour spécifier les multiples variables anciennes et nouvelles variables. rename (v1 v2) (v2 v1) Echange le nom de v1 pour v2 et v2 pour v1. 4.2.3 Changer le format d’une variable Pour transformer une chaîne en variable numérique, on utilise la commande destring variable, options. Parmi les options, gen(var) ou replace. destring [varlist] , {generate(newvarlist)|replace} [destring_options] Pour convertir des variables numériques en variables textes tostring varlist , {generate(newvarlist)|replace} [tostring_options] La première option crée une nouvelle variable, nommée var contenant la transformation demandée, la seconde écrase au contraire la variable chaîne pour la remplacer par sa transformation. 4.2.4 Recoder une variable Encode permet de convertir une variable chaine en numérique en créant une autre variable Exemple : encode SEXE, gen(GENRE) On peut aussi recoder en regroupant les informations Recode (2 3=4) (6 7=5, generate (zone 2) regroupe les modalités d’une variable numérique avec un recodage permettant d’avoir un regroupement en 4 pour les modalités 2 et 3 et en 5 pour les modalités 6 et 7. L’option generate permet de créer une nouvelle variable recodée renommée zone 2 ? Pour recoder les valeurs manquantes de toutes les variables en 999, on utilise : mvrecode_all, mv(999). Par ailleurs, on peut utiliser replace pour regrouper des modalités Replace zone=4 if zone==2 | zone== 3 permet de regrouper les modalités 2 et 3 en 4 de la variable zone
  • 10. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 10 sur 16 4.3 Traitement de données ou de variables Lors du traitement des données, il arrive que l’on souhaite supprimer, garder ou restaurer des données supprimées ; STATA permet de réaliser ces opérations à travers les commandes, drop, keep, restore, …. 4.3.1 Supprimer une variable ou des observations Pour supprimer une variable on utilise la commande drop Exemple : drop salaire drop x. Supprime la variable x. drop _all. Supprime toutes les variables drop in 5 supprime l’observation 5 drop in 10/50 supprime les observations 10 à 50 drop in 15/-2 supprime les observations de la ligne 15 jusqu’à l’avant dernière ligne drop if sexe==1 supprime les observations pour lesquelles la variable sexe égal à 1 4.3.1.1 Garder des variables ou des observations Keep qui est le pendant de drop ne garde que les observations désirées. Il s’utilise comme drop. Exemple Keep age keep x. Conserve la variable x, supprime toutes les autres. On peut utiliser cette commande par lot en utilisant by Exemple: by sexe : keep if-n==1 On ne conservera qu’une observation (la première) pour chaque modalité de la variable sexe 4.3.1.2 Restaurer une variable Il est utile parfois de restaurer une variable supprimée par erreur afin de garder une information dans la base de données. Pour restaurer, il faut écrire restore Exemple ; preserve drop var10 restore. Attention ! Avant de supprimer il faut écrire d’abord preserve drop var et exécuter ensuite. Cela permet d’effacer la ou les variables ciblées.
  • 11. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 11 sur 16 4.3.1.3 Modification de variables existantes : Pour remplacer des valeurs (ou manquants) par des valeurs d’une variable on utilise la commande replace Exemple : replace AGE = age Exemple : replace AGE = 1 if AGE==20 & AGE!=. 4.3.2 Gestion des données manquantes : Pour des variables numériques, les cellules vides seront considérées comme des infinis positifs Pour des variables en texte, les cellules vides sont considérées comme les valeurs les plus faibles Ainsi, si on trie par une variable ayant des valeurs manquantes, celles-ci seront donc triées en début du fichier si cette variable est de nature texte, en fin de fichier si elle est de nature numérique. 4.3.3 Décrire le fichier, en avoir un aperçu Une fois saisies dans la base de données, on souhaite découvrir les données, les parcourir, les explorer ou les décrire. Les commandes suivantes permettent de faciliter le travail. 4.3.3.1 Les commandes d’affichage Edit La commande Edit permet d’ouvrir la base de données STATA et de modifier les modalités - edit + nom de la variable ou edit + condition : édition de la variable ou des individus répondant aux critères de sélection. Browse Pour voir simplement les données, on peut utiliser la commande browse: browse[varlist] [if exp] [in range] Si on veut voir une partie des données selon une variable browse if salaire==1500 montre les données selon que le salaire est égal à 1500
  • 12. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 12 sur 16 4.3.3.2 Commandes descriptives Il existe plusieurs manières d’examiner une base de données dans STATA en ayant un aperçu rapide du contenu des variables, telles que : inspect describe, list, codebook, count, list et summarize. inspect Cette commande renseigne sur le nombre de valeurs négatives, nulles, positives, uniques ou manquantes des variables numériques et produit aussi un petit histogramme codebook Permet de décrire le contenu des variables codebook [varlist] [if] [in] [, options] Important car permet de voir l'existence de valeurs manquantes + les caractéristiques de la variable codebook * : donne des informations sur tout le fichier count permet d’obtenir quelques chiffres rapides count [if] [in] describe La commande describe produit un résumé du contenu d’une base de données (nombre d’observations et de variables, description des variables : nom, type, format, labels). describe using filename (décrit une base de données STATA) Il est possible aussi de décrire seulement une partie des variables d’une base de données, en spécifiant describe varlist (décrit un groupe de variables) Exemple 1 : describe var1-var10 (décrit toutes les variables entre var1 et var10) Exemple 2 : describe var* (décrit toutes les variables dont le nom commence par var) list Pour afficher une liste d’observations affichant la valeur des variables, on pourra utiliser cette commande list Dans le cas où aucune variable n’est précisée (varlist) toutes les variables seront affichées Exemple 1 : list age in 3 (liste la valeur de âge pour la 3e observation) Exemple 2 : list age in 1/100 (liste la valeur de age pour les observations de 1 jusqu’à 100)
  • 13. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 13 sur 16 5 TABLES, GRAPHIQUES ET STATISTIQUES AVEC STATA 5.1 Tableaux plats et tableaux croisés -Tabulate ou Tab La commande tabulate est très utilisée et produit des tableaux de fréquences simples ou croisés. Pour les tableaux simples, on a la commande tabulate var ; Tab1 tab2 permet de créer des séries de tableaux de fréquences simples ou croisés en spécifiant une liste de variables. Exemple : Tab1 sexe age secteur Une telle commande réalise trois tableaux successifs sur chacune des variables Exemple : tab2 sexe age secteur Cette commande crée toutes les combinaisons possibles de tableaux croisés (3 tableaux dans notre exemple) entre les variables spécifiés dans la liste ? Aussi, pour un tableau croisé il faut utiliser la commande : tabulate var1 var2. NOTE : Par défaut, "tabulate var1 var2" donne les fréquences (nombre d’observations) dans chaque cellule, mais il est possible et très pratique d’utiliser cette commande pour obtenir des pourcentages, avec les options cell (% par cellule), col (% par colonne) ou row (% par lignes). Pour n’avoir que des pourcentages, ajouter l’option nofreq Aussi, la commande Tabulate sexe stage, row col : donne un tableau croisé avec des pourcentages en lignes et en colonnes. - Par ailleurs, la commande tabulate est adaptée à la description de variables dichotomiques ou catégorielles, mais peut aussi être utilisée pour résumer des variables continues par catégorie.
  • 14. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 14 sur 16 Aussi, en ajoutant à "tabulate var1 [var2]" l’option summarize (var3), on obtient un tableau croisé contenant la moyenne de la variable ‘var3’ dans chaque cellule, ainsi que son écart-type et le nombre d’observations : Exemple : tabulate var, summarize(var3) On peut souhaiter faire ou ne pas faire apparaitre les données manquantes. Dans ce cas, STATA suggère d’utiliser les commandes suivantes. Tabulate sexe, nolabel : fournit un tableau simple sans le label afin de conserver le codage Tabulate sexe, missing : donne un tableau simple mais en faisant apparaitre les valeurs manquantes. 5.2 Statistiques descriptives et inférentielles STATA est un logiciel qui permet certes d’organiser, de traiter et d’afficher les données, mais c’est aussi, un outil pour calculer des statistiques descriptives et différentielles. 5.2.1 Statistiques descriptives Pour commencer, on peut continuer avec la commande tabulate qui permet d’afficher quelques statistiques usuelles. Par exemple : tabulate sexe, sum (salaire) : fournit la moyenne et l’écart-type du salaire selon le sexe Pour n’avoir que les moyennes, ajouter les options nof (pas de fréquences) et nost (pas d’écarts-type). Mean et Means On peut utiliser aussi les commandes mean et mean pour avoir la moyenne d’une variable. Toutefois, mean ne donne que la moyenne arithmétique tandis que means estime les moyennes géométriques, harmoniques, … ainsi que les intervalles de confiance respectifs. Exemple 1: tabulate var1 var2, summarize(var3) nof nost
  • 15. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 15 sur 16 summarize, tabstat et collapse Par ailleurs, les commandes summarize, tabstat et collapse sont très utiles pour afficher des statistiques. summarize variable permet d’obtenir les statistiques descriptives usuelles. L’option détail permet d’en avoir plus. La commande tabstat variable permet de faire presque la même chose que summarize, mais permet plus de flexibilité pour faire un tableau de statistiques. collapse permet de créer une base de données contenant les statistiques descriptives d’une autre. Exemple : collapse (mean) age educ (median)revenu, by(pays) calcule les âges et niveaux d’éducation nationaux moyens et les revenus nationaux médians et ne conserve que ces moyennes dans la base de données. 5.2.2 Statistiques inférentielles Corrélation Pour effectuer une corrélation entre des variables quantitatives on appelle la commande pwcorr Exemple 1 : pwcorr variable1 variable2 donne la matrice de corrélations entre les variables. Exemple 2 : pwcorr variable1 variable2 variable3 permet d’obtenir les coefficients de corrélation partielle entre les variables prises deux à deux. L’option sig permet d’obtenir le résultat du test de nullité du coefficient de corrélation. En outre, corr variable1 variable2, cov permet d’obtenir la matrice des variance-covariances. Tests sur la moyenne, la variance et la distribution des variables ttest permet de comparer les moyennes de deux variables Exemple 1 : ttest salaire, by(sexe), pour tester la significativité de la différence de salaire entre hommes et femmes. Exemple 2 : ttest salaire=1000 pour savoir si la moyenne des salaires est égale à 1 000 euros. Exemple 3 : sdtest permet de comparer les variances de deux variables. sdtest salaire, by sexe.
  • 16. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 16 sur 16 5.3 Les graphiques avec STATA 5.3.1 Les graphiques avec une seule variable La création de graphiques avec Stata n’est pas toujours simple, en particulier lorsqu’on souhaite que les graphiques soient « présentables »: – Pour obtenir un graphique circulaire (un « camembert »), graph pie salaire bonus prime avantages_nature. – Pour un diagramme en bâtons (ne pas le confondre avec un histogramme...) : graph bar salaire, over(sexe, descend gap(-20)) over(pays). Pour des bâtons verticaux : graph hbar. 5.3.2 Les graphiques avec une deux variables Pour tous les graphiques (X,Y), la commande débute par twoway suivi du type de graphique X,Y souhaité. Parmi les principaux types : – tw histogram variable, options génère un histogramme17 . – tw scatter variable_ordonnee variable_abscisse, options permet d’obtenir un nuage de points. – tw line variable_ordonnee variable_abscisse, options permet d’obtenir un graphique avec des points reliés par une ligne. – tw area variable_ordonnee variable_abscisse, options crée un graphique avec une ligne reliant les points (x,y) et une aire colorée entre la ligne et l’axe des abscisses. 17 L’option normal ajoute à l’histogramme une loi normale