2. Organización de la parte práctica del curso
Introducción a Stata
• Interface
• Datos
• Comandos
• Gráficos
• Do-file
Lic. David A. Condori Tantani
3. Página web del curso:
http://faculty.udesa.edu.ar/WalterSosa/Econometria/
Trabajos Prácticos:
• Reglas:
grupos de 3 personas (máximo)
Entrega: impresa (en casillero) y por correo electrónico, en PDF. Esperar acuse de recibo.
Monografía. Entrega: con el final.
Metodología clases prácticas:
• Introducción a Stata
• Desarrollo de ejemplos econométricos
• Desarrollo de ejercicios teóricos y empíricos
• Espacio de consulta para la realización de los trabajos prácticos y la monografía.
Lic. David A. Condori Tantani
4. Stata es un sistema que permite la gestión de
base de datos y la realización de cálculos
estadísticos y econométricos.
Fuentes de información:
• Hamilton, L., 2012, Statistics with Stata: Version 12,
Duxbury Press, New York.
• Baum., C., 2006, An Introduction to Modern
Econometrics with Stata, Stata Press.
Ambos libros están en reserva en la biblioteca.
• www.stata.com
Lic. David A. Condori Tantani
5. La interface de Stata comprende el entorno
de trabajo.
Las diferentes ventanas que conforman la
interface son:
• Ventana “Review”: historial de comandos.
• Ventana “Variables”: expone las variables que
comprenden el dataset actualmente en memoria.
• Ventana “Stata Results”: es la ventana más grande
color negro. Muestra los resultados obtenidos de la
aplicación de los comandos.
• Ventana “Stata comand”: en esta ventana el usuario
introduce comandosmediante el teclado.
Lic. David A. Condori Tantani
6. Estructura: tabla, en donde cada columna representa a una variable y
cada fila a una observación.
En cada celda se pueden guardar datos de diferentes tipos.
El tipo de dato es el mismo para las observaciones de una misma
variable
A partir de ahora, utilizaremos una base de datos extraída de la EPH,
correspondiente al tercer trimestre de 2011 para ejemplificar.
Observación Variable 1 Variable 2 … Variable
K
1 Dato 1, 1 Dato 2, 1 … Dato K, 1
2 Dato 1, 2 Dato 2, 2 … Dato K, 2
… … … … …
N Dato 1, N Dato 2, N … Dato K, N
Lic. David A. Condori Tantani
7. Establecer un directorio:
• cd "C:UsersDEDropboxeconometría 2015x - Tutorial 1”
• Archivo -> Change Working Directory…
Lectura de Datos en Stata: distintas opciones
• Base de datos en formato Stata (.dta): podemos abrirlo
directamente en Stata.
use eph_2011_t3.dta.
• Base de datos en excel: tenemos un archivo excel con
datos, llamado eph_2011_t3.xls. Cada columna
representa una variable; la primera fila contiene los
nombres de dichas variables.
Dos métodos:
Lic. David A. Condori Tantani
8. Método 1 (Copy & Paste):
• Abrir el archivo “eph_2011_t3.xls” en Excel
• Abrir Stata.
• En Excel, pintar todo el rango de datos que se desea llevar a
Stata (incluyendo los nombres de las variables].
• Clickear Edicion/Copiar.
• Pasar a Stata, abrir el editor de Stata clickeando en el botón
Editor.
• En esta ventana, clickear Edit/Paste,
• Los nombres de las variables aparecerán en la ventana
Variables.
• Nota: Este método puede tener problemas si no se dispone de
suficiente memoria RAM, por lo que es útil chequear si todos los
datos han sido importado correctamente.
• Nota II: Stata requiere criterios particulares para los nombres de
las variables.
Lic. David A. Condori Tantani
9. Método 2 (Insheet)
• Grabar el archivo conteniendo los datos en Excel como CSV (separa las
columnas en comas].
• Ir a Archivo, Guardar como, CSV (delimitado por comas], Guardar
• Ahora tenemos el archivo eph_2011_t3.csv
• El archivo está en la siguiente ruta:
c: UsersDEDropboxeconometría 2015 x – Tutorial 1 eph_2011_t3.csv
• Para leer los datos desde Stata, ingresar el siguiente comando:
insheet using "c:UsersDEDropboxEconometría 2015x - Tutorial
1eph_2011_t3.csv", comma
• Stata creará una nueva base de datos, y los nombres de las variables
aparecerán en la ventana “Variables”.
Lic. David A. Condori Tantani
10. Una vez que la base de datos ha sido abierta
en Stata, puede grabarse en formato Stata:
• Archivo -> Guardar Como -> eph_2011_t3.dta
Una vez grabada con la extensión .dta puede
abrirse directamente desde Stata:
• Archivo -> Abrir
• use eph_2011_t3.dta, clear [clear limpia la base de
datos, se usa si o si antes de abrir una nueva]
A partir de ahora, abrir directamente desde
Stata el archivo eph_2011_t3.dta original
(contiene las etiquetas de las variables)
Lic. David A. Condori Tantani
11. Stata trabaja mediante la especificación por parte del
usuario de órdenes que se denominan comandos
Existe una determinada sintaxis que debe ser
respetada. Tiene la siguiente estructura general:
[by varlist:] comando [varlist] [=exp] [if exp] [in range]
[weight] [, opciones]
Los corchetes indican elementos opcionales.
Todos los elementos que acompañan a un comando
son opciones, de hecho existen comandos que
comprenden sólo una palabra.
Para conocer las opciones de los comandos:
help comando
Lic. David A. Condori Tantani
12. • display _N [cantidad de observaciones en la
base de datos]
• describe [describe el dataset]
• describe ch04 [describe una variable en
particular]
• list [muestra todas las variables y
observaciones – para interrumpir clickear “break”]
• list CODUSU ch04 [muestra observaciones
para las variables seleccionadas]
• sort CODUSU [ordena las observaciones en
forma ascendente de acuerdo a los valores de
CODUSU]
Lic. David A. Condori Tantani
13. • summarize [muestra resumen de todas las variables]
• summarize CODUSU ch04 [muestra resumen
variables seleccionadas]
• summarize CODUSU, detail [muestra resumen
más detallado de variables seleccionadas]
• summ
• tabulate ch04 [tabula la variable seleccionada]
• tab ch04 ch07 [tabula las variables seleccionadas]
• tab ch04 ch07, row [tabula las variables
seleccionadas incluyendo porcentajes además de
frecuencias]
Lic. David A. Condori Tantani
14. statname Definición
mean promedio
count Cuenta las observaciones que no son
nulas
n Igual que count
sum Suma
max Máximo
min Mínimo
range Rango = max – min
sd Desvío Estándar
variance Varianza
cv Coeficiente de variación (sd/mean)
semean Desvió estándar del promedio (sd/sqrt(n))
p1 Primer percentil
median Mediana (p50)
p99 Percentil 99°
iqr Rango intercuartil= p75 - p25
tabstat ch04 [muestra
la media de la variable
seleccionada]
tabstat ch04,
statistics (mean sum
count max) [genera una
tabla que muestra los
estadisticos descriptivos
indicados entre paréntesis]
Posibles estadísticos:
Lic. David A. Condori Tantani
15. generate ingreso=tot_p12/10 [genero una
variable nueva que contiene el ingreso medido en
dólares]
• gen obs=_n [genera una nueva variable llamada “obs” que
enumera las observaciones según su orden]
• gen obs_total=_N [crea una variable cuyo valor siempre es el
mismo y ese valor es la cantidad de observaciones]
• gen nulo=.
• gen x=uniform()[genera una variable con números aleatorios
entre 0 y 1]
• gen edad2=ch06^2 [genera una variable que es el cuadrado de
la edad]
egen horas = rowtotal(pp3e_tot pp3f_tot)
[genera una variable que es la suma horizontal de las variables
seleccionadas]
Lic. David A. Condori Tantani
16. Preserve and restore ≈ ctrl+Z!
En Stata no existe un comando “Deshacer”
• preserve [guarda provisionalmente la base de datos]
• restore [vuelve a la versión guardada provisionalmente]
Modificar la base de datos como en Excel
• edit
label var ingreso “Ingreso total en Dólares”
[etiqueta la variable “Ingreso”]
rename ingreso ingreso_dolares
[cambia el nombre de la variable ingreso]
replace ch04=0 if ch04==2 [ahora cuando la variable es igual a 0
significa que el individuo es mujer]
drop horas [elimina la variable horas]
keep if ch06<60 [borra las observaciones de aquellos que
tienen menos de 60 años]
Lic. David A. Condori Tantani
17. La expresión “if”
• sum horas if ch04==1 [ejecuta el comando
summarize en la submuestra seleccionada: los
hombres]
• tab horas if (ch04==1 & ch06>30) [tabula la
variable horas en la submuestra seleccionada:
hombres mayores de 30 años]
• tab horas if (ch04==1 & ch06>30)|
(ch04==2 & ch06<30) [tabula la variable horas en
la submuestra seleccionada: hombres mayores de 30
años o mujeres menores de 30 años]
Lic. David A. Condori Tantani
18. Aritméticos Lógicos Relacionados
+ adición & y > mayor a
- resta | o < menor a
* multiplicación ! no >= mayor o igual a
/ división <= menor o igual a
^ potencia == igual a
!= distinto a
• Ej: sum horas if (ch04==1 & ch06>30)|(ch04==2 & ch06<30)
[resume estadísticas de la variable horas en la submuestra
seleccionada: hombres mayores de 30 años o mujeres menores
de 30 años]
Operador jerárquico: el paréntesis determina el orden de aplicación
de las sentencias condicionales
Lic. David A. Condori Tantani
19. La expresión “in”: el comando solo se utiliza para
las observaciones especificadas.
• sum horas in 1/10 [muestra observaciones entre
la 1era y la 10ma]
• sum horas in -10/-1 [muestra observaciones entre
10ma empezando de abajo y la primera empezando
de abajo]
[, options]:
• sum horas, detail
[produce estadísticas adicionales, la
asimetría, los cuatro valores menores y
mayores y varios percentiles]
• sum horas, meanonly [suprime la presentación de
los resultados y el cálculo de la varianza]
Lic. David A. Condori Tantani
20. Stata provee una serie de herramientas
gráficas muy útiles a través del comando
graph.
En econometría, lo más usado son
diagramas de dispersión o líneas.
Disponibles a través del comando twoway
(scatter or line)
Ejemplo: twoway scatter ingreso horas if
horas<500 & ingreso>0
Para más información: help graph |
help twoway
Lic. David A. Condori Tantani
21. Hasta ahora, introdujimos los comandos en la ventana “Stata
commands”.
Es recomendable, en cambio, armar do files. Son archivos de
texto que se guardan con extension “do”, y que contienen una
lista de comandos de Stata.
Algunas ventajas:
• Permite ejecutar una sucesión de comandos de Stata de una sola vez
• Permite construir programas y rutinas elementales, que pueden ser
reutilizadas en diversas situaciones o con otras bases de datos.
• Proveen una forma eficiente de progresar en el análisis de datos, ya que
es fácil corregir errores o reproducir resultados obtenidos con
anterioridad.
Lic. David A. Condori Tantani
22. Armando un Do-file
• Copiar en c:micarpeta el archivo eph_2011_t3.dta. Esta
será nuestra carpeta de trabajo.
• En Stata, clickear el botón “New Do-file Editor” del menú o
escribir “doedit” en la ventana de comandos
• En el archivo escribimos:
cd c:micarpeta [Stata buscará archivos
en esa carpeta]
use eph_2011_t3.dta, clear [Stata
abrirá la base de datos]
Describe
Summarize ch04
Exit
Lic. David A. Condori Tantani
23. • Guardar el do-file en “c: micarpeta” con el nombre
eph. Se guardará como “eph.do”.
• El do-file puede:
Ejecutarse parcialmente: abrir el do-file, pintar los comandos
a ejecutarse, clickear botón “Execute (Do)”
Ejecutarse totalmente: introducir el comando do eph en la
ventana de comando
Nota: pueden incorporarse comentarios dentro del
archivo DO de la siguiente manera:
/* Este es un comentario */
También es un comentario una línea iniciada con
asterisco *
Lic. David A. Condori Tantani
24. Antes de empezar: existe un comando que genera un
archivo llamado log.
Son útiles para llevar un registro de todo lo que aparece
en la ventana "resultados“.
Los log-file graban tanto el historial de los comandos
como los resultados.
• log using "c:UsersDEDropboxEconometría
2014x - Tutorial 1 eph_2011_t3.smcl" [options]
replace
append
• log close
Se puede abrir el log file con el Bloc de notas o mediante
la opción “File -> Log -> View".
Lic. David A. Condori Tantani