1. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
INDICE
1.1 INTRODUCCION…………………………………………………………………………..1
1.2 ATRIBUTOS Y APLICACIONES BASADOS EN LA WEB…………………………….1
1.3 TABLAS CON ESTADISTICAS DESCRIPTIVAS………………………………………1
1.4 ESTADISTICOS DE MOMENTOS……………………………………………………….3
1.5 GRAFICOS………………………………………………………………………………….4
1.6 DESARROLLO……………………………………………………………………………..7
1.7 CONCLUSIÓN……………………………………………………………………………..10
2. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
CAPÍTULO I
MARCO TEÓRICO
ESTADÍSTICA DESCRIPTIVA Y GRAFICOS CON STATA
1.1 INTRODUCCION
En este capitulo se presenta la perspectiva teórica que se necesita para el desarrollo de
la tegnologia, la cual tiene como propósito suministrar un sistema coordinado y
coherente de conceptos y proposiciones, que permitan abordar el problema, a manera
de establecer un marco referencial para la interpretación de los resultados del estudio
planteado.
Stata es un software de estadística completo e integrado que provee todo lo que
necesita para el análisis de datos, gestión de datos y gráficos.
En esta sesion del curso presentamos las distintas herramientas que se pueden utilizar,
como un primer paso, para analizar los datos. Las dos formas mas usuales de empezar
un analisis estadıstico son las tablas con estadısticas descriptivas y el analisis grafico.
1.2 ATRIBUTOS Y APLICACIONES BASADOS EN LA WEB
En la actualidad, la Web ha evolucionado en sofisticadas herramientas de computación
que no solo proporcionan función por si misma al usuario final, sino que se integra con
base de datos corporativas y de aplicación de negocios.
En [PRESSMAN, 06] Resume las diferencias principales cuando establece que los
sistemas basados en Web involucran una mezcla entre publicación impresa y desarrollo
de software, entre marketing e informática, entre comunicaciones internas y relaciones
externas, y entre arte y tecnología. En la gran mayoría de las Web se encuentran los
siguientes atributos como: Intensidad de Red, Concurrencia, Carga impredecible,
Desempeño, Disponibilidad, Gobernada por los datos, sensibilidad al contenido,
Evolución continua, Inmediatez, Seguridad y Ética. En el trabajo Web es usual encontrar
las siguientes categorías de aplicaciones como: informativo, descargas, interacción,
entrada de usuario, orientada a transacciones, orientada a servicios, portal, acceso a
una base de datos y almacén de datos.
1.3 TABLAS CON ESTADISTICAS DESCRIPTIVAS
Codebook es un comando muy u´til para empezar a analizar la base de datos. Si no se
especifica una variable codebook presenta estadısticas descriptivas sobre cada una de
las variables en la base de datos, alternativamente se puede obtener informacion sobre
solo alguna(s) variable(s) en particular escribiendo el nombre de la(s) variable(s)
despues de codebook. Un comando alternativo que presenta estadısticos similares a
codebook pero de forma resumida es summarize. Aqui se presenta el ejemplo del
comando summarize:
3. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
Sysuse auto summarize
price mpg
Cuadro 1: summarize
Variable Obs Mean Std. Dev. Min Max
price 74 6165.25 2949.49 3291 15906
mpg 74 21.29 5.78 12 41
El cuadro 1 presenta informacion sobre el numero de observaciones, la me-dia,
desviacion estandar y el rango de las variables. Muchas veces necesitamos crear una
tabla con determinados estadısticos descriptivos, para hecer esto se puede hacer uso
de los comandos tabstat o table. Estos comandos tienen mucha flexibilidad no solo en
los estadısticos que se pueden incluir pero tambien en el formato en que estos se
presentan como se puede ver en el siguiente ejemplo:
Sysuse auto
Tabstat price mpg trunk weight, statistics (mean n sum sk edian)
Cuadro 2: tamstat
Variable price mpg trunk weight
mean 6165.25 21.29 13.75 3019.45
N 74 74 74 74
sum 456229 1576 1018 223440
skewness 1.65 .948 .029 .148
p50 5006.5 20 14 3190
El comando inspect es una forma sencilla de obtener informacion sobre la distribucion
de una variable. Presenta pequenas graficas con puntos de frecuencias relativas y
algunos estad´ısticos sobre el numero de observaciones distintas de cero, etc. tabulate,
por otro lado; realiza tablas con frecuencias y presenta varios estadısticos de
correlacıon entre dos variables previamente seleccionadas:
4. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
Sysuse auto
Tabulate rep78 foreign
Cuadro 3: tabulate
Repair record Car type
1978 domestic foreign Total
1 2 0 2
2 8 0 8
3 27 3 30
4 9 9 18
5 2 9 11
Total 48 21 79
Comandos: codebook, summarize, inspect, tabstat, table, tabulate
1.4 ESTADISTICOS DE MOMENTOS
Toda distribucion puede ser inferida por sus momentos. Los momentos mas utilizados
son el primero (la media) y el segundo (la varianza). En la seccion anterior vimos como
podemos obtenerlos.
Para probar estadısticamente la diferencia entre dos medias provenientes de
distribuciones independientes, es necesario utilizar informacion acerca del segundo
momento. Esto se puede llevar al cabo utilizando el comando ci para formar intervalos
de confianza de las medias y ver si se intersectan o no. La no interseccion quiere decir
que no hay evidencia suficiente para rechazar la Ho: igualdad de medias.
Los momentos tercero y cuarto de la distribucion tambien nos dan informacion valiosa.
La skewness o tercer momento nos dice si la distribucion es simetrica con respecto a la
media.
Valores de este estad´ıstico iguales a cero indican una distribuci´on sim´etrica mientras
que valores mayores (menores) a cero indican que la cola de la distribuci´on esta
sesgada hacia la derecha (izquierda). La kurtosis o cuarto momento, mide la densidad
que se concen- tra en las colas; una distribucion normal (del tipo Gauss) tiene una
kurtosis igual a tres. Valores que difieren de la normal se dice que tienen colas con
algunos picos (no nos referimos a picos en sentido estricto—nu´mero infinito de
derivadas—sino solo a vecindarios en donde la distribuci´on no es tan suave como la
normal.)
Para obtener informacion hacerca de los momentos de la distribucion podemos usar el
comando summarize con la opcion detail. Pruebas para normalidad de una distribucion
en base al tercer y cuarto momento, se pueder realizar utilizando el comando sktest.
Comandos: ci, summarize, sktest
5. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
lifeexpectancy
404550556065
lifeexpectancy
404550556065
1.5 GRAFICOS
La mejor manera de resumir la informaci´on contenida en los datos es haciendo un
analisis grafico de los mimsos. Stata tiene un gran numero de graficas siendo scatter,
twoway, histogram y kdensity entre los comandos m´as utlizados.
Las graficas twoway pueden presentarse de diferentes maneras, una de las mas
comunes es en forma de puntos.1 El comando scatter se utiliza en el siguiente ejemplo
para observar c´omo se ha comportado la expectiativa de vida al nacer (le) a travez del
tiempo (year).
La base de datos (uslifeexp2) que usamos para realizar la grafica una es una de las que
provee el sistema (integradas en Stata) y es llamada utilizando el programa sysuse. En
el segundo renglon del ejemplo especificamos que queremos una grafica del tipo
“scatter” que relacione las variables le y year.
Sysuse uslifeexp2, clear
scatter le year
Figura 1: Gr´afica en forma de Puntos
1900 1910 1920 1930 1940
Year
O bien estos puntos se pueden unir utilizando la opci´on connect:
Scatter le year, connect (l)
Figura 2: Gr´afica en forma de Puntos Unidos
1900 1910 1920 1930 1940
Year
6. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
Lifeexpectancyatbirth
5060708050607080
Frequency
0102030405060
La mayorıa de las opciones graficas permite un analisis por grupos utilizando el
comando by:
Scatter lexp gnppc, by (region)
Figura 3: Gr´afica por Grupos
Eur & C.Asia N.A.
0 10000 20000 30000 40000
S.A.
0 10000 20000 30000 40000
GNP per capita
Graphs by Region
Histogramas de frecuencias y distribuciones de densidad kernel pueden ser
graficados utilizando los comandos histogram y kdensity respectivamente.
Tambien es posible combinar ambas funciones en un solo grafico como se
muestra en el siguiente ejemplo:
histogram volume, freq kdensity xaxis(1 2) ylabel(0(10)60,
grid) xlabel(12321 "mean"9735 1 s.d."14907 "+1 s.d."7149
2 s.d."17493)
Figura 4: Histograma y Kernel
Volume (thousands)/x
5,000 10,000 15,000 20,000 25,000
−2 s.d. −1 s.d. mean +1 s.d. 17,493
Volume (thousands)
7. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
Note como dentro de las opciones de histogram se incluye el formato freq indicando que
la altura de las barras del histograma miden el numero de observaciones en cada rango
(las frecuencias). La opcion kdensity le dice a Stata que queremos una funcion de
densidad del tipo kernel superimpuesta al histograma. Las otras dos opciones, ylabel y
xlabel son solo los tıtulos de los ejes.
El intervalo que define el area de las barras de histogram puede ser ajustado utilizando
las opciones bar y width. Si se reduce el area de las barras de un histograma hasta
formar una grafica con lineas en lugar de barras, el resultadeo es una distribuci´on de
densidad en lugar de frecuencias. La forma en que pasamos de un grafico de
frecuencias a uno de densidad varia segun la tecnica utilizada, siendo el metodo kernel
uno de los mas comunes. La ventaja de utilizar densidades kernel es que no se impone
ninguna estructura, ya que la Linea que produce lo hace utilizando estad´ısiticos no
parametricos.
Las opciones graficas de Stata le permiten anadir marcos, tıtulos a los ejes, cambiar de
colores las distintas varibles graficadas, elegir la escala de los ejes, etc. (vea help
twoway options.)
Comandos: graph, twoway, scatter, histogram, kernel
1.6 DESARROLLO
i) Obtenga la estadística descriptiva (en detalle) para las variables
Bp_before y bp_after.
Summarize bp_before bp_after
10. Diplomante: David Antonio Condori Tantani Docente: M.Sc. Ivan Mercado Lorberg
Diplomado en E-learning Modulo V
------------+-----------------------------------
Total | 120 100.00
1.7 CONCLUSIÓN
En esta sesion exploramos varias opciones para comenzar una inspeccion de la base de
datos. Lo mas comun es empezar un analisis produciendo tablas con estadısticos
descriptivos y de corralaci´on simple entre dos variables; los comandos summarize, tabstat
y tabulate son los ideales para estas tareas. Por otro lado, vimos como producir graficos de
puntos y lineas relacionando dos variables, asi mismo, aprendimos a graficar frecuencias
relativas y densidades usando histogram y kernel repectivamente.
178 | 1 0.83 96.67
183 | 1 0.83 97.50
184 | 1 0.83 98.33
185 | 2 1.67 100.00