1. Capítulo 1
Prácticas y problemas básicos de
Inferencia Estadística.
En este capítulo se proponen diferentes prácticas y problemas con el objetivo de repasar
la estadística descriptiva de una variable unidimensional, los principales modelos de pro-
babilidad univariante, y los intervalos de con…anza y test de hipótesis relativos a una y
dos muestras. Para el desarrollo de las prácticas y resolución de los problemas es necesario
utilizar un programa estadístico. La teoría correspondiente a los problemas de este capítulo
puede verse en el Capítulo 1 del texto de teoría y un estudio más detallado de los conceptos
y técnicas estadísticas utilizados puede consultarse en Cao, R. y otros (2001) u otro texto
de estadística general básica.
1.1. Estadística descriptiva de una variable.
Objetivo de la práctica: “Se genera una muestra aleatoria con dos variables,
la primera es la variable de interés que sigue una distribución normal y la
segunda es una variable de clasi…cación. Se hace el estudio descriptivo (analítico
y grá…co) de la variable de interés”.
Desarrollo:
1. Generar una muestra de 500 observaciones de una variable X que sigue una distribu-
ción N 100; 102 : (Comando rnormal).
2. Calcular los estadísticos básicos. Utilizar el análisis
descripcion > datos numericos > analisis unidimensional
3. Estudiar los estadísticos básicos de esta muestra y comprobar si son adecuados para
el modelo simulado.
4. Estudiar la tabla de frecuencias y el diagrama de representación de tallo y hojas:
(diagrama de tallo y hojas).
1
2. 2 Modelos estadísticos aplicados. Juan Vilar
5. Calcular e interpretar los siguientes grá…cos que permiten conocer la distribución de
la muestra:
- Grá…co de puntos (graficos de dispersion).
- Grá…co de cajas (grafico de cajas y bigotes).
- Histograma.
- Grá…co de quantiles.
- Suavizado de la densidad (densidad suavizada).
- Grá…co de simetría.
- Grá…co de la serie en función del índice, ésto es, xt frente a t: Utilizar el análisis
graficos > graficos de dispersion > grafico unidimensional
6. Generar una variable de clasi…cación C de forma que los 100 primeros valores formen
la clase “1”, los 100 siguientes la “2”, los 100 siguientes la “3”, los 100 siguientes la
“4”y los 100 últimos la “5”. Utilizar el comando (rep: repeat).
7. Calcular los estadísticos básicos de la muestra según la clase C. Utilizar el análisis
descripcion > datos numericos > analisis de subgrupo
Fijarse en la tabla que compara las medias de la variable X según la clase C a la
que pertenecen los valores muestrales.
8. Este análisis proporciona diferentes grá…cos que permiten comparar la variable X
según la clase C : comparar medidas de centralización (media y mediana), medidas
de dispersión (desviación típica y rango) y la distribución de X según la clase C:
Son los siguientes:
- Plot de puntos (graficos de dispersion).
- Grá…co de medias.
- Grá…co de medianas.
- Grá…co de desviaciones típicas.
- Grá…co de rangos.
- Grá…co de cajas múltiple.
Algunos de estos grá…cos y otros de menor interés se encuentran en el apartado:
graficos exploratorios.
Repetir la práctica anterior con las siguientes variaciones:
La muestra X proviene de una distribución no normal, por ejemplo, una exponencial
(comando rexponential) o de una distribución gamma (rgamma).
3. Prácticas y problemas básicos de Inferencia Estadística. Juan Vilar. 3
Utilizando los datos del …chero coches ( …chero problema-2-2 que contiene datos
de coches que proporciona el paquete Statgraphics), estudiar la variable mpg (“miles
per galon”, inversa del consumo) y/o la variable price (“precio de los coches”),
utilizando como variable de clasi…cación origin (“origen de los coches”que toma los
valores: Japan, U.S.A. y Europe).
1.2. Modelos de probabilidad.
Objetivo de la práctica: “Con la ayuda del paquete estadístico se revisan los
principales modelos de distribución, su función de probabilidad o de densidad
y su función de distribución, así como la generación de muestras aleatorias”.
Desarrollo:
En el apartado de Statgraphics
descripcion > distribuciones > distribuciones de probabilidad
se pueden estudiar 24 funciones de distribución muy utilizadas.
El apartado ofrece las siguientes posibilidades:
- Trabajar con cinco modelos de probabilidad del mismo tipo.
- Calcular la función de distribución de los modelos seleccionados.
- Calcular la inversa de la función de distribución de los modelos seleccionados.
(En estos dos últimos apartados se puede obtener la misma información que propor-
cionan las tablas estadísticas de funciones de distribución).
- Calcular muestras aleatorias de los modelos seleccionados sin necesidad de utilizar
comandos.
- Obtener grá…cas de las funciones de densidad, distribución y razón de fallo, entre
otras, de los modelos seleccionados.
En este texto se utilizan básicamente los siguientes modelos de probabilidad relaciona-
dos con las técnicas clásicas de inferencia estadística:
- Normal.
- Chi-cuadrado.
- t de Student.
- F de Fisher.
Conviene tener un conocimiento básico de estas distribuciones. Para ello, utilizando
este módulo, desarrollar la siguiente práctica
1. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables
normales: N(0; 12); N(0; 1052); N(0; 0082) y N(2; 12):
2. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables
chi-cuadrado: 1; 5; 10; y 30:
4. 4 Modelos estadísticos aplicados. Juan Vilar
3. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables t
de Student: t1; t5; t10; y t30:
4. Dibujar en un mismo grá…co las funciones de densidad de las siguientes variables F
de Fisher: F20;20; F50;50; F100;100; F80;4 y F4;80:
¿Qué conclusiones se deducen de estos grá…cos?
5. Para algunos de los modelo anteriores calcular F( 2); F(0) y F(105); siendo F la
función de distribución.
6. Para algunos de los modelo anteriores calcular F 1(0005); F 1(0090) y F 1(0095);
siendo F 1 la inversa de la función de distribución.
1.3. Test de hipótesis e intervalos de con…anza de una y dos
muestras.
Objetivo de la práctica: “A partir de una muestra de una población calcular
intervalos de con…anza de la media y de la desviación típica de la población,
bajo la hipótesis de normalidad o no.
A partir de dos muestras (pareadas o no) calcular intervalos de con…anza de
la diferencia de medias y del cociente de varianzas”.
Desarrollo:
1. Considérese la variable price del …chero de datos coches (…chero problema-2-2).
Calcular intervalos de con…anza al 90 % para la media y la desviación típica de esta
variable. Utilizar el análisis
descripcion > datos numericos > analisis unidimensional
Este análisis proporciona dos tipos de intervalos de con…anza: el primero bajo la
hipótesis de normalidad de las observaciones y el segundo se basa en técnicas de
remuestreo (bootstrap).
2. Contrastar la hipótesis estadística H0 : E(price) = 4;500; frente a diferentes
alternativas. Trabajar con un nivel de signi…cación = 0010:
El análisis anterior proporciona tres contrastes acerca de la media de la población:
uno bajo la hipótesis de normalidad y dos no paramétricos basados en los rangos
acerca de “la mediana”. Los test basados en rangos son menos potentes pero son
menos sensibles a la presencia de datos atípicos (outliers).
3. Calcular la curva de potencia del test sobre la media de una población normal. Ésto
se puede hacer con el siguiente análisis de Statgraphics:
descripcion > contraste de hipotesis
5. Prácticas y problemas básicos de Inferencia Estadística. Juan Vilar. 5
En este apartado se puede estudiar la función de potencia de otros contrastes (sobre
la desviación típica de una normal, la proporción de una binomial o la razón de una
de Poisson).
4. Se está interesado en comparar los precios de los coches de USA (origin=1) y japone-
ses (origin=3). En particular se quiere:
- Calcular un intervalo de con…anza al 90 % para el cociente de varianzas.
- Calcular un intervalo de con…anza al 90 % para la diferencia de medias.
- Contrastar la hipótesis de que los precios medios de los coches de ambas poblaciones
son iguales.
Estos estudios pueden hacerse en el módulo
comparacion > dos muestras > comparacion de dos muestras
En este caso cubrir los campos de introducción de datos como sigue: poner “datos y
códigos en columnas”, data=“price”, code=“origin”, select=“origin<>2”.
Analizar los diferentes resultados sobre la comparación de dos muestras que propor-
ciona este completo módulo del programa.
5. Calcular la curva de potencia del test sobre la diferencia de medias de dos pobla-
ciones. Para ello utilizar el módulo
comparacion > dos muestras > contraste de hipotesis
1.4. Problemas de intervalos de con…anza y test de hipóte-
sis.
Problema 1.1.
“Se ha observado una muestra de 41 datos del “tiempo de respuesta de un sistema
informático”a las doce horas de un día laborable. Los datos obtenidos son los de la tabla
adjunta,
22056 22033 24058 23014 19003 26076 18033
23010 21053 9006 16075 23029 22014 16028
18089 27048 10044 26086 27027 18074 19088
15076 30077 21016 24026 22090 27014 18002
21053 24099 19081 11088 24001 22011 21091
14035 11014 9093 20022 17073 19005
En base a esta muestra, calcular:
1. Intervalos de con…anza al 90 % y 95 % del tiempo medio de respuesta.
2. ¿Es razonable mantener la hipótesis de que la varianza del tiempo medio de respuesta
es 25 con un nivel de signi…cación del 5 %?
6. 6 Modelos estadísticos aplicados. Juan Vilar
3. Resolver el contraste H0: = 20 frente H1: > 20 en base al nivel crítico.”
Problema 1.2.
“Una empresa de software está investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programación. A doce programadores, familiarizados con ambos
lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, se anota el
tiempo que tardan. Los resultados, en minutos, son los de la tabla adjunta.
Lenguaje 1: 17, 16, 21, 14, 18, 24, 16, 14, 21, 23, 13, 18.
Lenguaje 2: 18, 14, 19, 11, 23, 21, 10, 13, 19, 24, 15, 20.
En base a estos datos calcular:
1. Un intervalo de con…anza al 95 % para la diferencia de medias en el tiempo de pro-
gramación.
2. ¿Puede considerarse que uno de los lenguajes es preferible al otro?”
3. En relación con la pregunta anterior ¿está bien diseñado el experimento? Considerar
y discutir algún diseño alternativo.
Problema 1.3.
“Un profesor realizó el siguiente experimento: le preguntó a 44 alumnos que calculasen
de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas:
Grupo 1
8 9 10 10 10 10 10 10 11
11 11 11 12 12 13 13 13 14
14 14 15 15 15 15 15 15 15
15 16 16 16 17 17 17 17 18
18 20 22 25 27 35 38 40
A otro grupo de 69 alumnos les hizo la misma pregunta, pero ahora les pidió la respuesta
en pies (3028 pies = 1 metro). En este caso las respuestas fueron:
Grupo 2
24 25 27 30 30 30 30 30 30
32 32 33 34 34 34 35 35 36
36 36 37 37 40 40 40 40 40
40 40 40 40 41 41 42 42 42
42 43 43 44 44 44 45 45 45
45 45 45 46 46 47 48 48 50
50 50 51 54 54 54 55 55 60
60 63 70 75 80 94
7. Prácticas y problemas básicos de Inferencia Estadística. Juan Vilar. 7
El ancho del aula es 1301 metros (4300 pies). En base a estos datos,
1. Hacer un estudio descriptivo de estas dos muestras.
2. Calcular intervalos de con…anza al 95 % para la media y la varianza de la primera
muestra.
3. Calcular intervalos de con…anza al 95 % para la diferencia de medias y el cociente de
varianzas de las dos muestras.
4. ¿Puede a…rmarse que el error en la aproximación es igual si se hace en metros que
en pies?”
Problema 1.4.
“Una empresa constructora está interesada en estudiar la tensión de ruptura de las
barras de acero que utiliza en las estructuras de hormigón armado. Para ello, selecciona de
forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de ruptura.
Los resultados de la prueba, en kilogramos por centímetro cuadrado, son los de la tabla
adjunta
2244 2147 2240 2342 1951 2345 2001 2191
1800 1995 2033 2208 1699 2037 2087
2185 1792 2033 2112 2001 2490 2132
2070 1917 2015 2150 1960 2086 1824
1869 2278 1846 1950 2027 1699 1972
2073 2282 1889 1897 2322 1964 1809
2009 2412 1746 2304 2015 2035 1974
En base a estos datos,
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de con…anza al 95 % y 99 % para la media de la tensión de ruptura
de las barras de acero.
3. Calcular intervalos de con…anza al 95 % y 99 % para la varianza de la tensión de
ruptura de las barras de acero.
4. ¿Qué tamaño muestral es necesario para obtener el intervalo de con…anza al 95 %
para la media de la tensión de ruptura de las barras de acero con una longitud
inferior a 50 unidades? Y, ¿si el intervalo de con…anza fuese al 99 %?”
8. 8 Modelos estadísticos aplicados. Juan Vilar
1.5. Problemas propuestos.
Problema 1.5.
“El gobierno francés está interesado en analizar los datos obtenidos en experimentos
atómicos. En particular está interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas, realizadas
entre marzo de 1994 y enero de 1996, son los siguientes (en kilotones): 724, 718, 776, 760,
745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
1. Calcular intervalos de con…anza al 90, 95 y 99 % para la media de la potencia.
2. Calcular tres intervalos de con…anza distintos al 95 % para la varianza de la potencia.
3. Contrastar la hipótesis de que la media de la potencia es 750.
4. Dibujar la curva de potencia de este contraste.
5. ¿Qué hipótesis se han supuesto en el desarrollo del problema.”
Problema 1.6. (se puede hacer con calculadora)
“El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de
artoesclerosis cardíaca y de la enfermedad de arteria coronaria, por tanto, es importante
determinar los niveles que se esperan en los diferentes grupos de edad y sexo. Para com-
parar el nivel de colesterol en varones de entre 20 y 29 años de edad frente a mujeres del
mismo grupo de edad se realizó un estudio cuyos estadísticos básicos son los de la tabla
adjunta.
Hombres Mujeres
nH = 96 nM = 85
xH = 170;81 mg/dl xM = 181;08 mg/dl
^sH = 30;55 mg/dl ^sM = 30;79 mg/dl
En base a estos datos:
1. Calcular intervalos de con…anza al 90, 95 y 99 % para la diferencia de medias del
nivel de colesterol entre hombres y mujeres.
2. Calcular un intervalo de con…anza al 90 % para el cociente de varianzas del nivel de
colesterol entre hombres y mujeres.
3. ¿Puede suponerse que el nivel de colesterol en los hombres es igual al de las mujeres?”
Problema 1.7.
“A una empresa le ofrecen impartir un curso de capacitación para aumentar el rendimien-
to de sus trabajadores. La empresa decide enviar a quince de sus trabajadores elegidos al
azar de toda la plantilla. Para comprobar si el curso es bene…cioso, se controla el tiempo
que tardan estos trabajadores en realizar un trabajo antes de realizar el curso y después
de realizar el curso. Los resultados se re‡ejan en la tabla adjunta.
9. Prácticas y problemas básicos de Inferencia Estadística. Juan Vilar. 9
Trabajador 1 2 3 4 5 6 7 8
Antes 2305 1200 2100 2200 1901 2105 2201 2004
Después 1704 2004 2000 2000 1804 1806 1806 1503
Trabajador 9 10 11 12 13 14 15
Antes 1803 2106 2303 2100 2201 2300 1200
Después 1605 1800 1603 1800 1208 1505 1800
¿Puede a…rmarse que la realización del curso mejora el rendimiento del trabajo? ¿Se
ha diseñado bien el experimento?”
Problema 1.8.
“En cincuenta días lectivos consecutivos y a la misma hora se ha observado el número
de terminales de una universidad conectados a internet. Los resultados son los de la tabla
adjunta.
1027 1023 1369 950 1436 957 634 1281
821 882 942 904 984 1067 570
1063 1307 1212 1045 1047 1178 633
501 565 1039 1000 1227 1118 843
696 820 1092 934 968 1191 996
1089 936 568 1056 1006 749 812
1096 1183 1409 1200 1197 985 848
En base a estos datos.
1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de con…anza al 90 % y 95 % para el número medio de terminales
conectados a internet.
3. Calcular intervalos de con…anza al 90 % y 95 % para la varianza del número de
terminales conectados a internet.
4. ¿Qué tamaño muestral es necesario para obtener el intervalo de con…anza al 90 %
para que el número medio de terminales conectados a internet tenga una longitud
inferior a 30 unidades? Y, ¿si el intervalo de con…anza fuese al 95 %?”
Problema 1.9.
“Se ha realizado un estudio para investigar el efecto del ejercicio físico en el nivel de
colesterol en suero. Veinte individuos tomaron parte en el estudio de los que se tomaron
muestras de sangre para determinar el nivel de colesterol de cada sujeto. Después los
individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en
realizar carreras y marchas. Al …nal del período de ejercicios se tomaron nuevas muestras
de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos
obtenidos son los de la tabla adjunta. ¿Puede a…rmarse que el ejercicio físico disminuye el
nivel de colesterol en suero?”
10. 10 Modelos estadísticos aplicados. Juan Vilar
Sujeto 1 2 3 4 5 6 7
Nivel previo (x), mg/dl 182 232 191 200 148 249 276
Nivel posterior (y), mg/dl 198 210 194 220 138 220 249
Sujeto 8 9 10 11 12 13 14
Nivel previo (x), mg/dl 213 241 480 262 242 185 205
Nivel posterior (y), mg/dl 161 210 313 270 235 164 207
Sujeto 15 16 17 18 19 20
Nivel previo (x), mg/dl 175 217 236 243 252 375
Nivel posterior (y), mg/dl 156 200 219 201 232 335
Problema 1.10. (se puede hacer con calculadora)
“Se ha realizado un estudio de igualación transversal preoperatoria en cirugía electi-
va. La operación elegida es la histerectomía abdominal electiva. La variable de interés
X=“el número de unidades sanguíneas contrastadas transversalmente inmediatamente
disponibles”. El objetivo del estudio es comparar el número medio de unidades disponibles
en 1.990 con el número medio de unidades disponibles en la actualidad. Los estadísticos
básicos de la muestra del estudio son los de la tabla adjunta. En base a este estudio ¿Hay
evidencia de que se produce un descenso en el número medio de unidades disponibles desde
1.990 hasta la actualidad?”
En 1.990 Actualidad
nP = 120 nA = 137
xP = 2;67 unid. xA = 2;21 unid.
^sP = 0;69 ^sA = 0;87
Problema 1.11.
“Se pensó que un programa de ejercicios regulares moderadamente activos podría be-
ne…ciar a los pacientes que habían sufrido un infarto de miocardio. Catorce individuos
participaron en un estudio para comprobar este argumento. Antes de empezar el programa,
se determino la capacidad de trabajo de cada persona midiendo el tiempo que tardó en
alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar.
Después de 25 semanas de ejercicio controlado se repitieron las medidas en la rueda de
andar y se registró la diferencia en tiempo para cada sujeto. Los datos obtenidos son los
de la tabla adjunta. ¿Sostienen estos datos los argumentos de los investigadores?”
Sujeto 1 2 3 4 5 6 7
Antes (x), en sgs 706 909 806 905 804 902 604
Después (y), en sgs. 1407 1401 1108 1601 1407 1401 1302
Sujeto 8 9 10 11 12 13 14
Antes (x), en sgs 909 807 1003 803 808 802 903
Después (y), en sgs. 1207 1305 1201 1304 1105 1502 1109