Este documento presenta conceptos básicos de estadística como distribuciones muestrales, estimación puntual e intervalos de confianza. Explica que una distribución muestral describe la variabilidad de un estadístico al tomar muestras repetidas de una población. También introduce la noción de estimar parámetros poblacionales a partir de muestras y calcular intervalos de confianza para dichas estimaciones.
1. Segundo tema
Estadística II
Republica Bolivariana de Venezuela.
Ministerio del Poder Popular para la Educación Universitaria.
I.U.P “Santiago Mariño”.
Sede – Barcelona.
Estadística II.
Alumna:
María Jiménez C.I: 26.237.474
Profesor:
Pedro Beltran
Barcelona, Abril de 2019.
2. Introducción
A continuación haremos una presentación breve sobre ciertos aspectos
de la estadística moderna y algunas de sus definiciones tales como las
distribuciones, estimación.
Todos estos términos a pesar de ser distintos y tener que ver con temas
que entre si no tienen mucha similitud poseen la característica común
de ser utilizados para resolver problemas estadísticos que a simple vista
podrían parecer complicados de usar
3. Distribuciones Muéstrales.
El estudio de determinadas características de una población se efectúa a través de
diversas muestras que pueden extraerse de ella.
El muestreo puede hacerse con o sin reposición, y la población de partida puede ser infinita o finita.
Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita
teóricamente. También, a efectos prácticos, una población muy grande puede considerarse como
infinita. En todo nuestro estudio vamos a limitarnos a una población de partida infinita o a
muestreo con reposición.
Consideremos todas las posibles muestras de tamaño n en una población. Para cada muestra
podemos calcular un estadístico (media, desviación típica, proporción,...) que variará de una a otra.
Así obtenemos una distribución del estadístico que se llama distribución muestral.
Las dos medidas fundamentales de esta distribución son la media y la desviación típica, también
denominada error típico.
Hay que hacer notar que si el tamaño de la muestra es lo suficientemente grande las distribuciones
muéstrales son normales y en esto se basarán todos los resultados que alcancemos.
4. Distribución muestral de medias
Cada muestra de tamaño n que podemos extraer de una población proporciona una media. Si
consideramos cada una de estas medias como valores de una variable aleatoria podemos estudiar
su distribución que llamaremos distribución muestral de medias.
•Si tenemos una población normal N(m,s) y extraemos de ella muestras de tamaño n, la
distribución muestral de medias sigue también una distribución normal.
•Si la población no sigue una distribución normal pero n>30, aplicando el llamado Teorema central
del límite la distribución muestral de medias se aproxima también a la normal anterior.
5. Distribución muestral de medias (Ejemplo)
Las notas de cierto examen se distribuyen según una normal de media 5,8 y desviación típica 2,4. Hallar la
probabilidad de que la media de una muestra. tomada al azar de 16 estudiantes esté comprendida entre 5 y 7.
• La población es N(5,8;2,4), con n=16 la distribución muestral de medias se distribuye N(5,8;0,6)
En la escena llamamos s a la desviación típica de la población. Compara los gráficos de la distribución
muestral y de la distribución de la población. Estas distribuciones están dibujadas con una escala diferente a la
N(0,1), puedes cambiarla con el valor ESCALA.
• Si x es la media de la muestra hemos de calcular la probabilidad
P(5£x£7)=P(-1.33£z£2)=
=P(z£2)-[1-P(z£1.33)] = 0,8854
p(z £ 0,75) = 0,7734
6. Distribución muestral de diferencia de medias
Suponga que se tienen dos poblaciones distintas, la primera con media μ1 y desviación estándar σ1, y
la segunda con media μ2 y desviación estándar σ2. Más aún, se elige una muestra aleatoria de tamaño
n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda
población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La
colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o
la distribución muestral del estadístico
La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la
distribución muestral de medias es normal sin importar los tamaños de las muestras.
7. Distribución muestral de diferencia de medias
(Ejemplo)
En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela primaria se
usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los
pesos siguen una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa
escuela es de 100 libras y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas
las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si
representa el promedio de los pesos de 20 niños y es el promedio de los pesos de una muestra de 25 niñas,
encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al menos 20 libras más grande
que el de las 25 niñas.
Solución: | |
Datos: | |
μ1= 100 libras | n1= 20 niños |
μ2= 85 libras | n2= 25 niñas |
σ1= 14.142 libras | |
σ2= 12.247 libras | |
Por lo tanto, la probabilidad de que el promedio de los pesos de la
muestra de niños sea al menos 20 libras más grande que el de la
muestra de las niñas es 0.1056.
8. Distribución muestral de proporciones
En numerosas ocasiones se plantea estimar una proporción o porcentaje. En estos casos la variable
aleatoria toma solamente dos valores diferentes (éxito o fracaso), es decir sigue una distribución
binomial y cuando la extensión de la población es grande la distribución binomial B(n,p) se
aproxima a la normal .
•Para muestras de tamaño n>30, la distribución muestral de proporciones sigue una distribución
normal
donde p es la proporción de uno de los valores que presenta la variable estadística en la población
y q=1-p.
9. Distribución muestral de proporciones
(Ejemplo)
Si tiramos una moneda no trucada 100 veces, ¿cuál es la probabilidad de que obtengamos más de
55 caras?
• En una moneda no trucada la proporción de caras es 0,5, con lo que p=0,5 q=0,5 n=100
• La distribución muestral de proporciones se distribuye
N(0,5;0,05)
• Si llamamos p' a la proporción en la muestra hemos de calcular la probabilidad
P(p'>0,55) = P(z>1) =
=1-P(z£1) = 1-0,8413 = 0,1587
10. Estimación
Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué
ocurrió), a pesar de ser un elemento muy claramente estadístico, está muy
enraizado en nuestra cotidianidad. Dentro de ello, además hacemos
estimaciones dentro de un intervalo de posibilidades. Por ejemplo: “creo que
terminaré la tarea en unos 5-6 días”. Lo que hacemos en el terreno del
análisis de datos es aplicar matizaciones técnicas a este hábito. Vamos a
dedicar este documento al concepto de estimación, comenzando con la
estimación puntual. Después nos ocuparemos de desarrollar un modelo de
estimación por intervalo donde identificaremos los elementos
fundamentales, con su significado y símbolo. Y, por último, habrá que
desarrollar cómo se calculan esos elementos.
11. Estimación
En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos
estimar dicho parámetro a partir de una muestra representativa.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona
información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la
media poblacional, la proporción observada en la muestra es un estimador de la proporción en la
población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más
probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario
cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica
la distribución de los valores que tomará el estimador al seleccionar distintas muestras de la
población. Las dos medidas fundamentales de esta distribución son la media que indica el valor
promedio del estimador y la desviación típica, también denominada error típico de estimación, que
indica la desviación promedio que podemos esperar entre el estimador y el valor del parámetro.
12. Estimación
Más útil es la estimación por intervalos en la que calculamos dos valores
entre los que se encontrará el parámetro, con un nivel de confianza fijado de
antemano.
Llamamos Intervalo de confianza al intervalo que con un cierto nivel de
confianza, contiene al parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado
contenga al verdadero valor del parámetro. Se indica por 1-a y
habitualmente se da en porcentaje (1-a)100%. Hablamos de nivel de
confianza y no de probabilidad ya que una vez extraída la muestra, el
intervalo de confianza contendrá al verdadero valor del parámetro o no, lo
que sabemos es que si repitiésemos el proceso con muchas muestras
podríamos afirmar que el (1-a)% de los intervalos así construidos contendría
al verdadero valor del parámetro.
13. Intervalo de confianza para la media
De una población desconocemos la media m y deseamos estimarla a partir de la media x obtenida en una
muestra de tamaño n
Sabemos que si la población es normal N(m,s) y extraemos de ella muestras de tamaño n, o sin ser la población
normal es n>30,
La distribución muestral de medias es ,
por tanto si fijamos una probabilidad 1-a, sabemos
que la
es decir, el (1-a)% de las x está a una distancia de m inferior a
Entonces para un nivel de confianza 1-a, m pertenece al intervalo:
donde za/2 es el llamado valor crítico, valor tal que P(-za/2 £ z £za/2 )=1-a, y x la
media de la muestra.
Si la desviación típica de la población es desconocida, lo que suele ocurrir en la práctica,
la aproximaremos por la de la muestra siempre que n>100
14. Intervalo de confianza para la media (Ejemplo)
Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de 167 cm.
Por estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm.
Construye un intervalo de confianza para la estatura media de la población al 95%
Con s=8 n=81, la distribución muestral de medias se distribuye N(m ; 0,89).
Para 1-a=0,95 a/2=0,025 za/2=1,96 ya que en la tabla N(0,1) obtenemos p(z£1,96)=0,975
Intervalo de confianza
(167-1,96*0,89 ; 167+1,96*0,89)=
=(167-1,74;167+1,74)=(165,26;168,74)
15. Intervalo de confianza para la proporción
Si deseamos estimar la proporción p con que una determinada característica se da
en una población, a partir de la proporción p' observada en una muestra de
tamaño n, sabemos que:
• La distribución muestral de proporciones sigue una distribución normal
con q=1-p
Como la proporción p de la población es desconocida, se aproxima por la de la
muestra siempre que n>100.
Entonces para un nivel de confianza 1-a, p pertenece al intervalo:
16. Intervalo de confianza para la proporción
(Ejemplo)
Una máquina fabrica piezas de precisión y en una caja de 200 piezas, recibida por un cliente han aparecido 7
piezas defectuosas, a un nivel de confianza del 99% ¿entre qué valores se puede esperar que esté la verdadera
proporción de piezas defectuosas fabricadas por la máquina?
La proporción de piezas defectuosas en la muestra es 7/200=0,035
Con p'=0,035 q'=0,965 n=200, la distribución muestral de proporciones se distribuye N(p ; 0,013).
Para 1-a=0,99 a/2=0,005 za/2=2,575
Intervalo de confianza
(0,035-2,575*0,013;0,035+2,575*0,013)=
=(0,002;0,068)
17. Intervalo de confianza y tamaño de la muestra
La amplitud del intervalo de confianza depende del valor de
Con un nivel de confianza del (1-a)100% admitimos que la diferencia entre la estimación para la
media a partir de la muestra y su valor real es menor que E, que llamaremos error máximo
admisible.
El tamaño de la muestra depende del nivel de confianza que se desee para los resultados y de la
amplitud del intervalo de confianza, es decir del error máximo que se esté dispuesto a admitir.
Fijados estos, 1-a y E, podemos calcular el tamaño mínimo de la muestra que emplearemos.
En el caso de estimar proporciones con lo que
18. Intervalo de confianza y tamaño de la muestra
(Ejemplo)
La desviación típica de la altura de los habitantes de un país es de 8 cm. Calcular el tamaño mínimo
que ha de tener una muestra de habitantes de dicho país para que el error cometido al estimar la
altura media sea inferior a 1 cm con un nivel de confianza del 90%.
Para 1-a=0,90 a/2=0,05 za/2=1,645
E=1
n=(1,645*8/1)² = 173
19. Estimador puntual
Un estimador puntual de un parámetro θ es un valor que puede ser considerado
representativo de θ y se indicará θ ˆ. Se obtiene a partir de alguna función de la
muestra.
Ejemplo:
Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces en
forma independiente, obteniéndose 21 ases. ¿Qué valor podría utilizarse, en base a
esa información, como estimación de la probabilidad de as? Parece razonable
utilizar la frecuencia relativa de ases.
En este caso, si llamamos p a la probabilidad que queremos estimar,
20. Estimador puntual
Método de momentos: La idea básica consiste en igualar ciertas características muestrales con las
correspondientes características poblacionales. Recordemos la siguiente definición.
Sea X una v.a. con función de probabilidad puntual p (x) X en el caso discreto o función de densidad
f (x) X en el caso continuo. Se denomina momento de orden k (k ∈ N) o momento poblacional de
orden k a E(Xk), es decir
si esas esperanzas existen.
Como ya hemos visto cuando estudiamos función generadora de momentos de una variable
aleatoria, los momentos están relacionados con los parámetros de la distribución asociada.
21. Estimador puntual
Dada una muestra aleatoria X1, X2,…,Xn, se denomina momento muestral de orden k a
Sea X1, X2,…,Xn, una m.a. de una distribución con función de probabilidad puntual o función de
densidad que depende de m parámetros θ1, θ2,…,θm,. Los estimadores de momentos de θ1, θ2,…,θm,
son los valores θ1, θ2,…,θn, que se obtienen igualando m momentos poblacionales con los
correspondientes momentos muestrales. En general, se obtienen resolviendo el siguiente sistema
de ecuaciones
22. Estimador puntual (Ejemplo)
Sea X1, X2,…,Xn una m.a. de una distribución exponencial de parámetro
λ. Como hay un solo parámetro a estimar, basta plantear una ecuación
basada en el primer momento.
23. Método de máxima verosimilitud
Este método fue introducido por Fisher en la década de 1920.
Se basa en la idea de hallar los valores de los parámetros que
hacen que la probabilidad de obtener una muestra dada sea
máxima.
24. Método de maxima verosimilitud (Ejemplo)
Sea X1, X2,…,Xn una m.a. de una distribución exponencial de parámetro λ.
por lo tanto, la función de verosimilitud es
Observemos que no incluimos los indicadores porque, dado que el rango de la v.a. no depende del
parámetro a estimar, podemos suponer que todas las observaciones son no negativas.
Verificar que el punto crítico obtenido es en efecto un máximo. Observemos que en este caso el EMV
coincide con el de momentos.
25. Estimación por intervalos
La estima de un parámetro poblacional dada por un número se llama estima del
punto del parámetro. La estima de un parámetro poblacional dada por dos
números entre los cuales se considera que se encuentra dicho parámetro se llama
estima de intervalo del parámetro.
EJEMPLO:
Si se dice que una distancia viene dada por 5.28 pies, se está dando una estima de
punto. Si, por otra parte, se dice que la distancia es 5,28 +- 0.03 pies, es decir, la
distancia real se encuentra entre 5.25 y 5.31 pies, se está dando una estima de
intervalo.
La precisión o conocimiento del error de una estima se conoce también como su
seguridad.
26. Distribución normal
La distribución normal es una distribución con forma de campana donde las desviaciones estándar sucesivas
con respecto a la media establecen valores de referencia para estimar el porcentaje de observaciones de los
datos. Estos valores de referencia son la base de muchas pruebas de hipótesis, como las pruebas Z y t.
Histograma de una distribución normal hipotética
Puesto que la distribución de estos datos es normal, usted puede
qué porcentaje de los valores está dentro de cualquier rango
•Alrededor del 95% de las observaciones está dentro de 2
media, indicado por el área sombreada en azul. El 95% de los valores
1.96 desviaciones estándar con respecto a la media (entre −1.96 y
menos del 5% (0.05) de las observaciones estará fuera de este rango.
del nivel de significancia de 0.05 que se utiliza para muchas pruebas
•Aproximadamente el 68% de las observaciones está dentro de una 1 desviación estándar de la media (-
1 a +1), y alrededor del 99.7% de las observaciones estarían dentro de 3 desviaciones estándar con
respecto a la media (-3 a +3).
27. Distribución normal Ejemplo
La estatura de todos los adultos masculinos que residen en el estado de Pennsylvania siguen aproximadamente
una distribución normal. Por lo tanto, la estatura de la mayoría de los hombres estará cerca de la estatura
media de 69 pulgadas. Un número similar de hombres serán un poco más altos y un poco más bajos que 69
pulgadas. Solo unos pocos serán mucho más altos o mucho más bajos. La desviación estándar es de 2.5
pulgadas.
Aproximadamente, el 68% de los hombres
de Pennsylvania tiene una estatura de entre
66.5 (μ - 1σ) y 71.5 (μ + 1σ) pulgadas.
Aproximadamente, el 95% de los hombres
de Pennsylvania tiene una estatura de entre
64 (μ - 2σ) y 74 (μ + 2σ) pulgadas.
Aproximadamente, el 99.7% de los hombres
de Pennsylvania tiene una estatura entre
61.5 (μ - 3σ) y 76.5 (μ + 3σ) pulgadas.
28. Distribución de la “t de student”
Supóngase que se toma una muestra de una población normal con media μ y varianza α. Si es el
promedio de las n observaciones que contiene la muestra aleatoria, entonces la distribución
es una distribución normal estándar. Supóngase que la varianza de la población σ2 es descono-
cida. ¿Qué sucede con la distribución de esta estadística si se reemplaza σ por s? La
distribución t proporciona la respuesta a esta pregunta.
La media y la varianza de la distribución t son μ = 0 y para v > 2, respectivamente.
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la distribución t es
similar a la de la distribución normal estándar: ambas son simétricas y unimodales, y el valor máximo de la
ordenada se alcanza en la media = 0. Sin embargo, la distribución t tiene colas más amplias que la normal;
esto es, la probabilidad de las colas es mayor que en la distribución normal. A medida que el número de grados
de libertad tiende a infinito, la forma límite de la distribución t es la distribución normal estándar.
29. Distribución de la “t de student”(Ejemplo)
Encuentre la probabilidad de –t0.025 < t < t0.05.
Solución:
Como t0.05 deja un área de 0.05 a la derecha, y –t0.025 deja un área de 0.025 a la izquierda,
encontramos un área total de 1-0.05-0.025 = 0.925.
P( –t0.025 < t < t0.05) = 0.925
30. Estimación de proporciones
Sea X una variable binomial de parámetros n y p (una variable binomial es el número
de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo:
número de diabéticos en 2000 personas).
Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es aproximadamente normal con media np y
varianza npq (siendo q = 1 - p) y se puede usar el estadístico (proporción muestral), que es
también aproximadamente normal, con error típico dado por en consecuencia, un IC para p al
100(1 - a)% será es decir, la misma estructura que antes: Obsérvese que para
construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden substituir p y q por sus
estimadores sin mucho error, en cualquier caso como pq £ 0,25 si se substituye pq por 0,25 se
obtiene un intervalo más conservador (más grande).
31. Estimación de proporciones (Ejemplo)
En una muestra de 100 pacientes sometidos a un cierto tratamiento se
obtienen 80 curaciones.
Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.
32. Tamaño de la muestra
El tamaño de la muestra normalmente es representado por "n" y siempre es un número entero
positivo. No se puede hablar de ningún tamaño exacto de la muestra, ya que puede variar
dependiendiendo de los diferentes marcos de investigación. Sin embargo, si todo lo demás es igual,
una muestra de tamaño grande brinda mayor precisión en las estimaciones de las diversas
propiedades de la población.
Determinar el tamaño de la muestra que se va a seleccionar es un paso importante en cualquier
estudio de investigación. Por ejemplo, un investigador desea determinar la prevalencia de
problemas oculares en niños en edad escolar y quiere realizar una encuesta.
La pregunta importante que debe ser contestada en todas las encuestas de muestra es: "¿Cuántos
participantes deben ser elegidos para una encuesta?" Sin embargo, la respuesta no puede ser dada
sin tener en cuenta los objetivos y circunstancias de las investigaciones.
La elección del tamaño de la muestra depende de consideraciones no estadísticas y estadísticas. Las
consideraciones no estadísticas pueden incluir la disponibilidad de los recursos, la mano de obra, el
presupuesto, la ética y el marco de muestreo. Las consideraciones estadísticas incluirán la precisión
deseada de la estimación de la prevalencia y la prevalencia esperada de los problemas oculares en
niños en edad escolar.
33. Tamaño de la muestra
El tamaño de la muestra de una encuesta es muy importante para poder realizar una investigación
de manera correcta, por lo que hay que tener en cuenta los objetivos y las circunstancias en que se
desarrolle la investigación.
Una muestra demasiado grande dará lugar a la pérdida de valiosos recursos como tiempo y dinero,
mientras que una muestra pequeña puede no proporcionar información confiable. ¿Entonces de
qué tamaño debe ser una muestra? Esto sin duda depende de qué tan exactos necesites que sean
los datos obtenidos en tu encuesta, que tan cercanos quieres que sean a los de la población total.
El tamaño de la muestra puede ser:
Representativa: Hace referencia a que todos los miembros de un grupo de personas tengan las
mismas oportunidades de participar en la investigación.
Adecuada: Se refiere a que el tamaño de la muestra debe de ser obtenido mediante un análisis que
permite resultados como disminuir el margen de error.
Ejemplo:
Si quieres realizar una investigación dentro de una universidad que ofrece 10 carreras diferentes y
cada una tiene 700 alumnos, no querrás hacer 7000 mil encuestas, bastará con determinar el
tamaño de la muestra. Sin embargo, debemos considerar el margen de error.
34. Conclusión
Cualquier tema de estadística, independientemente de la modalidad de
trabajo o del tipo de ejercicio contiene uno o varios de los elementos
mencionados en esta guía como básicos y comunes en varios casos.