2. Introducción
La experiencia sobre el comportamiento de algún índice de un proceso, o la exigencia
del cumplimiento de alguna norma nos lleva a realizar proposiciones sobre el valor de
algún parámetro estadístico.
Estas proposiciones se deben contrastar con la realidad (mediante el muestreo de
datos) para tomar una decisión entre aceptar o rechazar la proposición
Estas proposiciones se denominan Hipótesis y el procedimiento para decidir si se
aceptan o se rechazan se denomina Prueba de Hipótesis
Una prueba de hipótesis es una herramienta de análisis de datos que puede
en general formar parte de un experimento comparativo más completo
UMSNH - FIE
3. Una hipótesis Estadística es un proposición sobre los
parámetros de una población o sobre la distribución de
probabilidad de una variable aleatoria
Ejemplo: Se tiene interés en la rapidez de combustión de un agente propulsor para los
sistemas de salida de emergencia en aeronaves. (esta rapidez es una variable aleatoria
con alguna distribución de probabilidad). Especialmente interesa la rapidez de
combustión promedio (que es un parámetro ( ) de dicha distribución). De manera más
específica, interesa decidir si esta rapidez promedio es o no 50 cm/seg.
El planteamiento formal de la situación se realiza en términos de una Hipótesis Nula
(que es la proposición que se quiere poner a prueba) y una Hipótesis Alternativa, la cual
se aceptará si se rechaza la hipótesis nula:
Hipótesis Nula: H0: = 50 cm/seg
Hipótesis Alternativa: H1 : 50 cm/seg
• En el ejemplo se tiene una Hipótesis Alternativa Bilateral, ya que se verifica para
valores de a ambos lados de 50 cm/seg. UMSNH - FIE
4. • Procedimiento General para la prueba de una
hipótesis
Procedimiento General para la prueba de una hipótesis
Procedimiento General para la prueba de una hipótesis
Procedimiento General para la prueba de una hipótesis
5. • Errores Tipo I y Tipo II
El procedimiento anterior puede llevarnos a una de dos
conclusiones erróneas:
Error Tipo I.- Se rechaza H0 cuando ésta es verdadera
Error Tipo II.- Se acepta H0 cuando ésta es falsa
En el ejemplo se cometerá un error de tipo I cuando =50, pero x para la
muestra considerada cae en la región crítica
Y se cometerá un error de tipo II cuando 50 pero x para la muestra
considerada cae en la región de aceptación
Condición real
H0 verdadera H0 falsa
Decisión
Rechazar H0 Error Tipo I ok
Aceptar H0 ok Error Tipo II
6. Pruebas de Hipótesis
Error Tipo I
A la probabilidad de cometer un error de Tipo I se denota por , y se le llama
el nivel o tamaño de significancia de la prueba es decir
= P(error Tipo I)= P(rechazar H0 | H0 es verdadera)
Ejemplo: Calcular para el ejemplo de la rapidez de combustión
para una muestra de N=10 datos, suponiendo que la desviación
estándar de la rapidez de combustión es =2.5 cm/seg.
_
Solución: en este caso = P( x caiga en la región crítica | =50), es decir:
_ _
= P( x < 48.5) + P( x > 51.5)
_
Recordando que La distribución de x es Normal con media y desviación
estándar / N =0.79, por lo tanto, usando Matlab:
= normcdf(48.5,50,0.79) + (1-normcdf(51.5,50,0.79))
= 0.288+ 0.288 = 0.0576
Esto significa que el 5.76% de las muestras de tamaño 10 conducirán al rechazo de
la Hipótesis H0: =50 cm/seg, cuando ésta es verdadera.
UMSNH - FIE
7. Pruebas de Hipótesis
Error tipo II
Para evaluar un experimento de prueba de hipótesis también se requiere
calcular la probabilidad del error de Tipo II, denotada por , es decir
= P(error Tipo II) = P(aceptar H0 | H0 es falsa)
Sin embargo, no es posible calcular si no se tiene una hipótesis alternativa
específica, es decir, un valor particular del parámetro bajo prueba en lugar de
un rango de valores
Por ejemplo, supongamos que es importante rechazar H0 si la rapidez
promedio de combustión es mayor que 52 cm/seg o menor que 48 cm/seg.
Dada la simetría sólo se requiere evaluar la probabilidad de aceptar H0: =50
cuando el valor verdadero es =52.
UMSNH - FIE
8. Pruebas de Hipótesis
Hipótesis Unilaterales
En el ejemplo supongamos que si la rapidez media de
combustión es menor que 50 cm/seg se desea demostrar
esto con una conslusión fuerte. ¿cómo deben plantearse las
hipótesis?
H0: =50 cm/seg
H1: <50 cm/seg
Nótese que aunque H0 está planteada como una igualdad, se
sobre-entiende que incluye cualquier valor de no
especificado por H1, es decir, la incapacidad de rechazar H0
no significa que =50, sino que no se tiene evidencia fuerte
que apoye a H1, es decir, pudiera ser que =50 o que >50
UMSNH - FIE
9. Pruebas de Hipótesis
Prueba de hipótesis sobre la media, varianza conocida
Si se desea probar la Hipótesis:
H0: = 0
H1: 0
Se puede usar el estadístico de prueba Z siguiente
__
Z X μ0
σ/ N
El cual tiene una distribución Normal con media cero y varianza 1
(si se cumplen las suposiciones del teorema del límite central)
UMSNH - FIE
10. Pruebas de Hipótesis
Prueba de hipótesis sobre la media, varianza conocida
Entonces, para una dada podemos establecer las siguientes
regiones de aceptación y crítica:
/2 /2
región crítica Región de aceptación región crítica
-z /2 z /2 Z
Conclusiones:
Rechazar H0 si: z < -z /2 o z > z /2
No rechazar H0 si: -z /2 z z /2
UMSNH - FIE
11. Pruebas de Hipótesis
Prueba de hipótesis sobre la media, varianza conocida
Ejemplo: Se ilustrarán los 8 pasos del procedimiento general para
el ejemplo del combustible sólido para sistemas de escape de
aeronaves. En este caso se conoce =2 cm/seg, se desea probar
si la media es de 50 cm/seg. Se selecciona una muestra
_
aleatoria de tamaño N=25, obteniendo x=51.3 cm/seg. Se
especifica un nivel de sginificancia =0.05 ¿A qué conclusiones se
debe llegar?
1) El parámetro de interés es (rapidez promedio de combustión)
2) H0: = 50 cm/seg
3) H1: 50 cm/seg
= 0.05
UMSNH - FIE
12. Pruebas de Hipótesis
Valores P
Una manera de notificar los resultados de una prueba de
hipótesis es establecer si la hipótesis nula fue o no rechazada con
un nivel especificado de significancia
Una alternativa es especificar el nivel de significancia más
pequeño que conduce al rechazo de la hipótesis nula. A este se le
llama el Valor P
Este valor P sólo depende de la muestra tomada, es decir, para
una muestra y un estadístico calculado se puede obtener su valor
P y comparar con un especificado. Entonces, si P< , H0 se
rechaza.
UMSNH - FIE
13. Pruebas de Hipótesis
Error Tipo II y tamaño de la muestra
Consideremos la hipótesis bilateral H0: = 0, H1: 0.
Si H0 es falsa y la media verdadera es = 0 + (con >0). El estadístico de
prueba __
μ
Z X 0
σ/ N
se puede escribir como __
X (μ 0 δ) δ N
Z
σ/ N σ
Es decir, Si H1 es verdadera Z tiene distribución Normal con media δ N
y varianza 1. σ
Por lo tanto, el error Tipo 1 ( ) se puede calcular como
δ
β Φ z α/2
N
σ
Y si definimos = (-z ), obtenemos (z α/2 z β )σ
N
δ
UMSNH - FIE
14. Pruebas de Hipótesis
Prueba de hipótesis sobre la igualdad de dos medias
(varianzas conocidas)
Se tienen dos poblaciones de interés. La primera con media 1 y
varianza 12 conocidas y la segunda con media 2 y varianza 2
2
conocidas. Interesa saber si las dos medias son iguales. Se
plantean las hipótesis H0: = 2
H1: 2
Suposiciones: Las dos poblaciones son normales o se cumplen las _ _
condiciones del teorema del límite central. Entonces el
estadístico X1-X2 es una variable Normal con media 1 - 2 y
varianza 12 /N1+ 22//N2
___ ___
Z X1 X2
Por lo tanto el siguiente estadístico de prueba
σ1
2
σ2
2
Es N(0,1) si H0 es verdadera. N1 N2
Por lo tanto se rechazará H0 si z0>z /2 o z<z- /2
UMSNH - FIE
15. Pruebas de Hipótesis
Valor P de una prueba t
El valor P es el más pequeño nivel de significancia para el que H0 debe
rechazarse, esto es el área de la cola (de la curva de densidad de probabilidad)
que está más allá del valor del estadístico (en este caso t). o el doble de esta
área en pruebas bilaterales.
Selección del Tamaño de la Muestra
En todas las pruebas de hipótesis estadísticas se puede calcular el tamaño de
la muestra (N) adecuada en función de la magnitud del error de tipo I que se
permite. En cada tipo de prueba se encuentran fórmulas diferentes para N.
UMSNH - FIE
16. Pruebas de Hipótesis
Otras pruebas de Hipótesis
En forma similar a como se describió el caso de la media y la
diferencia de medias, se pueden realizar diferentes pruebas de
hipótesis para estos mismos u otros parámetros, lo único que
cambia en cada caso es:
- Las suposiciones sobre la distribución de la población
- El estadístico elegido y por consiguiente
- La distribución del estadístico.
En la siguiente tabla se resumen algunas de las pruebas de
hipótesis más utilizadas
UMSNH - FIE
17. Pruebas de Hipótesis
Pruebas de Hipótesis No Paramétricas
Las pruebas de hipótesis anteriores se llaman paramétricas
porque suponen conocida la distribución de la población y la
hipótesis es acerca de los parámetros de dicha distribución.
Otra clase de hipótesis es: No se sabe cual es la distribución de la
población y se desea probar la hipótesis de que cierta
distribución en particular será un modelo satisfactorio. Por
ejemplo, tal vez se requiera probar si la distribución es Normal
UMSNH - FIE
18. Pruebas de Hipótesis
Prueba Ji2 de la Bondad del Ajuste
Se parte de una muestra aleatoria de tamaño N, proveniente de una
población cuya distribución de probabilidad es desconocida.
Las N observaciones se acomodan en un Histograma de frecuencia con k
intervalos de clase. Sea Oi la i-ésima frecuencia de clase
De la distribución de probabilidad propuesta se calcula la frecuencia
esperada Ei en el i-ésimo intervalo de clase
k
(Oi Ei )2
El estadístico de prueba es χ2
i 1 Ei
El cual tiene una distribución Ji2 con k-p-1 grados de libertad si la población
sigue la distribución propuesta. (donde p es el número de parámetros de la
población)
UMSNH - FIE
21. Estimación puntual y por intervalo
Las medias o desviaciones estándar calculadas de
una muestra se denominan ESTADÍSTICOS, podrían ser
consideradas como un punto estimado de la media
y desviación estándar real de población o de los
PARAMETROS.
¿Qué pasa si no deseamos una estimación puntual
como media basada en una muestra, qué otra cosa
podríamos obtener como margen, algún tipo de
error?
“Un Intervalo de Confianza”
22. ESTIMADOR PUNTUAL: Utiliza un número único o valor
para localizar una estimación del parámetro.
ESTIMADOR POR INTERVALO DE CONFIANZA: Denota
un rango dentro del cual se puede encontrar el
parámetro y el nivel de confianza que el intervalo
contiene al parámetro.
LIMITES DE CONFIANZA: Son los límites del intervalo de
confianza inferior (LIC) y superior (LSC), se determinan
sumando y restando a la media de la muestra un
cierto número Z (dependiendo del nivel o coeficiente
de confianza) de errores estándar de la media .
23.
24. INTERPRETACIÓN DEL INTERVALO DE CONFIANZA:
Tener un 95% de confianza en que la media
poblacional real y desconocida se encuentra
entre los valores LIC y LSC.
NIVEL DE SIGNIFICANCIA = 1- INTERVALO DE
CONFIANZA = ERROR TIPO 1 = ALFA
¿Cómo obtenemos un intervalo de confianza?
Estimación puntual + error de estimación
25. ¿De dónde viene el error de estimación?
Desv. estándar X multiplicador de nivel de confianza
deseado Z /2
Por Ejemplo:
Si la media de la muestra es 100 y la desviación
estándar es 10, el intervalo de confianza al 95%
donde se encuentra la media para una distribución
normal es:
100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z0.025
El 95% de Nivel de Confianza significa que sólo
tenemos un 5% de oportunidad de obtener un punto
fuera de ese intervalo.
26. Esto es el 5% total, o 2.5% mayor o menor. Si vamos a
la tabla Z veremos que para un área de
0.025, corresponde a una Z de 1.960.
C. I. Multiplicador Z /2
99 2.576
95 1.960
90 1.645
85 1.439
80 1.282
Para tamaños de muestra >30, o conocida usar la
distribución Normal
Para muestras de menor tamaño, o desconocida
usar la distribución t
27. El ancho del intervalo de confianza decrece con la
raíz cuadrada del tamaño de la muestra.
Ejemplo:
Dadas las siguientes resistencias a la tensión: 28.7,
27.9, 29.2 y 26.5 psi
Estimar la media puntual
X media = 28.08 con S = 1.02
Estimar el intervalo de confianza para un nivel de
confianza del 95% (t = 3.182 con n-1=3 grados de
libertad)
Xmedia±3.182*S/√n = 28.08±3.182*1.02/2=(26.46,
29.70)
28. Ejercicios con Z y t:
1. El peso promedio de una muestra de 50 bultos de
productos Xmedia = 652.58 Kgs., con S = 217.43 Kgs.
Determinar el intervalo de confianza al NC del 95% y al
99% donde se encuentra la media del proceso
(poblacional). Alfa = 1 - NC
2. Un intervalo de confianza del 90% para estimar la
ganancia promedio del peso de ratones de laboratorio
oscila entre 0.93 y 1.73 onzas. ¿Cuál es el valor de Z?.
3. 100 latas de 16 onzas de salsa de tomate tienen una
media de Xmedia = 15.2 onzas con una S = 0.96 onzas.
¿A un nivel de confianza del 95%, las latas parecen
estar llenas con 16 onzas?.
29. 4. Una muestra de 16 soluciones tienen un peso promedio
de 16.6 onzas con S = 3.63. Se rechaza la solución si el
peso promedio de todo el lote no excede las 18 onzas.
¿Cuál es la decisión a un 90% de nivel de confianza?.
5. Las 20 cajas de producto pesaron 102 grs. Con S = 8.5
grs. ¿Cuál es el intervalo donde se encuentra la media y
varianza del lote para un 90% de nivel de confianza?.
Grados libertad=20 -1 =19
6. Una muestra de 25 productos tienen un peso promedio
de 23.87 grs. Con una S = 9.56. ¿Cuál es la estimación del
intervalo de confianza para la media y varianza a un
nivel de confianza del 95 y del 98% del peso de
productos del lote completo?.