texto argumentativo, ejemplos y ejercicios prácticos
Estadistica problemas y teroria avanzada
1. Estadı́stica Aplicada 2
ANOVA - Kruskal-Wallis Test
José J. Cerda-Hernández, Ph.D.
jcerdah@uni.edu.pe
Universidad Nacional de Ingenierı́a
Department of Economics
Estadı́stica 2 – UNI
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 1 / 14
2. Introducción
La mayorı́a de los experimentos comprenden un estudio del efecto de una o
más variables independientes sobre una respuesta. Las variables
independientes que pueden ser controladas en un experimento reciben el
nombre de factores y el nivel de intensidad de un factor se denomina nivel
del factor.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 2 / 14
3. Ejemplo: (Tomado de de Montgomery, Applied Statistis and Probability
for Engineers, Capı́tulo )
Un fabricante de papel que produce bolsas para supermercados está
interesado en mejorar la resistencia a la tracción del producto. Los
ingenieros de la empresa piensan que la resistencia a la tracción es una
función de la concentración de madera dura en la pulpa y que el rango de
concentraciones de madera dura de interés está entre 5 y 20%. Un equipo
de ingenieros responsables del estudio decide investigar cuatro niveles de
concentración de madera dura: 5%, 10%, 15% y 20%. Ellos deciden
tomar seis muestras de prueba en cada nivel de concentración, utilizando
una planta piloto. Las 24 muestras se analizan en un medidor de tensión
en un laboratorio, en orden aleatorio. Los datos de este experimento se
muestran en la siguiente Tabla,
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 3 / 14
5. Este es un ejemplo de un experimento de factor único completamente
aleatorizado con cuatro niveles del factor. Los niveles del factor a veces se
llaman tratamientos, y cada tratamiento tiene seis observaciones o
repeticiones. El papel de la aleatorización en este experimento es
extremadamente importante. Al aleatorizar el orden de las 24 carreras, el
efecto de cualquier variable molesta que pueda influir en la resistencia a la
tracción observada se equilibra aproximadamente. Por ejemplo, suponga
que hay un efecto de calentamiento en la máquina de prueba de tracción;
es decir, cuanto más tiempo esté encendida la máquina, mayor será la
resistencia a la tracción observada. Si las 24 operaciones se realizan en
orden de aumentar la concentración de la madera dura (es decir, las seis
muestras con una concentración del 5% se analizan primero, seguidas de
las seis muestras con una concentración del 10%, etc.), cualquier
diferencia observada en la resistencia a la tracción también podrı́a deberse
a el efecto de calentamiento.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 5 / 14
6. Esta figura indica que cambiar la concentración de la madera dura tiene un
efecto sobre la resistencia a la tracción; especı́ficamente, las
concentraciones más altas de madera dura producen una mayor resistencia
a la tracción observada. Además, la distribución de la resistencia a la
tracción en un nivel particular de madera dura es razonablemente
simétrica, y la variabilidad en la resistencia a la tracción no cambia
drásticamente a medida que cambia la concentración de la madera dura.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 6 / 14
7. Queremos escribir el efecto de una variable a través de un modelo lineal.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 7 / 14
8. ANOVA
El procedimiento ANOVA trata de analizar la variación en un conjunto de
respuestas y asignar partes de esta variación a cada variable en un
conjunto de variables independientes. Debido a que el experimentador
raras veces incluye, si lo hace, todas las variables que afectan la respuesta
en un experimento, la variación aleatoria en las respuestas se observa
incluso si todas las variables independientes consideradas por el
experimentador se mantienen constantes. El objetivo del ANOVA es
identificar variables independientes importantes y determinar la forma en
que afectan la respuesta.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 8 / 14
9. ANOVA
El mecanismo del ANOVA puede ilustrarse mejor si se considera un
ejemplo conocido.
Suponga que deseamos usar información en muestras independientes de
tamaños n1 = n2 para comparar las medias de dos poblaciones distribuidas
normalmente con medias µ1 y µ2 y varianzas iguales σ2
1 = σ2
2 = σ2. Este
experimento, ya antes analizado con el uso de la prueba t de muestras
independientes, se abordará ahora desde otro punto de vista.
La variación total de las mediciones de respuesta de las dos muestras es
cuantificada por (recuerde que n1 = n2)
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 9 / 14
10. Ejemplo: (Tomado de [Wackerly,Mendenhall,Scheaffer] Estadı́stica
Matemática con Aplicaciones) Los valores codificados para una medida de
elasticidad de un plástico preparado por dos procesos diferentes se
proporcionan en la tabla de abajo. Las muestras independientes, ambas de
tamaño 6, se tomaron de la producción de cada uno de los procesos. ¿Los
datos presentan suficiente evidencia para indicar una diferencia en
elasticidad media en los dos procesos?
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 10 / 14
11. Usaremos la prueba F ANOVA estudiada antes en esta sección. Las tres
sumas de cuadrados buscadas son
Las hipótesis son: H0 : µ1 = µ2 , H1 : µ1 6= µ2
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 11 / 14
12. Los cuadrados medios del tratamiento y el error son, respectivamente
Para probar la hipótesis nula µ1 = µ2 calculamos el valor del estadı́stico de
prueba
Si α = 5%, entonces el valor crı́tico es fc = 4.96. Aunque el cuadrado
medio del tratamiento (MST) es casi tres veces el cuadrado medio del
error (MSE), no es suficientemente grande para permitir el rechazo de la
hipótesis nula. En consecuencia, en el nivel de significancia α = 5%, no
hay suficiente evidencia para indicar una diferencia entre µ1 y µ2.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 12 / 14
13. Ejemplo: Los tiempos de reacción para dos estı́mulos diferentes en un
experimento psicológico de asociación de palabras se compararon usando
cada estı́mulo en muestras aleatorias independientes de tamaño 8. Ası́, un
total de 16 personas se usaron en el experimento. ¿Los siguientes datos
presentan suficiente evidencia para indicar que hay una diferencia en los
tiempos medios de reacción para los dos estı́mulos?
1 Use el método ANOVA para probar las hipótesis apropiadas. Prueba
en el nivel α = 5% de significancia.
2 Calcular el p-valor de la prueba.
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 13 / 14
14. Modelo ANOVA para más de dos medias
Podemos plantear un modelo de regresión
yij = µ + αi + εij , εij ∼ N(0, σ2
)
J. Cerda-Hernández, Ph.D. (Depart. Econ.) Estadı́stica 2 Estadı́stica 2 – UNI 14 / 14