El documento presenta una introducción al análisis de varianza (ANOVA). Explica que el ANOVA permite probar la significancia de las diferencias entre más de dos medias muestrales y hacer inferencias sobre si muestras provienen de poblaciones con la misma media. Luego, aplica el ANOVA a un ejemplo sobre métodos de capacitación de empleados, calculando la varianza entre medias muestrales y dentro de muestras, y concluyendo que no hay evidencia para rechazar la hipótesis nula de que los métodos tienen el mismo efecto en
1. ANÁLISIS DE LA VARIANZA
Estadística II
Econ. John Campuzano Vásquez.
Carrera de Economía
2. Análisis de varianza
• Análisis de varianza (a menudo abreviada ANOVA: analysis of variance), que
permite probar la significancia de las diferencias entre más de dos medias
muestrales.
• Usando el análisis de varianza, se puede hacer inferencias acerca de las muestras
se tomaron de poblaciones que tienen la misma media.
• El análisis de varianza será útil en situaciones tales como:
Estadística II - Carrera de Economía 2
3. Planteamiento del problema
• No se sabe que método es mejor
para capacitar a los empleados y
elevar su productividad.
Estadística II - Carrera de Economía 3
4. Planteamiento de las hipótesis
Clave del análisis de varianza
• En este caso, la razón para utilizar
análisis de varianza es decidir si estas
tres muestras se tomaron de
poblaciones que tienen las mismas
medias.
Hipótesis
• H0: 𝜇1 = 𝜇2 = 𝜇3← Hipótesis nula
• H1: 𝜇1, 𝜇2, 𝜇3no son todas iguales ←
Hipótesis alternativa
Estadística II - Carrera de Economía 4
5. Supuestos básicos
Cada una de las muestras se toma de una población normal.
Que cada una de estas poblaciones tiene la misma varianza, 𝜎2.
Estadística II - Carrera de Economía 5
El análisis de varianza está basado en una comparación de dos estimaciones
diferentes de la varianza, 𝜎2, de nuestra población total.
En este caso, podemos calcular una de esas estimaciones examinando la varianza
entre las tres medias muestrales, que son 17, 21 y 19. La otra estimación de la
varianza de la población está determinada por la variación dentro de las tres
muestras mismas, esto es (15, 18, 19, 22, 1l), (22, 27, 18, 21, 17) y (18, 24, 19, 16,
22, 15).
6. Si la hipótesis nula no es verdadera
1. Determinar una estimación de la varianza de la población a partir
de la varianza entre las medias de las muestras.
2. Determinar una segunda estimación de la varianza de la población a
partir de la varianza dentro de las muestras.
3. Comparar estas dos estimaciones. Si su valor es aproximadamente
igual, se acepta la hipótesis nula.
Estadística II - Carrera de Economía 6
7. Cálculo de la varianza entre las medias muestrales
Estadística II - Carrera de Economía 7
8. Cálculo de la varianza entre las medias muestrales
Estadística II - Carrera de Economía 8
9. Cálculo de la varianza dentro de las muestras
Estadística II - Carrera de Economía 9
Varianza de la muestra
𝑆2 =
Σ 𝑥 − 𝑋 2
𝑛 − 1
10. Prueba de hipótesis F: cálculo e interpretación del
estadístico F
Estadística II - Carrera de Economía 10
14. Cálculos utilizando Stata14
Estadística II - Carrera de Economía 14
oneway productividad metodos, tabulate
| Summary of productividad
metodos | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 17 4.1833001 5
2 | 21 3.9370039 5
3 | 19 3.4641016 6
------------+------------------------------------
Total | 19 3.9327683 16
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 40 2 20 1.35 0.2923
Within groups 192 13 14.7692308
------------------------------------------------------------------------
Total 232 15 15.4666667
Bartlett's test for equal variances: chi2(2) = 0.1507 Prob>chi2 = 0.927
15. La distribución F
• La distribución F es en realidad una familia completa de
distribuciones.
Estadística II - Carrera de Economía 15
16. Cálculo de los grados de libertad. Prueba F
Estadística II - Carrera de Economía 16
19. Precauciones acerca del uso de la prueba F
1. Como se estableció, nuestros tamaños de muestra en este problema son demasiado pequeños para poder llegar a
inferencias válidas con respecto a la efectividad de los métodos de capacitación. Escogimos muestras pequeñas
para explicar la lógica del análisis de varianza sin tener que efectuar cálculos tediosos.
2. En la práctica real, nuestra metodología sería la misma, pero las muestras serían más grandes.
3. Stata y SPSS llegan a los mismos resultados
4. En nuestro ejemplo, hemos supuesto la ausencia de muchos factores que podrían haber afectado nuestras
conclusiones.
5. Para poder tomar decisiones significativas basadas en el análisis de varianza, necesitamos tener certeza de que
todos los factores que son parte del análisis están controlados de manera efectiva.
6. Por último, note que solamente estudiamos el análisis de varianza en un sentido (oneway) , o de un factor. El
problema examinó el efecto del tipo de método de capacitación sobre la productividad de los empleados y nada
más. Si deseáramos medir el efecto de dos factores, como el programa de capacitación y la edad del empleado,
necesitaríamos usar análisis de varianza en dos sentidos (twoway).
Estadística II - Carrera de Economía 19
Notas del editor
Aunque en la práctica, 16 personas no constituyen una muestra estadística, hemos limitado el número para poder ilustrar las
técnicas básicas del análisis de varianza y evitar cálculos tediosos
Si los tamaños de muestra son lo suficientemente grandes, no necesitamos la suposición de normalidad.
El paso 1 en el análisis de varianza indica que debemos obtener una estimación de la varianza de la población a partir de la varianza entre las tres medias de las muestras. En lenguaje estadístico, esta estimación se conoce como varianza entre columnas.
El paso 1 en el análisis de varianza indica que debemos obtener una estimación de la varianza de la población a partir de la varianza entre las tres medias de las muestras. En lenguaje estadístico, esta estimación se conoce como varianza entre columnas.
El paso 2 en ANOVA requiere una segunda estimación de la varianza de la población, basada en la varianza dentro de las muestras. En términos estadísticos, se le puede llamar varianza dentro de columnas.
El problema de capacitación tiene tres muestras de cinco o seis elementos cada una
En el paso 3 de ANOVA se comparan estas dos estimaciones de la varianza de la población mediante el cálculo de su cociente como sigue:
Como otros estadísticos que hemos estudiado, si la hipótesis nula es verdadera, entonces el estadístico F tiene una distribución de muestreo específica. Al igual que las distribuciones t y ji-cuadrada, la distribución F es en realidad una familia completa de distribuciones, tres de las cuales se observan en la figura 11-8. Note que cada una está identificada por un par de grados de libertad, a diferencia
de las distribuciones t y ji-cuadrada, que solamente tienen un valor para el número de grados de libertad.
La primera cantidad se refiere a los grados de libertad del numerador del cociente F;
la segunda, a los grados de libertad del denominador.
Como podemos ver en la figura 11-8, la distribución F tiene una sola moda. La forma específica
de una distribución F depende del número de grados de libertad tanto del numerador como del
denominador del cociente F. Pero, en general, la distribución está sesgada a la derecha y tiende a hacese
más simétrica conforme aumenta el número de grados de libertad en el numerador y el denominador.