Análisis de varianza (ANOVA) para contrastar hipótesis sobre medias poblacionales

Instituto Tecnológico Superior de
Zacapoaxtla
Departamento de Desarrollo
Académico

María del Consuelo Valle Espinosa

Usaremos el análisis de la varianza (ANOVA) para contrastar la
hipótesis nula de que las medias de distintas poblaciones coinciden.
Por ejemplo, en el caso de 5 poblaciones, el contraste a realizar
sería:

HO : μ 1 = μ 2 = ... = μ 5 vs. HA : no todas las medias poblacionales
son iguales

En la sección anterior se estudió cómo se utiliza la distribución t-
Student (o la Normal) para contrastar la hipótesis nula de que dos
medias poblacionales coinciden. Usando esta técnica, podríamos
realizar los siguientes 10 contrastes la hipótesis nula anterior:

En este caso, rechazar cualquiera de las 10 hipótesis
nulas implicaría rechazar la hipótesis nula inicial de
que las cinco medias coinciden. Por el contrario, si no
rechazásemos ninguna de las 10 hipótesis, tampoco
rechazaríamos la hipótesis inicial. El problema de este
método es doble:

 Por un lado, se requiere de un mayor esfuerzo
computacional,

 Al hacer un mayor número de contrastes aumenta el
error de tipo I (la probabilidad de rechazar la
hipótesis nula
 siendo ésta cierta).

El uso de las técnicas ANOVA nos permiten eludir
ambos problemas.

El objetivo principal de muchos experimentos
consiste en determinar el efecto que sobre alguna
variable dependiente Y tienen distintos niveles de
algún factor X (variable independiente y discreta). El
factor puede ser la temperatura, la empresa que ha
producido el
bien, el día de la semana, etc.

Esencialmente, el diseño para el análisis simple de la
varianza consistirá en obtener muestras aleatorias e
independientes del valor de Y asociado a cada uno de
los distintos niveles del factor X1, X2,..., Xn .
Entonces podremos determinar si los diferentes
niveles del factor tienen un efecto significativo sobre
el valor de la variable dependiente.

El funcionamiento de la técnica ANOVA simple es, a
grandes rasgos, es el siguiente:

A fin de comparar las medias de Y asociadas a los
distintos niveles del factor (X1, X2,..., Xn),
compararemos una medida de la variación entre
diferentes niveles (MS-factor) con una medida de la
variación dentro de cada nivel (MS-error).

Si el MS-factor es significativamente mayor que el MS-
error, concluiremos que las medias asociadas a
diferentes niveles del factor son distintas. Esto
significa que el factor influye significativamente
sobre la variable dependiente Y. Si, por el contrario, el
MS-factor no es significativamente mayor que el MS-
error, no rechazaremos la hipótesis nula de que todas
las medias, asociadas a diferentes niveles del factor,
coinciden.

El modelo asociado al i-ésimo nivel del factor X será:
Y = μi + ε
donde:

• Los errores ε están normalmente distribuidos con
media 0
• Los errores ε son independientes
• Los errores ε tienen varianza constante σ2

Para verificar estos supuestos suele ser útil realizar un gráfico
que muestre la distribución de las observaciones por niveles: si
en el gráfico se aprecian diferencias entre niveles por lo que a
la variación de las observaciones se refiere, es muy probable
que tengamos un problema con el supuesto de varianza
constante; si aparecen valores extremos, puede que no se
cumpla el supuesto de normalidad; por otra parte, si el tiempo
fuese un factor importante a la hora de registrar
observaciones, podría ocurrir que observaciones consecutivas
estuviesen correlacionadas, con lo que no se cumpliría el
supuesto de independencia.

Ejemplo:
Se realiza un estudio para comparar la eficiencia
de tres programas terapéuticos para el
tratamiento del acné. Se emplean tres métodos y
se comparan respecto a su eficacia.

 N = 35 pacientes
 k = 3 tratamientos a comparar.
 Se obtienen tres muestras independientes y
aleatorias de tamaños:
n 1 = 10,
n 2 = 12 y n 3 = 13

Factor : Niveles :
El factor que interesa es el Se está estudiando tres
tipo de tratamiento. tratamientos; de este
Ningún otro factor, tal como modo el experimento está
edad, tipo de piel, hábitos
dietéticos o sexo del diseñado para tres niveles.
paciente, se consideran.

Aleatoriedad :
La distribución de personas en cada subgrupo se ha
realizado en forma aleatoria e independiente, extraídas
de las poblaciones con respuestas medias:
1 2 3

Se quiere comparar la hipótesis nula de que los
tratamientos tienen el mismo efecto medio:

H0 :1=2 =3
(no hay diferencia en los efectos medios de los
tratamientos)

Ha :i ≠ j
(al menos una media difiere de las otras)

Nivel del factor  Las respuestas
(tratamiento recibido)
Nivel I Nivel II Nivel III observadas son el
48.6 68 67.5 porcentaje de mejorías
49.4 67 62.5 registradas por
50.1 70.1 64.2
49.8 64.5 62.5
paciente en el número
50.6 68 63.9 de lesiones por acné al
50.8 68.3 64.8 final de 16 semanas del
47.1
52.5
71.9
71.5
62.3
61.4
tratamiento.
49 69.9 67.4
46.7 68.9 65.4
67.8 63.2
68.9 61.2
60.5

 Media muestral de
respuestas al
tratamiento I = 49.46
 Media muestral de Nivel del factor
(tratamiento recibido)
respuestas al Nivel I Nivel II Nivel III
48.6 68 67.5
tratamiento II = 68.73 49.4 67 62.5
50.1 70.1 64.2
 Media muestral de 49.8
50.6
64.5
68
62.5
63.9
respuestas al 50.8
47.1
68.3
71.9
64.8
62.3
tratamiento III= 63.60 52.5
49
71.5
69.9
61.4
67.4

 Media muestral de
46.7 68.9 65.4
67.8 63.2

todas las respuestas = 68.9 61.2
60.5

61.23 494.6 824.8 826.8 2146.2
49.46 68.73 63.6 61.32

 Si los tratamientos (niveles del factor) no tienen
efecto, entonces sus medias serían la misma que
la media global. Si algún tratamiento tiene
efecto, la diferencia entre los resultados de este
tratamiento y la media global indicará tal efecto.

 Dentro de cada uno de los tres subgrupos hay
cierta variabilidad natural de la respuesta de
cada persona en torno a la respuesta de su
subgrupo. Esta diferencia se conoce como error
aleatorio.

La desviación de la respuesta que experimenta
cada individuo involucrado en el experimento
con respecto a la respuesta global (de los tres
tratamientos) se puede dividir en dos
componentes:

 
La desviación de la La desviación de
respuesta del su su propia
subgrupo con respuesta con
respecto a la respecto a la
respuesta global. respuesta de su
subgrupo

Sustituyendo las medias estimadas en el modelo
conceptual anteriormente expuesto obtenemos:

Si se eleva al
cuadrado cada
identidad del
modelo lineal
y se suman
las respuestas
de TODOS los
individuos
involucrados
en el
experimento
se obtiene

Cuadrado medio de los
tratamientos.

Cuadrado medio del
error

La respuesta de cada uno de los individuos (no
importando que tratamiento se le haya aplicado)
es casi igual a la respuesta global. Tomado en
cuenta los nuevos estadísticos en esta hipótesis
tenemos:

MSStotal  0

Esto es:
MSStr  MSSE

Para que Ho sea cierta,
esperamos que MSTr y MSE
estén próximos; si Ho no
es cierta, esperamos que
MSTr sea mayor que MSE

Por lo que para poder
contrastar Ho se utiliza el
cociente de MSTR / MSE
que tiene una distribución
de probabilidad F con k-1
y N -k grados de libertad

Nivel I Nivel II Nivel III
x1j (x1j-Xm1)^2 x2j (x2j-Xm2)^2 x3j (x3j-Xm3)^2

48.6 0.7396 68 0.5329 67.5 15.21
49.4 0.0036 67 2.9929 62.5 1.21
50.1 0.4096 70.1 1.8769 64.2 0.36
49.8 0.1156 64.5 17.8929 62.5 1.21
50.6 1.2996 68 0.5329 63.9 0.09
50.8 1.7956 68.3 0.1849 64.8 1.44
47.1 5.5696 71.9 10.0489 62.3 1.69
52.5 9.2416 71.5 7.6729 61.4 4.84
49 0.2116 69.9 1.3689 67.4 14.44
46.7 7.6176 68.9 0.0289 65.4 3.24
suma 67.8 0.8649 63.2 0.16
Media M1 27.004 68.9 0.0289 61.2 5.76
49.46 Media M2 suma 60.5 9.61
68.73 44.0268 Media M3 suma
Media total 63.6 59.26
61.32
10*(Xm1-Xmt)^2 SSe
1406.596 130.2908 MSe
12*(Xm2-Xmt)^2 4.0715875
658.8972
13*(Xm3-Xmt)^2 F en tablas
67.5792 2 , 32 gl
SStr F observado alfa = .01
2133.0724 MStr 261.946035 5.33634291
1066.5362

Se acostumbra sintetizar los resultados más
importantes del Análisis de Varianza en un
cuadro ANOVA tal como sigue:

Referencia DF SS MS F
Tratamiento 2 2133.6 1066.8 262.1
Error 32 130.3 4.07
Total 34 2263.96

El punto crítico para un contraste con alfa = 0.01
es aproximadamente 5.39.

Puesto que el valor observado de F es 262.12 es
mucho mayor que 5.39.

Tenemos prueba estadística de que los tres
tratamientos difieren en el efecto medio.

Análisis de varianza de dos factores con una sola muestra por
grupo

Suponga que usted haya experimentado con levadura para
una receta de panes dulces. Parece ser que la cantidad de
azúcar y la temperatura del agua afectan el tamaño de los
panes. Basándose en los siguientes datos, realizar un
análisis de varianza para averiguar lo que es significativo de
estas recetas.

El resultado del ANOVA (Análisis de varianza) indica el valor
estadístico de la "F." En este caso el valor de la "F" por las
filas (cantidad de azúcar) es 23.15.

Para saber si estos resultados son significativos (o sea, si la
probabilidad "P" tiene un valor menor a 0.05), el valor de la
"F" observado necesita ser al menos 6.94 (o sea, el valor
crítico de la F).

Entonces, como el valor de "F" observado es de 23.15 y es
mucho mayor que el valor crítico de la F (6.94), estamos
seguros que los resultados de nuestras pruebas son
significativas.

El valor de la "F" para las columnas (temperatura del agua)
es igual a 378.53. Esto es también significativo, porque el
valor de "F" crítico es solamente 6.94.

En otras palabras, existe una relación significativa en la
cantidad de azúcar, la temperatura del agua y el tamaño de
los panes dulces. La probabilidad muestra a qué nivel los
resultados son estadísticamente significativos.

Suponga que usted tenga un restaurante y haya creado
una nueva receta de salsa para las enchiladas.

Por alguna razón parece ser que a sus clientes varones
les gusta más la salsa anterior que la nueva.

Pero también parece ser que a sus clientes femeninas
prefieren la nueva salsa que la anterior.

Usted decide realizar una prueba con un grupo de 10
mujeres y 10 varones dándole a probar las dos
salsas, basándose en una escala de 100 puntos para el
sabor de las dos salsas.

¿Existe alguna relación significativa desde el punto de
vista de los clientes varones y clientes femeninas y cómo
ven la nueva y la anterior salsa para las enchiladas?

hombres mujeres
85 69
74 65
reseta 96 63
nueva 62 70
80 72
78 59
90 64
79 70
85 68
80 73
68 85
reseta 64 75
anterior 62 97
69 80
73 88
61 81
64 91
72 83
70 84
71 82

NOTA: para que en EXCEL trabaje correctamente el algoritmo
hay que incorporar a la matriz de datos la fila y la columna de
títulos.

Análisis de varianza de dos factores con varias muestras por grupo

RESUMEN hombres mujeres Total

Cuenta 10 10 20
Suma 809 673 1482
Promedio 80.9 67.3 74.1

Varianza 84.7666667 19.5666667 98.0947368

Cuenta 10 10 20
Suma 674 846 1520
Promedio 67.4 84.6 76

Varianza 18.7111111 38.0444444 104.736842

Total
Cuenta 20 20
Suma 1483 1519
Promedio 74.15 75.95

Varianza 96.9763158 106.05

ANÁLISIS DE VARIANZA

Origen de las Suma de Grados de Promedio de Valor crítico
variaciones cuadrados libertad los cuadrados F Probabilidad para F

Muestra 36.1 1 36.1 0.8963995 0.35006116 4.11316528

Columnas 32.4 1 32.4 0.80452476 0.3757033 4.11316528

Interacción 2371.6 1 2371.6 58.8892261 4.3769E-09 4.11316528
Dentro del
grupo 1449.8 36 40.2722222

Total 3889.9 39

El resultado del ANOVA (Análisis de varianza) indica el
valor estadístico de la "F." En este caso el valor de la "F"
de la muestra (receta anterior y receta nueva) es 0.896.

Para saber si estos resultados son significativos (o sea,
si la probabilidad "P" tiene un valor menor a 0.05), el
valor de la "F" necesita ser al menos 4.11 (o sea, el valor
crítico de la F).

Entonces, como el valor de nuestra "F" es de 0.896 y es
no es mayor que el valor crítico de la F, no podemos
decir que existe alguna diferencia significativa.

Sin embargo, a la vez necesitamos interpretar qué
significa el valor de F que está relacionado al efecto de
una interacción. Siempre un efecto de interación
sobrepasa el efecto principal.

En este caso tenemos un gran efecto de interacción (el
valor de la "F"=58.89).

En otras palabras, sí existe una diferencia significativa
entre la opinión de los hombres y de las mujeresa
relacionada a la receta anterior y a la nueva.

La probabilidad demuestra a qué nivel los resultados son
estadísticamente significativos.

Referencias:

http://www.uoc.edu/in3/emath/

http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA
2ONE.HTM

http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA
2MANY.HTM

Análisis de varianza (ANOVA) para contrastar hipótesis sobre medias poblacionales

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (7)

Similar a Análisis de varianza (ANOVA) para contrastar hipótesis sobre medias poblacionales

Similar a Análisis de varianza (ANOVA) para contrastar hipótesis sobre medias poblacionales (20)

Más de Consuelo Valle

Más de Consuelo Valle (20)

Último

Último (20)

Análisis de varianza (ANOVA) para contrastar hipótesis sobre medias poblacionales