Anova Simple

ANOVA simple

Contraste de ANOVA

El ANOVA simple trata de analizar si dos variables Y (continua, llamada
variable respuesta) y F (categ´rica, llamada factor), son independientes
o
o no (es decir, si hay relaciń entre ellas, si hay diferencias significativas en
o
el valor de la primera segń el valor que tome la segunda, si el factor influye
u
en la variable respuesta, etc.). Por ejemplo, podemos pensar en la variable
Y como el tiempo que tarda en curar un paciente, y en el factor F como
el medicamento que se le administra. Si consideramos que el factor tiene k
valores posibles, que representamos por F1 , . . . , Fk , y que llamamos niveles
del factor (por ejemplo, en el ejemplo anterior podemos pensar que hay k
medicamentos posibles), entonces la hip´tesis que se contrasta es:
o

H 0 : µ1 = µ2 = · · · = µk
H1 : alguna µi es distinta

donde µ1 , . . . , µk representan las medias correspondientes a cada nivel del
factor (si Y es el tiempo de curaciń y F el tipo de medicamento, entonces
o
µ1 ser´ el tiempo medio que tardan en curar los pacientes a los que se les ad-
ıa
ministr´ el medicamento F1 , etc). Observemos que, si aceptamos H0 , estamos
o
diciendo que en todos los casos la media de Y es la misma independientemente
del valor del factor, y por tanto que Y y F son independientes (por ejemplo,
que el tiempo medio de curaciń es el mismo siempre, y por lo tanto que el
o
tipo de medicamento no influye especialmente en el tiempo de cura). La media
conjunta de todos los datos se llama media global, µ. En caso de aceptar
H0 , estaremos aceptando no s´lo la igualdad entre las µi , sino tambiń que
o e
todas las µi son iguales a la media global, µ.

Para contrastar H0 , utilizaremos la nociń de variabilidad, que esencialmente
o
coincide con la de dispersiń. Para medir la variabilidad de los datos Yij (el
o
primer sub´ındice, i, indica el nivel de factor al que pertenece el dato, y el
segundo, j, el orden que ocupa el dato dentro de los recogidos en ese nivel)
utilizaremos la suma de cuadrados totales (SCT), y la descompondremos
en suma de dos: suma de cuadrados residual o intra-grupos (SCR),
que tiene que ver con la variabilidad dentro de cada nivel de factor, y la
suma de cuadrados explicada o entre-grupos (SCR), que tiene que
ver con las diferencias entre la media de cada factor, y la media global. M´s
a
concretamente, se cumple:

1

(Yij − µ)2 = (Yij − µi )2 + (µi − µ)2
SCT SCR SCE

Claramente, si H0 es cierta, entonces SCE ser´ pequeã frente a SCT. De
a n
hecho, se llama porcentaje de variabilidad explicada a (SCE/SCT )·100.
En general, podemos decir que H0 ser´ aceptada si el porcentaje anterior no
a
es demasiado alto. Si es suficientemente alto, entenderemos que el factor que
hemos introducido est´ realmente explicando las diferencias que observamos
a
entre los valores de la variable Y , y por tanto que efectivamente hay cierta
relaciń entre Y y F , con lo cu´l H0 es falsa. Observemos tambiń que si
o a e
H0 se rechaza, ello no implica que todas las µi sean distintas entre s´ sino
ı,
simplemente que alguna(s) de ellas es diferente a las dem´s. De hecho, pueden
a
localizarse los diferentes grupos que aparecen entre los niveles del factor (i.e.
las medias que se consideran similares entre s´ mediante la opciń Contraste
ı) o
m´ltiple de rango, de Statgraphics.
u

Las diferencias que aparecen entre los datos, y que no son explicadas por el fac-
tor introducido, se consideran debidas al azar. Se llama error experimental
a la parte de la variabilidad de los datos debida al azar. Puede estimarse como
la ra´ cuadrada de la suma de cuadrados medios intra-grupos, que aparece
ız
en la tabla de ANOVA (esta tabla la proporciona Statgraphics).

Modelo de ANOVA

En el modelo de ANOVA se supone que cada observaciń Yij puede expresarse
o
como
Yij = µi + ij = µ + αi + ij
A los valores ij se les llama residuos, y se corresponden con las desviaciones
de cada dato respecto a la media del nivel del factor al que pertenecen (µi ); se
consideran debidos al azar. Los valores αi se llaman efectos de cada nivel (αi
es el efecto del nivel i, etc.) y se consideran una medida de la “tendencia” que
tienen los datos a desviarse de la media global, segń el nivel del factor al que
u
pertenezcan (por ejemplo, en el caso del tiempo de curaciń, el efecto de cada
o
medicamento ser´ una medida del “adelanto” o “retraso” en cuanto al tiempo
ıa
medio de curaciń que supone la administraciń de uno u otro medicamento).
o o
Los efectos se calculan como

αi = µi − µ

Adem´s, en t´rminos de los efectos, las hip´tesis nula y alternativa que se
a e o
contrastan en el ANOVA, pueden enunciarse como

H0 : α1 = α2 = · · · = αk = 0
H1 : algń αi = 0
u

2

Hip´tesis del modelo: Para que lo anterior “funcione”, es necesario que las
o
variables y los datos cumplan ciertos requisitos:

(i) Y es normal en cada nivel de factor.
(ii) La varianza es la misma en cada nivel de factor (homocedasticidad).
(iii) Independencia de las observaciones. Tiene que ver con que no haya ningń u
factor que altere el proceso de recogida de datos (por ejemplo, la pereza del
observador, la posibilidad de que algunos encuestados “pasen informaciń” o
a otros posibles encuestados y se altere de ese modo el resultado, etc.). En
la prćtica, se comprueba contrastando si los residuos son aleatorios (lo cu´l
a a
requiere guardarlos primero, utilizando la opciń apropiada de Statgraph-
o
ics).

Las condiciones anteriores implican que los residuos siguen una distribuciń
o
normal de media 0 y desviaciń t´
o ıpica igual a la observada en cada nivel de
factor, y son independientes unos de otros (i.e. son aleatorios).

Si alguna de las hip´tesis de arriba falla, las conclusiones del ANOVA son
o
dudosas.

Contraste de Kruskal-Wallis: Este es un contraste no-param´trico, que
e
unicamente requiere que la variable Y sea continua. Se trata de un contraste
´
sobre la igualdad de las medianas. Por lo tanto, la hip´tesis nula es, en este
o
caso,
H0 : M1 = M2 = · · · = Mk
H1 : alguna Mi es distinta
Este contraste utiliza, como otros contrastes no-param´tricos, la nociń de
e o
rango. La idea es ordenar de menor a mayor todos los datos (mezclando niveles
de factor distintos), asignar rangos, y comparar despu´s los rangos medios
e
correspondientes a los distintos niveles del factor.

Si las hip´tesis de ANOVA (que hemos descrito arriba) se verifican, este
o
contraste proporciona otro m´todo para comprobar esencialmente la misma
e
condiciń. Si alguna de las hip´tesis de arriba falla, este test permite realizar
o o
con fiabilidad el contraste pedido.

3

Anova Simple

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (15)

Similar a Anova Simple

Similar a Anova Simple (20)

Más de Instituto Tecnologico De Pachuca

Más de Instituto Tecnologico De Pachuca (20)

Anova Simple