ANOVA DE UN FACTOR
Adriana Quintero Palomino
Departamento de Matem´aticas, F´ısica y Estad´ıstica
Universidad de La Sabana
ANOVA DE UN FACTOR
ANOVA DE UN FACTOR
DEFINICI´IN DEL ANOVA DE UN SOLO FACTOR
De k poblaciones se seleccionan muestras aleatorias de tama˜no n. Las k
poblaciones diferentes se clasifican con base en un criterio ´unico, como
tratamientos o grupos distintos. En la actualidad el t´ermino tratamiento se
utiliza por lo general para designar las diversas clasificaciones, ya sean
diferentes agregados, analistas, fertilizadores o regiones del pa´ıs.
Tratamiento: 1 2 ... i ... k
y11 y21 ... yi1 ... yk1
y12 y22 ... yi2 ... yk2
...
...
...
...
y1n y2n ... yin ... ykn
Total Y1. Y2. ... Yi. ... Yk. Y..
Media ¯y1. ¯y2. ... ¯yi. ... ¯yk. ¯y..
ANOVA DE UN FACTOR
ANOVA DE UN FACTOR
SUPOSICIONES E HIP ´OTESIS DEL ANOVA DE UN SOLO FACTOR
Se supone que las k poblaciones son independientes y que est´an distribuidas
en forma normal con medias µ1, µ2, . . . , µk, y varianza com´un σ2. Estas
suposiciones son m´as aceptables mediante la aleatoriedad. Se desean obtener
m´etodos adecuados para probar las hip´otesis
H0 : µ1 = µ2 = . . . = µk
H1: Al menos dos de las medias no son iguales.
Sea que yij denote la j-´esima observaci´on del i-´esimo tratamiento, y el
acomodo de los datos es el que se observa en la tabla anterior. Aqu´ı, Yi. es el
total de todas las observaciones de la muestra, del i-´esimo tratamiento, ¯yi., es
la media de todas las observaciones en la muestra del i-´esimo tratamiento, Y..
es el total de todas las nk observaciones, y ¯y.. es la media de todas las nk
observaciones.
ANOVA DE UN FACTOR
ANOVA DE UN FACTOR
RESOLUCI ´ON DE LA VARIABILIDAD TOTAL EN COMPONENTES
Nuestra prueba se basar´a en una comparaci´on de dos estimados
independientes de la varianza poblacional com´un σ2. Dichos estimadores se
obtendr´an haciendo la partici´on de la variabilidad total de nuestros datos,
denotados mediante la sumatoria doble
k
i=1
(yij − ¯y..)2
en dos componentes.
IDENTIDAD DE LA SUMA DE CUADRADOS
k
i=1
(yij − ¯y..)2
= n
k
i=1
(¯yi. − ¯y..)2
−
k
i=1
(yij − ¯yi.)2
ANOVA DE UN FACTOR
ANOVA DE UN FACTOR
Los t´erminos de la identidad de la suma de cuadrados se identifican con la
siguiente notaci´on:
TRES MEDIDAS IMPORTANTES DE VARIABILIDAD
STC = k
i=1(yij − ¯y..)2 = suma total de cuadrados
SCT = n k
i=1(¯yi. − ¯y..)2 = suma de los cuadrados del tratamiento
SCE = k
i=1(yij − ¯yi.)2 = suma de los cuadrados del error
Entonces, la identidad de la suma de los cuadrados se puede representar
simb´olicamente con la ecuaci´on
STC = SCT + SCE
La identidad anterior expresa c´omo las variaciones entre los tratamientos y
dentro de los tratamientos contribuyen a la suma total de cuadrados.
ANOVA DE UN FACTOR
ANOVA DE UN FACTOR
RAZ ´ON F PARA PROBAR LA IGUALDAD DE LAS MEDIAS
Cuando H0 es verdadera, la raz´on f =
s2
1
s2
2
es un valor de la variable aleatoria
F, que tiene la distribuci´on F con k − 1 y k(n − 1) grados de libertad. Como
s2
1 sobrestima a σ2 cuando H0 es falsa, se tiene una prueba de una cola con la
regi´on cr´ıtica localizada por completo en la cola derecha de la distribuci´on. A
un nivel de significancia de α se rechaza la hip´otesis nula H0 cuando
f > fα[k − 1, k(n − 1)]. Otro m´etodo, el del valor P, sugiere que la evidencia
a favor o en contra de H0 es P = Pf[k − 1, k(n − 1)] > f.
ANOVA DE UN FACTOR
ANOVA DE UN FACTOR
AN ´ALISIS DE VARIANZA PARA EL ANOVA DE UN SOLO FACTOR
Los c´alculos para un problema de an´alisis de varianza por lo general se
resumen en forma tabular, como se observa en la siguiente tabla:
Fuente de Suma de Grados de Cuadrados f
variaci´on cuadrados libertad medios calculada
Tratamientos SCT k − 1 s2
1 = SCT
K−1
s2
1
s2
Error SCE k(n − 1) s2 = SCE
k(n−1)
Total STC kn − 1
PRUEBA DE LA IGUALDAD DE VARIAS VARIANZAS
IGUALDAD DE VARIAS VARIANZAS
PRUEBA DE BARTLETT
En primer lugar calculamos las k varianzas muestrales s2
1 , s2
2, . . ., s2
k a
partir de muestras de tama˜no n1, n2, . . . , nk, con N = k
i=1 ni.
En segundo lugar combinamos las varianzas muestrales para obtener la
estimaci´on agrupada
s2
p =
1
N − k
k
i=1
(ni − 1)s2
i
Ahora
b =
[(s2
1)n1−1(s2
2)n2−1 . . . (s2
k)nk−1]1/(N−k)
s2
p
es un valor de una variable aleatoria B que tiene la distribuci´on de
Bartlett.
PRUEBA DE LA IGUALDAD DE VARIAS VARIANZAS
IGUALDAD DE VARIAS VARIANZAS
PRUEBA DE BARTLETT
Para el caso especial en que n1 = n2 = . . . = nk = n, se rechaza H0 a un
nivel de significancia α si b < bk(α; n), donde bk(α; n) es el valor cr´ıtico que
deja una ´area de tama˜no α en el extremo izquierdo de la distribuci´on de
Bartlett.
COMPARACIONES M ´ULTIPLES
COMPARACIONES O CONTRASTES
COMPARACI ´ONES M ´ULTIPLES
El an´alisis de varianza es un procedimiento poderoso para probar la
homogeneidad de un conjunto de medias. No obstante, si se rechazara la
hip´otesis nula y se aceptara la alternativa que se plante´o (que no todas las
medias son iguales), a´un no se sabr´ıa cu´ales de las medias de la poblaci´on son
iguales y cu´ales son diferentes.
A menudo es de inter´es efectuar varias comparaciones por pares (quiz´a todas
lasque sean posibles) entre los tratamientos. En realidad, una comparaci´on por
pares se puede ver como un contraste simple, es decir, una prueba de
H0 : µi?µj = 0
H1 : µi − µj = 0
para toda i = j. Hacer todas las comparaciones posibles por pares entre las
medias puede ser muy ben´efico cuando no se conocen a priori contrastes com-
plejos particulares.
COMPARACIONES M ´ULTIPLES
COMPARACI ´ONES M ´ULTIPLES
PROCEDIMIENTO: COMPARACI ´ONES M ´ULTIPLES
La prueba se desarrolla usando una F, una t, o el m´etodo de los intervalos de
confianza.
Si se usa la t, se tiene que
t =
¯yi. − ¯yj.
s 2/n
donde s es la ra´ız cuadrada del cuadrado medio del error y n es el tama˜no
de la muestra por tratamiento.
Relaci´on entre T y F: Si el valor t se eleva al cuadrado, el resultado tiene
exactamente la misma forma que el valor de f para una prueba del
contraste. En efecto,
f =
(¯yi. − ¯yj.)2
s2 1/n1 + 1/n2
COMPARACIONES M ´ULTIPLES
COMPARACI ´ONES M ´ULTIPLES
PROCEDIMIENTO: COMPARACI ´ONES M ´ULTIPLES
La prueba se desarrolla usando una F, una t, o el m´etodo de los intervalos de
confianza.
M´etodo del intervalo de confianza para una comparaci´on por pares: Si se
calcula un intervalo de confianza del 100(1 − α/2) % sobre µi − µj, se
tiene que
(¯yi. − ¯yj.) ± tα/2s 2/n
donde tα/2 es el punto superior de 100(1 − α/2) % de una distribuci´on t
con N − 1 grados de libertad (grados de libertad que provienen de s2).
La prueba de un contraste simple µi − µj no implica m´as que observar si
el intervalo de confianza anterior cubre o no al cero.
COMPARACIONES M ´ULTIPLES
BIBLIOGRAF´IA
Walpole, Ronald E and Myers, Raymond H and Myers, Sharon L.
Probabilidad y estad´ıstica para ingenier´ıa y ciencias. Pearson Educaci´on.
Novena edici´on. 2012.
Navidi, William Cyrus. Statistics for engineers and scientists.
McGraw-Hill Higher Education. Third edition. 2011.

Aov1 f

  • 2.
    ANOVA DE UNFACTOR Adriana Quintero Palomino Departamento de Matem´aticas, F´ısica y Estad´ıstica Universidad de La Sabana
  • 3.
    ANOVA DE UNFACTOR ANOVA DE UN FACTOR DEFINICI´IN DEL ANOVA DE UN SOLO FACTOR De k poblaciones se seleccionan muestras aleatorias de tama˜no n. Las k poblaciones diferentes se clasifican con base en un criterio ´unico, como tratamientos o grupos distintos. En la actualidad el t´ermino tratamiento se utiliza por lo general para designar las diversas clasificaciones, ya sean diferentes agregados, analistas, fertilizadores o regiones del pa´ıs. Tratamiento: 1 2 ... i ... k y11 y21 ... yi1 ... yk1 y12 y22 ... yi2 ... yk2 ... ... ... ... y1n y2n ... yin ... ykn Total Y1. Y2. ... Yi. ... Yk. Y.. Media ¯y1. ¯y2. ... ¯yi. ... ¯yk. ¯y..
  • 4.
    ANOVA DE UNFACTOR ANOVA DE UN FACTOR SUPOSICIONES E HIP ´OTESIS DEL ANOVA DE UN SOLO FACTOR Se supone que las k poblaciones son independientes y que est´an distribuidas en forma normal con medias µ1, µ2, . . . , µk, y varianza com´un σ2. Estas suposiciones son m´as aceptables mediante la aleatoriedad. Se desean obtener m´etodos adecuados para probar las hip´otesis H0 : µ1 = µ2 = . . . = µk H1: Al menos dos de las medias no son iguales. Sea que yij denote la j-´esima observaci´on del i-´esimo tratamiento, y el acomodo de los datos es el que se observa en la tabla anterior. Aqu´ı, Yi. es el total de todas las observaciones de la muestra, del i-´esimo tratamiento, ¯yi., es la media de todas las observaciones en la muestra del i-´esimo tratamiento, Y.. es el total de todas las nk observaciones, y ¯y.. es la media de todas las nk observaciones.
  • 5.
    ANOVA DE UNFACTOR ANOVA DE UN FACTOR RESOLUCI ´ON DE LA VARIABILIDAD TOTAL EN COMPONENTES Nuestra prueba se basar´a en una comparaci´on de dos estimados independientes de la varianza poblacional com´un σ2. Dichos estimadores se obtendr´an haciendo la partici´on de la variabilidad total de nuestros datos, denotados mediante la sumatoria doble k i=1 (yij − ¯y..)2 en dos componentes. IDENTIDAD DE LA SUMA DE CUADRADOS k i=1 (yij − ¯y..)2 = n k i=1 (¯yi. − ¯y..)2 − k i=1 (yij − ¯yi.)2
  • 6.
    ANOVA DE UNFACTOR ANOVA DE UN FACTOR Los t´erminos de la identidad de la suma de cuadrados se identifican con la siguiente notaci´on: TRES MEDIDAS IMPORTANTES DE VARIABILIDAD STC = k i=1(yij − ¯y..)2 = suma total de cuadrados SCT = n k i=1(¯yi. − ¯y..)2 = suma de los cuadrados del tratamiento SCE = k i=1(yij − ¯yi.)2 = suma de los cuadrados del error Entonces, la identidad de la suma de los cuadrados se puede representar simb´olicamente con la ecuaci´on STC = SCT + SCE La identidad anterior expresa c´omo las variaciones entre los tratamientos y dentro de los tratamientos contribuyen a la suma total de cuadrados.
  • 7.
    ANOVA DE UNFACTOR ANOVA DE UN FACTOR RAZ ´ON F PARA PROBAR LA IGUALDAD DE LAS MEDIAS Cuando H0 es verdadera, la raz´on f = s2 1 s2 2 es un valor de la variable aleatoria F, que tiene la distribuci´on F con k − 1 y k(n − 1) grados de libertad. Como s2 1 sobrestima a σ2 cuando H0 es falsa, se tiene una prueba de una cola con la regi´on cr´ıtica localizada por completo en la cola derecha de la distribuci´on. A un nivel de significancia de α se rechaza la hip´otesis nula H0 cuando f > fα[k − 1, k(n − 1)]. Otro m´etodo, el del valor P, sugiere que la evidencia a favor o en contra de H0 es P = Pf[k − 1, k(n − 1)] > f.
  • 8.
    ANOVA DE UNFACTOR ANOVA DE UN FACTOR AN ´ALISIS DE VARIANZA PARA EL ANOVA DE UN SOLO FACTOR Los c´alculos para un problema de an´alisis de varianza por lo general se resumen en forma tabular, como se observa en la siguiente tabla: Fuente de Suma de Grados de Cuadrados f variaci´on cuadrados libertad medios calculada Tratamientos SCT k − 1 s2 1 = SCT K−1 s2 1 s2 Error SCE k(n − 1) s2 = SCE k(n−1) Total STC kn − 1
  • 9.
    PRUEBA DE LAIGUALDAD DE VARIAS VARIANZAS IGUALDAD DE VARIAS VARIANZAS PRUEBA DE BARTLETT En primer lugar calculamos las k varianzas muestrales s2 1 , s2 2, . . ., s2 k a partir de muestras de tama˜no n1, n2, . . . , nk, con N = k i=1 ni. En segundo lugar combinamos las varianzas muestrales para obtener la estimaci´on agrupada s2 p = 1 N − k k i=1 (ni − 1)s2 i Ahora b = [(s2 1)n1−1(s2 2)n2−1 . . . (s2 k)nk−1]1/(N−k) s2 p es un valor de una variable aleatoria B que tiene la distribuci´on de Bartlett.
  • 10.
    PRUEBA DE LAIGUALDAD DE VARIAS VARIANZAS IGUALDAD DE VARIAS VARIANZAS PRUEBA DE BARTLETT Para el caso especial en que n1 = n2 = . . . = nk = n, se rechaza H0 a un nivel de significancia α si b < bk(α; n), donde bk(α; n) es el valor cr´ıtico que deja una ´area de tama˜no α en el extremo izquierdo de la distribuci´on de Bartlett.
  • 11.
    COMPARACIONES M ´ULTIPLES COMPARACIONESO CONTRASTES COMPARACI ´ONES M ´ULTIPLES El an´alisis de varianza es un procedimiento poderoso para probar la homogeneidad de un conjunto de medias. No obstante, si se rechazara la hip´otesis nula y se aceptara la alternativa que se plante´o (que no todas las medias son iguales), a´un no se sabr´ıa cu´ales de las medias de la poblaci´on son iguales y cu´ales son diferentes. A menudo es de inter´es efectuar varias comparaciones por pares (quiz´a todas lasque sean posibles) entre los tratamientos. En realidad, una comparaci´on por pares se puede ver como un contraste simple, es decir, una prueba de H0 : µi?µj = 0 H1 : µi − µj = 0 para toda i = j. Hacer todas las comparaciones posibles por pares entre las medias puede ser muy ben´efico cuando no se conocen a priori contrastes com- plejos particulares.
  • 12.
    COMPARACIONES M ´ULTIPLES COMPARACI´ONES M ´ULTIPLES PROCEDIMIENTO: COMPARACI ´ONES M ´ULTIPLES La prueba se desarrolla usando una F, una t, o el m´etodo de los intervalos de confianza. Si se usa la t, se tiene que t = ¯yi. − ¯yj. s 2/n donde s es la ra´ız cuadrada del cuadrado medio del error y n es el tama˜no de la muestra por tratamiento. Relaci´on entre T y F: Si el valor t se eleva al cuadrado, el resultado tiene exactamente la misma forma que el valor de f para una prueba del contraste. En efecto, f = (¯yi. − ¯yj.)2 s2 1/n1 + 1/n2
  • 13.
    COMPARACIONES M ´ULTIPLES COMPARACI´ONES M ´ULTIPLES PROCEDIMIENTO: COMPARACI ´ONES M ´ULTIPLES La prueba se desarrolla usando una F, una t, o el m´etodo de los intervalos de confianza. M´etodo del intervalo de confianza para una comparaci´on por pares: Si se calcula un intervalo de confianza del 100(1 − α/2) % sobre µi − µj, se tiene que (¯yi. − ¯yj.) ± tα/2s 2/n donde tα/2 es el punto superior de 100(1 − α/2) % de una distribuci´on t con N − 1 grados de libertad (grados de libertad que provienen de s2). La prueba de un contraste simple µi − µj no implica m´as que observar si el intervalo de confianza anterior cubre o no al cero.
  • 14.
    COMPARACIONES M ´ULTIPLES BIBLIOGRAF´IA Walpole,Ronald E and Myers, Raymond H and Myers, Sharon L. Probabilidad y estad´ıstica para ingenier´ıa y ciencias. Pearson Educaci´on. Novena edici´on. 2012. Navidi, William Cyrus. Statistics for engineers and scientists. McGraw-Hill Higher Education. Third edition. 2011.