Análisis de Varianza (ANOVA)
9.

Comparando más de dos medias. Análisis de Varianza.

Objetivos:
•
9.1
9.2
9.3
9.4
9.5
9.6

Al finalizar esta unidad el estudiante será capaz de:
Describir los elementos estadísticos de un diseño experimental.
Definir el objetivo de un análisis de varianza.
Formular hipótesis adecuadas para las diferentes situaciones.
Describir la distribución de F.
Construir la tabla de análisis de varianza.
Calcular F e interpretar los resultados de la prueba de hipótesis.

Contenidos:
9.1
9.2
9.3
9.4

Elementos del diseño de experimentos.
Supuestos para la aplicación del análisis.
Análisis de varianza simple.
Análisis de varianza de dos vías.
SITUACION BASICA

 Un factor ( tratamientos) Categórica
 Una variable de respuesta: Cuantitativa
 Pregunta principal: Las medias de cada grupo
difieren o están “afectadas” por el tratamiento?
 Número de grupos: El caso particular de dos
grupos , utilizamos test de t
 Número de grupos: Cuando son más de 2
grupos:
Problema de las comparaciones multiples
COMPARACION DE MAS DE DOS MEDIAS
Cuando se comparan dos medias a nivel de significación α ,
la probabilidad de cometer un error de tipo I es α
Cuando se comparan de a dos a medias tenemos
comparaciones posibles.
P(x=0)=(1-p)^n

a
C2

P(x>0)=1-[(1-p)^n]
a
C2

Probabilidad de cometer un erro tipo I = 1-[(1-α)

]

Para 5 grupos tenemos 10 comparaciones posibles
Para un α = 0,05 :
P(x>0)=1-[(1-0,05)^10]= 0,40
Una solución para este problema es la
CORRECCION DE BONFERRONI :
Suele ser excesivamente severa
En el ejemplo:

α
α '= a
C2

0.05
α'=
= 0,005
10

HAY OTRAS ALTERNATIVAS: UNA DE ELLAS ES EL
ANALISIS DE LA VARIANZA

2

ˆ
sentre
Fc = 2
ˆ
sdentro
ANOVA (ANalysis Of Variance)
Finalidad

Modelo I – efectos fijos

Comparar simultáneamente
varias medias

xij

xBj

x

εBj
Variación total

µB

µ

αB

µA

A

= µ + α i + ε ij

µC

B
bioestadistica

C

grupos
xij

− µ = ( µi − µ ) +
αi

(

) (

( xij − µi )

xij − x = xi − x + xij − xi

En la población

εij

)

En la muestra

Elevando al cuadrado:

( xij − x ) = ( xi − x ) + ( xij − xi )
2

Sumando:

2

(

∑ xij − x
ij

SC TOTAL

)

2

2

(

+ 2( xi − x ) xij − xi

(

= ∑ ( xi − x ) + ∑ xij − xi
ij
ij
2

)

2

SC ENTRE

SC DENTRO de

grupos

grupos (residual)

)
(

∑ xij − x
ij

)

2

(

= ∑ ( xi − x ) + ∑ xij − xi
ij
ij
2

)

2

2

ˆ
sentre

2

SCentre
=
=
glentre

ˆ
sdentro

o residual

SC ENTRE

SC DENTRO de

grupos

SC TOTAL

grupos (residual)

∑ ( xij − x )

2

Recordar

ij

a −1

SCdentro
=
=
gldentro

∑ ( xij − xi )
ij

n−a

2
HIPOTESIS
Modelo I

En general

H 0 : ∀i : α i = 0

H 0 : ∀i : µ i = µ

MEDIAS DE CUADRADOS

MC entre = SC entre/(a-1)
a = no de grupos

ni =

Mod I

tamaño medio
del grupo

MC dentro = SC dentro/(n-a )
n = tamaño de la muestra total

ESTIMA

2
∑α i
2
σ + ni
( a −1)

σ

2

Si Ho es verdadera : MC entre = MC dentro en la población
TEST DE HIPOTESIS

Fcalc = MC entre/ MC dentro
se compara con Ftab (a-1) y (n-a) grados de libertad
Supuestos para la validez del test
Normalidad de
los residuos (ε ij)

C

Homocedasticidad
de los residuos

A

Independencia de las observaciones

B
Ti2 T 2
SC entre =
−
n
ni
i

∑

SC total =

2
∑ x ij
ij

SC dentro = SC total − SC entre
Donde:

Ti = ∑ x ij
j

En el i-ésimo grupo

ni = Tamaño del i-ésimo grupo

T = ∑ x ij

Gran total

ij

n=

∑n
i

i

Tamaño total de la muestra

T2
−

n
FUENTE DE
VARIACION

SUMA DE
CUADRADOS

GL

MEDIA DE
CUADRADOS

ENTRE
GRUPOS

SC entre

a-1

SC entre (a − 1)

DENTRO DE
GRUPOS

SC dentro

n-a

SC dentro (n − a)

TOTAL

SC total

Fcalc

n-1

MC entre
MC dentro

0.4

f (x )

El

Fcalculado se compara con

el Ftabulado con (a-1) y (n-a) GL

0.2

17

0.0
0.0

1.5

3.0

4.5
CALCULO DE LAS SUMAS DE CUADRADOS
A
B
C
D
4.4

8.6

3.4

8.9

5.9

4.5

7.3

0.0

6.2

8.4

8.8

1.7

6.3

8.7

H 0 : ∀i : µi = µ

0.2

2
∑ x ij
ij

= 597.2
n = ∑ ni = 16

0.1
Ti

22.8

30.2

19.8

10.6

T =83.4

ni

4

4

5

3

a=4

n = 16

SC total = 597.2 − 83.4 2 16 = 162.4775
22.8 2 30.2 2 19.8 2 10.6 2 83.4 2
SC entre =
+
+
+
−
= 39.1088
4
4
5
3
16
SC dentro = SC total − SC entre = 162.4775 − 39.1088 = 123.3687
gl
denominador
(n-trat)

gl numerador (trat-1)
FUENTE DE
VARIACION

SUMA DE
CUADRADOS

GL

MEDIA DE
CUADRADOS

Fcalc

ENTRE
GRUPOS

39.1088

3

13.036

1.27

DENTRO DE
GRUPOS

123.3687

12

10.281

TOTAL

162.4775

15

F0.95(3, 12)= 3.49

Fcalc menor que Ftab ⇒ No Se rechaza Ho

⇒

las medias no difieren entre sí
A
2.6
2.4
2.9
2.6
2.7
2.9
2.5
2.8
2.5
3

B
3.2
3
2.8
2.9
3.3
3.1
3
3.4
3.2
3.2

C
2.4
2.8
2.5
2.7
2.5
2.9
2.4
2.6
2.2
2.6

-> trat = A
|
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------|
10
2.69
.2024846
2.4
3
-> trat = B
|
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------|
10
3.11
.1852926
2.8
3.4
-> trat = C
|
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------|
10
2.56
.2065591
2.2
2.9
. oneway x y,b
Analysis of Variance
Source
SS
df
MS
F
Prob > F
-----------------------------------------------------------------------Between groups
1.65266668
2
.826333338
21.01
0.0000
Within groups
1.06200005
27
.039333335
-----------------------------------------------------------------------Total
2.71466672
29
.093609197
Bartlett's test for equal variances:

chi2(2) =

0.1124

Prob>chi2 = 0.945

Ganancia de Peso por Tratamiento

ganancia de peso (kg)
2.5
3

3.5

(30 Preoperative Patients)

2

Comparison of x by y (Bonferroni)
Row Mean-|
Col Mean |
A
B
---------+---------------------B |
.42
|
0.000
C |
-.13
-.55
|
0.463
0.000

A

B

C
Supuestos del ANOVA
• Observaciones Independientes.
• Distribución Normal.
• Varianzas Homogéneas.
Independencia de las Observaciones
• Con el fin de obtener inferencias válidas, resulta
importante determinar si los errores se encuentran
correlacionados.
• El supuesto más importante es la independencia de las
observaciones, pues si no hubo asignación aleatoria de
tratamientos a unidades experimentales, entonces los
resultados pueden incluir un efecto persistente de factores
no considerados en el análisis. Esto invalida el
experimento
Normalidad
• No es tan importante como la Independencia de
las Observaciones, pues el ANOVA es robusto.
Esto quiere decir que, aunque las observaciones no
sean normales, las medias de los tratamientos son
aproximadamente normales debido al Teorema
Central del Limite.
• Ante la falta de normalidad se puede optar por el
uso de transformaciones o, como último recurso,
el uso de métodos no paramétricos.
Homogeneidad de varianzas
• Esta prueba resulta fundamental, pues cualquier situación
de heterogeneidad de las varianzas invalida las inferencias
realizadas.
• Pueden existir grupos muy homogéneos y, en el caso de
existir un grupo muy heterogéneo, sería posible no detectar
diferencias entre los grupos con varianzas homogéneas por
el efecto de la contribución a la varianza de ese grupo
heterogéneo.
• Cuando existe el problema de heterogeneidad de
varianzas, lo apropiado es emplear transformaciones o
métodos no paramétricos.
Análisis de residuos
• Homogeneidad de Varianzas
– Bartlett

• Normalidad
– Kolmogorov-Smirnov

• Autocorrelación
– Durbin-Watson

• Es importante mencionar que el empleo de estadística no
paramétrica o el uso de transformaciones no elimina el
problema de la falta de aleatoriedad (falta de
independencia), es decir, la ejecución incorrecta de un
experimento no tiene un remedio en la etapa del análisis.

La prueba anova

  • 1.
  • 2.
    9. Comparando más dedos medias. Análisis de Varianza. Objetivos: • 9.1 9.2 9.3 9.4 9.5 9.6 Al finalizar esta unidad el estudiante será capaz de: Describir los elementos estadísticos de un diseño experimental. Definir el objetivo de un análisis de varianza. Formular hipótesis adecuadas para las diferentes situaciones. Describir la distribución de F. Construir la tabla de análisis de varianza. Calcular F e interpretar los resultados de la prueba de hipótesis. Contenidos: 9.1 9.2 9.3 9.4 Elementos del diseño de experimentos. Supuestos para la aplicación del análisis. Análisis de varianza simple. Análisis de varianza de dos vías.
  • 3.
    SITUACION BASICA  Unfactor ( tratamientos) Categórica  Una variable de respuesta: Cuantitativa  Pregunta principal: Las medias de cada grupo difieren o están “afectadas” por el tratamiento?  Número de grupos: El caso particular de dos grupos , utilizamos test de t  Número de grupos: Cuando son más de 2 grupos: Problema de las comparaciones multiples
  • 4.
    COMPARACION DE MASDE DOS MEDIAS Cuando se comparan dos medias a nivel de significación α , la probabilidad de cometer un error de tipo I es α Cuando se comparan de a dos a medias tenemos comparaciones posibles. P(x=0)=(1-p)^n a C2 P(x>0)=1-[(1-p)^n] a C2 Probabilidad de cometer un erro tipo I = 1-[(1-α) ] Para 5 grupos tenemos 10 comparaciones posibles Para un α = 0,05 : P(x>0)=1-[(1-0,05)^10]= 0,40
  • 6.
    Una solución paraeste problema es la CORRECCION DE BONFERRONI : Suele ser excesivamente severa En el ejemplo: α α '= a C2 0.05 α'= = 0,005 10 HAY OTRAS ALTERNATIVAS: UNA DE ELLAS ES EL ANALISIS DE LA VARIANZA 2 ˆ sentre Fc = 2 ˆ sdentro
  • 7.
    ANOVA (ANalysis OfVariance) Finalidad Modelo I – efectos fijos Comparar simultáneamente varias medias xij xBj x εBj Variación total µB µ αB µA A = µ + α i + ε ij µC B bioestadistica C grupos
  • 8.
    xij − µ =( µi − µ ) + αi ( ) ( ( xij − µi ) xij − x = xi − x + xij − xi En la población εij ) En la muestra Elevando al cuadrado: ( xij − x ) = ( xi − x ) + ( xij − xi ) 2 Sumando: 2 ( ∑ xij − x ij SC TOTAL ) 2 2 ( + 2( xi − x ) xij − xi ( = ∑ ( xi − x ) + ∑ xij − xi ij ij 2 ) 2 SC ENTRE SC DENTRO de grupos grupos (residual) )
  • 9.
    ( ∑ xij −x ij ) 2 ( = ∑ ( xi − x ) + ∑ xij − xi ij ij 2 ) 2 2 ˆ sentre 2 SCentre = = glentre ˆ sdentro o residual SC ENTRE SC DENTRO de grupos SC TOTAL grupos (residual) ∑ ( xij − x ) 2 Recordar ij a −1 SCdentro = = gldentro ∑ ( xij − xi ) ij n−a 2
  • 10.
    HIPOTESIS Modelo I En general H0 : ∀i : α i = 0 H 0 : ∀i : µ i = µ MEDIAS DE CUADRADOS MC entre = SC entre/(a-1) a = no de grupos ni = Mod I tamaño medio del grupo MC dentro = SC dentro/(n-a ) n = tamaño de la muestra total ESTIMA 2 ∑α i 2 σ + ni ( a −1) σ 2 Si Ho es verdadera : MC entre = MC dentro en la población
  • 12.
    TEST DE HIPOTESIS Fcalc= MC entre/ MC dentro se compara con Ftab (a-1) y (n-a) grados de libertad Supuestos para la validez del test Normalidad de los residuos (ε ij) C Homocedasticidad de los residuos A Independencia de las observaciones B
  • 14.
    Ti2 T 2 SCentre = − n ni i ∑ SC total = 2 ∑ x ij ij SC dentro = SC total − SC entre Donde: Ti = ∑ x ij j En el i-ésimo grupo ni = Tamaño del i-ésimo grupo T = ∑ x ij Gran total ij n= ∑n i i Tamaño total de la muestra T2 − n
  • 17.
    FUENTE DE VARIACION SUMA DE CUADRADOS GL MEDIADE CUADRADOS ENTRE GRUPOS SC entre a-1 SC entre (a − 1) DENTRO DE GRUPOS SC dentro n-a SC dentro (n − a) TOTAL SC total Fcalc n-1 MC entre MC dentro 0.4 f (x ) El Fcalculado se compara con el Ftabulado con (a-1) y (n-a) GL 0.2 17 0.0 0.0 1.5 3.0 4.5
  • 19.
    CALCULO DE LASSUMAS DE CUADRADOS A B C D 4.4 8.6 3.4 8.9 5.9 4.5 7.3 0.0 6.2 8.4 8.8 1.7 6.3 8.7 H 0 : ∀i : µi = µ 0.2 2 ∑ x ij ij = 597.2 n = ∑ ni = 16 0.1 Ti 22.8 30.2 19.8 10.6 T =83.4 ni 4 4 5 3 a=4 n = 16 SC total = 597.2 − 83.4 2 16 = 162.4775 22.8 2 30.2 2 19.8 2 10.6 2 83.4 2 SC entre = + + + − = 39.1088 4 4 5 3 16 SC dentro = SC total − SC entre = 162.4775 − 39.1088 = 123.3687
  • 20.
  • 21.
    FUENTE DE VARIACION SUMA DE CUADRADOS GL MEDIADE CUADRADOS Fcalc ENTRE GRUPOS 39.1088 3 13.036 1.27 DENTRO DE GRUPOS 123.3687 12 10.281 TOTAL 162.4775 15 F0.95(3, 12)= 3.49 Fcalc menor que Ftab ⇒ No Se rechaza Ho ⇒ las medias no difieren entre sí
  • 22.
    A 2.6 2.4 2.9 2.6 2.7 2.9 2.5 2.8 2.5 3 B 3.2 3 2.8 2.9 3.3 3.1 3 3.4 3.2 3.2 C 2.4 2.8 2.5 2.7 2.5 2.9 2.4 2.6 2.2 2.6 -> trat =A | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------| 10 2.69 .2024846 2.4 3 -> trat = B | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------| 10 3.11 .1852926 2.8 3.4 -> trat = C | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------| 10 2.56 .2065591 2.2 2.9
  • 24.
    . oneway xy,b Analysis of Variance Source SS df MS F Prob > F -----------------------------------------------------------------------Between groups 1.65266668 2 .826333338 21.01 0.0000 Within groups 1.06200005 27 .039333335 -----------------------------------------------------------------------Total 2.71466672 29 .093609197 Bartlett's test for equal variances: chi2(2) = 0.1124 Prob>chi2 = 0.945 Ganancia de Peso por Tratamiento ganancia de peso (kg) 2.5 3 3.5 (30 Preoperative Patients) 2 Comparison of x by y (Bonferroni) Row Mean-| Col Mean | A B ---------+---------------------B | .42 | 0.000 C | -.13 -.55 | 0.463 0.000 A B C
  • 26.
    Supuestos del ANOVA •Observaciones Independientes. • Distribución Normal. • Varianzas Homogéneas.
  • 27.
    Independencia de lasObservaciones • Con el fin de obtener inferencias válidas, resulta importante determinar si los errores se encuentran correlacionados. • El supuesto más importante es la independencia de las observaciones, pues si no hubo asignación aleatoria de tratamientos a unidades experimentales, entonces los resultados pueden incluir un efecto persistente de factores no considerados en el análisis. Esto invalida el experimento
  • 28.
    Normalidad • No estan importante como la Independencia de las Observaciones, pues el ANOVA es robusto. Esto quiere decir que, aunque las observaciones no sean normales, las medias de los tratamientos son aproximadamente normales debido al Teorema Central del Limite. • Ante la falta de normalidad se puede optar por el uso de transformaciones o, como último recurso, el uso de métodos no paramétricos.
  • 29.
    Homogeneidad de varianzas •Esta prueba resulta fundamental, pues cualquier situación de heterogeneidad de las varianzas invalida las inferencias realizadas. • Pueden existir grupos muy homogéneos y, en el caso de existir un grupo muy heterogéneo, sería posible no detectar diferencias entre los grupos con varianzas homogéneas por el efecto de la contribución a la varianza de ese grupo heterogéneo. • Cuando existe el problema de heterogeneidad de varianzas, lo apropiado es emplear transformaciones o métodos no paramétricos.
  • 30.
    Análisis de residuos •Homogeneidad de Varianzas – Bartlett • Normalidad – Kolmogorov-Smirnov • Autocorrelación – Durbin-Watson • Es importante mencionar que el empleo de estadística no paramétrica o el uso de transformaciones no elimina el problema de la falta de aleatoriedad (falta de independencia), es decir, la ejecución incorrecta de un experimento no tiene un remedio en la etapa del análisis.