2. 9.
Comparando más de dos medias. Análisis de Varianza.
Objetivos:
•
9.1
9.2
9.3
9.4
9.5
9.6
Al finalizar esta unidad el estudiante será capaz de:
Describir los elementos estadísticos de un diseño experimental.
Definir el objetivo de un análisis de varianza.
Formular hipótesis adecuadas para las diferentes situaciones.
Describir la distribución de F.
Construir la tabla de análisis de varianza.
Calcular F e interpretar los resultados de la prueba de hipótesis.
Contenidos:
9.1
9.2
9.3
9.4
Elementos del diseño de experimentos.
Supuestos para la aplicación del análisis.
Análisis de varianza simple.
Análisis de varianza de dos vías.
3. SITUACION BASICA
Un factor ( tratamientos) Categórica
Una variable de respuesta: Cuantitativa
Pregunta principal: Las medias de cada grupo
difieren o están “afectadas” por el tratamiento?
Número de grupos: El caso particular de dos
grupos , utilizamos test de t
Número de grupos: Cuando son más de 2
grupos:
Problema de las comparaciones multiples
4. COMPARACION DE MAS DE DOS MEDIAS
Cuando se comparan dos medias a nivel de significación α ,
la probabilidad de cometer un error de tipo I es α
Cuando se comparan de a dos a medias tenemos
comparaciones posibles.
P(x=0)=(1-p)^n
a
C2
P(x>0)=1-[(1-p)^n]
a
C2
Probabilidad de cometer un erro tipo I = 1-[(1-α)
]
Para 5 grupos tenemos 10 comparaciones posibles
Para un α = 0,05 :
P(x>0)=1-[(1-0,05)^10]= 0,40
5.
6. Una solución para este problema es la
CORRECCION DE BONFERRONI :
Suele ser excesivamente severa
En el ejemplo:
α
α '= a
C2
0.05
α'=
= 0,005
10
HAY OTRAS ALTERNATIVAS: UNA DE ELLAS ES EL
ANALISIS DE LA VARIANZA
2
ˆ
sentre
Fc = 2
ˆ
sdentro
7. ANOVA (ANalysis Of Variance)
Finalidad
Modelo I – efectos fijos
Comparar simultáneamente
varias medias
xij
xBj
x
εBj
Variación total
µB
µ
αB
µA
A
= µ + α i + ε ij
µC
B
bioestadistica
C
grupos
8. xij
− µ = ( µi − µ ) +
αi
(
) (
( xij − µi )
xij − x = xi − x + xij − xi
En la población
εij
)
En la muestra
Elevando al cuadrado:
( xij − x ) = ( xi − x ) + ( xij − xi )
2
Sumando:
2
(
∑ xij − x
ij
SC TOTAL
)
2
2
(
+ 2( xi − x ) xij − xi
(
= ∑ ( xi − x ) + ∑ xij − xi
ij
ij
2
)
2
SC ENTRE
SC DENTRO de
grupos
grupos (residual)
)
9. (
∑ xij − x
ij
)
2
(
= ∑ ( xi − x ) + ∑ xij − xi
ij
ij
2
)
2
2
ˆ
sentre
2
SCentre
=
=
glentre
ˆ
sdentro
o residual
SC ENTRE
SC DENTRO de
grupos
SC TOTAL
grupos (residual)
∑ ( xij − x )
2
Recordar
ij
a −1
SCdentro
=
=
gldentro
∑ ( xij − xi )
ij
n−a
2
10. HIPOTESIS
Modelo I
En general
H 0 : ∀i : α i = 0
H 0 : ∀i : µ i = µ
MEDIAS DE CUADRADOS
MC entre = SC entre/(a-1)
a = no de grupos
ni =
Mod I
tamaño medio
del grupo
MC dentro = SC dentro/(n-a )
n = tamaño de la muestra total
ESTIMA
2
∑α i
2
σ + ni
( a −1)
σ
2
Si Ho es verdadera : MC entre = MC dentro en la población
11.
12. TEST DE HIPOTESIS
Fcalc = MC entre/ MC dentro
se compara con Ftab (a-1) y (n-a) grados de libertad
Supuestos para la validez del test
Normalidad de
los residuos (ε ij)
C
Homocedasticidad
de los residuos
A
Independencia de las observaciones
B
13.
14. Ti2 T 2
SC entre =
−
n
ni
i
∑
SC total =
2
∑ x ij
ij
SC dentro = SC total − SC entre
Donde:
Ti = ∑ x ij
j
En el i-ésimo grupo
ni = Tamaño del i-ésimo grupo
T = ∑ x ij
Gran total
ij
n=
∑n
i
i
Tamaño total de la muestra
T2
−
n
15.
16.
17. FUENTE DE
VARIACION
SUMA DE
CUADRADOS
GL
MEDIA DE
CUADRADOS
ENTRE
GRUPOS
SC entre
a-1
SC entre (a − 1)
DENTRO DE
GRUPOS
SC dentro
n-a
SC dentro (n − a)
TOTAL
SC total
Fcalc
n-1
MC entre
MC dentro
0.4
f (x )
El
Fcalculado se compara con
el Ftabulado con (a-1) y (n-a) GL
0.2
17
0.0
0.0
1.5
3.0
4.5
18.
19. CALCULO DE LAS SUMAS DE CUADRADOS
A
B
C
D
4.4
8.6
3.4
8.9
5.9
4.5
7.3
0.0
6.2
8.4
8.8
1.7
6.3
8.7
H 0 : ∀i : µi = µ
0.2
2
∑ x ij
ij
= 597.2
n = ∑ ni = 16
0.1
Ti
22.8
30.2
19.8
10.6
T =83.4
ni
4
4
5
3
a=4
n = 16
SC total = 597.2 − 83.4 2 16 = 162.4775
22.8 2 30.2 2 19.8 2 10.6 2 83.4 2
SC entre =
+
+
+
−
= 39.1088
4
4
5
3
16
SC dentro = SC total − SC entre = 162.4775 − 39.1088 = 123.3687
21. FUENTE DE
VARIACION
SUMA DE
CUADRADOS
GL
MEDIA DE
CUADRADOS
Fcalc
ENTRE
GRUPOS
39.1088
3
13.036
1.27
DENTRO DE
GRUPOS
123.3687
12
10.281
TOTAL
162.4775
15
F0.95(3, 12)= 3.49
Fcalc menor que Ftab ⇒ No Se rechaza Ho
⇒
las medias no difieren entre sí
22. A
2.6
2.4
2.9
2.6
2.7
2.9
2.5
2.8
2.5
3
B
3.2
3
2.8
2.9
3.3
3.1
3
3.4
3.2
3.2
C
2.4
2.8
2.5
2.7
2.5
2.9
2.4
2.6
2.2
2.6
-> trat = A
|
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------|
10
2.69
.2024846
2.4
3
-> trat = B
|
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------|
10
3.11
.1852926
2.8
3.4
-> trat = C
|
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------|
10
2.56
.2065591
2.2
2.9
23.
24. . oneway x y,b
Analysis of Variance
Source
SS
df
MS
F
Prob > F
-----------------------------------------------------------------------Between groups
1.65266668
2
.826333338
21.01
0.0000
Within groups
1.06200005
27
.039333335
-----------------------------------------------------------------------Total
2.71466672
29
.093609197
Bartlett's test for equal variances:
chi2(2) =
0.1124
Prob>chi2 = 0.945
Ganancia de Peso por Tratamiento
ganancia de peso (kg)
2.5
3
3.5
(30 Preoperative Patients)
2
Comparison of x by y (Bonferroni)
Row Mean-|
Col Mean |
A
B
---------+---------------------B |
.42
|
0.000
C |
-.13
-.55
|
0.463
0.000
A
B
C
27. Independencia de las Observaciones
• Con el fin de obtener inferencias válidas, resulta
importante determinar si los errores se encuentran
correlacionados.
• El supuesto más importante es la independencia de las
observaciones, pues si no hubo asignación aleatoria de
tratamientos a unidades experimentales, entonces los
resultados pueden incluir un efecto persistente de factores
no considerados en el análisis. Esto invalida el
experimento
28. Normalidad
• No es tan importante como la Independencia de
las Observaciones, pues el ANOVA es robusto.
Esto quiere decir que, aunque las observaciones no
sean normales, las medias de los tratamientos son
aproximadamente normales debido al Teorema
Central del Limite.
• Ante la falta de normalidad se puede optar por el
uso de transformaciones o, como último recurso,
el uso de métodos no paramétricos.
29. Homogeneidad de varianzas
• Esta prueba resulta fundamental, pues cualquier situación
de heterogeneidad de las varianzas invalida las inferencias
realizadas.
• Pueden existir grupos muy homogéneos y, en el caso de
existir un grupo muy heterogéneo, sería posible no detectar
diferencias entre los grupos con varianzas homogéneas por
el efecto de la contribución a la varianza de ese grupo
heterogéneo.
• Cuando existe el problema de heterogeneidad de
varianzas, lo apropiado es emplear transformaciones o
métodos no paramétricos.
30. Análisis de residuos
• Homogeneidad de Varianzas
– Bartlett
• Normalidad
– Kolmogorov-Smirnov
• Autocorrelación
– Durbin-Watson
• Es importante mencionar que el empleo de estadística no
paramétrica o el uso de transformaciones no elimina el
problema de la falta de aleatoriedad (falta de
independencia), es decir, la ejecución incorrecta de un
experimento no tiene un remedio en la etapa del análisis.