©The McGraw-Hill Companies, Inc. 2008
McGraw-Hill/Irwin
Análisis de Varianza
Anova de un
factor
(Unidireccional)
Ing. Gabriela A. Toledo Martínez
2
ANOVA
El análisis de la varianza permite contrastar la hipótesis nula de
que las medias de K poblaciones (K >2) son iguales, frente a la
hipótesis alternativa de que por lo menos una de las poblaciones
difiere de las demás en cuanto a su valor esperado. Este contraste
es fundamental en el análisis de resultados experimentales, en los
que interesa comparar los resultados de K 'tratamientos' o
'factores' con respecto a la variable dependiente o de interés.
Debemos determinar si las muestras, representadas por x
̅ 1,x
̅ 2
…x
̅ n, pudieran ser tomadas de poblaciones que poseen la misma
media población µ.
Ho: µ1=µ2=µ3 (todas son iguales )
Ha: µ1,µ2,µ3 (al menos una es diferente)
Ing. Gabriela A. Toledo Martínez
ANOVA
3
El análisis de la varianza (ANOVA) de un factor sirve para comparar varios
grupos en una variable cuantitativa. Se trata , por tanto, de una
generalización de la Prueba T para dos muestras independientes al caso
de diseños con mas de dos muestras.
Cada vez que realizas una prueba t, existe la posibilidad de que
obtengas un error de tipo I. Al ejecutar dos pruebas t sobre los mismos
datos, habrá aumentado la probabilidad de “cometer un error” al 10, tres
pruebas t serían el 15% (en realidad, el 14,3%) y así sucesivamente.
Estos son errores inaceptables. Un ANOVA controla estos errores para
que el tipo de error I permanezca en 5% y así podamos estar más
seguros de nuestros resultados.
¿Cómo funciona la prueba ANOVA?
La estrategia es estimar la varianza de la población (desviación estándar
al cuadrado) de dos formas para después determinar la razón de dichas
estimaciones.
Ing. Gabriela A. Toledo Martínez
4
¿Qué supuestos tiene la prueba?
La variable dependiente o respuesta debe ser continua. Por ejemplo, el tiempo de
revisión (medido en horas), inteligencia (medida mediante la puntuación de CI),
desempeño del examen (medido de 0 a 100), peso (medido en kg), etc.
La variable independiente o explicativa debe estar formada por tres o más
grupos categóricos e independientes. Por ejemplo, la etnicidad (caucásico,
afroamericano e hispano), el nivel de actividad física (sedentario, bajo, moderado y
alto), la profesión (doctor, enfermera, dentista, terapeuta), etc.
La variable dependiente se distribuye normalmente en cada grupo que se
compara en el ANOVA de una vía (técnicamente, son los residuos los que necesitan
ser distribuidos normalmente, pero los resultados serán los mismos). Puedes probar
la normalidad usando la prueba de normalidad de Shapiro-Wilk.
Hay homogeneidad de varianzas. Esto significa que las varianzas de la respuesta
en cada grupo son iguales. Puedes probar esta suposición usando la prueba de
Levene para la homogeneidad de las varianzas.
ANOVA
Ing. Gabriela A. Toledo Martínez
5
Las observaciones son independientes. Esto es principalmente un tema del diseño
del estudio y, como tal, necesitará determinar si cree que es posible que sus
observaciones no sean independientes en función del diseño del estudio (por
ejemplo, si los valores han sido tomados diariamente las muestras más cercanas en
el tiempo serán más similares entre sí respecto al resto de muestras -correlación
temporal-).
No debemos tener valores atípicos (outliers) influyentes. Los valores atípicos son
simplemente valores dentro de sus datos que no siguen el patrón habitual (por
ejemplo, en un estudio de 100 puntajes de IQ de los estudiantes, donde la puntuación
media fue de 108 con sólo una pequeña variación entre los estudiantes; pero un
sujeto obtuvo un valor de 156, que es muy inusual incluso en la bibliografía). El
problema con los valores atípicos es que pueden afectar el resultado del ANOVA,
reduciendo la validez de sus resultados.
ANOVA
Ing. Gabriela A. Toledo Martínez
ANOVA
6
Características :
 Compara 3 o mas medias poblacionales si son iguales.
 Evita la propagación del error.
 Suposiciones:
– Las poblaciones siguen la distribución normal.
– Las poblaciones tienen desviaciones estándar iguales (σ).
– Las poblaciones son independientes.
Ing. Gabriela A. Toledo Martínez
7
 La Hipótesis Nula : las medias son iguales.
 La Hipótesis Alternativa :alguna de las medias son
diferentes.
 El Estadístico de Prueba es la distribución F.
 La Regla de Decisión es rechazar la Hipótesis Nula si el
valor de F (calculado) es mas grande que el valor de F
(tabla) obtenido con los grados de libertad.
 Hipótesis y Regla de Decisión:
H0: µ1 = µ2 =…= µk
H1: alguna de las medias es diferente
Rechazar H0 si F > F,k-1,n-k
Comparando medias de dos o mas
poblaciones
8
Análisis de Varianza (ANOVA)
Donde:
MST = Media Cuadrática de Tratamientos
MSE = Error Cuadrático Medio
SST = Suma del Tratamientos Cuadrados
SSE = Suma de los Errores al Cuadrado
k = número de tratamientos.
n = número de observaciones.
 
  MSE
MST
k
n
SSE
k
SST
F 



1
gl num = k - 1
gl den = n - k
9
Joyce Kuhlman es gerente de un centro financiero regional y desea
comparar la productividad, medida por el número de clientes
atendidos, de 3 empleados. Selecciona cuatro días en forma
aleatorea y registra el número de clientes que atendió cada empleado;
los resultados se muestran en la siguiente tabla.
Ejemplo
Ing. Gabriela A. Toledo Martínez
10
Ejemplo
Ing. Gabriela A. Toledo Martínez
Ing. Gabriela A. Toledo Martínez
11
Desde hace algún tiempo las aerolíneas han reducido sus servicios, como alimentos y bocadillos
durante sus vuelos, y empezaron a cobrar un precio adicional por algunos de ellos, como llevar
sobrepeso de equipaje, cambios de vuelo de último momento y por mascotas que viajan en la
cabina. Sin embargo, aún están muy preocupadas por el servicio que ofrecen. Hace Poco un
grupo de cuatro Aerolíneas contrató a Brunner Marketing Research, Inc., para encuestar a sus
pasajeros sobre la adquisición de boletos, abordaje, servicio durante el vuelo, manejo del equipaje,
comunicación del piloto, etc. Hicieron 25 preguntas con diversas respuestas posibles: excelente,
bueno, regular o deficiente. Una respuesta de excelente tiene una calificación de 4, bueno 3,
regular 2 y deficiente 1. Estas respuestas se sumaron, de modo que la calificación final fue una
indicación de la satisfacción con el vuelo. Entre mayor la calificación, mayor el nivel de satisfacción
con el servicio. La calificación mayor posible fue 100. Brunner seleccionó y estudió al azar
pasajeros de las cuatro aerolíneas. A continuación se muestra la información.
Prueba ANOVA: Ejemplo
¿Hay alguna diferencia entre los niveles
de satisfacción medios con respecto a
las cuatro aerolíneas? Use el nivel de
significancia de 0.01.
12
Paso 1: Formular las hipótesis nula y alternativas.
H0: µE = µA = µT = µO
H1: Las medias son diferentes
Rechazar H0 sí: F > F,k-1,n-k
Paso 2: Seleccionar nivel de significancia.
α = 0.01
Paso 3: Determinar el estadístico de prueba.
El estadístico de prueba sigue la distribución F
Ejemplo
Ing. Gabriela A. Toledo Martínez
13
Step 4: Se formula la regla de decisión.
Rechaza H0 sí F > F,k-1,n-k
F > F01,4-1,22-4
F > F01,3,18
F > 5.801
Ejemplo
Ing. Gabriela A. Toledo Martínez
14
Paso 5: Calcular el valor de F y tomar una decisión
Ejemplo
Ing. Gabriela A. Toledo Martínez
15
Media global
Ing. Gabriela A. Toledo Martínez
16
Calculando SS Total y SSE
Ing. Gabriela A. Toledo Martínez
17
Calculando SST
El valor calculado de F=8.99, el cual es mas grande que el valor crítico de 5.09,
por lo tanto la Hipotesis Nula es rechazada.
Conclusión: Es que no todas las medias poblacionales son iguales; las
calificaciones medias de las cuatro aerolíneas no son iguales.
Ing. Gabriela A. Toledo Martínez
18
Inferencias sobre pares de medias de
tratamiento
Cuando rechazamos la hipótesis nula de que las medias son
iguales, podemos querer saber qué medios de tratamiento
difieren.
Uno de los procedimientos más simples es mediante el uso de
intervalos de confianza..
¿Cómo determinamos si hay una diferencia entre las medias de
tratamiento?
 Si el intervalo de confianza incluye cero, no existe diferencia
entre ellas.
 Por otro lado, si los puntos extremos del intervalo de
confianza tienen el mismo signo , las medias de tratamiento
difieren.
Ing. Gabriela A. Toledo Martínez
19
Intervalo de confianza para la diferencia
entre dos medias
 t es obtenido de la tabla t
 con grados de libertad (n - k).
 MSE = [SSE/(n - k)]
 
X X t MSE
n n
1 2
1 2
1 1
  






Ing. Gabriela A. Toledo Martínez
20
 Del ejemplo anterior, desarrolle un intervalo de confianza del
95% para la diferencia en la calificación promedio para
Eastern y Ozark. ¿Podemos concluir que existe una
diferencia entre las calificaciones de las dos aerolíneas?
El intervalo de confianza del 95 por ciento varía de 10.46 a
26.04. Ambos son positivos; por lo tanto, podemos concluir que
estos tratamientos difieren significativamente. Es decir, los
servicios calificados de Eastern son significativamente
diferentes de aquellos en Ozark.
Ejemplo
Ing. Gabriela A. Toledo Martínez
21
Minitab
Ing. Gabriela A. Toledo Martínez
22
Excel
Ing. Gabriela A. Toledo Martínez

Anova de un Factor.pdf

  • 1.
    ©The McGraw-Hill Companies,Inc. 2008 McGraw-Hill/Irwin Análisis de Varianza Anova de un factor (Unidireccional) Ing. Gabriela A. Toledo Martínez
  • 2.
    2 ANOVA El análisis dela varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés. Debemos determinar si las muestras, representadas por x ̅ 1,x ̅ 2 …x ̅ n, pudieran ser tomadas de poblaciones que poseen la misma media población µ. Ho: µ1=µ2=µ3 (todas son iguales ) Ha: µ1,µ2,µ3 (al menos una es diferente) Ing. Gabriela A. Toledo Martínez
  • 3.
    ANOVA 3 El análisis dela varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata , por tanto, de una generalización de la Prueba T para dos muestras independientes al caso de diseños con mas de dos muestras. Cada vez que realizas una prueba t, existe la posibilidad de que obtengas un error de tipo I. Al ejecutar dos pruebas t sobre los mismos datos, habrá aumentado la probabilidad de “cometer un error” al 10, tres pruebas t serían el 15% (en realidad, el 14,3%) y así sucesivamente. Estos son errores inaceptables. Un ANOVA controla estos errores para que el tipo de error I permanezca en 5% y así podamos estar más seguros de nuestros resultados. ¿Cómo funciona la prueba ANOVA? La estrategia es estimar la varianza de la población (desviación estándar al cuadrado) de dos formas para después determinar la razón de dichas estimaciones. Ing. Gabriela A. Toledo Martínez
  • 4.
    4 ¿Qué supuestos tienela prueba? La variable dependiente o respuesta debe ser continua. Por ejemplo, el tiempo de revisión (medido en horas), inteligencia (medida mediante la puntuación de CI), desempeño del examen (medido de 0 a 100), peso (medido en kg), etc. La variable independiente o explicativa debe estar formada por tres o más grupos categóricos e independientes. Por ejemplo, la etnicidad (caucásico, afroamericano e hispano), el nivel de actividad física (sedentario, bajo, moderado y alto), la profesión (doctor, enfermera, dentista, terapeuta), etc. La variable dependiente se distribuye normalmente en cada grupo que se compara en el ANOVA de una vía (técnicamente, son los residuos los que necesitan ser distribuidos normalmente, pero los resultados serán los mismos). Puedes probar la normalidad usando la prueba de normalidad de Shapiro-Wilk. Hay homogeneidad de varianzas. Esto significa que las varianzas de la respuesta en cada grupo son iguales. Puedes probar esta suposición usando la prueba de Levene para la homogeneidad de las varianzas. ANOVA Ing. Gabriela A. Toledo Martínez
  • 5.
    5 Las observaciones sonindependientes. Esto es principalmente un tema del diseño del estudio y, como tal, necesitará determinar si cree que es posible que sus observaciones no sean independientes en función del diseño del estudio (por ejemplo, si los valores han sido tomados diariamente las muestras más cercanas en el tiempo serán más similares entre sí respecto al resto de muestras -correlación temporal-). No debemos tener valores atípicos (outliers) influyentes. Los valores atípicos son simplemente valores dentro de sus datos que no siguen el patrón habitual (por ejemplo, en un estudio de 100 puntajes de IQ de los estudiantes, donde la puntuación media fue de 108 con sólo una pequeña variación entre los estudiantes; pero un sujeto obtuvo un valor de 156, que es muy inusual incluso en la bibliografía). El problema con los valores atípicos es que pueden afectar el resultado del ANOVA, reduciendo la validez de sus resultados. ANOVA Ing. Gabriela A. Toledo Martínez
  • 6.
    ANOVA 6 Características :  Compara3 o mas medias poblacionales si son iguales.  Evita la propagación del error.  Suposiciones: – Las poblaciones siguen la distribución normal. – Las poblaciones tienen desviaciones estándar iguales (σ). – Las poblaciones son independientes. Ing. Gabriela A. Toledo Martínez
  • 7.
    7  La HipótesisNula : las medias son iguales.  La Hipótesis Alternativa :alguna de las medias son diferentes.  El Estadístico de Prueba es la distribución F.  La Regla de Decisión es rechazar la Hipótesis Nula si el valor de F (calculado) es mas grande que el valor de F (tabla) obtenido con los grados de libertad.  Hipótesis y Regla de Decisión: H0: µ1 = µ2 =…= µk H1: alguna de las medias es diferente Rechazar H0 si F > F,k-1,n-k Comparando medias de dos o mas poblaciones
  • 8.
    8 Análisis de Varianza(ANOVA) Donde: MST = Media Cuadrática de Tratamientos MSE = Error Cuadrático Medio SST = Suma del Tratamientos Cuadrados SSE = Suma de los Errores al Cuadrado k = número de tratamientos. n = número de observaciones.     MSE MST k n SSE k SST F     1 gl num = k - 1 gl den = n - k
  • 9.
    9 Joyce Kuhlman esgerente de un centro financiero regional y desea comparar la productividad, medida por el número de clientes atendidos, de 3 empleados. Selecciona cuatro días en forma aleatorea y registra el número de clientes que atendió cada empleado; los resultados se muestran en la siguiente tabla. Ejemplo Ing. Gabriela A. Toledo Martínez
  • 10.
  • 11.
    Ing. Gabriela A.Toledo Martínez 11 Desde hace algún tiempo las aerolíneas han reducido sus servicios, como alimentos y bocadillos durante sus vuelos, y empezaron a cobrar un precio adicional por algunos de ellos, como llevar sobrepeso de equipaje, cambios de vuelo de último momento y por mascotas que viajan en la cabina. Sin embargo, aún están muy preocupadas por el servicio que ofrecen. Hace Poco un grupo de cuatro Aerolíneas contrató a Brunner Marketing Research, Inc., para encuestar a sus pasajeros sobre la adquisición de boletos, abordaje, servicio durante el vuelo, manejo del equipaje, comunicación del piloto, etc. Hicieron 25 preguntas con diversas respuestas posibles: excelente, bueno, regular o deficiente. Una respuesta de excelente tiene una calificación de 4, bueno 3, regular 2 y deficiente 1. Estas respuestas se sumaron, de modo que la calificación final fue una indicación de la satisfacción con el vuelo. Entre mayor la calificación, mayor el nivel de satisfacción con el servicio. La calificación mayor posible fue 100. Brunner seleccionó y estudió al azar pasajeros de las cuatro aerolíneas. A continuación se muestra la información. Prueba ANOVA: Ejemplo ¿Hay alguna diferencia entre los niveles de satisfacción medios con respecto a las cuatro aerolíneas? Use el nivel de significancia de 0.01.
  • 12.
    12 Paso 1: Formularlas hipótesis nula y alternativas. H0: µE = µA = µT = µO H1: Las medias son diferentes Rechazar H0 sí: F > F,k-1,n-k Paso 2: Seleccionar nivel de significancia. α = 0.01 Paso 3: Determinar el estadístico de prueba. El estadístico de prueba sigue la distribución F Ejemplo Ing. Gabriela A. Toledo Martínez
  • 13.
    13 Step 4: Seformula la regla de decisión. Rechaza H0 sí F > F,k-1,n-k F > F01,4-1,22-4 F > F01,3,18 F > 5.801 Ejemplo Ing. Gabriela A. Toledo Martínez
  • 14.
    14 Paso 5: Calcularel valor de F y tomar una decisión Ejemplo Ing. Gabriela A. Toledo Martínez
  • 15.
    15 Media global Ing. GabrielaA. Toledo Martínez
  • 16.
    16 Calculando SS Totaly SSE Ing. Gabriela A. Toledo Martínez
  • 17.
    17 Calculando SST El valorcalculado de F=8.99, el cual es mas grande que el valor crítico de 5.09, por lo tanto la Hipotesis Nula es rechazada. Conclusión: Es que no todas las medias poblacionales son iguales; las calificaciones medias de las cuatro aerolíneas no son iguales. Ing. Gabriela A. Toledo Martínez
  • 18.
    18 Inferencias sobre paresde medias de tratamiento Cuando rechazamos la hipótesis nula de que las medias son iguales, podemos querer saber qué medios de tratamiento difieren. Uno de los procedimientos más simples es mediante el uso de intervalos de confianza.. ¿Cómo determinamos si hay una diferencia entre las medias de tratamiento?  Si el intervalo de confianza incluye cero, no existe diferencia entre ellas.  Por otro lado, si los puntos extremos del intervalo de confianza tienen el mismo signo , las medias de tratamiento difieren. Ing. Gabriela A. Toledo Martínez
  • 19.
    19 Intervalo de confianzapara la diferencia entre dos medias  t es obtenido de la tabla t  con grados de libertad (n - k).  MSE = [SSE/(n - k)]   X X t MSE n n 1 2 1 2 1 1          Ing. Gabriela A. Toledo Martínez
  • 20.
    20  Del ejemploanterior, desarrolle un intervalo de confianza del 95% para la diferencia en la calificación promedio para Eastern y Ozark. ¿Podemos concluir que existe una diferencia entre las calificaciones de las dos aerolíneas? El intervalo de confianza del 95 por ciento varía de 10.46 a 26.04. Ambos son positivos; por lo tanto, podemos concluir que estos tratamientos difieren significativamente. Es decir, los servicios calificados de Eastern son significativamente diferentes de aquellos en Ozark. Ejemplo Ing. Gabriela A. Toledo Martínez
  • 21.
  • 22.
    22 Excel Ing. Gabriela A.Toledo Martínez