ANOVA
ANALISIS DE VARIANZA
INSTITUTO TECNOLÓGICO DE CIUDAD MADERO
INGENIERÍA INDUSTRIAL
MATERIA: CURSO INTEGRADOR
POR: VIRIDIANA TURRUBIATES PERALES
Análisis de Varianza
 El análisis de varianza (ANOVA), se refiere en general a un conjunto de situaciones experimentales y
procedimientos estadísticos para el análisis de respuestas cuantitativas de unidades
experimentales. El problema más sencillo de ANOVA se conoce como el análisis de varianza de un
solo factor o diseño completamente al azar, éste se utiliza para comparar dos o más tratamientos,
dado que sólo consideran dos fuentes de variabilidad, los tratamientos y el error aleatorio.
 El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las
varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la
varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de
determinar si los grupos son todos parte de una población más grande o poblaciones separadas
con características diferentes.
Fórmulas
 Cuando los factores sean de efectos fijos aparecerán en la fórmula como parámetros (con letras
griegas), cuando los factores sean de efectos aleatorios, aparecerán como variables aleatorias (con
letras mayúsculas latinas). Así:
 a) 𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝐸𝑖𝑗
 b) 𝑌𝑖𝑗 = 𝜇 + 𝐴𝑖 + 𝐸𝑖𝑗
 c) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝐸𝑖𝑗
 d) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝐵𝑗 + 𝐸𝑖𝑗
 El a) es un ANOVA de un factor, efectos fijos; el b) es un ANOVA de un factor, efectos aleatorios; el c) es
un ANOVA de dos factores, efectos fijos; el d) es un ANOVA de dos factores, en el que el factor A es fijo
y el factor B aleatorio; es, por tanto, un modelo mixto; µ es una constante y + Eij es la variable aleatoria
residual o error.
Tipos de ANOVA
 Minitab tiene diferentes tipos de ANOVA que permiten factores adicionales, tipos de factores y
diseños diferentes que se ajustan a sus necesidades específicas.
Tipos de ANOVA
Podemos distinguir tres tipos de modelos según sean de:
 Efectos fijos: Donde sólo estudiamos determinados niveles del factor y únicamente
perseguimos sacar conclusiones para éstos.
 Efectos aleatorios: En este caso los niveles son infinitos y estudiamos una muestra de los
mismos. Sus resultados también serán aleatorios.
 Efectos mixtos: cuando nos encontramos con uno o más factores de las clases anteriores.
¿Qué es un Factor?
Los factores son variables predictoras (también conocidas como variables independientes) que se eligen
para que varíen sistemáticamente durante un experimento con el fin de determinar su efecto en la variable
de respuesta (dependiente).
 ¿Qué es un factor cruzado?
Dos factores están cruzados cuando cada nivel
de un factor ocurre en combinación con cada
nivel del otro factor.
 ¿Qué es un factor anidado?
Dos factores están anidados cuando los niveles de
un factor son similares pero no idénticos, y cada uno
ocurre en combinación con diferentes niveles del
otro factor.
Factores fijos y aleatorios
 En ANOVA, los factores son fijos o aleatorios. Por lo general, si el investigador controla los
niveles de un factor, el factor es fijo. Por el contrario, si el investigador toma una muestra
aleatoria de los niveles de un factor de una población, el factor es aleatorio.
 Supongamos que usted tiene un factor denominado "operador" y que éste tiene tres
niveles. Si usted selecciona intencionalmente estos tres operadores y desea que los
resultados se apliquen únicamente a estos operadores, el factor es fijo. Sin embargo, si
toma una muestra aleatoria de tres operadores en un número más grande de operadores y
desea que sus resultados se apliquen a todos los operadores, el factor es aleatorio.
Diseño de bloques aleatorizados
 Un diseño de bloques aleatorizados es un diseño que suele utilizarse para minimizar el
efecto de la variabilidad cuando está asociada con unidades discretas (por ejemplo,
ubicación, operador, planta, lote, tiempo).
 El caso habitual consiste en aleatorizar una réplica de cada combinación de tratamientos
dentro de cada bloque. Por lo general, no hay un interés intrínseco en los bloques y se
considera que son factores aleatorios. El supuesto habitual es que la interacción de bloque y
tratamiento es cero, y esta interacción pasa a ser el término de error para probar los efectos
del tratamiento.
 Si identifica a la variable de bloque como Bloque, los términos presentes en el modelo serían
Bloque, A, B y A*B. También especificaría Bloque como un factor aleatorio.
Diseño de cuadrados latinos con medidas
repetidas
 Un diseño con medidas repetidas es un diseño en el que se efectúan mediciones repetidas en
el mismo sujeto. Existen diversas maneras de asignar tratamientos a los sujetos.
 Cuando se trata especialmente de sujetos vivos, puede sospecharse que existen diferencias
sistemáticas (atribuibles al aprendizaje, aclimatación, resistencia, etc.) entre observaciones
sucesivas.
 Una manera frecuente de asignar tratamientos a los sujetos consiste en utilizar un diseño de
cuadrados latinos. Una de las ventajas de este diseño para un experimento de medidas
repetidas es que garantiza una fracción balanceada de un factorial completo (es decir, todas
las combinaciones de tratamientos representadas) cuando los sujetos son limitados y el efecto
de la secuencia del tratamiento puede considerarse insignificante.
Diseño de cuadrados latinos con medidas
repetidas
 Este diseño suele modificarse para proporcionar información acerca de uno o más factores
adicionales. Si a cada grupo se le asignara un nivel diferente del factor A, entonces podría
obtenerse información sobre los efectos de A y A*B con un esfuerzo mínimo si es posible
hacer una suposición sobre el efecto de la secuencia asignada a los grupos. Si los efectos de
la secuencia son insignificantes en comparación con los efectos del factor A, entonces el
efecto de grupo podría atribuirse al factor A. Si las interacciones con el tiempo son
insignificantes, entonces puede obtenerse información parcial sobre la interacción A*B. En el
lenguaje de los diseños de medidas repetidas, el factor A se denomina factor entre sujetos y
el factor B se denomina factor por cada sujeto.
 No es necesario aleatorizar los experimentos de medidas repetidas con un diseño de
cuadrados latinos.
ANOVA de un factor
 La prueba ANOVA nos permite comparar las medias de r grupos, siendo r mayor o igual a 2. El
modelo ANOVA presupone que las varianzas de los grupos son iguales y que los residuos o errores
son aleatorios, independientes e idénticamente distribuidos siguiendo una ley normal con media 0 y
desviación constante. La hipótesis nula de la prueba ANOVA de un factor es:
H0: Las medias de los k grupos son todas iguales
H1: Al menos una de las medias es diferente
 Esta prueba se basa en la comparación de las sumas de cuadrados medias debidas a la variabilidad
entre grupos y la debida a la variabilidad intra grupos (dentro de los grupos).
 Suponga que se tienen a tratamientos o niveles de un solo factor
 Se desea comparar los diferentes niveles del factor
 La variable de salida a comparar con cada uno de los niveles es una variable aleatoria
ANOVA de un factor
 Las observaciones se pueden describir mediante un modelo matemático sencillo: Modelo de las
medias
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗
𝑖 = 1, 2, … , 𝑎
𝑗 = 1, 2, … , 𝑛
 Donde:
𝑦𝑖𝑗 es la observación ij-ésima,
𝜇𝑖 es la media del nivel del factor o tratamiento i-ésimo, y
𝜀𝑖𝑗 es un componente de error aleatorio (incorpora demás fuentes de variabilidad del experimento:
mediciones, factores no controlados, diferencias en los materiales de prueba, variabilidad con el
tiempo, medio ambiente, etc)
ANOVA de un factor
ANOVA de un factor
 Otro modelo es considerar que la media tiene dos componentes:
𝜇𝑖 = 𝜇 + 𝜏𝑖, 𝑖 = 1, 2, … , 𝑎
 A 𝜇𝑖 se le llama media del nivel, la cual se compone de una media global (𝜇) y un 𝜏𝑖 que es el
efecto del tratamiento i-ésimo.
 Por tanto, el modelo matemático queda en definitiva como:
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗
𝑖 = 1, 2, … , 𝑎
𝑗 = 1, 2, … , 𝑛
 A este modelo se le llama el modelo de los efectos
Tabla de ANOVA
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre
Grupos 𝑛 − 1
𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟
𝑛 − 1
𝐹 =
𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟
𝑀𝑆𝑒𝑟𝑟𝑜𝑟
Dentro
Grupos 𝑁 − 𝑛 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
𝑆𝑆𝑒𝑟𝑟𝑜𝑟
𝑁 − 𝑛
Total
𝑁 − 1𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2 − (
𝑦
𝑁
)
𝑆𝑆𝑒𝑟𝑟𝑜𝑟
= 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟
nc=no. de columnas
N=no. de datos
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑦2
𝑛𝑐
−
𝑦2
𝑁
Caso práctico
ANOVA de un factor
 Inflamabilidad de pijamas
La inflamabilidad de los pijamas para niños ha sido un
tema de preocupación constante durante las últimas
décadas. Hoy en día, hay toda una serie de controles de
seguridad que garantizan que las telas con que se
fabrican los pijamas no sean fácilmente inflamables.
Tras seleccionar un determinado fabricante de pijamas y
5 laboratorios diferentes, hemos enviado a cada
laboratorio 11 prendas de dicho fabricante. La idea es
que en cada laboratorio se les aplique un test de
inflamabilidad. Los resultados (expresados en un
determinado índice de inflamabilidad) se muestran a
continuación:
Desarrollo
paso a paso
 Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales
(𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1).
𝐻0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
𝐻1: 𝜇1 ≠ 𝜇2 ≠ 𝜇3 ≠ 𝜇4
Prenda LAB 1 LAB 2 LAB 3 LAB 4 LAB 5 𝒚 Prom 𝒚𝒊𝒋 𝟐
𝒚 𝟐
1 2.9 2.7 3.3 3.3 4.1 16.3 3.26 54.29 265.69
2 3.1 3.4 3.3 3.2 4.1 17.1 3.42 59.11 292.41
3 3.1 3.6 3.5 3.4 3.7 17.3 3.46 60.07 299.29
4 3.7 3.2 3.5 2.7 4.2 17.3 3.46 61.11 299.29
5 3.1 4.0 2.8 2.7 3.1 15.7 3.14 50.35 246.49
6 4.2 4.1 2.8 3.3 3.5 17.9 3.58 65.43 320.41
7 3.7 3.8 3.2 2.9 2.8 16.4 3.28 54.62 268.96
8 3.9 3.8 2.8 3.2 3.5 17.2 3.44 59.98 295.84
9 3.1 4.3 3.8 2.9 3.7 17.8 3.56 64.64 316.84
10 3.0 3.4 3.5 2.6 3.5 16 3.2 51.82 256
11 2.9 3.3 3.8 2.8 3.9 16.7 3.34 56.79 278.89
185.7 37.14 638.21 3140.11
En la tabla de los valores se tiene
que calcular ∑y, promedio, ∑yij² y
∑y²
El valor de ∑yij² se saca a partir de
la siguiente tabla, que es el
cuadrado de los datos:
Realizamos los cálculos:
 Los resultados obtenidos se sustituyen en la tabla de ANOVA.
𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
𝑦2
𝑛𝑐
−
(𝑦)2
𝑁
=
3140.11
5
−
(185.7 )2
55
= 1.03127273
nc=5
N=55
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2
−
𝑦
𝑁
= 638.21 −
185.7
55
= 11.2192727
𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 11.2192727−1.03127273=10.188
 n=no. de prendas
 N=no. de datos
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre
Grupos 1.03127273
11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
1.031273
10
= 0.103127
𝐹 =
1.0312727
0.231545
= 4.453875
Dentro
Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
10.188
44
= 0.231545
Total
11.2192727 55 − 1 = 54
Interpretación de resultados
 Buscando en la tabla de Fisher el valor para un
nivel de significancia de 5% (representado por
α=0.05) y 10-44 grados de libertad, equivale a
2.05 en la tabla dado que F=4.453875 :
4.453875>2.05
Se rechaza la hipótesis nula. Las medias resultan no
ser iguales.
 Lo que nos dice que la tela con que se hacen las
pijamas si es inflamable.
Realización del caso práctico en
 Abriremos el software Minitab, e
introduciremos los datos en la ‘Hoja
de trabajo’, de la siguiente manera:
Al introducir los datos
estos quedaran en
distintas columnas, para
apilarlos en un sola
columna, iremos al menú
 Datos  Apilar 
Filas Seleccionar las
columnas y Aceptamos
Nota
ANOVA
 Para realizar el análisis de los datos, nos
iremos al menú Estadísticas  ANOVA  Un
solo factor…
Nos desplegara una ventana en la que
seleccionaremos la variable de respuesta y el
facto del experimento, y posteriormente
seleccionamos la opción ‘Gráficas…’
 En la ventana que se
abrirá, solo
seleccionaremos la
opción ‘Cuatro en
uno’, y daremos
Aceptar
Resultados…
 Grafica 1: los datos están
normalmente distribuidos, ya
que siguen un línea recta.
 Gráfica 2:Los residuos presentan
varianzas constantes.
 Gráfica 3:El histograma muestra
una media centrada.
 Gráfica 4: los datos circulan
aleatoriamente alrededor de la
línea central, lo cual muestra
normalidad.
 Obtendremos las siguientes gráficas en las cuales se podrá apreciar
el comportamiento de los datos:
1 2
3 4
Comparación de resultados…
 A continuación se compararan los resultados de la tabla que se realizó aquí y la
realizada en Minitab:
 En contraste de un análisis y otro podemos darnos cuenta que son los mismos resultados, y con esto se
confirma el rechazo de Ho
Fuente de
Variación
Suma de Cuadrados Grados de
libertad
Cuadrado Medio F-valor
Entre Grupos
1.03127273
11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 =
1.031273
10
= 0.103127
𝐹 =
1.0312727
0.231545
= 4.453875
Dentro
Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 =
10.188
44
= 0.231545
Total
11.2192727 55 − 1 = 54
ANOVA de dos factores
 Usaremos el análisis doble de la varianza para estudiar los posibles efectos causados por
diferentes niveles de dos factores sobre la variable dependiente.
 Usaremos ANOVA doble para contrastar, para cada uno de los dos factores, la hipótesis
nula de que el resultado de la variable dependiente (crecimiento de patatas, intensidad
del dolor de cabeza, tiempo en adquirir conocimientos, ventas, etc.) no depende del
factor.
ANOVA de dos factores
 Modelo aditivo (sin interacción)
El modelo aditivo supone que la variación total en los datos puede ser expresada como suma de
variaciones procedentes de fuentes diversas:
(Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) +
(Variación debida al error aleatorio)
Si la variación debida al primer factor fuese mucho mayor que la variación debida al error aleatorio,
dispondríamos de evidencia estadística contra la hipótesis nula de que los distintos niveles del primer
factor tienen el mismo efecto sobre la variable dependiente; de forma similar, si la variación debida al
segundo factor fuese mucho mayor que la variación debida al error aleatorio, deberíamos rechazar la
hipótesis nula de que la variable dependiente no depende de los diversos niveles del segundo factor.
ANOVA de dos factores
 Modelo con interacción
Un aspecto al que debemos prestar especial atención es el nivel de interacción entre ambos factores; es
decir, el efecto que cada uno de los factores tiene sobre el otro. Así, por ejemplo, en la campaña de
marketing citada anteriormente, el incremento en las ventas debido a un aumento del presupuesto podría
ser el mismo independientemente del medio usado, o bien podría variar dependiendo del medio usado.
En este último caso deberíamos estudiar también la interacción entre los factores presupuesto y medio.
Para ello usaremos los llamados modelos con interacción.
Este modelo supone que la variación total de los datos puede descomponerse de la siguiente forma:
(Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) +
(Variación debida a la interacción entre factores) + (Variación debida al error aleatorio)
ANOVA de dos factores
En muchas situaciones prácticas la unidades experimentales no son homogéneas por lo que conviene
agruparlas en distintos conjuntos de observaciones homogéneas. A tales conjuntos se les
denomina bloques.
Los tratamientos se aplican dentro de cada bloque siguiendo las mismas técnicas de aleatorización
expuestas previamente.
Se procurará que los tratamientos estén representados de la misma manera en todos los bloques.
 Diseño en bloques al azar
Supongamos que se dispone de r tratamientos a comparar y que se dividen las observaciones en s
bloques con r unidades experimentales cada uno.
Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de
aleatorización.
 Los datos resultantes serían los siguientes:
ANOVA de dos factores
 El modelo matemático es ahora:
𝑥𝑖𝑗 = 𝜇𝑖𝑗 + 𝜀𝑖𝑗
𝑥𝑖𝑗 = 𝜇 + 𝑎𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗
Donde 𝛼𝑖 es el efecto debido al bloque, 𝛽𝑖 es el efecto debido al tratamiento y 𝜀𝑖𝑗 es el error
experimental.
Obsérvese que solamente hemos sustraído del residual la parte correspondiente a los bloques.
 Las hipótesis de que los distintos tratamientos y los bloques no producen ningún efecto
se contrasta mediante el análisis de la varianza de dos factores, comparando la
variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro
de los grupos.
 Los resultados fundamentales se resumen en la tabla siguiente.
Fuente Suma de cuadrados Grados de
libertad
Estimador Valor F
Entre
bloques 𝑄 𝐵 =
𝑖=1
𝑠
𝑟( 𝑥𝑖. − 𝑥)2
𝑠 − 1
𝑆 𝐵
2
=
𝑄 𝐵
𝑠 − 1 𝐹𝐵 =
𝑆 𝐵
2
𝑆 𝑅
2
Entre
Tratam. 𝑄 𝑇 =
𝑗=1
𝑟
𝑠( 𝑥.𝑗 − 𝑥)2
𝑟 − 1
𝑆 𝑇
2
=
𝑄 𝑇
𝑟 − 1 𝐹𝑇 =
𝑆 𝑇
2
𝑆 𝑅
𝑟
Residual
𝑄 𝑅 =
𝑖=1
𝑠
𝑗=1
𝑟
(𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥)2
(𝑟 − 1)(𝑠 − 1) 𝑆 𝑅
2
=
𝑄 𝑅
(𝑟 − 1)(𝑠 − 1)
Total
𝑄 =
𝑖=1
𝑠
𝑗=1
𝑟
(𝑥𝑖𝑗 − 𝑥)2
𝑛 − 1
ANOVA de dos factores
 Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de
𝜇 = 𝑥
𝛼𝑖𝑗 = 𝑥𝑗. − 𝑥
𝛽𝑗 = 𝑥.𝑗 − 𝑥
 y la parte propia de cada observación (o residual)
𝜀𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥
 Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma
manera que en el diseño de un factor.
Fuente Suma de cuadrados Grados de
libertad
Estimador Valor F
Trat. A
𝑆𝑆𝐴 =
1
𝑏𝑛
𝑖=1
𝑦𝑖
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑎 − 1
𝑆𝐴 =
𝑆𝑆𝐴
𝑎 − 1
=
𝑆𝐴
𝑆 𝐸
Trat. B
𝑆𝑆𝐵 =
1
𝑎𝑛
𝑖=1
𝑦𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑏 − 1
𝑆 𝐵 =
𝑆𝑆𝐵
𝑏 − 1
=
𝑆 𝐵
𝑆 𝐸
Interacc.
AB 𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
(𝑎 − 1)(𝑏 − 1) 𝑆𝐴𝐵
=
𝑆𝑆𝐴𝐵
(𝑎 − 1)(𝑏 − 1)
=
𝑆𝐴𝐵
𝑆 𝐸
Error 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿
𝑎𝑏(𝑛 − 1)
𝑆 𝐸 =
𝑆𝑆𝐸
𝑎𝑏(𝑛 − 1)
Total
𝑆𝑆𝑇 =
𝑖=1
𝑦𝑖𝑗 𝑘2
−
(𝑦𝑖)2
𝑎𝑏𝑛
𝑎𝑏𝑛 − 1
𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 =
1
𝑛
𝑖=1
𝑦𝑖𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
 Las hipótesis de que los distintos factores no producen ningún efecto y de que no existe
interacción se contrastan mediante el análisis de la varianza de dos factores con
interacción, comparando la variabilidad entre los niveles del factor A, la variabilidad
entre los niveles del factor B, y la variabilidad debida a la interacción con la variabilidad
dentro de los grupos o error.
 Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de:
𝜇 = 𝑥
𝛼𝑖 = 𝑥𝑖.. − 𝑥
𝛽𝑗 = 𝑥.𝑗. − 𝑥
𝛼 𝛽𝑖𝑗 = 𝑥𝑖𝑗. − 𝑥𝑖.. − 𝑥.𝑗. + 𝑥
 y la parte propia de cada observación (o residual/error):
𝜀𝑖𝑗 = 𝑥𝑖𝑗𝑘 − 𝑥𝑖𝑗.
 Los residuales pueden servirnos para la validación de las hipótesis básicas de la
misma manera que en el diseño de un factor.
Caso práctico
ANOVA de dos factores
 Conducción de vehículos
A continuación se muestran los datos obtenidos en un
experimento en el que se comprobaron las habilidades de dos
grupos de conductores, los inexpertos y los expertos. Doce
conductores de cada grupo tomaron parte en el experimento.
Se usaron tres tipos de carreteras: autopista, nacional y
comarcal. Mediante un proceso aleatorio, se asignaron a cada
tipo de carretera cuatro conductores expertos y cuatro
inexpertos. Cada conductor estuvo al volante durante 2
kilómetros, en los cuales se registraron los siguientes “errores
de conducción” cometidos:
Aplicación…
𝑯 𝟎,𝟏: el factor conductor no influye en el número de errores
𝑯 𝟏,𝟏: el factor conductor influye en el número de errores
𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores
𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores
𝑯 𝟎,𝟑: no hay interacción entre ambos factores
𝑯 𝟏,𝟑: hay interacción entre ambos factores
 𝑌𝑖 = 310
 𝑌𝑖
2
= 50788
 𝑌𝑖𝑗
2
= 18468
 𝑌𝑗 = 310
 𝑌𝑗
2
= 34500
 𝑌𝑖𝑗𝑘
2
= 5074
 Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales
(𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1).
Conductor Autopista Nacional Comarcal
4 23 16
18 15 27
8 21 23
10 13 14
6 2 20
4 6 15
13 8 8
7 12 17
70 100 140
4900 10000 19600
774 1612 2688
Tipo de carretera
Inexperto
Experto
192 36864 13184
118 13924 5284
𝑌𝑖 𝑌𝑖
2 𝑌𝑖𝑗
2
𝑌𝑗
𝑌𝑗
2
𝑌𝑖𝑗𝑘
2
B
A
Desarrollo
paso a paso
a=2 b=3 n=4En la tabla de los valores se
tiene que calcular:
Yi=Suma de todos los
valores del factor A por
categoría.
Yi2=Yi al cuadrado
Yij2=Suma de los valores
dentro del mismo cuadro,
al cuadrado.
Yj=Suma de los valores del
factor B por categoría.
Yj2=Yj al cuadrado
Yijk2=Suma de los
cuadrados de cada valor
por categoría de B.
Realizamos los cálculos:
 Los resultados obtenidos se sustituyen en la tabla de ANOVA.
𝑆𝑆𝐴 =
1
𝑏𝑛
𝑖=1
𝑦𝑖
2 −
(𝑦𝑖)2
𝑎𝑏𝑛
=
1
12
∗ 50788 −
(310)2
24
= 228.1666
𝑆𝑆𝐵 =
1
𝑎𝑛
𝑖=1
𝑦𝑗
2 −
(𝑦𝑖)2
𝑎𝑏𝑛
=
1
8
∗ 34500 −
(310)2
24
= 308.3333
𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 612.8333 − 228.1666 − 308.3333 = 76.3334
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 1069.8333 − 76.3334 − 228.1666 − 308.3333 = 457
𝑆𝑆𝑇 =
𝑖=1
𝑦𝑖𝑗 𝑘2 −
(𝑦𝑖)2
𝑎𝑏𝑛
= 5074 −
(310)2
24
= 1069.8333
𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 =
1
𝑛
𝑖=1
𝑦𝑖𝑗
2
−
(𝑦𝑖)2
𝑎𝑏𝑛
=
1
4
∗ 18468 −
(310)2
24
= 612.8333
 𝑌𝑖 = 310
 𝑌𝑖
2
= 50788
 𝑌𝑖𝑗
2
= 18468
 𝑌𝑗 = 310
 𝑌𝑗
2
= 34500
 𝑌𝑖𝑗𝑘
2
= 5074
a=2 b=3 n=4
Fuente Suma de cuadrados Grados de
libertad
Estimador Valor F
Trat. A
𝑆𝑆𝐴 = 228.1666 1 𝑆𝐴 =
𝑆𝑆𝐴
𝑎 − 1
=
228.1666
1
= 228.1666 𝐹𝐴 =
𝑆𝐴
𝑆 𝐸
= 8.9868
Trat. B
𝑆𝑆𝐵 = 308.3333 2 𝑆 𝐵 =
𝑆𝑆𝐵
𝑏 − 1
=
308.3333
2
= 154.16 𝐹𝐵 =
𝑆 𝐵
𝑆 𝐸
= 6.0719
InteraccA
B 𝑆𝑆𝐴𝐵 = 76.3334 2 𝑆𝐴𝐵 =
𝑆𝑆𝐴𝐵
(𝑎 − 1)(𝑏 − 1)
=
76.3334
2
= 38.1667 𝐹𝐴𝐵 =
𝑆𝐴𝐵
𝑆 𝐸
= 1.5032
Error
𝑆𝑆𝐸 = 457 18 𝑆 𝐸 =
𝑆𝑆𝐸
𝑎𝑏(𝑛 − 1)
=
457
18
= 25.3888
Total SST = 1069.8333 23
Tabla de ANOVA
a=2 b=3 n=4
Interpretación de resultados
 Buscando en la tabla de Fisher el valor para un
nivel de significancia de 5% (representado por
α=0.05) y 1-18 grados de libertad para el factor A
‘Conductor’, equivale a 4.41 en la tabla dado que
F=8.9868 :
8.9868>4.41
Se rechaza la hipótesis nula. El factor conductor
influye en el número de errores.
 2-18 grados de libertad para el factor B ‘Tipo de
Carretera’, equivale a 3.55 en la tabla dado que
F=6.0719 :
6.0719>3.55
Se rechaza la hipótesis nula. El factor tipo de carretera
influye en el número de errores.
 2-18 grados de libertad para la interacción AB
‘Conductor*Tipo de Carretera’, equivale a 3.55 en la
tabla dado que F=1.5032 :
1.5032<3.55
Se acepta la hipótesis nula. No hay interacción entre
ambos factores.
𝑯 𝟎,𝟏: el factor conductor no influye en el número de errores
𝑯 𝟏,𝟏: el factor conductor influye en el número de errores
𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores
𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores
𝑯 𝟎,𝟑: no hay interacción entre ambos factores
𝑯 𝟏,𝟑: hay interacción entre ambos factores
Realización del caso práctico en
 Abriremos el software Minitab, e
introduciremos los datos en la
‘Hoja de trabajo’, de la siguiente
manera:
Nota
Se introdujeron los datos en
tres columnas, la primera
‘Conductor’ donde se
colocaron ambos, la segunda
‘Tipo de carretera’, donde
fueron colocadas las 3
carreteras respectivamente al
conductor y por ultimo
‘Errores’.
 Para determinar si los datos son balanceados cuando se tiene conjuntos de datos grandes, se
debe crear una tabla de tabulación cruzada.
 Para crear esta tabla, debemos ir al menú Estadísticas  Tablas  Tabulación cruzada y Chi-
cuadrada.
Seleccionaremos para
Fila la columna ‘Errores’
y para Columnas
‘Conductor’,
Aceptamos
Se examinarán las celdas en la salida resultante: una celda es la
intersección de una fila y una columna. Si el conteo de una celda
no es igual a los conteos de todas las demás celdas, usted tiene
datos no balanceados.
 Y como podemos observar, el conteo nos da correctamente en la intersección,
por lo tanto, los datos son balanceados
 En la ventana que se despliega seleccionaremos la opción ‘Prueba
Chi-cuadrada’ y daremos Aceptar.
 Ya comprobado que los datos son
balanceados, procedemos a realizar el
análisis ANOVA; regresamos al menú
Estadísticas  ANOVA  ANOVA
balanceado
 En ‘Respuesta’ se colocará la columna ‘Errores’. En ‘Modelo’, colocaremos las
columnas ‘Conductor’ y ‘Tipo de carretera’, y posteriormente la interacción de
ambas: Conductor*Tipo de carretera
c
Grafica de efectos principales
 Menú Estadísticas  ANOVA  Grafica de
efectos principales
 En la ventana que nos abre, pondremos en Respuestas
:’Errores’; en Factores: ‘Tipo de carretera y Conductor’, y
Aceptar
Resultados…
 Los p-valores de los factores Conductor
y Tipo de carretera son bastante
pequeños , pero significativos ya que
son menores a 0.05 el valor de
significancia, por lo que se rechazarán
las hipótesis nulas asociadas a cada
factor. En cuanto a la interacción de los
factores es mayor a 0.05, por lo tanto se
acepta la hipótesis nula para esta.
 Los datos demuestran que tanto el tipo
de carretera como la experiencia del
conductor son factores que influyen en
el número de errores de conducción
cometidos.
Gráfica
 En esta gráfica ya se vuelve
más evidente la influencia de
los dos factores en la cantidad
de errores de conducción.
 Los más representativos como
se puede apreciar, en tipo de
carretera es ‘Comarcal’, y en
conductor el ‘Inexperto’.
Fuente Suma de cuadrados
Grados de
libertad
Estimador Valor F
Trat. A 228.1666 1 228.1666 8.9868
Trat. B 308.3333 2 154.16 6.0719
Interacc. AB 76.3334 2 38.1667 1.5032
Error 457 18 25.3888
Total 1069.8333 23
Comparación de resultados…
 A continuación se compararan los resultados de la tabla que se realizó aquí y la
realizada en Minitab:
 En contraste de un análisis y otro podemos darnos cuenta que son iguales los resultados, y con esto se
confirman los mismos, así como también las conclusiones a las que se llegaron con estos.
ANEXOS
 El archivo del cual se obtuvieron los ejemplos se encuentra en el siguiente link:
https://www.uoc.edu/in3/emath/docs/ANOVA.pdf
 La tabla distribución de probabilidad de F de Fisher, esta en:
https://www.uam.es/personal_pdi/ciencias/anabz/Prest/Trabajos/tabla-fisher.pdf
Fuentes de Información
 http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_ES
TADISTICA/DOC_%20INFERENCIA/TEMA%204/11%20ANALISIS%20DE%20VARIANZA.pdf
 http://www.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factor-lectura.pdf
 http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/anova/basics/what-is-
anova/
 http://www.ugr.es/~imartin/TEMA5_ANOVA.pdf
 https://www.uoc.edu/in3/emath/docs/ANOVA.pdf
 http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/regression-and-
correlation/residuals-and-residual-plots/patterns-in-residual-plots/
 http://biplot.usal.es/problemas/anova/ANOVA.html

ANOVA

  • 1.
    ANOVA ANALISIS DE VARIANZA INSTITUTOTECNOLÓGICO DE CIUDAD MADERO INGENIERÍA INDUSTRIAL MATERIA: CURSO INTEGRADOR POR: VIRIDIANA TURRUBIATES PERALES
  • 2.
    Análisis de Varianza El análisis de varianza (ANOVA), se refiere en general a un conjunto de situaciones experimentales y procedimientos estadísticos para el análisis de respuestas cuantitativas de unidades experimentales. El problema más sencillo de ANOVA se conoce como el análisis de varianza de un solo factor o diseño completamente al azar, éste se utiliza para comparar dos o más tratamientos, dado que sólo consideran dos fuentes de variabilidad, los tratamientos y el error aleatorio.  El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de determinar si los grupos son todos parte de una población más grande o poblaciones separadas con características diferentes.
  • 3.
    Fórmulas  Cuando losfactores sean de efectos fijos aparecerán en la fórmula como parámetros (con letras griegas), cuando los factores sean de efectos aleatorios, aparecerán como variables aleatorias (con letras mayúsculas latinas). Así:  a) 𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝐸𝑖𝑗  b) 𝑌𝑖𝑗 = 𝜇 + 𝐴𝑖 + 𝐸𝑖𝑗  c) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + 𝐸𝑖𝑗  d) 𝑌𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝐵𝑗 + 𝐸𝑖𝑗  El a) es un ANOVA de un factor, efectos fijos; el b) es un ANOVA de un factor, efectos aleatorios; el c) es un ANOVA de dos factores, efectos fijos; el d) es un ANOVA de dos factores, en el que el factor A es fijo y el factor B aleatorio; es, por tanto, un modelo mixto; µ es una constante y + Eij es la variable aleatoria residual o error.
  • 4.
    Tipos de ANOVA Minitab tiene diferentes tipos de ANOVA que permiten factores adicionales, tipos de factores y diseños diferentes que se ajustan a sus necesidades específicas.
  • 5.
    Tipos de ANOVA Podemosdistinguir tres tipos de modelos según sean de:  Efectos fijos: Donde sólo estudiamos determinados niveles del factor y únicamente perseguimos sacar conclusiones para éstos.  Efectos aleatorios: En este caso los niveles son infinitos y estudiamos una muestra de los mismos. Sus resultados también serán aleatorios.  Efectos mixtos: cuando nos encontramos con uno o más factores de las clases anteriores.
  • 6.
    ¿Qué es unFactor? Los factores son variables predictoras (también conocidas como variables independientes) que se eligen para que varíen sistemáticamente durante un experimento con el fin de determinar su efecto en la variable de respuesta (dependiente).  ¿Qué es un factor cruzado? Dos factores están cruzados cuando cada nivel de un factor ocurre en combinación con cada nivel del otro factor.  ¿Qué es un factor anidado? Dos factores están anidados cuando los niveles de un factor son similares pero no idénticos, y cada uno ocurre en combinación con diferentes niveles del otro factor.
  • 7.
    Factores fijos yaleatorios  En ANOVA, los factores son fijos o aleatorios. Por lo general, si el investigador controla los niveles de un factor, el factor es fijo. Por el contrario, si el investigador toma una muestra aleatoria de los niveles de un factor de una población, el factor es aleatorio.  Supongamos que usted tiene un factor denominado "operador" y que éste tiene tres niveles. Si usted selecciona intencionalmente estos tres operadores y desea que los resultados se apliquen únicamente a estos operadores, el factor es fijo. Sin embargo, si toma una muestra aleatoria de tres operadores en un número más grande de operadores y desea que sus resultados se apliquen a todos los operadores, el factor es aleatorio.
  • 8.
    Diseño de bloquesaleatorizados  Un diseño de bloques aleatorizados es un diseño que suele utilizarse para minimizar el efecto de la variabilidad cuando está asociada con unidades discretas (por ejemplo, ubicación, operador, planta, lote, tiempo).  El caso habitual consiste en aleatorizar una réplica de cada combinación de tratamientos dentro de cada bloque. Por lo general, no hay un interés intrínseco en los bloques y se considera que son factores aleatorios. El supuesto habitual es que la interacción de bloque y tratamiento es cero, y esta interacción pasa a ser el término de error para probar los efectos del tratamiento.  Si identifica a la variable de bloque como Bloque, los términos presentes en el modelo serían Bloque, A, B y A*B. También especificaría Bloque como un factor aleatorio.
  • 9.
    Diseño de cuadradoslatinos con medidas repetidas  Un diseño con medidas repetidas es un diseño en el que se efectúan mediciones repetidas en el mismo sujeto. Existen diversas maneras de asignar tratamientos a los sujetos.  Cuando se trata especialmente de sujetos vivos, puede sospecharse que existen diferencias sistemáticas (atribuibles al aprendizaje, aclimatación, resistencia, etc.) entre observaciones sucesivas.  Una manera frecuente de asignar tratamientos a los sujetos consiste en utilizar un diseño de cuadrados latinos. Una de las ventajas de este diseño para un experimento de medidas repetidas es que garantiza una fracción balanceada de un factorial completo (es decir, todas las combinaciones de tratamientos representadas) cuando los sujetos son limitados y el efecto de la secuencia del tratamiento puede considerarse insignificante.
  • 10.
    Diseño de cuadradoslatinos con medidas repetidas  Este diseño suele modificarse para proporcionar información acerca de uno o más factores adicionales. Si a cada grupo se le asignara un nivel diferente del factor A, entonces podría obtenerse información sobre los efectos de A y A*B con un esfuerzo mínimo si es posible hacer una suposición sobre el efecto de la secuencia asignada a los grupos. Si los efectos de la secuencia son insignificantes en comparación con los efectos del factor A, entonces el efecto de grupo podría atribuirse al factor A. Si las interacciones con el tiempo son insignificantes, entonces puede obtenerse información parcial sobre la interacción A*B. En el lenguaje de los diseños de medidas repetidas, el factor A se denomina factor entre sujetos y el factor B se denomina factor por cada sujeto.  No es necesario aleatorizar los experimentos de medidas repetidas con un diseño de cuadrados latinos.
  • 11.
    ANOVA de unfactor  La prueba ANOVA nos permite comparar las medias de r grupos, siendo r mayor o igual a 2. El modelo ANOVA presupone que las varianzas de los grupos son iguales y que los residuos o errores son aleatorios, independientes e idénticamente distribuidos siguiendo una ley normal con media 0 y desviación constante. La hipótesis nula de la prueba ANOVA de un factor es: H0: Las medias de los k grupos son todas iguales H1: Al menos una de las medias es diferente  Esta prueba se basa en la comparación de las sumas de cuadrados medias debidas a la variabilidad entre grupos y la debida a la variabilidad intra grupos (dentro de los grupos).
  • 12.
     Suponga quese tienen a tratamientos o niveles de un solo factor  Se desea comparar los diferentes niveles del factor  La variable de salida a comparar con cada uno de los niveles es una variable aleatoria ANOVA de un factor
  • 13.
     Las observacionesse pueden describir mediante un modelo matemático sencillo: Modelo de las medias 𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 𝑖 = 1, 2, … , 𝑎 𝑗 = 1, 2, … , 𝑛  Donde: 𝑦𝑖𝑗 es la observación ij-ésima, 𝜇𝑖 es la media del nivel del factor o tratamiento i-ésimo, y 𝜀𝑖𝑗 es un componente de error aleatorio (incorpora demás fuentes de variabilidad del experimento: mediciones, factores no controlados, diferencias en los materiales de prueba, variabilidad con el tiempo, medio ambiente, etc) ANOVA de un factor
  • 14.
    ANOVA de unfactor  Otro modelo es considerar que la media tiene dos componentes: 𝜇𝑖 = 𝜇 + 𝜏𝑖, 𝑖 = 1, 2, … , 𝑎  A 𝜇𝑖 se le llama media del nivel, la cual se compone de una media global (𝜇) y un 𝜏𝑖 que es el efecto del tratamiento i-ésimo.  Por tanto, el modelo matemático queda en definitiva como: 𝑦𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 𝑖 = 1, 2, … , 𝑎 𝑗 = 1, 2, … , 𝑛  A este modelo se le llama el modelo de los efectos
  • 15.
    Tabla de ANOVA Fuentede Variación Suma de Cuadrados Grados de libertad Cuadrado Medio F-valor Entre Grupos 𝑛 − 1 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 𝑛 − 1 𝐹 = 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 Dentro Grupos 𝑁 − 𝑛 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑒𝑟𝑟𝑜𝑟 𝑁 − 𝑛 Total 𝑁 − 1𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2 − ( 𝑦 𝑁 ) 𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 nc=no. de columnas N=no. de datos 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑦2 𝑛𝑐 − 𝑦2 𝑁
  • 16.
    Caso práctico ANOVA deun factor  Inflamabilidad de pijamas La inflamabilidad de los pijamas para niños ha sido un tema de preocupación constante durante las últimas décadas. Hoy en día, hay toda una serie de controles de seguridad que garantizan que las telas con que se fabrican los pijamas no sean fácilmente inflamables. Tras seleccionar un determinado fabricante de pijamas y 5 laboratorios diferentes, hemos enviado a cada laboratorio 11 prendas de dicho fabricante. La idea es que en cada laboratorio se les aplique un test de inflamabilidad. Los resultados (expresados en un determinado índice de inflamabilidad) se muestran a continuación:
  • 17.
    Desarrollo paso a paso Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales (𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1). 𝐻0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 𝐻1: 𝜇1 ≠ 𝜇2 ≠ 𝜇3 ≠ 𝜇4 Prenda LAB 1 LAB 2 LAB 3 LAB 4 LAB 5 𝒚 Prom 𝒚𝒊𝒋 𝟐 𝒚 𝟐 1 2.9 2.7 3.3 3.3 4.1 16.3 3.26 54.29 265.69 2 3.1 3.4 3.3 3.2 4.1 17.1 3.42 59.11 292.41 3 3.1 3.6 3.5 3.4 3.7 17.3 3.46 60.07 299.29 4 3.7 3.2 3.5 2.7 4.2 17.3 3.46 61.11 299.29 5 3.1 4.0 2.8 2.7 3.1 15.7 3.14 50.35 246.49 6 4.2 4.1 2.8 3.3 3.5 17.9 3.58 65.43 320.41 7 3.7 3.8 3.2 2.9 2.8 16.4 3.28 54.62 268.96 8 3.9 3.8 2.8 3.2 3.5 17.2 3.44 59.98 295.84 9 3.1 4.3 3.8 2.9 3.7 17.8 3.56 64.64 316.84 10 3.0 3.4 3.5 2.6 3.5 16 3.2 51.82 256 11 2.9 3.3 3.8 2.8 3.9 16.7 3.34 56.79 278.89 185.7 37.14 638.21 3140.11 En la tabla de los valores se tiene que calcular ∑y, promedio, ∑yij² y ∑y² El valor de ∑yij² se saca a partir de la siguiente tabla, que es el cuadrado de los datos:
  • 18.
    Realizamos los cálculos: Los resultados obtenidos se sustituyen en la tabla de ANOVA. 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 𝑦2 𝑛𝑐 − (𝑦)2 𝑁 = 3140.11 5 − (185.7 )2 55 = 1.03127273 nc=5 N=55 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = 𝑦𝑖𝑗2 − 𝑦 𝑁 = 638.21 − 185.7 55 = 11.2192727 𝑆𝑆𝑒𝑟𝑟𝑜𝑟 = 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 11.2192727−1.03127273=10.188
  • 19.
     n=no. deprendas  N=no. de datos Fuente de Variación Suma de Cuadrados Grados de libertad Cuadrado Medio F-valor Entre Grupos 1.03127273 11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 1.031273 10 = 0.103127 𝐹 = 1.0312727 0.231545 = 4.453875 Dentro Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 = 10.188 44 = 0.231545 Total 11.2192727 55 − 1 = 54
  • 20.
    Interpretación de resultados Buscando en la tabla de Fisher el valor para un nivel de significancia de 5% (representado por α=0.05) y 10-44 grados de libertad, equivale a 2.05 en la tabla dado que F=4.453875 : 4.453875>2.05 Se rechaza la hipótesis nula. Las medias resultan no ser iguales.  Lo que nos dice que la tela con que se hacen las pijamas si es inflamable.
  • 21.
    Realización del casopráctico en  Abriremos el software Minitab, e introduciremos los datos en la ‘Hoja de trabajo’, de la siguiente manera: Al introducir los datos estos quedaran en distintas columnas, para apilarlos en un sola columna, iremos al menú  Datos  Apilar  Filas Seleccionar las columnas y Aceptamos Nota
  • 22.
    ANOVA  Para realizarel análisis de los datos, nos iremos al menú Estadísticas  ANOVA  Un solo factor… Nos desplegara una ventana en la que seleccionaremos la variable de respuesta y el facto del experimento, y posteriormente seleccionamos la opción ‘Gráficas…’
  • 23.
     En laventana que se abrirá, solo seleccionaremos la opción ‘Cuatro en uno’, y daremos Aceptar
  • 24.
    Resultados…  Grafica 1:los datos están normalmente distribuidos, ya que siguen un línea recta.  Gráfica 2:Los residuos presentan varianzas constantes.  Gráfica 3:El histograma muestra una media centrada.  Gráfica 4: los datos circulan aleatoriamente alrededor de la línea central, lo cual muestra normalidad.  Obtendremos las siguientes gráficas en las cuales se podrá apreciar el comportamiento de los datos: 1 2 3 4
  • 25.
    Comparación de resultados… A continuación se compararan los resultados de la tabla que se realizó aquí y la realizada en Minitab:  En contraste de un análisis y otro podemos darnos cuenta que son los mismos resultados, y con esto se confirma el rechazo de Ho Fuente de Variación Suma de Cuadrados Grados de libertad Cuadrado Medio F-valor Entre Grupos 1.03127273 11 − 1 = 10 𝑀𝑆𝑓𝑎𝑐𝑡𝑜𝑟 = 1.031273 10 = 0.103127 𝐹 = 1.0312727 0.231545 = 4.453875 Dentro Grupos 10.188 55 − 11 = 44 𝑀𝑆𝑒𝑟𝑟𝑜𝑟 = 10.188 44 = 0.231545 Total 11.2192727 55 − 1 = 54
  • 26.
    ANOVA de dosfactores  Usaremos el análisis doble de la varianza para estudiar los posibles efectos causados por diferentes niveles de dos factores sobre la variable dependiente.  Usaremos ANOVA doble para contrastar, para cada uno de los dos factores, la hipótesis nula de que el resultado de la variable dependiente (crecimiento de patatas, intensidad del dolor de cabeza, tiempo en adquirir conocimientos, ventas, etc.) no depende del factor.
  • 27.
    ANOVA de dosfactores  Modelo aditivo (sin interacción) El modelo aditivo supone que la variación total en los datos puede ser expresada como suma de variaciones procedentes de fuentes diversas: (Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) + (Variación debida al error aleatorio) Si la variación debida al primer factor fuese mucho mayor que la variación debida al error aleatorio, dispondríamos de evidencia estadística contra la hipótesis nula de que los distintos niveles del primer factor tienen el mismo efecto sobre la variable dependiente; de forma similar, si la variación debida al segundo factor fuese mucho mayor que la variación debida al error aleatorio, deberíamos rechazar la hipótesis nula de que la variable dependiente no depende de los diversos niveles del segundo factor.
  • 28.
    ANOVA de dosfactores  Modelo con interacción Un aspecto al que debemos prestar especial atención es el nivel de interacción entre ambos factores; es decir, el efecto que cada uno de los factores tiene sobre el otro. Así, por ejemplo, en la campaña de marketing citada anteriormente, el incremento en las ventas debido a un aumento del presupuesto podría ser el mismo independientemente del medio usado, o bien podría variar dependiendo del medio usado. En este último caso deberíamos estudiar también la interacción entre los factores presupuesto y medio. Para ello usaremos los llamados modelos con interacción. Este modelo supone que la variación total de los datos puede descomponerse de la siguiente forma: (Variación total en los datos) = (Variación debida al primer factor) + (Variación debida al segundo factor) + (Variación debida a la interacción entre factores) + (Variación debida al error aleatorio)
  • 29.
    ANOVA de dosfactores En muchas situaciones prácticas la unidades experimentales no son homogéneas por lo que conviene agruparlas en distintos conjuntos de observaciones homogéneas. A tales conjuntos se les denomina bloques. Los tratamientos se aplican dentro de cada bloque siguiendo las mismas técnicas de aleatorización expuestas previamente. Se procurará que los tratamientos estén representados de la misma manera en todos los bloques.  Diseño en bloques al azar Supongamos que se dispone de r tratamientos a comparar y que se dividen las observaciones en s bloques con r unidades experimentales cada uno. Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de aleatorización.  Los datos resultantes serían los siguientes:
  • 30.
    ANOVA de dosfactores  El modelo matemático es ahora: 𝑥𝑖𝑗 = 𝜇𝑖𝑗 + 𝜀𝑖𝑗 𝑥𝑖𝑗 = 𝜇 + 𝑎𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗 Donde 𝛼𝑖 es el efecto debido al bloque, 𝛽𝑖 es el efecto debido al tratamiento y 𝜀𝑖𝑗 es el error experimental. Obsérvese que solamente hemos sustraído del residual la parte correspondiente a los bloques.
  • 31.
     Las hipótesisde que los distintos tratamientos y los bloques no producen ningún efecto se contrasta mediante el análisis de la varianza de dos factores, comparando la variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro de los grupos.  Los resultados fundamentales se resumen en la tabla siguiente. Fuente Suma de cuadrados Grados de libertad Estimador Valor F Entre bloques 𝑄 𝐵 = 𝑖=1 𝑠 𝑟( 𝑥𝑖. − 𝑥)2 𝑠 − 1 𝑆 𝐵 2 = 𝑄 𝐵 𝑠 − 1 𝐹𝐵 = 𝑆 𝐵 2 𝑆 𝑅 2 Entre Tratam. 𝑄 𝑇 = 𝑗=1 𝑟 𝑠( 𝑥.𝑗 − 𝑥)2 𝑟 − 1 𝑆 𝑇 2 = 𝑄 𝑇 𝑟 − 1 𝐹𝑇 = 𝑆 𝑇 2 𝑆 𝑅 𝑟 Residual 𝑄 𝑅 = 𝑖=1 𝑠 𝑗=1 𝑟 (𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥)2 (𝑟 − 1)(𝑠 − 1) 𝑆 𝑅 2 = 𝑄 𝑅 (𝑟 − 1)(𝑠 − 1) Total 𝑄 = 𝑖=1 𝑠 𝑗=1 𝑟 (𝑥𝑖𝑗 − 𝑥)2 𝑛 − 1
  • 32.
    ANOVA de dosfactores  Los estimadores de los efectos de los bloques y tratamientos se estiman a partir de 𝜇 = 𝑥 𝛼𝑖𝑗 = 𝑥𝑗. − 𝑥 𝛽𝑗 = 𝑥.𝑗 − 𝑥  y la parte propia de cada observación (o residual) 𝜀𝑖𝑗 = 𝑥𝑖𝑗 − 𝑥𝑖. − 𝑥.𝑗 + 𝑥  Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma manera que en el diseño de un factor.
  • 33.
    Fuente Suma decuadrados Grados de libertad Estimador Valor F Trat. A 𝑆𝑆𝐴 = 1 𝑏𝑛 𝑖=1 𝑦𝑖 2 − (𝑦𝑖)2 𝑎𝑏𝑛 𝑎 − 1 𝑆𝐴 = 𝑆𝑆𝐴 𝑎 − 1 = 𝑆𝐴 𝑆 𝐸 Trat. B 𝑆𝑆𝐵 = 1 𝑎𝑛 𝑖=1 𝑦𝑗 2 − (𝑦𝑖)2 𝑎𝑏𝑛 𝑏 − 1 𝑆 𝐵 = 𝑆𝑆𝐵 𝑏 − 1 = 𝑆 𝐵 𝑆 𝐸 Interacc. AB 𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 (𝑎 − 1)(𝑏 − 1) 𝑆𝐴𝐵 = 𝑆𝑆𝐴𝐵 (𝑎 − 1)(𝑏 − 1) = 𝑆𝐴𝐵 𝑆 𝐸 Error 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 𝑎𝑏(𝑛 − 1) 𝑆 𝐸 = 𝑆𝑆𝐸 𝑎𝑏(𝑛 − 1) Total 𝑆𝑆𝑇 = 𝑖=1 𝑦𝑖𝑗 𝑘2 − (𝑦𝑖)2 𝑎𝑏𝑛 𝑎𝑏𝑛 − 1 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 = 1 𝑛 𝑖=1 𝑦𝑖𝑗 2 − (𝑦𝑖)2 𝑎𝑏𝑛  Las hipótesis de que los distintos factores no producen ningún efecto y de que no existe interacción se contrastan mediante el análisis de la varianza de dos factores con interacción, comparando la variabilidad entre los niveles del factor A, la variabilidad entre los niveles del factor B, y la variabilidad debida a la interacción con la variabilidad dentro de los grupos o error.
  • 34.
     Los estimadoresde los efectos de los bloques y tratamientos se estiman a partir de: 𝜇 = 𝑥 𝛼𝑖 = 𝑥𝑖.. − 𝑥 𝛽𝑗 = 𝑥.𝑗. − 𝑥 𝛼 𝛽𝑖𝑗 = 𝑥𝑖𝑗. − 𝑥𝑖.. − 𝑥.𝑗. + 𝑥  y la parte propia de cada observación (o residual/error): 𝜀𝑖𝑗 = 𝑥𝑖𝑗𝑘 − 𝑥𝑖𝑗.  Los residuales pueden servirnos para la validación de las hipótesis básicas de la misma manera que en el diseño de un factor.
  • 35.
    Caso práctico ANOVA dedos factores  Conducción de vehículos A continuación se muestran los datos obtenidos en un experimento en el que se comprobaron las habilidades de dos grupos de conductores, los inexpertos y los expertos. Doce conductores de cada grupo tomaron parte en el experimento. Se usaron tres tipos de carreteras: autopista, nacional y comarcal. Mediante un proceso aleatorio, se asignaron a cada tipo de carretera cuatro conductores expertos y cuatro inexpertos. Cada conductor estuvo al volante durante 2 kilómetros, en los cuales se registraron los siguientes “errores de conducción” cometidos:
  • 36.
    Aplicación… 𝑯 𝟎,𝟏: elfactor conductor no influye en el número de errores 𝑯 𝟏,𝟏: el factor conductor influye en el número de errores 𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores 𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores 𝑯 𝟎,𝟑: no hay interacción entre ambos factores 𝑯 𝟏,𝟑: hay interacción entre ambos factores
  • 37.
     𝑌𝑖 =310  𝑌𝑖 2 = 50788  𝑌𝑖𝑗 2 = 18468  𝑌𝑗 = 310  𝑌𝑗 2 = 34500  𝑌𝑖𝑗𝑘 2 = 5074  Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son iguales (𝐻 𝑜), o si al menos una de las medias es diferente (𝐻1). Conductor Autopista Nacional Comarcal 4 23 16 18 15 27 8 21 23 10 13 14 6 2 20 4 6 15 13 8 8 7 12 17 70 100 140 4900 10000 19600 774 1612 2688 Tipo de carretera Inexperto Experto 192 36864 13184 118 13924 5284 𝑌𝑖 𝑌𝑖 2 𝑌𝑖𝑗 2 𝑌𝑗 𝑌𝑗 2 𝑌𝑖𝑗𝑘 2 B A Desarrollo paso a paso a=2 b=3 n=4En la tabla de los valores se tiene que calcular: Yi=Suma de todos los valores del factor A por categoría. Yi2=Yi al cuadrado Yij2=Suma de los valores dentro del mismo cuadro, al cuadrado. Yj=Suma de los valores del factor B por categoría. Yj2=Yj al cuadrado Yijk2=Suma de los cuadrados de cada valor por categoría de B.
  • 38.
    Realizamos los cálculos: Los resultados obtenidos se sustituyen en la tabla de ANOVA. 𝑆𝑆𝐴 = 1 𝑏𝑛 𝑖=1 𝑦𝑖 2 − (𝑦𝑖)2 𝑎𝑏𝑛 = 1 12 ∗ 50788 − (310)2 24 = 228.1666 𝑆𝑆𝐵 = 1 𝑎𝑛 𝑖=1 𝑦𝑗 2 − (𝑦𝑖)2 𝑎𝑏𝑛 = 1 8 ∗ 34500 − (310)2 24 = 308.3333 𝑆𝑆𝐴𝐵 = 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 612.8333 − 228.1666 − 308.3333 = 76.3334 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝐴𝐵 − 𝑆𝑆𝐴 − 𝑆𝑆𝐵 = 1069.8333 − 76.3334 − 228.1666 − 308.3333 = 457 𝑆𝑆𝑇 = 𝑖=1 𝑦𝑖𝑗 𝑘2 − (𝑦𝑖)2 𝑎𝑏𝑛 = 5074 − (310)2 24 = 1069.8333 𝑆𝑆 𝑆𝑈𝐵𝑇𝑂𝑇𝐴𝐿 = 1 𝑛 𝑖=1 𝑦𝑖𝑗 2 − (𝑦𝑖)2 𝑎𝑏𝑛 = 1 4 ∗ 18468 − (310)2 24 = 612.8333  𝑌𝑖 = 310  𝑌𝑖 2 = 50788  𝑌𝑖𝑗 2 = 18468  𝑌𝑗 = 310  𝑌𝑗 2 = 34500  𝑌𝑖𝑗𝑘 2 = 5074 a=2 b=3 n=4
  • 39.
    Fuente Suma decuadrados Grados de libertad Estimador Valor F Trat. A 𝑆𝑆𝐴 = 228.1666 1 𝑆𝐴 = 𝑆𝑆𝐴 𝑎 − 1 = 228.1666 1 = 228.1666 𝐹𝐴 = 𝑆𝐴 𝑆 𝐸 = 8.9868 Trat. B 𝑆𝑆𝐵 = 308.3333 2 𝑆 𝐵 = 𝑆𝑆𝐵 𝑏 − 1 = 308.3333 2 = 154.16 𝐹𝐵 = 𝑆 𝐵 𝑆 𝐸 = 6.0719 InteraccA B 𝑆𝑆𝐴𝐵 = 76.3334 2 𝑆𝐴𝐵 = 𝑆𝑆𝐴𝐵 (𝑎 − 1)(𝑏 − 1) = 76.3334 2 = 38.1667 𝐹𝐴𝐵 = 𝑆𝐴𝐵 𝑆 𝐸 = 1.5032 Error 𝑆𝑆𝐸 = 457 18 𝑆 𝐸 = 𝑆𝑆𝐸 𝑎𝑏(𝑛 − 1) = 457 18 = 25.3888 Total SST = 1069.8333 23 Tabla de ANOVA a=2 b=3 n=4
  • 40.
    Interpretación de resultados Buscando en la tabla de Fisher el valor para un nivel de significancia de 5% (representado por α=0.05) y 1-18 grados de libertad para el factor A ‘Conductor’, equivale a 4.41 en la tabla dado que F=8.9868 : 8.9868>4.41 Se rechaza la hipótesis nula. El factor conductor influye en el número de errores.  2-18 grados de libertad para el factor B ‘Tipo de Carretera’, equivale a 3.55 en la tabla dado que F=6.0719 : 6.0719>3.55 Se rechaza la hipótesis nula. El factor tipo de carretera influye en el número de errores.  2-18 grados de libertad para la interacción AB ‘Conductor*Tipo de Carretera’, equivale a 3.55 en la tabla dado que F=1.5032 : 1.5032<3.55 Se acepta la hipótesis nula. No hay interacción entre ambos factores.
  • 41.
    𝑯 𝟎,𝟏: elfactor conductor no influye en el número de errores 𝑯 𝟏,𝟏: el factor conductor influye en el número de errores 𝑯 𝟎,𝟐: el factor tipo de carretera no influye en el número de errores 𝑯 𝟏,𝟐:el factor tipo de carretera influye en el número de errores 𝑯 𝟎,𝟑: no hay interacción entre ambos factores 𝑯 𝟏,𝟑: hay interacción entre ambos factores Realización del caso práctico en
  • 42.
     Abriremos elsoftware Minitab, e introduciremos los datos en la ‘Hoja de trabajo’, de la siguiente manera: Nota Se introdujeron los datos en tres columnas, la primera ‘Conductor’ donde se colocaron ambos, la segunda ‘Tipo de carretera’, donde fueron colocadas las 3 carreteras respectivamente al conductor y por ultimo ‘Errores’.
  • 43.
     Para determinarsi los datos son balanceados cuando se tiene conjuntos de datos grandes, se debe crear una tabla de tabulación cruzada.  Para crear esta tabla, debemos ir al menú Estadísticas  Tablas  Tabulación cruzada y Chi- cuadrada. Seleccionaremos para Fila la columna ‘Errores’ y para Columnas ‘Conductor’, Aceptamos Se examinarán las celdas en la salida resultante: una celda es la intersección de una fila y una columna. Si el conteo de una celda no es igual a los conteos de todas las demás celdas, usted tiene datos no balanceados.
  • 44.
     Y comopodemos observar, el conteo nos da correctamente en la intersección, por lo tanto, los datos son balanceados  En la ventana que se despliega seleccionaremos la opción ‘Prueba Chi-cuadrada’ y daremos Aceptar.
  • 45.
     Ya comprobadoque los datos son balanceados, procedemos a realizar el análisis ANOVA; regresamos al menú Estadísticas  ANOVA  ANOVA balanceado  En ‘Respuesta’ se colocará la columna ‘Errores’. En ‘Modelo’, colocaremos las columnas ‘Conductor’ y ‘Tipo de carretera’, y posteriormente la interacción de ambas: Conductor*Tipo de carretera c
  • 46.
    Grafica de efectosprincipales  Menú Estadísticas  ANOVA  Grafica de efectos principales  En la ventana que nos abre, pondremos en Respuestas :’Errores’; en Factores: ‘Tipo de carretera y Conductor’, y Aceptar
  • 47.
    Resultados…  Los p-valoresde los factores Conductor y Tipo de carretera son bastante pequeños , pero significativos ya que son menores a 0.05 el valor de significancia, por lo que se rechazarán las hipótesis nulas asociadas a cada factor. En cuanto a la interacción de los factores es mayor a 0.05, por lo tanto se acepta la hipótesis nula para esta.  Los datos demuestran que tanto el tipo de carretera como la experiencia del conductor son factores que influyen en el número de errores de conducción cometidos.
  • 48.
    Gráfica  En estagráfica ya se vuelve más evidente la influencia de los dos factores en la cantidad de errores de conducción.  Los más representativos como se puede apreciar, en tipo de carretera es ‘Comarcal’, y en conductor el ‘Inexperto’.
  • 49.
    Fuente Suma decuadrados Grados de libertad Estimador Valor F Trat. A 228.1666 1 228.1666 8.9868 Trat. B 308.3333 2 154.16 6.0719 Interacc. AB 76.3334 2 38.1667 1.5032 Error 457 18 25.3888 Total 1069.8333 23 Comparación de resultados…  A continuación se compararan los resultados de la tabla que se realizó aquí y la realizada en Minitab:  En contraste de un análisis y otro podemos darnos cuenta que son iguales los resultados, y con esto se confirman los mismos, así como también las conclusiones a las que se llegaron con estos.
  • 50.
    ANEXOS  El archivodel cual se obtuvieron los ejemplos se encuentra en el siguiente link: https://www.uoc.edu/in3/emath/docs/ANOVA.pdf  La tabla distribución de probabilidad de F de Fisher, esta en: https://www.uam.es/personal_pdi/ciencias/anabz/Prest/Trabajos/tabla-fisher.pdf
  • 51.
    Fuentes de Información http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20INFERENCIA_ES TADISTICA/DOC_%20INFERENCIA/TEMA%204/11%20ANALISIS%20DE%20VARIANZA.pdf  http://www.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_factor-lectura.pdf  http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/anova/basics/what-is- anova/  http://www.ugr.es/~imartin/TEMA5_ANOVA.pdf  https://www.uoc.edu/in3/emath/docs/ANOVA.pdf  http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/regression-and- correlation/residuals-and-residual-plots/patterns-in-residual-plots/  http://biplot.usal.es/problemas/anova/ANOVA.html