ANOVA (análisis de varianza)
 
Sofía A. López MSc.
ANOVA Introducción: Se aplica cuando se desea hacer una “prueba de hipótesis de mas de dos poblaciones”. Ejemplos: Probar diferencias entre la cantidad de esperada de unidades no conformes de 3 líneas de producción. Evaluar diferencias entre el tiempo de demora de 5 proveedores Determinar diferencia en el tiempo de respuesta de 3 reactivos.
ANOVA Con las pruebas de hipótesis se pueden comparar dos poblaciones o procesos. En esta sección,  se presentan diseños experimentales que se utilizan cuando el objetivo es comparar  más  de dos niveles en un factor. Ejemplos: Comparar tres o más máquinas. Varios proveedores Cuatro procesos Tres materiales Cinco dosis de fármaco Cuatro dietas de alimentación
ANOVA Por le general el interés del experimentador esta centrado en comparar los tratamientos en cuanto a sus  medias poblacionales. No olvidar que también es importante compararlos con respecto a sus varianzas.
La Metodología
Ejemplo La tabla adjunta muestra el lead time de cuatro proveedores de la misma materia prima. Se puede decir que existe diferencia en el lead time de los proveedores? El black belt se encuentra en un programa de reducción de proveedores.  Qué proveedor de los existentes seleccionaría? O1 O2 O2 O4 1,93 2,55 2,4 2,33 2,38 2,72 2,68 2,40 2,20 2,75 2,31 2,28 2,25 2,70 2,28 2,25
Herramienta
Análisis de Varianza en un Solo Sentido Es recomendable utilizar el mismo número de repeticiones observadas en cada tratamiento, a menos que hubiera alguna razón para no hacerlo. Tratamientos o Poblaciones  que se desea comparar  Totales/columna Número Medias n 1   n 2   …  n j  …  n k  N Y .1   Y .2   …  Y .j  …  Y .k   Y..
Análisis de Varianza en un Solo Sentido Tratamientos o Poblaciones  que se comparan  Totales/columna Número Medias n 1   n 2   …  n j  …  n k  N Y .1   Y .2   …  Y .j  …  Y .k   Y.. Cualitativos o Cuantitativos
Análisis de Varianza en un Solo Sentido El número de tratamientos o poblaciones es determinado por el investigador y dependen del problema. El número de observaciones por tratamiento ( n ) debe escogerse con base en la variabilidad que se espera observar en los datos. En general se recomienda entre 5 y 30 mediciones (repeticiones) en cada tratamiento. Ejemplo: Se usa  n =10 cuando las mediciones dentro de cada tratamiento tienen un comportamiento consistente. Se recomienda  n  = 30 cuando las mediciones muestran bastante dispersión. Cuando es costoso o tardado realizar las pruebas para cada tratamiento se puede seleccionar un número menor de repeticiones.
Análisis de Varianza en un Solo Sentido Si la hipótesis nula es verdadera, toda la variabilidad se debe al azar. Por lo menos una es distinta
Ecuación Fundamental del Análisis de Varianza (Niveles del Factor Fijo) Suma de cuadrados de las desviaciones de la gran media Suma de cuadrados de las desviaciones entre los tratamientos Suma de cuadrados de las desviaciones dentro de tratamientos
Tabla ANOVA (Niveles del Factor Fijo) Fuente df SS MS F Valor p Tratamiento k-1 SS tratamientos SS tratamientos/(k-1) P(F ( ν 1,  ν 2) ≥f)  Error N-k SS error SS error/(N-k) TOTAL N-1 SS total
Ejemplo La tabla adjunta muestra el lead time de cuatro proveedores de la misma materia prima. Se puede decir que existe diferencia en el lead time de los proveedores? El black belt se encuentra en un programa de reducción de proveedores.  Qué proveedor de los existentes seleccionaría? O1 O2 O3 O4 1,93 2,55 2,4 2,33 2,38 2,72 2,68 2,40 2,20 2,75 2,31 2,28 2,25 2,70 2,28 2,25
Verificación de Supuestos del Modelo
Revisión del Modelo Los supuestos del modelo lineal, en términos de los residuos son: Los   ε ij   siguen una distribución normal con media cero. Los   ε ij   son independientes entre si. Los residuos de cada tratamiento tienen la misma varianza   2 . En la práctica no se espera que las suposiciones del modelo sean satisfechas exactamente. El análisis de puntos que no cumplen las suposiciones.
Análisis gráfico de los supuestos Para verificar  normalidad del error Independencia Homogeneidad de Varianzas
Análisis de respuestas Gráfico ANOVA
Qué ocurre si el modelo no es adecuado? Qué ocurre si no se cumplen las suposiciones del modelo? Considere un modelo distinto. Transforme los datos a fin de lograr normalidad.
Después de ANOVA… qué?
Comparaciones o pruebas de rango múltiples
Análisis de Varianza en un Solo Sentido Ejemplo: Se desea evaluar la influencia del proveedor de la materia prima en el nivel de  residuos (ppm) del proceso en su fase inicial.  La tabla adjunta resume los datos de seis muestras tomadas a los 4 proveedores existentes. Los proveedores difieren de manera significativa en cuanto al residuo que deja su materia prima? Qué proveedor o proveedores se deben seleccionar para garantizar el menor nivel de residuos? Realice el análisis gráfico y las pruebas que soporten su respuesta. Proveedor Residuo (ppm) A 264 260 258 241 262 255 B 208 220 216 200 213 206 C 220 263 219 225 230 228 D 217 226 215 227 220 222
Análisis de Varianza en un Solo Sentido Ejemplo: Se desea investigar el efecto del pH en el crecimiento de cierto microorganismo en un medio específico.  Para ello se realiza un experimento, teniendo como punto de partida la misma cantidad de microorganismos.  Se hacen 5 repeticiones y se obtienen los resultados que se muestran en la tabla adjunta.  Se puede afirmar que el nivel 3 de pH logra el menor crecimiento? Se puede decir que el nivel 2 de pH logra el mayor crecimiento? Analice la validez del modelo. Crecimiento en % Nivel de pH 1 Nivel de pH 2 Nivel de pH 3 77 72 76 81 58 85 71 74 82 76 66 80 80 70 77
14 Tiempo de reacción Se desea determinar el efecto de un medicamento X (en miligramos) en el tiempo de reacción de una persona Y (en milisegundos) luego de un estímulo. La información adjunta muestra los resultados luego de 3 observaciones por dosis del medicamento. Se puede concluir que existe efecto por el medicamento? Realice el análisis gráfico y el ANOVA.
Prueba Kruskal Wallis
 
Kruskal Wallis Caso en que se comparan más de dos grupos. La distribución de los datos no es normal. Aplicación de estadística no paramétrica.
Evaluación de rendimiento de masa Como parte del proyecto DMAIC,  el analista desea evaluar el efecto de tres tratamiento en el rendimiento de masa.  La tabla adjunta registra la información de la mezcla.  Se puede concluir que el rendimiento difiere de acuerdo a los tratamientos? Utilice los gráficos y pruebas adecuadas para soportar su conclusión. Rendimiento de masa Tratamientos 15,1 1 13 1 16,2 3 24,9 1 13,2 1 13,8 3 13,1 2 33 2 12,9 2 11,9 1 17 3 12,8 2 14,7 3 12 2 15 3 26,5 3
Tablas de Contingencia
 
Tablas de Contingencia Definen si la distribución de observaciones en atributos es independiente en los grupos. Atributos Se cuentan (no se miden) Hipótesis H o : los factores participantes son independientes. vs H 1 :  los factores participantes estan relacionados. .
15 Evaluación de satisfacción al cliente  La empresa posee 6 puntos de venta directos en diferentes zonas de la ciudad. El departamento se servicio al cliente ha colocado una encuesta donde el cliente debe indicar su grado de satisfacción con el servicio del punto de venta. La escala es la siguiente: 1: pobre, 2: bajo la media, 3: sobre la media, 4: bueno, 5: excelente.  La tabla adjunta muestra el cómputo de las encuestas por establecimiento.  Se puede decir que la satisfacción del cliente difiere por localidad? Qué sugiere para mejorar la satisfacción del cliente en el punto de venta.?
Regresión
Regresión Varios procedimientos pueden seguir el ANOVA si se detecta la presencia de efectos. El análisis de regresión sirve para determinar un modelo matemático que permita predecir la magnitud de la variable de respuesta a partir de los valores de las variables independientes. Solo las importantes! Relaciones: Lineal Cuadrática Polinomio de alto orden De qué forma se pueden revisar estas relaciones?
Regresión El modelo de regresión simple tiene la forma: Donde: :  La intercepción :  La pendiente :  El error aleatorio.
Regresión Hipótesis nulas presentes: La  X  no tiene efecto sobre la  Y. :  es constante :  es cero
16 Tiempo de descarga de producto en puntos de venta Al realizar el análisis de Pareto del tiempo de descarga de camiones de productos en puntos de venta, se pudo observar que el tamaño de la orden (en cajas) es un factor influyente. Realice el análisis gráfico de la relación entre las variables. Defina el modelo de regresión Verifique las hipótesis Revise los supuestos del modelo
14 Tiempo de reacción Se desea determinar el efecto de un medicamento X (en miligramos) en el tiempo de reacción de una persona Y (en milisegundos) luego de un estímulo. La información adjunta muestra los resultados luego de 3 observaciones por dosis del medicamento. Se puede concluir que existe efecto por el medicamento? Realice el análisis gráfico y el ANOVA. Utilice la cantidad de medicamento para predecir el tiempo de reacción de la persona al estímulo. Realice el análisis gráfico de la relación entre las variables. Defina el modelo de regresión Verifique las hipótesis Revise los supuestos del modelo

4+an%c3%a1lisis+de+varianza

  • 1.
  • 2.
  • 3.
  • 4.
    ANOVA Introducción: Seaplica cuando se desea hacer una “prueba de hipótesis de mas de dos poblaciones”. Ejemplos: Probar diferencias entre la cantidad de esperada de unidades no conformes de 3 líneas de producción. Evaluar diferencias entre el tiempo de demora de 5 proveedores Determinar diferencia en el tiempo de respuesta de 3 reactivos.
  • 5.
    ANOVA Con laspruebas de hipótesis se pueden comparar dos poblaciones o procesos. En esta sección, se presentan diseños experimentales que se utilizan cuando el objetivo es comparar más de dos niveles en un factor. Ejemplos: Comparar tres o más máquinas. Varios proveedores Cuatro procesos Tres materiales Cinco dosis de fármaco Cuatro dietas de alimentación
  • 6.
    ANOVA Por legeneral el interés del experimentador esta centrado en comparar los tratamientos en cuanto a sus medias poblacionales. No olvidar que también es importante compararlos con respecto a sus varianzas.
  • 7.
  • 8.
    Ejemplo La tablaadjunta muestra el lead time de cuatro proveedores de la misma materia prima. Se puede decir que existe diferencia en el lead time de los proveedores? El black belt se encuentra en un programa de reducción de proveedores. Qué proveedor de los existentes seleccionaría? O1 O2 O2 O4 1,93 2,55 2,4 2,33 2,38 2,72 2,68 2,40 2,20 2,75 2,31 2,28 2,25 2,70 2,28 2,25
  • 9.
  • 10.
    Análisis de Varianzaen un Solo Sentido Es recomendable utilizar el mismo número de repeticiones observadas en cada tratamiento, a menos que hubiera alguna razón para no hacerlo. Tratamientos o Poblaciones que se desea comparar Totales/columna Número Medias n 1 n 2 … n j … n k N Y .1 Y .2 … Y .j … Y .k Y..
  • 11.
    Análisis de Varianzaen un Solo Sentido Tratamientos o Poblaciones que se comparan Totales/columna Número Medias n 1 n 2 … n j … n k N Y .1 Y .2 … Y .j … Y .k Y.. Cualitativos o Cuantitativos
  • 12.
    Análisis de Varianzaen un Solo Sentido El número de tratamientos o poblaciones es determinado por el investigador y dependen del problema. El número de observaciones por tratamiento ( n ) debe escogerse con base en la variabilidad que se espera observar en los datos. En general se recomienda entre 5 y 30 mediciones (repeticiones) en cada tratamiento. Ejemplo: Se usa n =10 cuando las mediciones dentro de cada tratamiento tienen un comportamiento consistente. Se recomienda n = 30 cuando las mediciones muestran bastante dispersión. Cuando es costoso o tardado realizar las pruebas para cada tratamiento se puede seleccionar un número menor de repeticiones.
  • 13.
    Análisis de Varianzaen un Solo Sentido Si la hipótesis nula es verdadera, toda la variabilidad se debe al azar. Por lo menos una es distinta
  • 14.
    Ecuación Fundamental delAnálisis de Varianza (Niveles del Factor Fijo) Suma de cuadrados de las desviaciones de la gran media Suma de cuadrados de las desviaciones entre los tratamientos Suma de cuadrados de las desviaciones dentro de tratamientos
  • 15.
    Tabla ANOVA (Nivelesdel Factor Fijo) Fuente df SS MS F Valor p Tratamiento k-1 SS tratamientos SS tratamientos/(k-1) P(F ( ν 1, ν 2) ≥f) Error N-k SS error SS error/(N-k) TOTAL N-1 SS total
  • 16.
    Ejemplo La tablaadjunta muestra el lead time de cuatro proveedores de la misma materia prima. Se puede decir que existe diferencia en el lead time de los proveedores? El black belt se encuentra en un programa de reducción de proveedores. Qué proveedor de los existentes seleccionaría? O1 O2 O3 O4 1,93 2,55 2,4 2,33 2,38 2,72 2,68 2,40 2,20 2,75 2,31 2,28 2,25 2,70 2,28 2,25
  • 17.
  • 18.
    Revisión del ModeloLos supuestos del modelo lineal, en términos de los residuos son: Los ε ij siguen una distribución normal con media cero. Los ε ij son independientes entre si. Los residuos de cada tratamiento tienen la misma varianza  2 . En la práctica no se espera que las suposiciones del modelo sean satisfechas exactamente. El análisis de puntos que no cumplen las suposiciones.
  • 19.
    Análisis gráfico delos supuestos Para verificar normalidad del error Independencia Homogeneidad de Varianzas
  • 20.
  • 21.
    Qué ocurre siel modelo no es adecuado? Qué ocurre si no se cumplen las suposiciones del modelo? Considere un modelo distinto. Transforme los datos a fin de lograr normalidad.
  • 22.
  • 23.
    Comparaciones o pruebasde rango múltiples
  • 24.
    Análisis de Varianzaen un Solo Sentido Ejemplo: Se desea evaluar la influencia del proveedor de la materia prima en el nivel de residuos (ppm) del proceso en su fase inicial. La tabla adjunta resume los datos de seis muestras tomadas a los 4 proveedores existentes. Los proveedores difieren de manera significativa en cuanto al residuo que deja su materia prima? Qué proveedor o proveedores se deben seleccionar para garantizar el menor nivel de residuos? Realice el análisis gráfico y las pruebas que soporten su respuesta. Proveedor Residuo (ppm) A 264 260 258 241 262 255 B 208 220 216 200 213 206 C 220 263 219 225 230 228 D 217 226 215 227 220 222
  • 25.
    Análisis de Varianzaen un Solo Sentido Ejemplo: Se desea investigar el efecto del pH en el crecimiento de cierto microorganismo en un medio específico. Para ello se realiza un experimento, teniendo como punto de partida la misma cantidad de microorganismos. Se hacen 5 repeticiones y se obtienen los resultados que se muestran en la tabla adjunta. Se puede afirmar que el nivel 3 de pH logra el menor crecimiento? Se puede decir que el nivel 2 de pH logra el mayor crecimiento? Analice la validez del modelo. Crecimiento en % Nivel de pH 1 Nivel de pH 2 Nivel de pH 3 77 72 76 81 58 85 71 74 82 76 66 80 80 70 77
  • 26.
    14 Tiempo dereacción Se desea determinar el efecto de un medicamento X (en miligramos) en el tiempo de reacción de una persona Y (en milisegundos) luego de un estímulo. La información adjunta muestra los resultados luego de 3 observaciones por dosis del medicamento. Se puede concluir que existe efecto por el medicamento? Realice el análisis gráfico y el ANOVA.
  • 27.
  • 28.
  • 29.
    Kruskal Wallis Casoen que se comparan más de dos grupos. La distribución de los datos no es normal. Aplicación de estadística no paramétrica.
  • 30.
    Evaluación de rendimientode masa Como parte del proyecto DMAIC, el analista desea evaluar el efecto de tres tratamiento en el rendimiento de masa. La tabla adjunta registra la información de la mezcla. Se puede concluir que el rendimiento difiere de acuerdo a los tratamientos? Utilice los gráficos y pruebas adecuadas para soportar su conclusión. Rendimiento de masa Tratamientos 15,1 1 13 1 16,2 3 24,9 1 13,2 1 13,8 3 13,1 2 33 2 12,9 2 11,9 1 17 3 12,8 2 14,7 3 12 2 15 3 26,5 3
  • 31.
  • 32.
  • 33.
    Tablas de ContingenciaDefinen si la distribución de observaciones en atributos es independiente en los grupos. Atributos Se cuentan (no se miden) Hipótesis H o : los factores participantes son independientes. vs H 1 : los factores participantes estan relacionados. .
  • 34.
    15 Evaluación desatisfacción al cliente La empresa posee 6 puntos de venta directos en diferentes zonas de la ciudad. El departamento se servicio al cliente ha colocado una encuesta donde el cliente debe indicar su grado de satisfacción con el servicio del punto de venta. La escala es la siguiente: 1: pobre, 2: bajo la media, 3: sobre la media, 4: bueno, 5: excelente. La tabla adjunta muestra el cómputo de las encuestas por establecimiento. Se puede decir que la satisfacción del cliente difiere por localidad? Qué sugiere para mejorar la satisfacción del cliente en el punto de venta.?
  • 35.
  • 36.
    Regresión Varios procedimientospueden seguir el ANOVA si se detecta la presencia de efectos. El análisis de regresión sirve para determinar un modelo matemático que permita predecir la magnitud de la variable de respuesta a partir de los valores de las variables independientes. Solo las importantes! Relaciones: Lineal Cuadrática Polinomio de alto orden De qué forma se pueden revisar estas relaciones?
  • 37.
    Regresión El modelode regresión simple tiene la forma: Donde: : La intercepción : La pendiente : El error aleatorio.
  • 38.
    Regresión Hipótesis nulaspresentes: La X no tiene efecto sobre la Y. : es constante : es cero
  • 39.
    16 Tiempo dedescarga de producto en puntos de venta Al realizar el análisis de Pareto del tiempo de descarga de camiones de productos en puntos de venta, se pudo observar que el tamaño de la orden (en cajas) es un factor influyente. Realice el análisis gráfico de la relación entre las variables. Defina el modelo de regresión Verifique las hipótesis Revise los supuestos del modelo
  • 40.
    14 Tiempo dereacción Se desea determinar el efecto de un medicamento X (en miligramos) en el tiempo de reacción de una persona Y (en milisegundos) luego de un estímulo. La información adjunta muestra los resultados luego de 3 observaciones por dosis del medicamento. Se puede concluir que existe efecto por el medicamento? Realice el análisis gráfico y el ANOVA. Utilice la cantidad de medicamento para predecir el tiempo de reacción de la persona al estímulo. Realice el análisis gráfico de la relación entre las variables. Defina el modelo de regresión Verifique las hipótesis Revise los supuestos del modelo