UN FACTOR COMPLETAMENTE ALEATORIO

    Decimos que hay un solo factor cuando solo estamos considerando una variable de entrada.

    Modelo aditivo del experimento de un solo factor completamente aleatorio

                                                 ;        1,2, … ,     1,2, … ,

    En donde:

       = promedio general.
       = efecto del tratamiento i.
        = error o residual de la observación j en el tratamiento i.
           observación j en el tratamiento i.
    a = cantidad de tratamientos
    n = cantidad de réplicas o repeticiones.

    Gráfico del modelo aditivo

                  x
                  x
                x x      τ2
       μ        x x
                x             x      τa
                x             x


                1     2 ........ a
    Nivel


    τ = Desviación desde el promedio general (µ) hasta el promedio de cada nivel ( ).

    Anotaciones sobre el modelo:

-   Si los datos dentro de cada nivel están bien dispersos, el pronóstico hecho con el modelo va a ser
    muy pobre.
-   Por el contrario, si los datos dentro de cada nivel están muy cercanos, mi pronóstico va a ser muy
    bueno.
Fundamentos para el análisis de varianza
    Estimador de varianza:


                                        ∑
                                                1

           √                 ó     á


    Interpretación del concepto de grados de libertad

    Es un indicador de la pureza de información que se va perdiendo a medida que un mismo conjunto
    de datos se utiliza más y más para calcular estadísticas.

    Definición: Es la cantidad de datos – el número de estimaciones que se han calculado con ese mismo
    conjunto de datos.

    Ejemplos para ilustrar este concepto

    Cuando se calcula media muestral no se ha utilizado el conjunto de datos para hacer ningún cálculo.
    Por tanto, los grados de libertad para la media son iguales a la cantidad de datos.

    Para la varianza muestral, como se requiere el uso de la media muestral, ya los datos han sido usados
    1 vez para calcular un estadístico (la media muestral), por tanto, los grados de libertad son iguales a
    la cantidad de datos menos 1.

    Para el caso de la varianza de dos muestras provenientes de distribuciones normales con varianzas
    poblacionales iguales, como se requiere el cálculo de las varianzas muestrales de ambas muestras
    entonces los grados de libertad serán iguales a la cantidad de datos ( +  menos 2.

•   Dos poblaciones

                      ∑                                   ∑


    Si


                                                      1               1
                                    "       "
                                                                  2
Análisis de varianza (ANOVA)
El ANOVA es una prueba de hipótesis en la que la hipótesis nula es que los factores tomados en
cuenta no influyen sobre la variable respuesta y la hipótesis alternativa es que si influyen.

Decir que un factor no influye es lo mismo que decir que todos los efectos de sus niveles son iguales
a cero, por tanto la formulación de la hipótesis nula se hace de la siguiente manera:

       Ho: τ1 = τ2 =…=τa = 0

Una formulación equivalente sería:

       Ho: μ1 = μ2 =…= μa

En donde μi = μ + τi

Una forma gráfica de visualizar la hipótesis nula es la siguiente:


           x   x        x
           x   x        x        Media general
           x   x        x
           x   x        x

           1   2         3

Como se puede observar en el gráfico un cambio en el tratamiento no produce ningún cambio en la
variable respuesta, es decir, sus promedios son iguales entre si y a su vez iguales a la media global,
por tanto podemos concluir que los efectos de los tratamientos son iguales a cero.

Para hacer esta prueba, ANOVA hace una descomposición de las fuentes de variación en donde se
expresa lo siguiente:

Variación Total= Variación debida a los factores tomados en cuenta en el experimento + Variación
debida a los factores no tomados en cuenta (Error)

A la variación debida a los factores tomados en cuenta también se le llama variación entre subgrupos
(Between) y a la debida a factores no tomados en cuenta se le llama variación dentro de los
subgrupos (Within).

En forma resumida:
Un Factor
La forma estándar de presentar los datos cuando trabajamos con un factor es la siguiente:


       1       2                           a
       y11    y21                      ya1
       y12    y22                      ya2
       y13    y23                      ya3
       .       .                           .
       .       .                           .
       .       .                           .
       y1n    y2n                      yan
       y1     y2                       ya
       y1.    y2.                      ya.              y..


       yi. = Total (suma) de las observaciones en el nivel i.
       yi. = Promedio de las observaciones en el nivel i
       y.. = Promedio general
       a = Cantidad de niveles
       n = Cantidad de réplicas o repeticiones para cada nivel


Partición de la variabilidad total

SS = Sum of squares (suma de cuadrados)

SSTotal = Suma de cuadrados totales

                       ∑       ∑               ..

                   ∑       ∑           .            .       ..

                   ∑       ∑               .                .       ..

                                                                               0           0
                   ∑       ∑               .                    .    ..    2       .   .   ..


                               ∑   ∑                    .            .    ..
                                       Dentro                       Entre

       Grados de libertad = (an-a) + (a-1)
ANOVA
 La forma tradicional de presentar los resultados de ANOVA es la siguiente:

 Fuentes                     Grados de                Promedio de          F calculada         F calculada
                             libertad                 cuadrados
 Tratamiento                         a-1                   SSTRAT          MSTRAT = SSTRAT     Fc = MSTRAT
 (entre)                                                                             a-1            MSERROR
 Error (dentro)                 an-a          (N-a)        SSERROR         MSERROR = SSERROR
                                                                                     N-a
 Total                                 N-1

 En donde

                   1 a 2 y..2
SSTratamientos =     ∑ yi. − N
                   n i =1
   Para Tamaños de Muestra Iguales

          a      n
                     y..2
SST = ∑         ∑y − N 2
                       ij
         i =1   j =1



SS E = SST − SSTratamientos


                                                        La estadística F

 La prueba de ANOVA se hace utilizando la distribución F.

 La distribución F es una familia de distribuciones cuyos parámetros son v1 (grados de libertad del
 numerador) y v2 (grados de libertad del denominador).

          La curva es asimétrica.
                      Nivel de confianza

                                     (1- α)              α = P (rechazar Ho / Ho es cierta)

                                               α


                                        Fc
 Para tomar decisiones con ésta distribución lo podemos hacer con cualquiera de estos procesos:

 Método del valor p

 Valor p= P (F>Fc)
 En otras palabras, el valor p para ésta prueba es el área a la derecha de Fc .
 Si el valor p es mayor que el nivel de significancia elegido (α) entonces no se rechaza la hipótesis
 nula.
Método del estadístico de prueba

Se busca el valor crítico      ,   ,


Si el F calculado (Fc) es menor que el valor crítico           ,   ,   no se rechaza la hipótesis nula.

Los softwares en vez de usar el         ,   ,   , utilizan el p value.

Supuestos del ANOVA
ANOVA supone que los errores (residuales) son independientes, normalmente distribuidos con
promedio cero y varianza constante.

Supuesto de normalidad

La distribución F solicita que los datos del numerador y del denominador, provengan de
distribuciones normales.
                                                                   MSTRAT
Si observamos la composición del F calculado, Fc =                 MSERROR
                                                                             , nos damos cuenta de que podemos
considerar que el numerador cumple con el supuesto de normalidad si nos auxiliamos del Teorema
del límite central1. Lamentablemente, dado que el MSerror se obtiene de las observaciones
individuales, no podemos utilizar éste teorema, por tanto, es necesario comprobar, ya sea de forma
gráfica y/o analítica, que estos cumplen con el supuesto de normalidad.

Método gráfico para comprobar el supuesto de normalidad

Se procede a graficar los residuales vs el percentil.
El percentil se calcula con la fórmula P= (i-0.5)/n, en donde i es la posición del residual dentro de un
arreglo ordenado de menor a mayor.




La conclusión de éste gráfico es que dado los residuales parecen ajustarse a una línea recta, podemos
concluir que los mismos provienen de una distribución normal.

1
  Teorema del límite central: Si en lugar de mirar los datos individuales “y” observamos los promedios, a medida que
“n” aumenta -no importa la distribución original- de los datos, la distribución de los promedios tenderá a ser normal.
 
La conclusión de éste gráfico es que dado los residuales no se ajustan a una línea recta, podemos
concluir que los mismos no provienen de una distribución normal.

Entre los métodos analíticos para probar la normalidad se encuentran:
i) K - S (Kolmogorov – Smirnov)
ii) Anderson – Darling
iii) Prueba de Geary

Supuesto de homocedasticidad u homogeneidad de varianza

El método gráfico para comprobar éste supuesto consiste en graficar los residuales vs el nivel del
factor lo que resulta equivalente a graficar los residuales vs los pronósticos para cada nivel.

Para decidir con éste gráfico se revisa si la variabilidad del nivel que más varía es menos del doble
de la variabilidad del nivel que menos varía. Si éste es el caso, entonces no hay razón para
preocuparse por la heterocedasticidad (Varianza no constante).

Ejemplo de gráfico donde no hay varianza constante:

                                    Versus Fits
                              (response is Conductivity)


            10


             5
 Residual




             0


             -5


            -10


            -15
                  130   132   134     136      138         140   142   144   146
                                       Fitted Value




En este gráfico podemos notar que la variabilidad para el nivel 3 del factor es más del doble del nivel
1, por ésta razón podemos decir que la varianza no es constante para todos los niveles del factor.
Entre los métodos analíticos para hacer pruebas de homocedasticidad se encuentran:

i) Prueba Levene’s (no presume ninguna distribución)
ii) Bartlett (presume normalidad).

Independencia

Para la independencia se grafican los residuales vs el orden. En éste gráfico no se debe observar
ningún tipo de tendencia para que los residuales cumplan con el supuesto de independencia.




De éste gráfico podemos concluir que dado que no se observa ninguna tendencia los residuales son
independientes.

El método analítico para probar la independencia es utilizando la Prueba Durbin–Watson.

Ejemplo práctico de los cálculos para ANOVA de un factor

Se desea probar si el tipo de batería influye sobre el voltaje obtenido.

                y = Voltaje

                                          TIPOS BATERIA
                                             DE
          1                         2                   3                             4
        1.235                     1.118              1.171                          1.276
        1.406                     1.157              0.912                          1.144
        1.44                      1.277               0.99                          1.298
        4.101                     3.552              3.082                          3.718

       y.. = 14.453

       n =3 (repeticiones)
       a = 4 (niveles)
.           .        .        .      .
                                                               = 0.1782
                                                                            14.453
          1.255          1.406       1.44             1.144       1.298                 0.26
                                                                              12



          0.26    0.1782        0.0818

Fuentes          Grados de           Promedio                 F calculada        F calculada
                 libertad            de
                                     cuadrados
Batería                 4-1=3           0.1782                      0.1782               0.0594
                                                                       3                 0.0102
                                                                        0.0594       5.82

Error                     8                  0.0818                 0.0818
                                                                       8
                                                                        0.0102

        Valor p = 0.21

        Mientras mayor la F; p es más pequeña.




                                     Fc= 5.82

Conclusión: Al 5% de error se concluye que el tipo de batería influye sobre el voltaje obtenido.

ANOVA solo detecta si existe diferencia significativa entre por lo menos un par de medias, pero no
puede detectar cuál es el par de medias que difiere. Para poder detectar el par que difiere hay que
utilizar una prueba “ad hoc” (prueba después de ANOVA).


Pruebas después de ANOVA

Scheffé.
Newman Keuls
Duncan Multiple Range
Tukey.
LSD Fisher (Minitab). [Least Significant Difference].
Dunnett.
LSD

          Ho: μi = μj           μi – μj = 0

                                   0
                  .         –




          Si ni = nj = n quiere decir que el experimento está balanceado.

                      .                         .




LSD =            t a/2, n1 + n2 – 2

Si    .       > LSD                   i,   difieren significativamente.

El objetivo de la prueba LSD es probar todos contra todos. Por otro lado, la prueba de Dunnett sirve
para probar todos contra una de las muestras que se toma como control.

notas19deagosto

  • 1.
    UN FACTOR COMPLETAMENTEALEATORIO Decimos que hay un solo factor cuando solo estamos considerando una variable de entrada. Modelo aditivo del experimento de un solo factor completamente aleatorio ; 1,2, … , 1,2, … , En donde: = promedio general. = efecto del tratamiento i. = error o residual de la observación j en el tratamiento i. observación j en el tratamiento i. a = cantidad de tratamientos n = cantidad de réplicas o repeticiones. Gráfico del modelo aditivo x x x x τ2 μ x x x x τa x x 1 2 ........ a Nivel τ = Desviación desde el promedio general (µ) hasta el promedio de cada nivel ( ). Anotaciones sobre el modelo: - Si los datos dentro de cada nivel están bien dispersos, el pronóstico hecho con el modelo va a ser muy pobre. - Por el contrario, si los datos dentro de cada nivel están muy cercanos, mi pronóstico va a ser muy bueno.
  • 2.
    Fundamentos para elanálisis de varianza Estimador de varianza: ∑ 1 √ ó á Interpretación del concepto de grados de libertad Es un indicador de la pureza de información que se va perdiendo a medida que un mismo conjunto de datos se utiliza más y más para calcular estadísticas. Definición: Es la cantidad de datos – el número de estimaciones que se han calculado con ese mismo conjunto de datos. Ejemplos para ilustrar este concepto Cuando se calcula media muestral no se ha utilizado el conjunto de datos para hacer ningún cálculo. Por tanto, los grados de libertad para la media son iguales a la cantidad de datos. Para la varianza muestral, como se requiere el uso de la media muestral, ya los datos han sido usados 1 vez para calcular un estadístico (la media muestral), por tanto, los grados de libertad son iguales a la cantidad de datos menos 1. Para el caso de la varianza de dos muestras provenientes de distribuciones normales con varianzas poblacionales iguales, como se requiere el cálculo de las varianzas muestrales de ambas muestras entonces los grados de libertad serán iguales a la cantidad de datos ( + menos 2. • Dos poblaciones ∑ ∑ Si 1 1 " " 2
  • 3.
    Análisis de varianza(ANOVA) El ANOVA es una prueba de hipótesis en la que la hipótesis nula es que los factores tomados en cuenta no influyen sobre la variable respuesta y la hipótesis alternativa es que si influyen. Decir que un factor no influye es lo mismo que decir que todos los efectos de sus niveles son iguales a cero, por tanto la formulación de la hipótesis nula se hace de la siguiente manera: Ho: τ1 = τ2 =…=τa = 0 Una formulación equivalente sería: Ho: μ1 = μ2 =…= μa En donde μi = μ + τi Una forma gráfica de visualizar la hipótesis nula es la siguiente: x x x x x x Media general x x x x x x 1 2 3 Como se puede observar en el gráfico un cambio en el tratamiento no produce ningún cambio en la variable respuesta, es decir, sus promedios son iguales entre si y a su vez iguales a la media global, por tanto podemos concluir que los efectos de los tratamientos son iguales a cero. Para hacer esta prueba, ANOVA hace una descomposición de las fuentes de variación en donde se expresa lo siguiente: Variación Total= Variación debida a los factores tomados en cuenta en el experimento + Variación debida a los factores no tomados en cuenta (Error) A la variación debida a los factores tomados en cuenta también se le llama variación entre subgrupos (Between) y a la debida a factores no tomados en cuenta se le llama variación dentro de los subgrupos (Within). En forma resumida:
  • 4.
    Un Factor La formaestándar de presentar los datos cuando trabajamos con un factor es la siguiente: 1 2 a y11 y21 ya1 y12 y22 ya2 y13 y23 ya3 . . . . . . . . . y1n y2n yan y1 y2 ya y1. y2. ya. y.. yi. = Total (suma) de las observaciones en el nivel i. yi. = Promedio de las observaciones en el nivel i y.. = Promedio general a = Cantidad de niveles n = Cantidad de réplicas o repeticiones para cada nivel Partición de la variabilidad total SS = Sum of squares (suma de cuadrados) SSTotal = Suma de cuadrados totales ∑ ∑ .. ∑ ∑ . . .. ∑ ∑ . . .. 0 0 ∑ ∑ . . .. 2 . . .. ∑ ∑ . . .. Dentro Entre Grados de libertad = (an-a) + (a-1)
  • 5.
    ANOVA La formatradicional de presentar los resultados de ANOVA es la siguiente: Fuentes Grados de Promedio de F calculada F calculada libertad cuadrados Tratamiento a-1 SSTRAT MSTRAT = SSTRAT Fc = MSTRAT (entre) a-1 MSERROR Error (dentro) an-a (N-a) SSERROR MSERROR = SSERROR N-a Total N-1 En donde 1 a 2 y..2 SSTratamientos = ∑ yi. − N n i =1 Para Tamaños de Muestra Iguales a n y..2 SST = ∑ ∑y − N 2 ij i =1 j =1 SS E = SST − SSTratamientos La estadística F La prueba de ANOVA se hace utilizando la distribución F. La distribución F es una familia de distribuciones cuyos parámetros son v1 (grados de libertad del numerador) y v2 (grados de libertad del denominador). La curva es asimétrica. Nivel de confianza (1- α) α = P (rechazar Ho / Ho es cierta) α Fc Para tomar decisiones con ésta distribución lo podemos hacer con cualquiera de estos procesos: Método del valor p Valor p= P (F>Fc) En otras palabras, el valor p para ésta prueba es el área a la derecha de Fc . Si el valor p es mayor que el nivel de significancia elegido (α) entonces no se rechaza la hipótesis nula.
  • 6.
    Método del estadísticode prueba Se busca el valor crítico , , Si el F calculado (Fc) es menor que el valor crítico , , no se rechaza la hipótesis nula. Los softwares en vez de usar el , , , utilizan el p value. Supuestos del ANOVA ANOVA supone que los errores (residuales) son independientes, normalmente distribuidos con promedio cero y varianza constante. Supuesto de normalidad La distribución F solicita que los datos del numerador y del denominador, provengan de distribuciones normales. MSTRAT Si observamos la composición del F calculado, Fc = MSERROR , nos damos cuenta de que podemos considerar que el numerador cumple con el supuesto de normalidad si nos auxiliamos del Teorema del límite central1. Lamentablemente, dado que el MSerror se obtiene de las observaciones individuales, no podemos utilizar éste teorema, por tanto, es necesario comprobar, ya sea de forma gráfica y/o analítica, que estos cumplen con el supuesto de normalidad. Método gráfico para comprobar el supuesto de normalidad Se procede a graficar los residuales vs el percentil. El percentil se calcula con la fórmula P= (i-0.5)/n, en donde i es la posición del residual dentro de un arreglo ordenado de menor a mayor. La conclusión de éste gráfico es que dado los residuales parecen ajustarse a una línea recta, podemos concluir que los mismos provienen de una distribución normal. 1 Teorema del límite central: Si en lugar de mirar los datos individuales “y” observamos los promedios, a medida que “n” aumenta -no importa la distribución original- de los datos, la distribución de los promedios tenderá a ser normal.  
  • 7.
    La conclusión deéste gráfico es que dado los residuales no se ajustan a una línea recta, podemos concluir que los mismos no provienen de una distribución normal. Entre los métodos analíticos para probar la normalidad se encuentran: i) K - S (Kolmogorov – Smirnov) ii) Anderson – Darling iii) Prueba de Geary Supuesto de homocedasticidad u homogeneidad de varianza El método gráfico para comprobar éste supuesto consiste en graficar los residuales vs el nivel del factor lo que resulta equivalente a graficar los residuales vs los pronósticos para cada nivel. Para decidir con éste gráfico se revisa si la variabilidad del nivel que más varía es menos del doble de la variabilidad del nivel que menos varía. Si éste es el caso, entonces no hay razón para preocuparse por la heterocedasticidad (Varianza no constante). Ejemplo de gráfico donde no hay varianza constante: Versus Fits (response is Conductivity) 10 5 Residual 0 -5 -10 -15 130 132 134 136 138 140 142 144 146 Fitted Value En este gráfico podemos notar que la variabilidad para el nivel 3 del factor es más del doble del nivel 1, por ésta razón podemos decir que la varianza no es constante para todos los niveles del factor.
  • 8.
    Entre los métodosanalíticos para hacer pruebas de homocedasticidad se encuentran: i) Prueba Levene’s (no presume ninguna distribución) ii) Bartlett (presume normalidad). Independencia Para la independencia se grafican los residuales vs el orden. En éste gráfico no se debe observar ningún tipo de tendencia para que los residuales cumplan con el supuesto de independencia. De éste gráfico podemos concluir que dado que no se observa ninguna tendencia los residuales son independientes. El método analítico para probar la independencia es utilizando la Prueba Durbin–Watson. Ejemplo práctico de los cálculos para ANOVA de un factor Se desea probar si el tipo de batería influye sobre el voltaje obtenido. y = Voltaje TIPOS BATERIA DE 1 2 3 4 1.235 1.118 1.171 1.276 1.406 1.157 0.912 1.144 1.44 1.277 0.99 1.298 4.101 3.552 3.082 3.718 y.. = 14.453 n =3 (repeticiones) a = 4 (niveles)
  • 9.
    . . . . . = 0.1782 14.453 1.255 1.406 1.44 1.144 1.298 0.26 12 0.26 0.1782 0.0818 Fuentes Grados de Promedio F calculada F calculada libertad de cuadrados Batería 4-1=3 0.1782 0.1782 0.0594 3 0.0102 0.0594 5.82 Error 8 0.0818 0.0818 8 0.0102 Valor p = 0.21 Mientras mayor la F; p es más pequeña. Fc= 5.82 Conclusión: Al 5% de error se concluye que el tipo de batería influye sobre el voltaje obtenido. ANOVA solo detecta si existe diferencia significativa entre por lo menos un par de medias, pero no puede detectar cuál es el par de medias que difiere. Para poder detectar el par que difiere hay que utilizar una prueba “ad hoc” (prueba después de ANOVA). Pruebas después de ANOVA Scheffé. Newman Keuls Duncan Multiple Range Tukey. LSD Fisher (Minitab). [Least Significant Difference]. Dunnett.
  • 10.
    LSD Ho: μi = μj μi – μj = 0 0 . – Si ni = nj = n quiere decir que el experimento está balanceado. . . LSD = t a/2, n1 + n2 – 2 Si . > LSD i, difieren significativamente. El objetivo de la prueba LSD es probar todos contra todos. Por otro lado, la prueba de Dunnett sirve para probar todos contra una de las muestras que se toma como control.