notas19deagosto

981 visualizaciones

Publicado el

0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
981
En SlideShare
0
De insertados
0
Número de insertados
2
Acciones
Compartido
0
Descargas
12
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

notas19deagosto

  1. 1. UN FACTOR COMPLETAMENTE ALEATORIO Decimos que hay un solo factor cuando solo estamos considerando una variable de entrada. Modelo aditivo del experimento de un solo factor completamente aleatorio ; 1,2, … , 1,2, … , En donde: = promedio general. = efecto del tratamiento i. = error o residual de la observación j en el tratamiento i. observación j en el tratamiento i. a = cantidad de tratamientos n = cantidad de réplicas o repeticiones. Gráfico del modelo aditivo x x x x τ2 μ x x x x τa x x 1 2 ........ a Nivel τ = Desviación desde el promedio general (µ) hasta el promedio de cada nivel ( ). Anotaciones sobre el modelo:- Si los datos dentro de cada nivel están bien dispersos, el pronóstico hecho con el modelo va a ser muy pobre.- Por el contrario, si los datos dentro de cada nivel están muy cercanos, mi pronóstico va a ser muy bueno.
  2. 2. Fundamentos para el análisis de varianza Estimador de varianza: ∑ 1 √ ó á Interpretación del concepto de grados de libertad Es un indicador de la pureza de información que se va perdiendo a medida que un mismo conjunto de datos se utiliza más y más para calcular estadísticas. Definición: Es la cantidad de datos – el número de estimaciones que se han calculado con ese mismo conjunto de datos. Ejemplos para ilustrar este concepto Cuando se calcula media muestral no se ha utilizado el conjunto de datos para hacer ningún cálculo. Por tanto, los grados de libertad para la media son iguales a la cantidad de datos. Para la varianza muestral, como se requiere el uso de la media muestral, ya los datos han sido usados 1 vez para calcular un estadístico (la media muestral), por tanto, los grados de libertad son iguales a la cantidad de datos menos 1. Para el caso de la varianza de dos muestras provenientes de distribuciones normales con varianzas poblacionales iguales, como se requiere el cálculo de las varianzas muestrales de ambas muestras entonces los grados de libertad serán iguales a la cantidad de datos ( + menos 2.• Dos poblaciones ∑ ∑ Si 1 1 " " 2
  3. 3. Análisis de varianza (ANOVA)El ANOVA es una prueba de hipótesis en la que la hipótesis nula es que los factores tomados encuenta no influyen sobre la variable respuesta y la hipótesis alternativa es que si influyen.Decir que un factor no influye es lo mismo que decir que todos los efectos de sus niveles son igualesa cero, por tanto la formulación de la hipótesis nula se hace de la siguiente manera: Ho: τ1 = τ2 =…=τa = 0Una formulación equivalente sería: Ho: μ1 = μ2 =…= μaEn donde μi = μ + τiUna forma gráfica de visualizar la hipótesis nula es la siguiente: x x x x x x Media general x x x x x x 1 2 3Como se puede observar en el gráfico un cambio en el tratamiento no produce ningún cambio en lavariable respuesta, es decir, sus promedios son iguales entre si y a su vez iguales a la media global,por tanto podemos concluir que los efectos de los tratamientos son iguales a cero.Para hacer esta prueba, ANOVA hace una descomposición de las fuentes de variación en donde seexpresa lo siguiente:Variación Total= Variación debida a los factores tomados en cuenta en el experimento + Variacióndebida a los factores no tomados en cuenta (Error)A la variación debida a los factores tomados en cuenta también se le llama variación entre subgrupos(Between) y a la debida a factores no tomados en cuenta se le llama variación dentro de lossubgrupos (Within).En forma resumida:
  4. 4. Un FactorLa forma estándar de presentar los datos cuando trabajamos con un factor es la siguiente: 1 2 a y11 y21 ya1 y12 y22 ya2 y13 y23 ya3 . . . . . . . . . y1n y2n yan y1 y2 ya y1. y2. ya. y.. yi. = Total (suma) de las observaciones en el nivel i. yi. = Promedio de las observaciones en el nivel i y.. = Promedio general a = Cantidad de niveles n = Cantidad de réplicas o repeticiones para cada nivelPartición de la variabilidad totalSS = Sum of squares (suma de cuadrados)SSTotal = Suma de cuadrados totales ∑ ∑ .. ∑ ∑ . . .. ∑ ∑ . . .. 0 0 ∑ ∑ . . .. 2 . . .. ∑ ∑ . . .. Dentro Entre Grados de libertad = (an-a) + (a-1)
  5. 5. ANOVA La forma tradicional de presentar los resultados de ANOVA es la siguiente: Fuentes Grados de Promedio de F calculada F calculada libertad cuadrados Tratamiento a-1 SSTRAT MSTRAT = SSTRAT Fc = MSTRAT (entre) a-1 MSERROR Error (dentro) an-a (N-a) SSERROR MSERROR = SSERROR N-a Total N-1 En donde 1 a 2 y..2SSTratamientos = ∑ yi. − N n i =1 Para Tamaños de Muestra Iguales a n y..2SST = ∑ ∑y − N 2 ij i =1 j =1SS E = SST − SSTratamientos La estadística F La prueba de ANOVA se hace utilizando la distribución F. La distribución F es una familia de distribuciones cuyos parámetros son v1 (grados de libertad del numerador) y v2 (grados de libertad del denominador). La curva es asimétrica. Nivel de confianza (1- α) α = P (rechazar Ho / Ho es cierta) α Fc Para tomar decisiones con ésta distribución lo podemos hacer con cualquiera de estos procesos: Método del valor p Valor p= P (F>Fc) En otras palabras, el valor p para ésta prueba es el área a la derecha de Fc . Si el valor p es mayor que el nivel de significancia elegido (α) entonces no se rechaza la hipótesis nula.
  6. 6. Método del estadístico de pruebaSe busca el valor crítico , ,Si el F calculado (Fc) es menor que el valor crítico , , no se rechaza la hipótesis nula.Los softwares en vez de usar el , , , utilizan el p value.Supuestos del ANOVAANOVA supone que los errores (residuales) son independientes, normalmente distribuidos conpromedio cero y varianza constante.Supuesto de normalidadLa distribución F solicita que los datos del numerador y del denominador, provengan dedistribuciones normales. MSTRATSi observamos la composición del F calculado, Fc = MSERROR , nos damos cuenta de que podemosconsiderar que el numerador cumple con el supuesto de normalidad si nos auxiliamos del Teoremadel límite central1. Lamentablemente, dado que el MSerror se obtiene de las observacionesindividuales, no podemos utilizar éste teorema, por tanto, es necesario comprobar, ya sea de formagráfica y/o analítica, que estos cumplen con el supuesto de normalidad.Método gráfico para comprobar el supuesto de normalidadSe procede a graficar los residuales vs el percentil.El percentil se calcula con la fórmula P= (i-0.5)/n, en donde i es la posición del residual dentro de unarreglo ordenado de menor a mayor.La conclusión de éste gráfico es que dado los residuales parecen ajustarse a una línea recta, podemosconcluir que los mismos provienen de una distribución normal.1 Teorema del límite central: Si en lugar de mirar los datos individuales “y” observamos los promedios, a medida que“n” aumenta -no importa la distribución original- de los datos, la distribución de los promedios tenderá a ser normal. 
  7. 7. La conclusión de éste gráfico es que dado los residuales no se ajustan a una línea recta, podemosconcluir que los mismos no provienen de una distribución normal.Entre los métodos analíticos para probar la normalidad se encuentran:i) K - S (Kolmogorov – Smirnov)ii) Anderson – Darlingiii) Prueba de GearySupuesto de homocedasticidad u homogeneidad de varianzaEl método gráfico para comprobar éste supuesto consiste en graficar los residuales vs el nivel delfactor lo que resulta equivalente a graficar los residuales vs los pronósticos para cada nivel.Para decidir con éste gráfico se revisa si la variabilidad del nivel que más varía es menos del doblede la variabilidad del nivel que menos varía. Si éste es el caso, entonces no hay razón parapreocuparse por la heterocedasticidad (Varianza no constante).Ejemplo de gráfico donde no hay varianza constante: Versus Fits (response is Conductivity) 10 5 Residual 0 -5 -10 -15 130 132 134 136 138 140 142 144 146 Fitted ValueEn este gráfico podemos notar que la variabilidad para el nivel 3 del factor es más del doble del nivel1, por ésta razón podemos decir que la varianza no es constante para todos los niveles del factor.
  8. 8. Entre los métodos analíticos para hacer pruebas de homocedasticidad se encuentran:i) Prueba Levene’s (no presume ninguna distribución)ii) Bartlett (presume normalidad).IndependenciaPara la independencia se grafican los residuales vs el orden. En éste gráfico no se debe observarningún tipo de tendencia para que los residuales cumplan con el supuesto de independencia.De éste gráfico podemos concluir que dado que no se observa ninguna tendencia los residuales sonindependientes.El método analítico para probar la independencia es utilizando la Prueba Durbin–Watson.Ejemplo práctico de los cálculos para ANOVA de un factorSe desea probar si el tipo de batería influye sobre el voltaje obtenido. y = Voltaje TIPOS BATERIA DE 1 2 3 4 1.235 1.118 1.171 1.276 1.406 1.157 0.912 1.144 1.44 1.277 0.99 1.298 4.101 3.552 3.082 3.718 y.. = 14.453 n =3 (repeticiones) a = 4 (niveles)
  9. 9. . . . . . = 0.1782 14.453 1.255 1.406 1.44 1.144 1.298 0.26 12 0.26 0.1782 0.0818Fuentes Grados de Promedio F calculada F calculada libertad de cuadradosBatería 4-1=3 0.1782 0.1782 0.0594 3 0.0102 0.0594 5.82Error 8 0.0818 0.0818 8 0.0102 Valor p = 0.21 Mientras mayor la F; p es más pequeña. Fc= 5.82Conclusión: Al 5% de error se concluye que el tipo de batería influye sobre el voltaje obtenido.ANOVA solo detecta si existe diferencia significativa entre por lo menos un par de medias, pero nopuede detectar cuál es el par de medias que difiere. Para poder detectar el par que difiere hay queutilizar una prueba “ad hoc” (prueba después de ANOVA).Pruebas después de ANOVAScheffé.Newman KeulsDuncan Multiple RangeTukey.LSD Fisher (Minitab). [Least Significant Difference].Dunnett.
  10. 10. LSD Ho: μi = μj μi – μj = 0 0 . – Si ni = nj = n quiere decir que el experimento está balanceado. . .LSD = t a/2, n1 + n2 – 2Si . > LSD i, difieren significativamente.El objetivo de la prueba LSD es probar todos contra todos. Por otro lado, la prueba de Dunnett sirvepara probar todos contra una de las muestras que se toma como control.

×