PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
Analisis de varianza.doc
1. DATOS ESTADÍSTICOS EN LA
INVESTIGACIÓN CIENTÍFICA
Análisis de la varianza aplicada a la investigación
científica con software SPSS
By: Jefferson Villalba
3. Objetivos:
Enumerar las características de la distribución F
Realizar una prueba de hipótesis para determinar si las varianzas
de dos poblaciones son iguales.
Describir el enfoque ANOVA para probar diferencias en medias
muestrales.
Organizar datos en una tabla ANOVA para su análisis.
4. La distribución F
La comparación simultánea de varias medias poblacionales se
denomina análisis de la varianza (ANOVA). En las dos situaciones,
las poblaciones deben seguir una distribución normal, y los datos
deben ser al menos de escala de intervalos.
¿Cuáles son las características de la distribución F?
Existe una familia de distribuciones F
La distribución F es continua
La distribución F no puede ser negativa
Tiene sesgo positive
Es asintótica
5. Comparación de dos varianzas poblacionales
La primera aplicación de la distribución F ocurre cuando se pone a prueba la hipótesis de que la varianza
de una población normal es igual a la varianza de otra población normal.
6. Ejemplo:
Se desea estudiar el tiempo que tardaría los alumnos en contestar un test de evaluación. Se
determinó muestras para dos cursos de estudiantes y se registró los tiempos que
emplean para contestar el test.
Usando el nivel de significancia de 0.10, ¿hay alguna diferencia entre las variaciones de los
tiempos de contestar los test?
Curso 1 Curso 2
52 59
67 60
56 61
45 51
70 56
54 63
64 57
65
Emplear el método de los 5 pasos para dar contestación a la pregunta planteada.
7. Análisis de Varianza - ANOVA
Un ANOVA («Análisis de varianza») es una técnica estadística que se utiliza
para determinar si existe o no una diferencia significativa entre las medias de
tres o más grupos independientes. Los dos tipos más comunes de ANOVA son
el ANOVA unidireccional y el ANOVA bidireccional
Suposiciones en el análisis de la varianza (ANOVA)
1. Las poblaciones siguen la distribución normal.
2. Las poblaciones tienen desviaciones estándares iguales
𝜎𝜎
3. Las poblaciones son independientes.
Formulación de hipótesis
H0: µ1 = µ2 = .... = µn
H1: Alguna distinta,
8. El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer la variabilidad de
un experimento en componentes independientes que puedan asignarse a causas distintas.
El problema general que vamos a estudiar es el siguiente: disponemos de 𝒏𝒏 elementos que se diferencian en
un factor: por ejemplo,
alumnos de distintas clases (factor clase),
coches de distintas marcas (factor marca),
En cada elemento observamos una característica continua (X) que varía aleatoriamente de un individuo a otro:
notas de Estadística de los alumnos,
consumo de gasolina
A esta característica se le llama variable respuesta.
Nuestro objetivo será conocer si existe o no relación entre la variable respuesta y el factor:
¿habrá diferencias en las notas de los distintos grupos de Estadística?,
¿tendrán coches similares de distintas marcas el mismo consumo de gasolina?
9.
10. Comprobación de las hipótesis previas
Normalidad.
Se comprueba con los contrastes Kolmogorov-Smirnov-Lillefors, Shapiro-Wilk, y los test
de Asimetría (próximo a 0 implica normalidad) y de Kurtosis (cercano a 3). La violación del supuesto de
normalidad no afecta de forma importante al estadístico F de Fisher-Snedecor, siempre que los tamaños
muestrales sean grandes (n>30 0 n>50, según el investigador/a), porqueal tratarse de un test de
comparativa de medias, se puede aplicar el Teorema Central del Límite.
Homocedasticidad
Comprobación: Análisis gráfico de residuos, Test de Esfericidad de Bartlett, Test de Hartley y el Test de
Levene de homogeneidad de varianzas. El ANOVA es robusto frente a la violación de la hipótesis de
homocedasticidad, si los tamaños muestrales de los grupos o tratamientos son idénticos o, al menos, muy
parecidos.
Independencia y aleatoriedad de las muestras
Comprobación: Análisis gráfico de los residuos. El Test ANOVA no resulta robusto frente a la violación de
la hipótesis de independencia y aleatoriedad de las muestras.
11. Análisis de varianza de un Factor
Para realizar el contraste ANOVA, se requieren k muestras independientes de la variable de interés. Una variable de
agrupación denominada Factor y clasificar las observaciones de la variable en las distintas muestras.
Suponiendo que la hipótesis nula es cierta, el estadístico utilizado en el análisis de varianza sigue una distribución F
de Fisher-Snedecor con k-1 y n-k grados de libertad, siendo k el número de muestras y n el número total de
observaciones que participan en el estudio.
12. Marcamos Descriptivos y Homogeneidad
de varianzas (el estadístico F del ANOVA
de un factor se basa en el cumplimiento
de 2 supuestos fundamentales:
normalidad y homocedasticidad).
13. Ejemplo1
Tres profesores dan clases de inglés en una misma escuela. Se desea contrastar, si existen
diferencias significativas en la forma de enseñanza de los tres profesores. Para ello se
seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en el
examen.
Prof 1 Prof 2 Prof 3
43 48 29
35 47 31
44 44 28
46 46 42
39 39 31
44 45 36
38 49 35
42 48 36
45 45 39
Contrastar al 5 % de significación si existen diferencias entre los profesores.
14. Ejemplo2
IE 1 IE 2 IE 3 IE 4 IE 5
5,5 6,1 4,9 3,2 6,7
5,2 7,2 5,5 3,3 5,8
5,9 5,5 6,1 5,5 5,4
7,1 6,7 6,1 5,7 5,5
6,2 7,6 6,2 6 4,9
5,9 5,9 6,4 6,1 6,2
5,3 8,1 6,9 4,7 6,1
6,2 8,3 4,5 5,1 7
Se sospecha que hay diferencias en la preparación del examen de selectividad entre los diferentes
centros de bachillerato de una ciudad. Con el fin de comprobarlo, de cada uno de los 5 centros, se
eligieron 8 alumnos al azar, con la condición de que hubieran cursado las mismas asignaturas, y se
anotaron las notas que obtuvieron en el examen de selectividad.
Los resultados fueron:
a) Crear las variables nota y centro e introducir los datos de la muestra.
b) Dibujar el diagrama de dispersión. ¿Qué conclusiones sacas sobre la nota media de selectividad en los
distintos centros?
c) Realizar el contraste de ANOVA. ¿Se puede confirmar la sospecha de que hay diferencias entre las notas
medias de los centros?
15. Ejemplo3
d) ¿Qué centros son los mejores en la preparación de la selectividad?
Seleccionar Post hoc y activar las opciones de Bonferroni, para ver los intervalos de diferencias entre
centros, y de Duncan para establecer grupos de comportamiento homogéneo.
a) Realizar un diagrama de cajas para analizar cada centro
16. En este caso hay que
interpretar la columna de
significación, si esta es
menor o igual que 0,05 , las
diferencias entre los grupos
formados por la variable 1
son significativas, y a la
izquierda podemos ver entre
qué grupos exactamente hay
diferencias.
Si el nivel de significación es
mayor que 0,05, como en
nuestro caso, no hay
diferencias significativas.
17. Regresión lineal y correlación
Calcular, probar e interpretar la relación entre dos variables utilizando el
coeficiente de correlación.
Aplicar un análisis de regresión para estimar la relación lineal entre dos
variables.
Evaluar una ecuación de regresión para predecir la variable dependiente.
Calcular e interpretar el coeficiente de determinación.
Calcular e interpretar los intervalos de confianza y de predicción.
18. ¿Qué es el análisis de correlación?
Cuando se estudia la relación entre dos variables en escala de intervalo (o de razón), es usual
comenzar con un diagrama de dispersión. Este procedimiento proporciona una representación
visual de la relación entre las variables