SlideShare una empresa de Scribd logo
1 de 27
EJERCICIOS ANOVA SIMPLE (II)
2. Abre el fichero EXAM SEP07.
a.- Queremos comprobar si el número de horas (medido a través de la variable #
horas) que pasan los estudiantes del Politécnico en la Biblioteca guarda alguna relación
con su hábito de lectura (medido a través de la variable lectura). Ejecuta un ANOVA,
utilizando un nivel de significación del 5 %, e interpreta el resultado que obtienes.
Variable respuesta: # horas.
Factor: hábito de lectura.
- Utilizando el ANOVA estudiaríamos si existe relación entre el número de horas
que pasan los estudiantes en la biblioteca del Politécnico según sus diferentes hábitos
de lectura. Para ello se realizará el siguiente contraste:
H 0 = todas las medias son iguales  μA = μB = μC = μD
H 1 = alguna media no es igual  alguna μi es diferente.
- Para realizar el contraste se realizan los siguientes pasos:
Comparación / Análisis de la varianza / ANOVA simple.
- En variable dependiente se pondrá: # horas y en factor: lectura.
- Para ver los resultados se consulta la Tabla ANOVA:
Tabla ANOVA para #_horas según lectura
Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 87,2906 3 29,0969 1,15 0,3349
Intra grupos 2361,8 93 25,3957
------------------------------------------------------------------------------
Total (Corr.) 2449,09 96
- Como el p-valor obtenido ( 0´3349) es mayor que el nivel de significación
(0´05) se acepta H 0 ; y por lo tanto se puede decir que la media de las horas que pasan
los estudiantes del Politécnico es similar en todos los casos independientemente del
nivel de lectura de cada uno; por lo tanto según el ANOVA simple no existe relación
entre el número de horas que pasan los estudiantes del Politécnico en la Biblioteca y
su hábito de lectura.
b.- Comprueba si se satisfacen los requisitos del ANOVA. ¿Resultan, entonces, fiables
las conclusiones del apartado anterior?
- Los requisitos o condiciones del ANOVA son: normalidad, homocedasticidad e
independencia de los datos.
- Para estudiar estas condiciones se estudia la variable residuos, para ello:
Botón guardar resultados / Marcar casilla residuos/Aceptar
- Aparece por lo tanto en la hoja de datos una nueva variable, que es la de los
residuos
1. Normalidad:
- El contraste que se realiza es el siguiente:
H 0 = variable residuos es normal
H 1 = variable residuos no es normal
Descripción / Distribuciones / Ajuste de distribuciones (datos no censurados).
En datos poner residuos.
- Para contrastar la normalidad se mira la ventana de Test de bondad de ajuste,
y los p-valor que allí aparecen.
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
----------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada Chi-cuadrado
menor o igual -5,7058 14 12,12 0,29
-5,7058 -3,34551 15 12,12 0,68
-3,34551 -1,58048 14 12,12 0,29
-1,58048 8,76289E-7 9 12,13 0,81
8,76289E-7 1,58048 11 12,13 0,10
1,58048 3,34551 11 12,12 0,10
3,34551 5,7058 9 12,12 0,81
mayor 5,7058 14 12,12 0,29
----------------------------------------------------------------------------
Chi-cuadrado = 3,37137 con 5 g.l. P-Valor = 0,642933
Estadístico DMAS de Kolmogorov = 0,110348
Estadístico DMENOS de Kolmogorov = 0,050904
Estadístico DN global de Kolmogorov = 0,110348
P-Valor aproximado = 0,188487
- Según ambos p-valor, tanto el de Chi-cuadrado (0´642933), como el de
Kolmogorov (0´188487), se acepta H 0, puesto que son mayores que el nivel de
significación del 5%, por lo tanto según estos test la variable es normal.
- También se estudian los p-valor obtenidos de los test de normalidad; para
verlos: Botón amarillo/Test normalidad.
Tests para la Normalidad para RESIDUALS
Estadístico chi-cuadrado de bondad de ajuste = 48,2371
P-valor = 0,000638325
Estadístico W de Shapiro-Wilks = 0,95203
P-valor = 0,00490306
Puntuación Z para asimetría = 1,71722
P-valor = 0,0859391
Puntuación Z para curtosis = 0,242493
P-valor = 0,808394
- Dos de los test para la normalidad rechazan H 0, puesto que son menores que
el nivel de significación; por lo tanto al fallar uno no se puede considerar como normal
la variable residuos.
2. Homocedasticidad.
- Para realizar este contraste es necesario volver al análisis ANOVA, y sería el
siguiente:
H 0 = todas las varianzas son iguales  ρA = ρB = ρC = ρD
H 1 = alguna varianza no es igual  alguna ρi es diferente
Los pasos son: Botón amarillo /Contraste de la varianza
Contraste de Varianza
Contraste C de Cochran: 0,303385 P-valor = 0,781548
Contraste de Bartlett: 1,01876 P-valor = 0,642881
Contraste de Hartley: 1,65968
Test de Levene: 0,236778 P-valor = 0,870514
- Estos tres p-valor son mayores que el nivel de significación y por lo tanto
aceptan H 0, y por lo tanto las varianzas son todas similares. Por lo tanto se cumple la
segunda condición necesaria para poder tomar los resultados del ANOVA como
válidos.
3. Independencia.
- Puesto que no disponemos de la fecha en la que hemos recogido los datos,
no podemos realizar un estudio sobre su aleatoriedad ya que no aparece reflejado el
orden temporal, por lo tanto daremos por supuesto que se cumple que se cumple esta
condición.
- Tras comprobar sí se cumplen o no las condiciones del ANOVA se puede
concluir que los resultados obtenidos no son totalmente fiables, pues que los datos no
siguen una distribución normal, sería necesario realizar otros estudios con otros
métodos o aumentar el tamaño de la muestra.
c.- Realiza el mismo contraste utilizando un método no-paramétrico, e interpreta el
resultado que obtienes. ¿Es fiable?
- Se utiliza el contraste de Kruskal – Wallis, para ello:
Botón amarillo/ Contraste Kruskal-Wallis
- Con este contraste en lugar de compararse las medias se contrastan las
medianas:
H 0 = todas las medianas son iguales  medA = medB = medC = medD
H 1 = alguna mediana no es igual  alguna medi es diferente.
Contraste de Kruskal-Wallis para #_horas según lectura
lectura Tamaño muestral Rango Promedio
------------------------------------------------------------
1 25 51,68
2 40 44,2375
3 26 55,7115
4 6 40,5
------------------------------------------------------------
Estadístico = 3,44376 P-valor = 0,328126
- El p-valor obtenido es mayor que el nivel de significación por lo tanto se
acepta la hipótesis nula, lo cual indica que las medianas de las muestras son similares y
por lo tanto no hay diferencias significativas entre el número de horas que los
estudiantes pasan en la biblioteca independientemente de su hábito de lectura.
- ANOVA y Kruskal-Wallis apoyan la misma conclusión; a pesar de que no se
cumplen exactamente los tres requisitos de ANOVA, y por ello se busca una segunda
opinión con contraste de Kruskal-Wallis, ambos apuntan en la misma dirección y por
tanto tiene sentido admitir que no hay diferencias significativas entre el número de
horas que alumnos con distintos hábitos de lectura pasan en la biblioteca.
3. Vuelve al fichero Selectividad.sf3.
a.- Utiliza un ANOVA, al 2% de significación, para contrastar la evidencia de relación
entre el Hábito de Lectura de los alumnos que aparecen en el fichero, y la Nota que
han obtenido en selectividad. ¿Confirma el contraste de Kruskal – Wallis al conclusión
que obtienes?
Variable respuesta: Nota
Factor: Hábito de lectura.
- Se realiza el siguiente contraste:
H 0 = todas las medias son iguales  μA = μB = μC = μD
H 1 = alguna media no es igual  alguna μi es diferente.
Para ello: Comparación/Análisis de la varianza/ANOVA simple.
En Variable dependiente ponemos: nota selectividad
En Factor ponemos: Hábito lectura
Tabla ANOVA para Nota_Select según Hábitos_Lect
Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 17,4718 2 8,73591 12,68 0,0001
Intra grupos 25,4919 37 0,688971
------------------------------------------------------------------------------
Total (Corr.) 42,9637 39
- El p-valor obtenido (0´0001) es más pequeño que el nivel de significación que
es 0´02; por lo tanto se rechaza H 0 , lo que indica que no todas las medias son iguales y
por lo tanto sí existen diferencias significativas en las notas de selectividad de los
alumnos según el hábito de lectura que tengan, o lo que es lo mismo el hábito de
lectura de los alumnos sí que influirá en su nota en selectividad.
Contraste Kruskal – Wallis
H 0 = todas las medianas son iguales  medA = medB = medC = medD
H 1 = alguna mediana no es igual  alguna medi es diferente.
Para realizarlo seguimos los siguientes pasos:
Botón amarillo/contraste de Kruskal-Wallis.
Se realiza un estudio sobre las medianas de la muestra.
Contraste de Kruskal-Wallis para Nota_Select según Hábitos_Lect
Hábitos_Lect Tamaño muestral Rango Promedio
------------------------------------------------------------
ALTO 12 29,3333
BAJO 9 8,05556
MEDIO 19 20,8158
------------------------------------------------------------
Estadístico = 17,1536 P-valor = 0,00018843
- El p-valor obtenido (0´00018843) es más pequeño que el nivel de significación
que es 0´02; por lo tanto se rechaza H 0 , lo que indica que no todas las medianas son
iguales y por lo tanto sí existen diferencias significativas en las notas de selectividad de
los alumnos según el hábito de lectura que tengan, o lo que es lo mismo el hábito de
lectura de los alumnos sí que influirá en su nota en selectividad.
- Sí se confirman los resultados obtenidos con el contraste de ANOVA simple.
b.- Valida las hipótesis del modelo, e interpreta el resultado.
- Para validar la hipótesis del modelo es necesario que la variable notas de
selectividad en cada uno de los hábitos de lectura cumpla tres requisitos: normalidad,
homocedasticidad e independencia.
1. Normalidad.
- Para estudiar la normalidad en la variable notas de selectividad en cada uno
de los hábitos de lectura (bajo, medio, alto, etc.) se estudia en la variable residuos en
lugar de ir miranda de manera independiente la normalidad de las notas en cada uno
de los hábitos de lectura. Para crear esta variable seguimos los siguientes pasos:
Botón guardar resultados / Marcar casilla residuos/Aceptar
Una vez creada esta variable estudiamos su normalidad.
Descripción / Distribuciones / Ajuste de distribuciones (datos no censurados).
En datos poner residuos.
Se realiza el siguiente contraste
H 0 = variable residuos es normal
H 1 = variable residuos no es normal
- Para contrastar la normalidad se mira la ventana de Test de bondad de ajuste,
y los p-valor que allí aparecen.
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
----------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada Chi-cuadrado
----------------------------------------------------------------------------
menor o igual -0,863111 5 5,71 0,09
-0,863111 -0,45756 6 5,71 0,01
-0,45756 -0,145537 7 5,71 0,29
-0,145537 0,145538 8 5,71 0,91
0,145538 0,45756 2 5,71 2,41
0,45756 0,863111 6 5,71 0,01
mayor 0,863111 6 5,71 0,01
----------------------------------------------------------------------------
Chi-cuadrado = 3,74976 con 4 g.l. P-Valor = 0,44093
Estadístico DMAS de Kolmogorov = 0,0930565
Estadístico DMENOS de Kolmogorov = 0,0849602
Estadístico DN global de Kolmogorov = 0,0930565
P-Valor aproximado = 0,879082
- Tanto el contraste de chi-cuadrado como el de Kolmogorov, son mayores que
el nivel de significación (0´02) por lo tanto se acepta H 0 , por lo tanto la variable
residuos se puede considerar normal . Para contrastar la normalidad también se miran
los test para la normalidad, para ello:
Botón amarillo/Test para la normalidad.
Tests para la Normalidad para RESIDUALS
Estadístico chi-cuadrado de bondad de ajuste = 17,8
P-valor = 0,216042
Estadístico W de Shapiro-Wilks = 0,970766
P-valor = 0,492216
Puntuación Z para asimetría = 0,147654
P-valor = 0,882611
Puntuación Z para curtosis = -0,0300783
P-valor = 0,975999
- Todos ellos aceptan H 0 puesto que los p-valor obtenidos son mayores que
0´02, luego aceptan normalidad.
- Por lo tanto sí se cumple la primera condición para poder validar el ANOVA
simple.
2. Homocedasticidad.
- Para este análisis se compara la varianza de las notas en selectividad según los
distintos hábitos de lectura, para realizarlo es necesario volver al análisis de ANOVA
simple, el contraste que se realiza es el siguiente:
H 0 = todas las varianzas son iguales  ρA = ρB = ρC = ρD
H 1 = alguna varianza no es igual  alguna ρi es diferente
Los pasos son:
Botón amarillo /Contraste de la varianza
Contraste de Varianza
Contraste C de Cochran: 0,413354 P-valor = 0,677533
Contraste de Bartlett: 1,03719 P-valor = 0,522509
Contraste de Hartley: 1,84254
Test de Levene: 0,378699 P-valor = 0,687375
- Los p-valor obtenidos son mayores que el nivel de significación (0´02), por lo
tanto se acepta la hipótesis nula, lo cual indica que la varianza de las notas en
selectividad según los distintos hábitos de lectura es similar en todos los casos. Por lo
tanto también se cumple la segunda condición.
3. Independencia.
- Este análisis no se puede realizr porque no aparece reflejado en la hoja de
datos el orden temporal en que han sido tomados y por lo tanto no podemos mirar su
aleatoriedad, por lo tanto damos por cierta esta condición. El contraste que habría que
realizar sería el siguiente:
H 0 = los residuos son aleatorios
H 1 = los residuos no son aleatorios.
- Por lo tanto ya que se cumplen las tres condiciones necesarias para poder dar
por válido el análisis de ANOVA simple, se pude decir que los resultados obtenidos en
el estudio son válidos; lo que significa que existen diferencias significativas en las notas
de selectividad de los alumnos según el hábito de lectura que tengan, o lo que es lo
mismo el hábito de lectura de los alumnos si que influye en su nota en selectividad.
c.- A partir de la tabla de ANOVA, indica qué procentaje de la variabilidad está
explicando el modelo. ¿Crees que lo que obtienes explica de algún modo el p-valor
que has calculado en el primer apartado?
Tabla ANOVA para Nota_Select según Hábitos_Lect
Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 17,4718 2 8,73591 12,68 0,0001
Intra grupos 25,4919 37 0,688971
------------------------------------------------------------------------------
Total (Corr.) 42,9637 39
- Para calcular el porcentaje de variabilidad dividimos la sumas de cuadrado de
Entre grupos entre la total y multiplicamos por 100
(17´4718 / 42´9637) x 100 = 40´66 %
-Al ser un porcentaje bastante alto, es lógico el resultado obtenido en el
apartado 1
d.- A partir de la tabla de ANOVA, estima el valor del error experimental, e indica que
significa.
- Mediante el error experimental se mide hasta donde pueden llegar los
residuos, es decir la diferencia entre cada dato y la media del grupo al que pertenecen.
- Se calcula realizando la raíz cuadrada del dato CUADRADO MEDIO INTRA
GRUPOS de la tabla ANOVA
Tabla ANOVA para Nota_Select según Hábitos_Lect
Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 17,4718 2 8,73591 12,68 0,0001
Intra grupos 25,4919 37 0,688971
------------------------------------------------------------------------------
Total (Corr.) 42,9637 39
√0´688971 = 0´83004
- Indica que las notas de selectividad pueden tener una oscilación de 0.83004
arriba o abajo, en relación al hábito de lectura al que pertenecen.
e.- ¿Cuántos grupos homogéneos establece Statgraphics?
- Para de determinar grupo homogéneos realizamos los siguientes pasos:
Botón amarillo / Contraste múltiple de rango.
Contraste Múltiple de Rango para Nota_Select según Hábitos_Lect
-------------------------------------------------------------------------------
Método: 95,0 porcentaje LSD
Hábitos_Lect Frec. Media Grupos homogéneos
--------------------------------------------------------------------------------
BAJO 9 4,8 X
MEDIO 19 5,98421 X
ALTO 12 6,63333 X
--------------------------------------------------------------------------------
Contraste Diferencias +/- Límites
--------------------------------------------------------------------------------
ALTO - BAJO *1,83333 0,741617
ALTO - MEDIO *0,649123 0,620148
BAJO - MEDIO *-1,18421 0,680555
--------------------------------------------------------------------------------
- Los grupos homogéneos son aquellos que tienen alineadas la X, en este caso
existen tres grupos homogéneos que corresponden a los distintos niveles de hábitos
de lectura, serían BAJO, MEDIO y ALTO, y por lo tanto sí existen diferencias
significativas entre las notas sacadas por los alumnos en selectividad y su hábito de
lectura.
f.- Estima: la nota media en selectividad correspondiente a los que poseen un bajo
hábito de lectura; el efecto de un alto hábito de lectura.
- Para determinar la nota media en selectividad para los que poseen un bajo
hábito de lectura, seguimos estos pasos:
Botón amarillo / Tabla de medias
Tabla de Medias para Nota_Select según Hábitos_Lect
con 95,0 intervalos LSD
--------------------------------------------------------------------------------
Error Estándar
Hábitos_Lect Frec. Media (s agrupada) Límite inf. Límite sup.
--------------------------------------------------------------------------------
ALTO 12 6,63333 0,239613 6,29003 6,97664
BAJO 9 4,8 0,276681 4,40359 5,19641
MEDIO 19 5,98421 0,190425 5,71138 6,25704
--------------------------------------------------------------------------------
Total 40 5,9125
- Según la estimación puntual realizada, aquellos estudiantes que tienen un
nivel bajo de lectura sacan una nota media en selectividad en torno a 4´8.
- Para calcular el efecto de un alto hábito de lectura, miramos en la misma tabla
el intervalo obtenido en la estimación puntual:
ALTO → 6´97664 – 6´29003 = 0,68661
- Según el resultado obtenido tener un hábito de lectura alto, implica tener
aproximadamente 0´68661 puntuación en la nota media obtenida en selectividad.
g.- Estima un intervalo LSD para la nota media en selectividad de aquellos que poseen
un bajo hábito de lectura.
Tabla de Medias para Nota_Select según Hábitos_Lect
con 95,0 intervalos LSD
--------------------------------------------------------------------------------
Error Estándar
Hábitos_Lect Frec. Media (s agrupada) Límite inf. Límite sup.
--------------------------------------------------------------------------------
ALTO 12 6,63333 0,239613 6,29003 6,97664
BAJO 9 4,8 0,276681 4,40359 5,19641
MEDIO 19 5,98421 0,190425 5,71138 6,25704
--------------------------------------------------------------------------------
Total 40 5,9125
- El intervalo LSD, que da Statgraphics para aquellos que tienen un bajo hábito
de lectura es:
BAJO : [4´40359 , 5´19641]
- Lo que determina que según la estimación puntual realizada, la nota media de
aquellos estudiantes que tienen un bajo hábito de lectura se encuentra dentro de ese
intervalo.
4. Indica cómo proceder para estudiar la existencia o no de relación entre las
siguientes variables. Explica qué resultado obtienes en cada caso.
a.- Hábitos_de_lectura /Centro
- Se trata de dos variables categóricas o cualitativas, por lo tanto para poder
estudiar si existe relación entre ambas crearé una tabla de contingencia y
luego aplicaré el contraste chi-cuadrado; el contraste que se realizará será
el siguiente:
H 0 = centros y hábito de lectura tienen relación
H 1 = centros y hábito de lectura no tienen relación
- Los pasos para crear la tabla de contingencia son los siguientes:
Descripción/datos cualitativos/tabulación cruzada
- Sale la siguiente ventana y en ella metemos los datos:
-En variable fila CENTROS y en variable columna Hábitos_Lectura; también se
podría poner al revés puesto que es independiente.
-Aparece la siguiente tabla de contingencia:
Tabla de Frecuencias para
CENTRO según
Hábitos_Lect
-Luego para ejecutar el contraste se hará:
Botón opciones tabulares/Contraste chi-cuadrado
Contraste de Chi-cuadrado
------------------------------------------
Chi-cuadrado GL P-Valor
------------------------------------------
14,06 8 0,0801
------------------------------------------
-El p-valor obtenido (0´0801), es mayor que el nivel de significación (0,02), por
lo tanto para un nivel de confianza del 98%, se acepta la hipótesis nula, luego las dos
variables tienen no relación, por lo tanto existe independencia de las dos variables y
por lo tanto el CENTRO y el HÁBITO DE LECTURA de los estudiantes no tienen relación.
Por otro lado al realizar el análisis Statgraphics advierte de que alguna celda tiene una
frecuencia esperada menor que 5, por lo tanto el resultado del contraste no es
concluyente. Por otro lado a través de la tabla de contingencia se puede observar que
aparentemente sí hay relación entre el centro y el hábito de lectura de los
estudiantes, puesto que:
* El p-valor obtenido es muy próximo al nivel de significación, y por lo
tanto casi se puede aceptar la existencia de relación.
* Las filas de la tabla de contingencia son muy diferentes entre sí, por lo
tanto muestra que puede existir relación entre el centro en que estudien los alumnos y
su hábito de lectura.
b.- Nota-media / Sexo
-Al tratarse de una variable cualitativa y otra cuantitativa se aplicará un análisis
ANOVA simple, en el que el factor será la variable sexo y la variable respuesta será
nota media; el contraste que se realizará será el siguiente; también se podrían utilizar
las técnicas del primer tema puesto que se trata de comparar dos poblaciones
(hombres y mujeres):
H 0 = todas las medias son iguales  μA = μB
H 1 = alguna media no es igual  alguna μi es diferente.
- Para realizar el contraste se realizan los siguientes pasos:
Comparación / Análisis de la varianza / ANOVA simple.
Tabla ANOVA para Nota_media según Sexo
Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 4,1159 1 4,1159 4,45 0,0416
Intra grupos 35,1819 38 0,925838
------------------------------------------------------------------------------
Total (Corr.) 39,2978 39
-El p-valor obtenido es mayor que el nivel de significación (0´02), por lo tanto se
acepta la hipótesis nula, por lo tanto se puede decir que la nota media que sacan los
estudiantes en selectividad es similar en todos los caso independientemente del sexo;
por lo tanto según el ANOVA simple no existe relación entre el sexo y la nota media
obtenida.
- Para que el estudio ANOVA simple se pueda dar por válido es necesario que se
cumplan las tres condiciones: normalidad, homocedasticidad e independencia.
1. Normalidad.
Se estudia la normalidad de los residuos, y se realiza el siguiente contraste:
H 0 = variable residuos es normal
H 1 = variable residuos no es normal
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
----------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada Chi-cuadrado
----------------------------------------------------------------------------
menor o igual -1,01397 6 5,71 0,01
-1,01397 -0,537534 7 5,71 0,29
-0,537534 -0,170976 7 5,71 0,29
-0,170976 0,170975 3 5,71 1,29
0,170975 0,537533 6 5,71 0,01
0,537533 1,01397 5 5,71 0,09
mayor 1,01397 6 5,71 0,01
----------------------------------------------------------------------------
Chi-cuadrado = 2,00021 con 4 g.l. P-Valor = 0,73572
Estadístico DMAS de Kolmogorov = 0,086152
Estadístico DMENOS de Kolmogorov = 0,0589273
Estadístico DN global de Kolmogorov = 0,086152
P-Valor aproximado = 0,927872
-Ambos p-valor son altos y por lo tanto aceptan la hipótesis nula por lo tanto
normalidad. También se miran los test para la normalidad.
Tests para la Normalidad para RESIDUALS
Estadístico chi-cuadrado de bondad de ajuste = 14,4
P-valor = 0,420356
Estadístico W de Shapiro-Wilks = 0,970004
P-valor = 0,469733
Puntuación Z para asimetría = 0,786384
P-valor = 0,43164
Puntuación Z para curtosis = -0,392098
P-valor = 0,694983
-Todos ellos son mayores que el nivel de significación del 2%, por lo tanto
aceptan la hipótesis nula y como consecuencia la normalidad de la variable.
2. Homocedasticidad.
H 0 = todas las varianzas son iguales  ρA = ρB
H 1 = alguna varianza no es igual  alguna ρi es diferente
Contraste de Varianza
Contraste C de Cochran: 0,631667 P-valor = 0,248764
Contraste de Bartlett: 1,03683 P-valor = 0,247187
Contraste de Hartley: 1,71494
Test de Levene: 0,24292 P-valor = 0,624941
-Todos los p-valor obtenidos son mayores que el nivel de significación por lo
tanto se acepta y en consecuencia se acepta la igualdad de varianzas.
3. Independencia.
- Puesto que no disponemos de la fecha en la que hemos recogido los datos,
no podemos realizar un estudio sobre su aleatoriedad ya que no aparece reflejado el
orden temporal, por lo tanto daremos por supuesto que se cumple que se cumple esta
condición.
-Al comprobar los tres requisitos y observar que se cumple los resultados
obtenidos gracias al análisis ANOVA simple, se dan por válidos, por lo tanto no existen
diferencias significativas entre la nota media obtenida en selectividad y el sexo de los
alumnos.
c.- Nota_lengua / Sexo
-Igual que en el caso anterior se trata de una variable cualitativa y otra
cuantitativa, por lo tanto se aplica un análisis ANOVA simple, con el siguiente
contraste:
H 0 = todas las medias son iguales  μA = μB
H 1 = alguna media no es igual  alguna μi es diferente.
Tabla ANOVA para Nota_Lengua según Sexo
Análisis de la Varianza
------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
------------------------------------------------------------------------------
Entre grupos 6,6589 1 6,6589 6,26 0,0168
Intra grupos 40,4411 38 1,06424
------------------------------------------------------------------------------
Total (Corr.) 47,1 39
- El p-valor obtenido en este caso es menor que el nivel de significación del 2%
(0´02), por lo tanto se rechaza la hipótesis nula y se acepta la hipótesis alternativa, lo
que significa que no todas la medias son iguales o lo que es lo mismo que existen
diferencias significativas entre las notas sacadas en lengua, según sean chicos o chicas,
por lo tanto estas dos variables sí tienen relación. Para poder dar por válidos estos
resultados es necesario comprobar las tres condiciones del modelo: normalidad,
homocedasticidad e independencia.
1. Normalidad.
-Se estudia la normalidad de los residuos, y se realiza el siguiente contraste:
H 0 = variable residuos es normal
H 1 = variable residuos no es normal
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado
----------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada Chi-cuadrado
----------------------------------------------------------------------------
menor o igual -1,08712 4 5,71 0,51
-1,08712 -0,576313 16 5,71 18,51
-0,576313 -0,18331 0 5,71 5,71
-0,18331 0,18331 0 5,71 5,71
0,18331 0,576313 10 5,71 3,21
0,576313 1,08712 0 5,71 5,71
mayor 1,08712 10 5,71 3,21
----------------------------------------------------------------------------
Chi-cuadrado = 42,6006 con 4 g.l. P-Valor = 1,25231E-8
Etadístico DMAS de Kolmogorov = 0,215167
Estadístico DMENOS de Kolmogorov = 0,137977
Estadístico DN global de Kolmogorov = 0,215167
P-Valor aproximado = 0,0492633
Tests para la Normalidad para RESIDUALS
Estadístico chi-cuadrado de bondad de ajuste = 81,55
P-valor = 1,45808E-11
Estadístico W de Shapiro-Wilks = 0,912536
P-valor = 0,00465665
Puntuación Z para asimetría = 0,71236
P-valor = 0,476239
Puntuación Z para curtosis = -1,12106
P-valor = 0,262261
-El p-valor obtenido en el test chi-cuadrado y en dos de los test para
normalidad es menor que el nivel de significación por lo tanto se rechaza la hipótesis
nula lo cual indica que no se cumple la primera condición que es normalidad.
-Por lo tanto no se pueden considerar los resultados del ANOVA simple como
válidos.
-Puesto que los resultados del ANOVA no se pueden considerar como válidos
será necesario realizar otro tipo de análisis como el contraste de Kruskal – Wallis, y
comparar las medianas de las variables:
H 0 = todas las medianas son iguales  medA = medB
H 1 = alguna mediana no es igual  alguna medi es diferente.
Contraste de Kruskal-Wallis para Nota_Lengua según Sexo
Sexo Tamaño muestral Rango Promedio
------------------------------------------------------------
M 19 24,5789
V 21 16,8095
------------------------------------------------------------
Estadístico = 4,79785 P-valor = 0,0284922
-El contraste de Kruskal – Wallis, da un p-valor mayor que el nivel de
significación (0´02), por lo tanto se aceptaría la hipótesis nula, es decir que las
medianas son similares, lo que indica que no existen diferencias significativas entre las
notas sacadas en lengua por lo alumnos y su sexo, por lo tanto estas dos variables no
tiene relación al nivel de significación fijado. Obsérvese, no obstante, que
incrementando ligeramente el nivel de significación se concluiría que sí existen
diferencias significativas.
- Puesto que se trata de comparar dos poblaciones y que los requisitos
de ANOVA no se cumplen y además el p-valor obtenido en el contraste de Kruskal-
Wallis, se pueden utilizar las técnicas del primer tema, sobre comparación de medias y
medianas y comprobar si la nota que sacan los estudiantes en lengua es distinta en
mujeres y hombres, los pasos que se realizarían serían los siguientes:
1.- ¿Datos pareados? No son pareados, puesto que se trata de distintos individuos.
2.- ¿Las variables son normales?
 Normalidad varones.
H 0 = nota_lengua (varones) es normal
H 1 = nota_lengua(varones) no es normal
Descripción / Distribuciones / Ajuste de distribuciones (datos no censurados)
En datos se pondría nota_lengua y en selección sexo= “V”
Tests de Bondad de Ajuste para Nota_Lengua
Contraste Chi-cuadrado
----------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada Chi-cuadrado
----------------------------------------------------------------------------
menor o igual 4,95802 0 3,50 3,50
4,95802 5,40399 10 3,50 12,07
5,40399 5,7619 0 3,50 3,50
5,7619 6,11982 6 3,50 1,79
6,11982 6,56578 0 3,50 3,50
mayor 6,56578 5 3,50 0,64
----------------------------------------------------------------------------
Chi-cuadrado = 25,0001 con 3 g.l. P-Valor = 0,0000154398
Estadístico DMAS de Kolmogorov = 0,296596
Estadístico DMENOS de Kolmogorov = 0,179594
Estadístico DN global de Kolmogorov = 0,296596
P-Valor aproximado = 0,0497097
Tests para la Normalidad para Nota_Lengua
Estadístico chi-cuadrado de bondad de ajuste = 78,6667
P-valor = 9,15934E-13
Estadístico W de Shapiro-Wilks = 0,770038
P-valor = 0,000122603
Puntuación Z para asimetría = 0,728146
P-valor = 0,466522
Puntuación Z para curtosis = -2,15022
P-valor = 0,0315377
- El test de chi-cuadrado no se puede considerar como válido puesto que
la frecuencia esperada es menor que 5, por lo tanto se mira el p-valor obtenido en el
test de Kolmogorov y los test para normalidad, por lo tanto para un nivel de
significación del 2% (0´02), dos de los test para normalidad rechazan H0 , ya que el p-
valor obtenido en ellos (Chi-cuadrado de bondad de ajuste y Wde Shapiro-Wilks) es
menor que el nivel de significación, por lo tanto la variable nota_lengua en el caso de
los varones no se puede considerar normal.
3.- Comparo las medianas.
- El contraste que se realiza es el siguiente:
H 0 = M (nota_lengua mujeres) = M (nota_lengua varones)
H 1 = M (nota_lengua mujeres) <> M (nota_lengua varones)
Comparación / Comparación de dos muestras / Comparación de dos muestras /
Columna de código y datos
En datos pondría nota_lengua y en código muestra sexo
Botón opciones tabulares / comparación de medianas
Comparación de Medianas para Nota_Lengua
----------------------------------------
Mediana de la muestra 1: 6,0
Mediana de la muestra 2: 6,0
Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas
Hipótesis nula: mediana1 = mediana2
(1) Hipótesis alt.: mediana1 <> mediana2
Rango medio de la muestra 1: 24,5789
Rango medio de la muestra 2: 16,8095
W = 122,0 P-Valor = 0,029535
- El p-valor obtenido es mayor que el nivel de significación del 2% (0´02),
por lo tanto en este caso se aceptaría H0,aunque el nivel de significación y el p-valor
sean muy similares, y por lo tanto se acepta que la nota media de los hombres en
lengua es similar a la nota media de las mujeres en lengua, por lo tanto no existen
diferencias significativas entre la nota que consiguen los alumnos en lengua y el sexo.
De nuevo, incrementando ligeramente el nivel de significación, se obtendría que
ambas medianas son diferentes.
5. ¿Cómo podrías contrastar si la nota media en selectividad de las mujeres con
alto hábito de lectura está, en general, por encima de 7?
- Lo primero es comprobar si la variable nota media de las mujeres con alto
hábito de lectura es normal o no realizando el siguiente contraste:
H 0 = variable nota selectividad, mujeres con alto hábito de lectura es normal.
H 1 = variable nota selectividad, mujeres con alto hábito de lectura no es normal
Para ello se realizan los siguientes pasos:
Descripción/Distribuciones/Ajuste de distribuciones (datos no censurados)
- En datos pongo nota selectividad y en selección se pondría: Sexo=”M”
& Hábitos_Lect = “ALTO”
- Miro los test de bondad e ajuste:
Tests de Bondad de Ajuste para Nota_Select
Contraste Chi-cuadrado
----------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia
Inferior Superior Observada Esperada Chi-cuadrado
----------------------------------------------------------------------------
menor o igual 6,68428 4 3,60 0,04
mayor 6,68428 5 5,40 0,03
----------------------------------------------------------------------------
Datos insuficientes para efectuar el contraste de chi-cuadrado.
Estadístico DMAS de Kolmogorov = 0,165918
Estadístico DMENOS de Kolmogorov = 0,142853
Estadístico DN global de Kolmogorov = 0,165918
P-Valor aproximado = 0,965364
- El test de chi-cuadrado no resulta fiable, puesto que alguna de las frecuencias
esperadas es menor que 5, por lo tanto hay que fijarse en el test de Kolmogorov; y
este test para un nivel de significación del 5%(0´05), por lo tanto como el p-valor
obtenido (0´965364) es mayor que el nivel de significación se acepta H 0 y por lo
tanto la variable notas de selectividad en mujeres con un alto nivel de lectura sigue
una distribución normal. También se miran los test de normalidad:
Tests para la Normalidad para Nota_Select
Estadístico chi-cuadrado de bondad de ajuste = 10,0
P-valor = 0,124652
Estadístico W de Shapiro-Wilks = 0,909465
P-valor = 0,307073
Puntuación Z para asimetría = 0,70307
P-valor = 0,48201
Puntuación Z para curtosis = -0,46046
P-valor = 0,645183
- En todos los casos el p-valor obtenido es mayor que el nivel de significación,
por lo tanto se acepta H 0 y en conclusión la variable es normal.
- Una vez que ya he comprobado que la variable es normal, para comprobar si la
nota esta por encima de 7, se utilizaría los test no paramétricos sobre la media y la
mediana, por lo tanto tenemos tres test a nuestra disposición:
El contraste que se realiza es el siguiente:
H 0 = mediana = 7
H 1 = mediana > 7
H 0 = μ = 7
H 1 = μ > 7
- Y los pasos para ejecutarlo son los siguientes:
Descripción /Datos numéricos/ Análisis unidimensional/
En datos poner Nota_selec y en selección Sexo=”M”&Hábitos_Lect=”ALTO”
Botón opciones tabulares/ Contraste de hipótesis
En la ventana de contraste de hipótesis, botón derecho, en media poner 7 y
hipótesis alternativa mayor que
Contraste de Hipótesis para Nota_Select
Media muestral = 6,9
Mediana muestral = 6,7
Contraste t
-----------
Hipótesis nula: media = 7,0
Contraste sobre la mediana
Contraste sobre la media
Alternativa: mayor que
Estadístico t = -0,352332
P-valor = 0,633155
No se rechaza la hipótesis nula para alpha = 0,05.
Contraste de los signos
-----------------------
Hipótesis nula: mediana = 7,0
Alternativa: mayor que
Número de valores inferiores a la mediana de H0: 5
Número de valores superiores a la mediana de H0: 4
Estadístico para grandes muestras = 0,0 (aplicada la corrección por continuidad)
P-valor = 0,500003
No se rechaza la hipótesis nula para alpha = 0,05.
Contraste de rangos con signo
-----------------------------
Hipótesis nula: mediana = 7,0
Alternativa: mayor que
Rango medio de los valores inferiores a la mediana: 5,1
Rango medio de los valores superiores a la mediana: 4,875
Estadístico para grandes muestras = -0,415374 (aplicada la corrección por continuidad)
P-valor = 0,661067
No se rechaza la hipótesis nula para alpha = 0,05.
- Los tres test de los que disponemos dan como resultado un p-valor mayor que
5% (0´05), por lo tanto se acepta H0 , o lo que es lo mismo que la nota media de las
mujeres en selectividad con un alto hábito de lectura es igual que 7, pero no
mayor; por lo tanto por lo general no se puede aceptar que la nota de las mujeres
con alto hábito de lectura este por encima de 7.
Ejercicios anova simple_sara_contreras-concomentarios[1]

Más contenido relacionado

La actualidad más candente

Analisis de varianza de dos vias
Analisis de varianza de dos viasAnalisis de varianza de dos vias
Analisis de varianza de dos vias
naila gomez avila
 
Estadistica Adva Ii Unidad V
Estadistica Adva Ii Unidad VEstadistica Adva Ii Unidad V
Estadistica Adva Ii Unidad V
elsafigueroa
 
15 spss comparacion de medias
15 spss comparacion de medias15 spss comparacion de medias
15 spss comparacion de medias
Carlos Rojas
 
T de student para dos muestras independientes
T de student para dos muestras independientesT de student para dos muestras independientes
T de student para dos muestras independientes
Joseph AB
 
4+an%c3%a1lisis+de+varianza
4+an%c3%a1lisis+de+varianza4+an%c3%a1lisis+de+varianza
4+an%c3%a1lisis+de+varianza
pedropulecio
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
joanem28
 
Prueba t de student para datos relacionados
Prueba t de student para datos relacionadosPrueba t de student para datos relacionados
Prueba t de student para datos relacionados
nicanor cachi ramos
 

La actualidad más candente (20)

Prueba estadística paramétrica
Prueba estadística paramétricaPrueba estadística paramétrica
Prueba estadística paramétrica
 
Bioestadística
BioestadísticaBioestadística
Bioestadística
 
Pruebas no parametricas en Spss
Pruebas no parametricas en SpssPruebas no parametricas en Spss
Pruebas no parametricas en Spss
 
Prueba t varianzas combinadas
Prueba t varianzas combinadasPrueba t varianzas combinadas
Prueba t varianzas combinadas
 
Analisis de varianza de dos vias
Analisis de varianza de dos viasAnalisis de varianza de dos vias
Analisis de varianza de dos vias
 
La prueba anova1
La prueba  anova1La prueba  anova1
La prueba anova1
 
ANOVA
ANOVAANOVA
ANOVA
 
Pruebas No Parametricas
Pruebas No ParametricasPruebas No Parametricas
Pruebas No Parametricas
 
Estadistica Adva Ii Unidad V
Estadistica Adva Ii Unidad VEstadistica Adva Ii Unidad V
Estadistica Adva Ii Unidad V
 
15 spss comparacion de medias
15 spss comparacion de medias15 spss comparacion de medias
15 spss comparacion de medias
 
T de student para dos muestras independientes
T de student para dos muestras independientesT de student para dos muestras independientes
T de student para dos muestras independientes
 
Análisis de la varianza
Análisis de la varianza  Análisis de la varianza
Análisis de la varianza
 
T de student
T de studentT de student
T de student
 
Pruebas no parametricas
Pruebas no parametricasPruebas no parametricas
Pruebas no parametricas
 
4+an%c3%a1lisis+de+varianza
4+an%c3%a1lisis+de+varianza4+an%c3%a1lisis+de+varianza
4+an%c3%a1lisis+de+varianza
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
 
Carlos diapositiva 2. variables.
Carlos diapositiva 2. variables.Carlos diapositiva 2. variables.
Carlos diapositiva 2. variables.
 
Compara medias
Compara mediasCompara medias
Compara medias
 
Prueba t de student para datos relacionados
Prueba t de student para datos relacionadosPrueba t de student para datos relacionados
Prueba t de student para datos relacionados
 
Prueba de U Mann-whitney
Prueba de U Mann-whitneyPrueba de U Mann-whitney
Prueba de U Mann-whitney
 

Similar a Ejercicios anova simple_sara_contreras-concomentarios[1]

Minimos cuadrados , prueba de hipotesis y t de studen
Minimos cuadrados , prueba de hipotesis  y t de studenMinimos cuadrados , prueba de hipotesis  y t de studen
Minimos cuadrados , prueba de hipotesis y t de studen
Tania Gabriela Herrera Mafla
 
Anova un factor-lectura
Anova un factor-lecturaAnova un factor-lectura
Anova un factor-lectura
Joel Rojas
 
ejercicio de repaso prueba facultad derecho y ciencia politica
ejercicio de repaso prueba facultad derecho y ciencia politicaejercicio de repaso prueba facultad derecho y ciencia politica
ejercicio de repaso prueba facultad derecho y ciencia politica
JhosselynLpez
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
joanem28
 

Similar a Ejercicios anova simple_sara_contreras-concomentarios[1] (20)

Unidad 4
Unidad 4Unidad 4
Unidad 4
 
Minimos cuadrados , prueba de hipotesis y t de studen
Minimos cuadrados , prueba de hipotesis  y t de studenMinimos cuadrados , prueba de hipotesis  y t de studen
Minimos cuadrados , prueba de hipotesis y t de studen
 
Estadística no paramétrica ejemplos
Estadística no paramétrica ejemplosEstadística no paramétrica ejemplos
Estadística no paramétrica ejemplos
 
Test de Friedman (1).pptx
Test de Friedman (1).pptxTest de Friedman (1).pptx
Test de Friedman (1).pptx
 
EXPOSICIÓN DE ESTADÍSTICA 3.001.pdf
EXPOSICIÓN DE ESTADÍSTICA 3.001.pdfEXPOSICIÓN DE ESTADÍSTICA 3.001.pdf
EXPOSICIÓN DE ESTADÍSTICA 3.001.pdf
 
EXPOSICIÓN DE ESTADÍSTICA 3.1.pdf
EXPOSICIÓN DE ESTADÍSTICA 3.1.pdfEXPOSICIÓN DE ESTADÍSTICA 3.1.pdf
EXPOSICIÓN DE ESTADÍSTICA 3.1.pdf
 
Análisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialAnálisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística Inferencial
 
Regresion lineal multiple
Regresion lineal multipleRegresion lineal multiple
Regresion lineal multiple
 
Anova un factor-lectura
Anova un factor-lecturaAnova un factor-lectura
Anova un factor-lectura
 
Experimentos con un solo factor
Experimentos con un solo factorExperimentos con un solo factor
Experimentos con un solo factor
 
T-student ind y ANOVA 2021.ppt
T-student  ind y ANOVA 2021.pptT-student  ind y ANOVA 2021.ppt
T-student ind y ANOVA 2021.ppt
 
ejercicio de repaso prueba facultad derecho y ciencia politica
ejercicio de repaso prueba facultad derecho y ciencia politicaejercicio de repaso prueba facultad derecho y ciencia politica
ejercicio de repaso prueba facultad derecho y ciencia politica
 
PROCESO_DE_CONFIABILIDAD.pptx
PROCESO_DE_CONFIABILIDAD.pptxPROCESO_DE_CONFIABILIDAD.pptx
PROCESO_DE_CONFIABILIDAD.pptx
 
PROCESO_DE_CONFIABILIDAD.ppt
PROCESO_DE_CONFIABILIDAD.pptPROCESO_DE_CONFIABILIDAD.ppt
PROCESO_DE_CONFIABILIDAD.ppt
 
PROCESO_DE_CONFIABILIDAD.ppt
PROCESO_DE_CONFIABILIDAD.pptPROCESO_DE_CONFIABILIDAD.ppt
PROCESO_DE_CONFIABILIDAD.ppt
 
Estadistica barbara mejias
Estadistica barbara mejiasEstadistica barbara mejias
Estadistica barbara mejias
 
Análisis de covarianza
Análisis de covarianzaAnálisis de covarianza
Análisis de covarianza
 
363694142-Manual-Del-Test-de-Raven-Escala-Coloreada.pdf
363694142-Manual-Del-Test-de-Raven-Escala-Coloreada.pdf363694142-Manual-Del-Test-de-Raven-Escala-Coloreada.pdf
363694142-Manual-Del-Test-de-Raven-Escala-Coloreada.pdf
 
Estadistica ecologia(3)
Estadistica ecologia(3)Estadistica ecologia(3)
Estadistica ecologia(3)
 
PRESENTACION 2 PH.pptx
PRESENTACION  2 PH.pptxPRESENTACION  2 PH.pptx
PRESENTACION 2 PH.pptx
 

Más de David Espinoza

Estadonacinyterritorio 120829102402-phpapp02
Estadonacinyterritorio 120829102402-phpapp02Estadonacinyterritorio 120829102402-phpapp02
Estadonacinyterritorio 120829102402-phpapp02
David Espinoza
 
Compendio diversidad cultural 2013 i uarm
Compendio diversidad cultural  2013 i uarmCompendio diversidad cultural  2013 i uarm
Compendio diversidad cultural 2013 i uarm
David Espinoza
 
Mineria formal (conflicto minero)
Mineria formal (conflicto minero)Mineria formal (conflicto minero)
Mineria formal (conflicto minero)
David Espinoza
 
La minería ilegal en el perú
La minería ilegal en el perúLa minería ilegal en el perú
La minería ilegal en el perú
David Espinoza
 
Tecnicas de estudio presentacion
Tecnicas de estudio   presentacionTecnicas de estudio   presentacion
Tecnicas de estudio presentacion
David Espinoza
 
Aproveche las clases y tome notas
Aproveche las clases y tome notasAproveche las clases y tome notas
Aproveche las clases y tome notas
David Espinoza
 
Condiciones para el aprendizaje
Condiciones para el aprendizajeCondiciones para el aprendizaje
Condiciones para el aprendizaje
David Espinoza
 
Autoevaluación 2015 1
Autoevaluación 2015 1Autoevaluación 2015 1
Autoevaluación 2015 1
David Espinoza
 
Estrategia enumerativa envio 2 nov
Estrategia enumerativa envio 2 novEstrategia enumerativa envio 2 nov
Estrategia enumerativa envio 2 nov
David Espinoza
 
Fuentes soluciones al problema del pandillaje
Fuentes soluciones al problema del pandillajeFuentes soluciones al problema del pandillaje
Fuentes soluciones al problema del pandillaje
David Espinoza
 
Fuentes sobre causas del bullying
Fuentes sobre causas del bullyingFuentes sobre causas del bullying
Fuentes sobre causas del bullying
David Espinoza
 
Manual de normas_ortograficas_y_gramaticales
Manual de normas_ortograficas_y_gramaticalesManual de normas_ortograficas_y_gramaticales
Manual de normas_ortograficas_y_gramaticales
David Espinoza
 
Pã¡rrafos de introducciã³n y cierre
Pã¡rrafos de introducciã³n y cierrePã¡rrafos de introducciã³n y cierre
Pã¡rrafos de introducciã³n y cierre
David Espinoza
 
Etapas de redacciã³n del trabajo final clase prã¡ctica - abril 2014
Etapas de redacciã³n del trabajo final   clase prã¡ctica -  abril 2014Etapas de redacciã³n del trabajo final   clase prã¡ctica -  abril 2014
Etapas de redacciã³n del trabajo final clase prã¡ctica - abril 2014
David Espinoza
 
U3.5. estructuras especã ficas, nexo causal-05-oct
U3.5. estructuras especã ficas, nexo causal-05-octU3.5. estructuras especã ficas, nexo causal-05-oct
U3.5. estructuras especã ficas, nexo causal-05-oct
David Espinoza
 
U3.3. introducciã³n y cierre
U3.3. introducciã³n y cierreU3.3. introducciã³n y cierre
U3.3. introducciã³n y cierre
David Espinoza
 

Más de David Espinoza (20)

Estadonacinyterritorio 120829102402-phpapp02
Estadonacinyterritorio 120829102402-phpapp02Estadonacinyterritorio 120829102402-phpapp02
Estadonacinyterritorio 120829102402-phpapp02
 
Compendio diversidad cultural 2013 i uarm
Compendio diversidad cultural  2013 i uarmCompendio diversidad cultural  2013 i uarm
Compendio diversidad cultural 2013 i uarm
 
Realidad nacional 4
Realidad nacional 4Realidad nacional 4
Realidad nacional 4
 
Canon y regalias
Canon y regaliasCanon y regalias
Canon y regalias
 
Mineria formal (conflicto minero)
Mineria formal (conflicto minero)Mineria formal (conflicto minero)
Mineria formal (conflicto minero)
 
La minería ilegal en el perú
La minería ilegal en el perúLa minería ilegal en el perú
La minería ilegal en el perú
 
Tecnicas de estudio presentacion
Tecnicas de estudio   presentacionTecnicas de estudio   presentacion
Tecnicas de estudio presentacion
 
Aproveche las clases y tome notas
Aproveche las clases y tome notasAproveche las clases y tome notas
Aproveche las clases y tome notas
 
Condiciones para el aprendizaje
Condiciones para el aprendizajeCondiciones para el aprendizaje
Condiciones para el aprendizaje
 
Autoevaluación 2015 1
Autoevaluación 2015 1Autoevaluación 2015 1
Autoevaluación 2015 1
 
Estrategia enumerativa envio 2 nov
Estrategia enumerativa envio 2 novEstrategia enumerativa envio 2 nov
Estrategia enumerativa envio 2 nov
 
Fuentes soluciones al problema del pandillaje
Fuentes soluciones al problema del pandillajeFuentes soluciones al problema del pandillaje
Fuentes soluciones al problema del pandillaje
 
Fuentes sobre causas del bullying
Fuentes sobre causas del bullyingFuentes sobre causas del bullying
Fuentes sobre causas del bullying
 
Ejercicio esquema
Ejercicio esquemaEjercicio esquema
Ejercicio esquema
 
Manual de normas_ortograficas_y_gramaticales
Manual de normas_ortograficas_y_gramaticalesManual de normas_ortograficas_y_gramaticales
Manual de normas_ortograficas_y_gramaticales
 
Pã¡rrafos de introducciã³n y cierre
Pã¡rrafos de introducciã³n y cierrePã¡rrafos de introducciã³n y cierre
Pã¡rrafos de introducciã³n y cierre
 
Etapas de redacciã³n del trabajo final clase prã¡ctica - abril 2014
Etapas de redacciã³n del trabajo final   clase prã¡ctica -  abril 2014Etapas de redacciã³n del trabajo final   clase prã¡ctica -  abril 2014
Etapas de redacciã³n del trabajo final clase prã¡ctica - abril 2014
 
U3.5. estructuras especã ficas, nexo causal-05-oct
U3.5. estructuras especã ficas, nexo causal-05-octU3.5. estructuras especã ficas, nexo causal-05-oct
U3.5. estructuras especã ficas, nexo causal-05-oct
 
U3.3. introducciã³n y cierre
U3.3. introducciã³n y cierreU3.3. introducciã³n y cierre
U3.3. introducciã³n y cierre
 
Lengua conversacion
Lengua conversacionLengua conversacion
Lengua conversacion
 

Ejercicios anova simple_sara_contreras-concomentarios[1]

  • 1. EJERCICIOS ANOVA SIMPLE (II) 2. Abre el fichero EXAM SEP07. a.- Queremos comprobar si el número de horas (medido a través de la variable # horas) que pasan los estudiantes del Politécnico en la Biblioteca guarda alguna relación con su hábito de lectura (medido a través de la variable lectura). Ejecuta un ANOVA, utilizando un nivel de significación del 5 %, e interpreta el resultado que obtienes. Variable respuesta: # horas. Factor: hábito de lectura. - Utilizando el ANOVA estudiaríamos si existe relación entre el número de horas que pasan los estudiantes en la biblioteca del Politécnico según sus diferentes hábitos de lectura. Para ello se realizará el siguiente contraste: H 0 = todas las medias son iguales  μA = μB = μC = μD H 1 = alguna media no es igual  alguna μi es diferente. - Para realizar el contraste se realizan los siguientes pasos: Comparación / Análisis de la varianza / ANOVA simple. - En variable dependiente se pondrá: # horas y en factor: lectura. - Para ver los resultados se consulta la Tabla ANOVA: Tabla ANOVA para #_horas según lectura Análisis de la Varianza ------------------------------------------------------------------------------ Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor ------------------------------------------------------------------------------ Entre grupos 87,2906 3 29,0969 1,15 0,3349 Intra grupos 2361,8 93 25,3957 ------------------------------------------------------------------------------ Total (Corr.) 2449,09 96
  • 2. - Como el p-valor obtenido ( 0´3349) es mayor que el nivel de significación (0´05) se acepta H 0 ; y por lo tanto se puede decir que la media de las horas que pasan los estudiantes del Politécnico es similar en todos los casos independientemente del nivel de lectura de cada uno; por lo tanto según el ANOVA simple no existe relación entre el número de horas que pasan los estudiantes del Politécnico en la Biblioteca y su hábito de lectura. b.- Comprueba si se satisfacen los requisitos del ANOVA. ¿Resultan, entonces, fiables las conclusiones del apartado anterior? - Los requisitos o condiciones del ANOVA son: normalidad, homocedasticidad e independencia de los datos. - Para estudiar estas condiciones se estudia la variable residuos, para ello: Botón guardar resultados / Marcar casilla residuos/Aceptar - Aparece por lo tanto en la hoja de datos una nueva variable, que es la de los residuos
  • 3. 1. Normalidad: - El contraste que se realiza es el siguiente: H 0 = variable residuos es normal H 1 = variable residuos no es normal Descripción / Distribuciones / Ajuste de distribuciones (datos no censurados). En datos poner residuos. - Para contrastar la normalidad se mira la ventana de Test de bondad de ajuste, y los p-valor que allí aparecen. Tests de Bondad de Ajuste para RESIDUALS Contraste Chi-cuadrado ---------------------------------------------------------------------------- Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado menor o igual -5,7058 14 12,12 0,29 -5,7058 -3,34551 15 12,12 0,68 -3,34551 -1,58048 14 12,12 0,29 -1,58048 8,76289E-7 9 12,13 0,81 8,76289E-7 1,58048 11 12,13 0,10 1,58048 3,34551 11 12,12 0,10 3,34551 5,7058 9 12,12 0,81 mayor 5,7058 14 12,12 0,29 ---------------------------------------------------------------------------- Chi-cuadrado = 3,37137 con 5 g.l. P-Valor = 0,642933 Estadístico DMAS de Kolmogorov = 0,110348 Estadístico DMENOS de Kolmogorov = 0,050904 Estadístico DN global de Kolmogorov = 0,110348 P-Valor aproximado = 0,188487
  • 4. - Según ambos p-valor, tanto el de Chi-cuadrado (0´642933), como el de Kolmogorov (0´188487), se acepta H 0, puesto que son mayores que el nivel de significación del 5%, por lo tanto según estos test la variable es normal. - También se estudian los p-valor obtenidos de los test de normalidad; para verlos: Botón amarillo/Test normalidad. Tests para la Normalidad para RESIDUALS Estadístico chi-cuadrado de bondad de ajuste = 48,2371 P-valor = 0,000638325 Estadístico W de Shapiro-Wilks = 0,95203 P-valor = 0,00490306 Puntuación Z para asimetría = 1,71722 P-valor = 0,0859391 Puntuación Z para curtosis = 0,242493 P-valor = 0,808394 - Dos de los test para la normalidad rechazan H 0, puesto que son menores que el nivel de significación; por lo tanto al fallar uno no se puede considerar como normal la variable residuos. 2. Homocedasticidad. - Para realizar este contraste es necesario volver al análisis ANOVA, y sería el siguiente: H 0 = todas las varianzas son iguales  ρA = ρB = ρC = ρD H 1 = alguna varianza no es igual  alguna ρi es diferente Los pasos son: Botón amarillo /Contraste de la varianza Contraste de Varianza Contraste C de Cochran: 0,303385 P-valor = 0,781548 Contraste de Bartlett: 1,01876 P-valor = 0,642881 Contraste de Hartley: 1,65968 Test de Levene: 0,236778 P-valor = 0,870514 - Estos tres p-valor son mayores que el nivel de significación y por lo tanto aceptan H 0, y por lo tanto las varianzas son todas similares. Por lo tanto se cumple la
  • 5. segunda condición necesaria para poder tomar los resultados del ANOVA como válidos. 3. Independencia. - Puesto que no disponemos de la fecha en la que hemos recogido los datos, no podemos realizar un estudio sobre su aleatoriedad ya que no aparece reflejado el orden temporal, por lo tanto daremos por supuesto que se cumple que se cumple esta condición. - Tras comprobar sí se cumplen o no las condiciones del ANOVA se puede concluir que los resultados obtenidos no son totalmente fiables, pues que los datos no siguen una distribución normal, sería necesario realizar otros estudios con otros métodos o aumentar el tamaño de la muestra. c.- Realiza el mismo contraste utilizando un método no-paramétrico, e interpreta el resultado que obtienes. ¿Es fiable? - Se utiliza el contraste de Kruskal – Wallis, para ello: Botón amarillo/ Contraste Kruskal-Wallis - Con este contraste en lugar de compararse las medias se contrastan las medianas: H 0 = todas las medianas son iguales  medA = medB = medC = medD H 1 = alguna mediana no es igual  alguna medi es diferente. Contraste de Kruskal-Wallis para #_horas según lectura lectura Tamaño muestral Rango Promedio ------------------------------------------------------------ 1 25 51,68 2 40 44,2375 3 26 55,7115 4 6 40,5 ------------------------------------------------------------ Estadístico = 3,44376 P-valor = 0,328126 - El p-valor obtenido es mayor que el nivel de significación por lo tanto se acepta la hipótesis nula, lo cual indica que las medianas de las muestras son similares y por lo tanto no hay diferencias significativas entre el número de horas que los estudiantes pasan en la biblioteca independientemente de su hábito de lectura.
  • 6. - ANOVA y Kruskal-Wallis apoyan la misma conclusión; a pesar de que no se cumplen exactamente los tres requisitos de ANOVA, y por ello se busca una segunda opinión con contraste de Kruskal-Wallis, ambos apuntan en la misma dirección y por tanto tiene sentido admitir que no hay diferencias significativas entre el número de horas que alumnos con distintos hábitos de lectura pasan en la biblioteca. 3. Vuelve al fichero Selectividad.sf3. a.- Utiliza un ANOVA, al 2% de significación, para contrastar la evidencia de relación entre el Hábito de Lectura de los alumnos que aparecen en el fichero, y la Nota que han obtenido en selectividad. ¿Confirma el contraste de Kruskal – Wallis al conclusión que obtienes? Variable respuesta: Nota Factor: Hábito de lectura. - Se realiza el siguiente contraste: H 0 = todas las medias son iguales  μA = μB = μC = μD H 1 = alguna media no es igual  alguna μi es diferente. Para ello: Comparación/Análisis de la varianza/ANOVA simple. En Variable dependiente ponemos: nota selectividad En Factor ponemos: Hábito lectura Tabla ANOVA para Nota_Select según Hábitos_Lect Análisis de la Varianza ------------------------------------------------------------------------------ Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor ------------------------------------------------------------------------------ Entre grupos 17,4718 2 8,73591 12,68 0,0001 Intra grupos 25,4919 37 0,688971 ------------------------------------------------------------------------------ Total (Corr.) 42,9637 39 - El p-valor obtenido (0´0001) es más pequeño que el nivel de significación que es 0´02; por lo tanto se rechaza H 0 , lo que indica que no todas las medias son iguales y por lo tanto sí existen diferencias significativas en las notas de selectividad de los
  • 7. alumnos según el hábito de lectura que tengan, o lo que es lo mismo el hábito de lectura de los alumnos sí que influirá en su nota en selectividad. Contraste Kruskal – Wallis H 0 = todas las medianas son iguales  medA = medB = medC = medD H 1 = alguna mediana no es igual  alguna medi es diferente. Para realizarlo seguimos los siguientes pasos: Botón amarillo/contraste de Kruskal-Wallis. Se realiza un estudio sobre las medianas de la muestra. Contraste de Kruskal-Wallis para Nota_Select según Hábitos_Lect Hábitos_Lect Tamaño muestral Rango Promedio ------------------------------------------------------------ ALTO 12 29,3333 BAJO 9 8,05556 MEDIO 19 20,8158 ------------------------------------------------------------ Estadístico = 17,1536 P-valor = 0,00018843 - El p-valor obtenido (0´00018843) es más pequeño que el nivel de significación que es 0´02; por lo tanto se rechaza H 0 , lo que indica que no todas las medianas son iguales y por lo tanto sí existen diferencias significativas en las notas de selectividad de los alumnos según el hábito de lectura que tengan, o lo que es lo mismo el hábito de lectura de los alumnos sí que influirá en su nota en selectividad. - Sí se confirman los resultados obtenidos con el contraste de ANOVA simple. b.- Valida las hipótesis del modelo, e interpreta el resultado. - Para validar la hipótesis del modelo es necesario que la variable notas de selectividad en cada uno de los hábitos de lectura cumpla tres requisitos: normalidad, homocedasticidad e independencia. 1. Normalidad.
  • 8. - Para estudiar la normalidad en la variable notas de selectividad en cada uno de los hábitos de lectura (bajo, medio, alto, etc.) se estudia en la variable residuos en lugar de ir miranda de manera independiente la normalidad de las notas en cada uno de los hábitos de lectura. Para crear esta variable seguimos los siguientes pasos: Botón guardar resultados / Marcar casilla residuos/Aceptar Una vez creada esta variable estudiamos su normalidad. Descripción / Distribuciones / Ajuste de distribuciones (datos no censurados). En datos poner residuos. Se realiza el siguiente contraste H 0 = variable residuos es normal H 1 = variable residuos no es normal - Para contrastar la normalidad se mira la ventana de Test de bondad de ajuste, y los p-valor que allí aparecen. Tests de Bondad de Ajuste para RESIDUALS Contraste Chi-cuadrado ---------------------------------------------------------------------------- Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------- menor o igual -0,863111 5 5,71 0,09 -0,863111 -0,45756 6 5,71 0,01 -0,45756 -0,145537 7 5,71 0,29 -0,145537 0,145538 8 5,71 0,91 0,145538 0,45756 2 5,71 2,41 0,45756 0,863111 6 5,71 0,01 mayor 0,863111 6 5,71 0,01 ---------------------------------------------------------------------------- Chi-cuadrado = 3,74976 con 4 g.l. P-Valor = 0,44093 Estadístico DMAS de Kolmogorov = 0,0930565 Estadístico DMENOS de Kolmogorov = 0,0849602
  • 9. Estadístico DN global de Kolmogorov = 0,0930565 P-Valor aproximado = 0,879082 - Tanto el contraste de chi-cuadrado como el de Kolmogorov, son mayores que el nivel de significación (0´02) por lo tanto se acepta H 0 , por lo tanto la variable residuos se puede considerar normal . Para contrastar la normalidad también se miran los test para la normalidad, para ello: Botón amarillo/Test para la normalidad. Tests para la Normalidad para RESIDUALS Estadístico chi-cuadrado de bondad de ajuste = 17,8 P-valor = 0,216042 Estadístico W de Shapiro-Wilks = 0,970766 P-valor = 0,492216 Puntuación Z para asimetría = 0,147654 P-valor = 0,882611 Puntuación Z para curtosis = -0,0300783 P-valor = 0,975999 - Todos ellos aceptan H 0 puesto que los p-valor obtenidos son mayores que 0´02, luego aceptan normalidad. - Por lo tanto sí se cumple la primera condición para poder validar el ANOVA simple. 2. Homocedasticidad. - Para este análisis se compara la varianza de las notas en selectividad según los distintos hábitos de lectura, para realizarlo es necesario volver al análisis de ANOVA simple, el contraste que se realiza es el siguiente: H 0 = todas las varianzas son iguales  ρA = ρB = ρC = ρD H 1 = alguna varianza no es igual  alguna ρi es diferente Los pasos son: Botón amarillo /Contraste de la varianza Contraste de Varianza Contraste C de Cochran: 0,413354 P-valor = 0,677533 Contraste de Bartlett: 1,03719 P-valor = 0,522509
  • 10. Contraste de Hartley: 1,84254 Test de Levene: 0,378699 P-valor = 0,687375 - Los p-valor obtenidos son mayores que el nivel de significación (0´02), por lo tanto se acepta la hipótesis nula, lo cual indica que la varianza de las notas en selectividad según los distintos hábitos de lectura es similar en todos los casos. Por lo tanto también se cumple la segunda condición. 3. Independencia. - Este análisis no se puede realizr porque no aparece reflejado en la hoja de datos el orden temporal en que han sido tomados y por lo tanto no podemos mirar su aleatoriedad, por lo tanto damos por cierta esta condición. El contraste que habría que realizar sería el siguiente: H 0 = los residuos son aleatorios H 1 = los residuos no son aleatorios. - Por lo tanto ya que se cumplen las tres condiciones necesarias para poder dar por válido el análisis de ANOVA simple, se pude decir que los resultados obtenidos en el estudio son válidos; lo que significa que existen diferencias significativas en las notas de selectividad de los alumnos según el hábito de lectura que tengan, o lo que es lo mismo el hábito de lectura de los alumnos si que influye en su nota en selectividad. c.- A partir de la tabla de ANOVA, indica qué procentaje de la variabilidad está explicando el modelo. ¿Crees que lo que obtienes explica de algún modo el p-valor que has calculado en el primer apartado? Tabla ANOVA para Nota_Select según Hábitos_Lect Análisis de la Varianza ------------------------------------------------------------------------------ Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor ------------------------------------------------------------------------------ Entre grupos 17,4718 2 8,73591 12,68 0,0001 Intra grupos 25,4919 37 0,688971 ------------------------------------------------------------------------------ Total (Corr.) 42,9637 39 - Para calcular el porcentaje de variabilidad dividimos la sumas de cuadrado de Entre grupos entre la total y multiplicamos por 100 (17´4718 / 42´9637) x 100 = 40´66 %
  • 11. -Al ser un porcentaje bastante alto, es lógico el resultado obtenido en el apartado 1 d.- A partir de la tabla de ANOVA, estima el valor del error experimental, e indica que significa. - Mediante el error experimental se mide hasta donde pueden llegar los residuos, es decir la diferencia entre cada dato y la media del grupo al que pertenecen. - Se calcula realizando la raíz cuadrada del dato CUADRADO MEDIO INTRA GRUPOS de la tabla ANOVA Tabla ANOVA para Nota_Select según Hábitos_Lect Análisis de la Varianza ------------------------------------------------------------------------------ Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor ------------------------------------------------------------------------------ Entre grupos 17,4718 2 8,73591 12,68 0,0001 Intra grupos 25,4919 37 0,688971 ------------------------------------------------------------------------------ Total (Corr.) 42,9637 39 √0´688971 = 0´83004 - Indica que las notas de selectividad pueden tener una oscilación de 0.83004 arriba o abajo, en relación al hábito de lectura al que pertenecen. e.- ¿Cuántos grupos homogéneos establece Statgraphics? - Para de determinar grupo homogéneos realizamos los siguientes pasos: Botón amarillo / Contraste múltiple de rango. Contraste Múltiple de Rango para Nota_Select según Hábitos_Lect ------------------------------------------------------------------------------- Método: 95,0 porcentaje LSD Hábitos_Lect Frec. Media Grupos homogéneos --------------------------------------------------------------------------------
  • 12. BAJO 9 4,8 X MEDIO 19 5,98421 X ALTO 12 6,63333 X -------------------------------------------------------------------------------- Contraste Diferencias +/- Límites -------------------------------------------------------------------------------- ALTO - BAJO *1,83333 0,741617 ALTO - MEDIO *0,649123 0,620148 BAJO - MEDIO *-1,18421 0,680555 -------------------------------------------------------------------------------- - Los grupos homogéneos son aquellos que tienen alineadas la X, en este caso existen tres grupos homogéneos que corresponden a los distintos niveles de hábitos de lectura, serían BAJO, MEDIO y ALTO, y por lo tanto sí existen diferencias significativas entre las notas sacadas por los alumnos en selectividad y su hábito de lectura. f.- Estima: la nota media en selectividad correspondiente a los que poseen un bajo hábito de lectura; el efecto de un alto hábito de lectura. - Para determinar la nota media en selectividad para los que poseen un bajo hábito de lectura, seguimos estos pasos: Botón amarillo / Tabla de medias Tabla de Medias para Nota_Select según Hábitos_Lect con 95,0 intervalos LSD -------------------------------------------------------------------------------- Error Estándar Hábitos_Lect Frec. Media (s agrupada) Límite inf. Límite sup. -------------------------------------------------------------------------------- ALTO 12 6,63333 0,239613 6,29003 6,97664 BAJO 9 4,8 0,276681 4,40359 5,19641 MEDIO 19 5,98421 0,190425 5,71138 6,25704 -------------------------------------------------------------------------------- Total 40 5,9125
  • 13. - Según la estimación puntual realizada, aquellos estudiantes que tienen un nivel bajo de lectura sacan una nota media en selectividad en torno a 4´8. - Para calcular el efecto de un alto hábito de lectura, miramos en la misma tabla el intervalo obtenido en la estimación puntual: ALTO → 6´97664 – 6´29003 = 0,68661 - Según el resultado obtenido tener un hábito de lectura alto, implica tener aproximadamente 0´68661 puntuación en la nota media obtenida en selectividad. g.- Estima un intervalo LSD para la nota media en selectividad de aquellos que poseen un bajo hábito de lectura. Tabla de Medias para Nota_Select según Hábitos_Lect con 95,0 intervalos LSD -------------------------------------------------------------------------------- Error Estándar Hábitos_Lect Frec. Media (s agrupada) Límite inf. Límite sup. -------------------------------------------------------------------------------- ALTO 12 6,63333 0,239613 6,29003 6,97664 BAJO 9 4,8 0,276681 4,40359 5,19641 MEDIO 19 5,98421 0,190425 5,71138 6,25704 -------------------------------------------------------------------------------- Total 40 5,9125 - El intervalo LSD, que da Statgraphics para aquellos que tienen un bajo hábito de lectura es: BAJO : [4´40359 , 5´19641] - Lo que determina que según la estimación puntual realizada, la nota media de aquellos estudiantes que tienen un bajo hábito de lectura se encuentra dentro de ese intervalo. 4. Indica cómo proceder para estudiar la existencia o no de relación entre las siguientes variables. Explica qué resultado obtienes en cada caso. a.- Hábitos_de_lectura /Centro
  • 14. - Se trata de dos variables categóricas o cualitativas, por lo tanto para poder estudiar si existe relación entre ambas crearé una tabla de contingencia y luego aplicaré el contraste chi-cuadrado; el contraste que se realizará será el siguiente: H 0 = centros y hábito de lectura tienen relación H 1 = centros y hábito de lectura no tienen relación - Los pasos para crear la tabla de contingencia son los siguientes: Descripción/datos cualitativos/tabulación cruzada - Sale la siguiente ventana y en ella metemos los datos: -En variable fila CENTROS y en variable columna Hábitos_Lectura; también se podría poner al revés puesto que es independiente. -Aparece la siguiente tabla de contingencia: Tabla de Frecuencias para CENTRO según Hábitos_Lect
  • 15. -Luego para ejecutar el contraste se hará: Botón opciones tabulares/Contraste chi-cuadrado Contraste de Chi-cuadrado ------------------------------------------ Chi-cuadrado GL P-Valor ------------------------------------------ 14,06 8 0,0801 ------------------------------------------ -El p-valor obtenido (0´0801), es mayor que el nivel de significación (0,02), por lo tanto para un nivel de confianza del 98%, se acepta la hipótesis nula, luego las dos variables tienen no relación, por lo tanto existe independencia de las dos variables y por lo tanto el CENTRO y el HÁBITO DE LECTURA de los estudiantes no tienen relación. Por otro lado al realizar el análisis Statgraphics advierte de que alguna celda tiene una frecuencia esperada menor que 5, por lo tanto el resultado del contraste no es concluyente. Por otro lado a través de la tabla de contingencia se puede observar que aparentemente sí hay relación entre el centro y el hábito de lectura de los estudiantes, puesto que: * El p-valor obtenido es muy próximo al nivel de significación, y por lo tanto casi se puede aceptar la existencia de relación. * Las filas de la tabla de contingencia son muy diferentes entre sí, por lo tanto muestra que puede existir relación entre el centro en que estudien los alumnos y su hábito de lectura. b.- Nota-media / Sexo -Al tratarse de una variable cualitativa y otra cuantitativa se aplicará un análisis ANOVA simple, en el que el factor será la variable sexo y la variable respuesta será nota media; el contraste que se realizará será el siguiente; también se podrían utilizar las técnicas del primer tema puesto que se trata de comparar dos poblaciones (hombres y mujeres): H 0 = todas las medias son iguales  μA = μB H 1 = alguna media no es igual  alguna μi es diferente.
  • 16. - Para realizar el contraste se realizan los siguientes pasos: Comparación / Análisis de la varianza / ANOVA simple. Tabla ANOVA para Nota_media según Sexo Análisis de la Varianza ------------------------------------------------------------------------------ Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor ------------------------------------------------------------------------------ Entre grupos 4,1159 1 4,1159 4,45 0,0416 Intra grupos 35,1819 38 0,925838 ------------------------------------------------------------------------------ Total (Corr.) 39,2978 39 -El p-valor obtenido es mayor que el nivel de significación (0´02), por lo tanto se acepta la hipótesis nula, por lo tanto se puede decir que la nota media que sacan los estudiantes en selectividad es similar en todos los caso independientemente del sexo; por lo tanto según el ANOVA simple no existe relación entre el sexo y la nota media obtenida. - Para que el estudio ANOVA simple se pueda dar por válido es necesario que se cumplan las tres condiciones: normalidad, homocedasticidad e independencia. 1. Normalidad. Se estudia la normalidad de los residuos, y se realiza el siguiente contraste: H 0 = variable residuos es normal H 1 = variable residuos no es normal Tests de Bondad de Ajuste para RESIDUALS Contraste Chi-cuadrado ---------------------------------------------------------------------------- Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------- menor o igual -1,01397 6 5,71 0,01 -1,01397 -0,537534 7 5,71 0,29
  • 17. -0,537534 -0,170976 7 5,71 0,29 -0,170976 0,170975 3 5,71 1,29 0,170975 0,537533 6 5,71 0,01 0,537533 1,01397 5 5,71 0,09 mayor 1,01397 6 5,71 0,01 ---------------------------------------------------------------------------- Chi-cuadrado = 2,00021 con 4 g.l. P-Valor = 0,73572 Estadístico DMAS de Kolmogorov = 0,086152 Estadístico DMENOS de Kolmogorov = 0,0589273 Estadístico DN global de Kolmogorov = 0,086152 P-Valor aproximado = 0,927872 -Ambos p-valor son altos y por lo tanto aceptan la hipótesis nula por lo tanto normalidad. También se miran los test para la normalidad. Tests para la Normalidad para RESIDUALS Estadístico chi-cuadrado de bondad de ajuste = 14,4 P-valor = 0,420356 Estadístico W de Shapiro-Wilks = 0,970004 P-valor = 0,469733 Puntuación Z para asimetría = 0,786384 P-valor = 0,43164 Puntuación Z para curtosis = -0,392098 P-valor = 0,694983 -Todos ellos son mayores que el nivel de significación del 2%, por lo tanto aceptan la hipótesis nula y como consecuencia la normalidad de la variable. 2. Homocedasticidad. H 0 = todas las varianzas son iguales  ρA = ρB H 1 = alguna varianza no es igual  alguna ρi es diferente Contraste de Varianza Contraste C de Cochran: 0,631667 P-valor = 0,248764
  • 18. Contraste de Bartlett: 1,03683 P-valor = 0,247187 Contraste de Hartley: 1,71494 Test de Levene: 0,24292 P-valor = 0,624941 -Todos los p-valor obtenidos son mayores que el nivel de significación por lo tanto se acepta y en consecuencia se acepta la igualdad de varianzas. 3. Independencia. - Puesto que no disponemos de la fecha en la que hemos recogido los datos, no podemos realizar un estudio sobre su aleatoriedad ya que no aparece reflejado el orden temporal, por lo tanto daremos por supuesto que se cumple que se cumple esta condición. -Al comprobar los tres requisitos y observar que se cumple los resultados obtenidos gracias al análisis ANOVA simple, se dan por válidos, por lo tanto no existen diferencias significativas entre la nota media obtenida en selectividad y el sexo de los alumnos. c.- Nota_lengua / Sexo -Igual que en el caso anterior se trata de una variable cualitativa y otra cuantitativa, por lo tanto se aplica un análisis ANOVA simple, con el siguiente contraste: H 0 = todas las medias son iguales  μA = μB H 1 = alguna media no es igual  alguna μi es diferente. Tabla ANOVA para Nota_Lengua según Sexo Análisis de la Varianza ------------------------------------------------------------------------------ Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor ------------------------------------------------------------------------------ Entre grupos 6,6589 1 6,6589 6,26 0,0168 Intra grupos 40,4411 38 1,06424 ------------------------------------------------------------------------------ Total (Corr.) 47,1 39 - El p-valor obtenido en este caso es menor que el nivel de significación del 2% (0´02), por lo tanto se rechaza la hipótesis nula y se acepta la hipótesis alternativa, lo que significa que no todas la medias son iguales o lo que es lo mismo que existen
  • 19. diferencias significativas entre las notas sacadas en lengua, según sean chicos o chicas, por lo tanto estas dos variables sí tienen relación. Para poder dar por válidos estos resultados es necesario comprobar las tres condiciones del modelo: normalidad, homocedasticidad e independencia. 1. Normalidad. -Se estudia la normalidad de los residuos, y se realiza el siguiente contraste: H 0 = variable residuos es normal H 1 = variable residuos no es normal Tests de Bondad de Ajuste para RESIDUALS Contraste Chi-cuadrado ---------------------------------------------------------------------------- Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------- menor o igual -1,08712 4 5,71 0,51 -1,08712 -0,576313 16 5,71 18,51 -0,576313 -0,18331 0 5,71 5,71 -0,18331 0,18331 0 5,71 5,71 0,18331 0,576313 10 5,71 3,21 0,576313 1,08712 0 5,71 5,71 mayor 1,08712 10 5,71 3,21 ---------------------------------------------------------------------------- Chi-cuadrado = 42,6006 con 4 g.l. P-Valor = 1,25231E-8 Etadístico DMAS de Kolmogorov = 0,215167 Estadístico DMENOS de Kolmogorov = 0,137977 Estadístico DN global de Kolmogorov = 0,215167 P-Valor aproximado = 0,0492633 Tests para la Normalidad para RESIDUALS Estadístico chi-cuadrado de bondad de ajuste = 81,55
  • 20. P-valor = 1,45808E-11 Estadístico W de Shapiro-Wilks = 0,912536 P-valor = 0,00465665 Puntuación Z para asimetría = 0,71236 P-valor = 0,476239 Puntuación Z para curtosis = -1,12106 P-valor = 0,262261 -El p-valor obtenido en el test chi-cuadrado y en dos de los test para normalidad es menor que el nivel de significación por lo tanto se rechaza la hipótesis nula lo cual indica que no se cumple la primera condición que es normalidad. -Por lo tanto no se pueden considerar los resultados del ANOVA simple como válidos. -Puesto que los resultados del ANOVA no se pueden considerar como válidos será necesario realizar otro tipo de análisis como el contraste de Kruskal – Wallis, y comparar las medianas de las variables: H 0 = todas las medianas son iguales  medA = medB H 1 = alguna mediana no es igual  alguna medi es diferente. Contraste de Kruskal-Wallis para Nota_Lengua según Sexo Sexo Tamaño muestral Rango Promedio ------------------------------------------------------------ M 19 24,5789 V 21 16,8095 ------------------------------------------------------------ Estadístico = 4,79785 P-valor = 0,0284922 -El contraste de Kruskal – Wallis, da un p-valor mayor que el nivel de significación (0´02), por lo tanto se aceptaría la hipótesis nula, es decir que las medianas son similares, lo que indica que no existen diferencias significativas entre las notas sacadas en lengua por lo alumnos y su sexo, por lo tanto estas dos variables no tiene relación al nivel de significación fijado. Obsérvese, no obstante, que incrementando ligeramente el nivel de significación se concluiría que sí existen diferencias significativas.
  • 21. - Puesto que se trata de comparar dos poblaciones y que los requisitos de ANOVA no se cumplen y además el p-valor obtenido en el contraste de Kruskal- Wallis, se pueden utilizar las técnicas del primer tema, sobre comparación de medias y medianas y comprobar si la nota que sacan los estudiantes en lengua es distinta en mujeres y hombres, los pasos que se realizarían serían los siguientes: 1.- ¿Datos pareados? No son pareados, puesto que se trata de distintos individuos. 2.- ¿Las variables son normales?  Normalidad varones. H 0 = nota_lengua (varones) es normal H 1 = nota_lengua(varones) no es normal Descripción / Distribuciones / Ajuste de distribuciones (datos no censurados) En datos se pondría nota_lengua y en selección sexo= “V” Tests de Bondad de Ajuste para Nota_Lengua Contraste Chi-cuadrado ---------------------------------------------------------------------------- Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------- menor o igual 4,95802 0 3,50 3,50 4,95802 5,40399 10 3,50 12,07 5,40399 5,7619 0 3,50 3,50 5,7619 6,11982 6 3,50 1,79 6,11982 6,56578 0 3,50 3,50 mayor 6,56578 5 3,50 0,64 ---------------------------------------------------------------------------- Chi-cuadrado = 25,0001 con 3 g.l. P-Valor = 0,0000154398 Estadístico DMAS de Kolmogorov = 0,296596 Estadístico DMENOS de Kolmogorov = 0,179594 Estadístico DN global de Kolmogorov = 0,296596
  • 22. P-Valor aproximado = 0,0497097 Tests para la Normalidad para Nota_Lengua Estadístico chi-cuadrado de bondad de ajuste = 78,6667 P-valor = 9,15934E-13 Estadístico W de Shapiro-Wilks = 0,770038 P-valor = 0,000122603 Puntuación Z para asimetría = 0,728146 P-valor = 0,466522 Puntuación Z para curtosis = -2,15022 P-valor = 0,0315377 - El test de chi-cuadrado no se puede considerar como válido puesto que la frecuencia esperada es menor que 5, por lo tanto se mira el p-valor obtenido en el test de Kolmogorov y los test para normalidad, por lo tanto para un nivel de significación del 2% (0´02), dos de los test para normalidad rechazan H0 , ya que el p- valor obtenido en ellos (Chi-cuadrado de bondad de ajuste y Wde Shapiro-Wilks) es menor que el nivel de significación, por lo tanto la variable nota_lengua en el caso de los varones no se puede considerar normal. 3.- Comparo las medianas. - El contraste que se realiza es el siguiente: H 0 = M (nota_lengua mujeres) = M (nota_lengua varones) H 1 = M (nota_lengua mujeres) <> M (nota_lengua varones) Comparación / Comparación de dos muestras / Comparación de dos muestras / Columna de código y datos En datos pondría nota_lengua y en código muestra sexo Botón opciones tabulares / comparación de medianas
  • 23. Comparación de Medianas para Nota_Lengua ---------------------------------------- Mediana de la muestra 1: 6,0 Mediana de la muestra 2: 6,0 Contraste W de Mann-Whitney (Wilcoxon) para comparar medianas Hipótesis nula: mediana1 = mediana2 (1) Hipótesis alt.: mediana1 <> mediana2 Rango medio de la muestra 1: 24,5789 Rango medio de la muestra 2: 16,8095 W = 122,0 P-Valor = 0,029535 - El p-valor obtenido es mayor que el nivel de significación del 2% (0´02), por lo tanto en este caso se aceptaría H0,aunque el nivel de significación y el p-valor sean muy similares, y por lo tanto se acepta que la nota media de los hombres en lengua es similar a la nota media de las mujeres en lengua, por lo tanto no existen diferencias significativas entre la nota que consiguen los alumnos en lengua y el sexo. De nuevo, incrementando ligeramente el nivel de significación, se obtendría que ambas medianas son diferentes. 5. ¿Cómo podrías contrastar si la nota media en selectividad de las mujeres con alto hábito de lectura está, en general, por encima de 7? - Lo primero es comprobar si la variable nota media de las mujeres con alto hábito de lectura es normal o no realizando el siguiente contraste: H 0 = variable nota selectividad, mujeres con alto hábito de lectura es normal. H 1 = variable nota selectividad, mujeres con alto hábito de lectura no es normal Para ello se realizan los siguientes pasos: Descripción/Distribuciones/Ajuste de distribuciones (datos no censurados)
  • 24. - En datos pongo nota selectividad y en selección se pondría: Sexo=”M” & Hábitos_Lect = “ALTO” - Miro los test de bondad e ajuste: Tests de Bondad de Ajuste para Nota_Select Contraste Chi-cuadrado ---------------------------------------------------------------------------- Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Chi-cuadrado ---------------------------------------------------------------------------- menor o igual 6,68428 4 3,60 0,04 mayor 6,68428 5 5,40 0,03 ---------------------------------------------------------------------------- Datos insuficientes para efectuar el contraste de chi-cuadrado. Estadístico DMAS de Kolmogorov = 0,165918 Estadístico DMENOS de Kolmogorov = 0,142853 Estadístico DN global de Kolmogorov = 0,165918 P-Valor aproximado = 0,965364 - El test de chi-cuadrado no resulta fiable, puesto que alguna de las frecuencias esperadas es menor que 5, por lo tanto hay que fijarse en el test de Kolmogorov; y este test para un nivel de significación del 5%(0´05), por lo tanto como el p-valor obtenido (0´965364) es mayor que el nivel de significación se acepta H 0 y por lo tanto la variable notas de selectividad en mujeres con un alto nivel de lectura sigue una distribución normal. También se miran los test de normalidad: Tests para la Normalidad para Nota_Select Estadístico chi-cuadrado de bondad de ajuste = 10,0 P-valor = 0,124652 Estadístico W de Shapiro-Wilks = 0,909465
  • 25. P-valor = 0,307073 Puntuación Z para asimetría = 0,70307 P-valor = 0,48201 Puntuación Z para curtosis = -0,46046 P-valor = 0,645183 - En todos los casos el p-valor obtenido es mayor que el nivel de significación, por lo tanto se acepta H 0 y en conclusión la variable es normal. - Una vez que ya he comprobado que la variable es normal, para comprobar si la nota esta por encima de 7, se utilizaría los test no paramétricos sobre la media y la mediana, por lo tanto tenemos tres test a nuestra disposición: El contraste que se realiza es el siguiente: H 0 = mediana = 7 H 1 = mediana > 7 H 0 = μ = 7 H 1 = μ > 7 - Y los pasos para ejecutarlo son los siguientes: Descripción /Datos numéricos/ Análisis unidimensional/ En datos poner Nota_selec y en selección Sexo=”M”&Hábitos_Lect=”ALTO” Botón opciones tabulares/ Contraste de hipótesis En la ventana de contraste de hipótesis, botón derecho, en media poner 7 y hipótesis alternativa mayor que Contraste de Hipótesis para Nota_Select Media muestral = 6,9 Mediana muestral = 6,7 Contraste t ----------- Hipótesis nula: media = 7,0 Contraste sobre la mediana Contraste sobre la media
  • 26. Alternativa: mayor que Estadístico t = -0,352332 P-valor = 0,633155 No se rechaza la hipótesis nula para alpha = 0,05. Contraste de los signos ----------------------- Hipótesis nula: mediana = 7,0 Alternativa: mayor que Número de valores inferiores a la mediana de H0: 5 Número de valores superiores a la mediana de H0: 4 Estadístico para grandes muestras = 0,0 (aplicada la corrección por continuidad) P-valor = 0,500003 No se rechaza la hipótesis nula para alpha = 0,05. Contraste de rangos con signo ----------------------------- Hipótesis nula: mediana = 7,0 Alternativa: mayor que Rango medio de los valores inferiores a la mediana: 5,1 Rango medio de los valores superiores a la mediana: 4,875 Estadístico para grandes muestras = -0,415374 (aplicada la corrección por continuidad) P-valor = 0,661067 No se rechaza la hipótesis nula para alpha = 0,05. - Los tres test de los que disponemos dan como resultado un p-valor mayor que 5% (0´05), por lo tanto se acepta H0 , o lo que es lo mismo que la nota media de las mujeres en selectividad con un alto hábito de lectura es igual que 7, pero no mayor; por lo tanto por lo general no se puede aceptar que la nota de las mujeres con alto hábito de lectura este por encima de 7.