Análisis de datos II
Comprobación de supuestos de
modelos.
Campus Universitario
San Lorenzo, Paraguay
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
2 www.virtual.facen.una.py
Índice
1. Normalidad univariada ........................................................................................................3
1.1 Normalidad multivariada.................................................................................................5
2. Homocedasticidad...............................................................................................................5
3. Linealidad.............................................................................................................................6
4. Independencia de errores ...................................................................................................8
Bibliografía................................................................................................................................10
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
3 www.virtual.facen.una.py
1. Normalidad univariada
La normalidad univariante es adecuada cuando queremos ver si los valores de la variable
aleatoria dependiente siguen una distribución normal en la población a la que pertenece la
muestra, donde para el estudio de los datos, realizamos una evaluación visual utilizando el
histograma, que nos facilita ver si la distribución tiende a ser una campana de Gauss.
También podemos comprobar con otro método que es el gráfico de probabilidad normal,
donde los puntos deberían aproximarse a una línea recta, concluyendo que los datos son
normales.
Para poder validar la normalidad de las observaciones existen otros procedimientos más
efectivos que son los contrastes de normalidad de los cuales estaremos mencionando a
continuación:
 Contraste de kolmogorov-Smirnov-Lilliefors: el contraste de kolmogorov realiza una
comparación entre la distribución muestral con la población normal, donde
rechazaríamos la hipótesis nula de normalidad si el valor del estadístico sig es
significativamente grande. Este tipo de contraste es apropiado cuando el tamaño de
muestra es grande.
 Contraste de Shapiro-Wilks: el contraste de Shapiro-Wilks mide la verosimilitud de las
observaciones de la muestra que se presenta en un gráfico de probabilidad normal,
este contraste es el utilizado para muestras menores o iguales a 50, donde, con el
valor de sig podemos ver si la variable dependiente en la población tiende a ser una
distribución normal.
Pasos para determinar los diferentes contrastes de normalidad univariante en SPSS.
En la barra de menú buscamos la opción analizar y dentro ese nos vamos en la opción
estadísticos descriptivos y buscamos la opción explorar y le damos clic.
Donde nos aparecerá la siguiente tabla:
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
4 www.virtual.facen.una.py
En lista de dependientes ingresamos la variable que deseamos analizar que tiene que ser de
tipo métrica, y en lista de factores ingresamos la variable no métrica. En el costado hay
unos cuadritos donde dice gráficos, le damos clic, marcamos la opción de gráficos con
pruebas de normalidad, le damos continuar, luego aceptar, y obtendremos los contrastes
siguientes:
Pruebas de normalidadb,c
N° de
piezas
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Cantidad miembros
de 0 a 5 años
1 ,389 226 ,000 ,680 226 ,000
2 ,377 442 ,000 ,684 442 ,000
3 ,409 566 ,000 ,632 566 ,000
4 ,415 506 ,000 ,641 506 ,000
5 ,423 208 ,000 ,627 208 ,000
6 ,404 75 ,000 ,643 75 ,000
7 ,347 45 ,000 ,729 45 ,000
8 ,376 13 ,000 ,688 13 ,000
9 ,367 5 ,026 ,684 5 ,006
10 ,385 3 . ,750 3 ,000
a. Corrección de la significación de Lilliefors
b. Cantidad miembros de 0 a 5 años es una constante cuando N° de piezas = 12 y se ha
desestimado.
c. Cantidad miembros de 0 a 5 años es una constante cuando N° de piezas = 16 y se ha
desestimado.
Regla de decisión
Ho: la variable dependiente en la población tiene una distribución normal.
H1: la variable dependiente es distinta a la distribución normal.
Si sig ≤0,05 se rechaza la hipótesis nula
Si sig >0,05 se acepta la hipótesis nula
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
5 www.virtual.facen.una.py
Conclusión: primeramente, como la muestra es mayor a 50 utilizaremos el contraste de
Kolmogorov, donde vemos que todos los valores de significancia (p-valores) son menores
que el 0,05, concluimos que la variable dependiente cantidad de miembros de 0 a 5 años es
distinta a la distribución normal.
1.1 Normalidad multivariada
Ya visto la normalidad para cada variable, es necesario realizar de hipótesis de normalidad
multivariente, a tal fin mencionando las palabras de Mardia en 1970 quien propuso algunos
tests para contrastar si la asimetría y la curtosis multivariantes del conjunto de variables
observables permite asumir o no la hipótesis de normalidad. Estos contrastes se construyen
a partir de las siguientes medidas muestrales de asimetría y curtosis multivariante, donde
con los contrastes vistos anteriormente podemos concluir las hipótesis, lo único que
cambiaría es la opción lista de factores, donde incluiremos más de una variable, y con el
valor de sig podemos concluir las hipótesis correspondientes.
2. Homocedasticidad
En la prueba de homocedasticidad vamos midiendo si las varianzas entre grupos son o no
iguales, para ello utilizamos el estadístico de levene, donde supones los las siguientes
pruebas de hipótesis: Ho las varianzas son todos iguales y H1: las varianzas son distintas.
Donde con nuestra regla de decisión para un valor de sig ≤, 0,05 se rechaza la hipótesis nula
y si sig>0,05 se acepta la hipótesis nula. Ahora en SPSS realizamos la prueba de
homocedasticidad de la siguiente manera:
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
6 www.virtual.facen.una.py
Siguiendo los pasos obtenemos los siguientes resultados:
Prueba de homogeneidad de varianzas
Cantidad de miembros dependientes
Estadístico de
Levene
gl1 gl2 Sig.
,511 1 2089 ,475
Conclusión: como vemos que el valor de sig: 0,475>0,05 concluimos que se acepta la
hipótesis donde las varianzas entre los grupos son iguales.
3. Linealidad
La linealidad supone que la relación entre las variables tiende a ser lineal.
Para conocer la relación entre las variables utilizaremos el gráfico de dispersión, el cual
representa los valores para cada dos variables.
Si los puntos siguen una línea recta la combinación de las variables es lineal, en caso de que
los puntos tiendan a una línea curva la combinación de las variables no es lineal, en caso de
que no se dé ninguno de los casos anteriores se dice que no existe relación entre las
variables. Ahora veremos cómo hallar la linealidad con el SPSS:
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
8 www.virtual.facen.una.py
A partir de allí obtenemos los siguientes resultados:
Como podemos ver, ninguna de las variables tiende a ser una línea recta por lo cual
concluimos que no existe relación entre las variables.
4. Independencia de errores
En la independencia de errores suponemos que las variables aleatorias que se
representan como los errores son mutuamente independientes. Donde la hipótesis de la
independencia de errores la realizamos a través del contraste de Durbin-Watson, donde
para poder calcular en el SPSS ingresamos en analizar luego regresión lineal, seguida de
los pasos que estaremos viendo:
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
9 www.virtual.facen.una.py
En el cuadro estadístico elegimos en residuos Durbin-Watson y hacemos cilc en
continuar, luego en aceptar.
De donde obtendremos los siguientes resultados:
Resumen del modelob
Modelo R R cuadrado R cuadrado corregida Error típ. de la
estimación
Durbin-Watson
1
,021a ,000 ,000 ,214 2,030
a. Variables predictoras:(Constante),Combustibleque usa para cocinar
b. Variabledependiente: Cantidad de miembros dependientes
Cabe mencionar que el estadístico de Durbin-Watson mide el grado de autocorrelación
entre el residuo de cada observación y la anterior. Si su valor está próximo a 2, entonces
concluimos que los residuos están incorrelados, y si se aproxima a 4, estarán
negativamente autocorrelados y si su valor está cercano a 0 estarán positivamente
autocorrelados.
Conclusión: ya que nuestro valor de Durbin Watson es igual a 2,030 concluimos que los
residuos están incorrelados, por lo cual se recomienda considerar otro modelo.
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
10 www.virtual.facen.una.py
Bibliografía
 Terol, L. (11/04/2009). Introducción al SPSS . Recuperado de
https://www.uv.es/innomide/spss/SPSS/SPSS_0402a.pdf
http://gide.unileon.es/admin/UploadFolder/covarianzas.pdf

Unidad 4

  • 1.
    Análisis de datosII Comprobación de supuestos de modelos. Campus Universitario San Lorenzo, Paraguay
  • 2.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 2 www.virtual.facen.una.py Índice 1. Normalidad univariada ........................................................................................................3 1.1 Normalidad multivariada.................................................................................................5 2. Homocedasticidad...............................................................................................................5 3. Linealidad.............................................................................................................................6 4. Independencia de errores ...................................................................................................8 Bibliografía................................................................................................................................10
  • 3.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 3 www.virtual.facen.una.py 1. Normalidad univariada La normalidad univariante es adecuada cuando queremos ver si los valores de la variable aleatoria dependiente siguen una distribución normal en la población a la que pertenece la muestra, donde para el estudio de los datos, realizamos una evaluación visual utilizando el histograma, que nos facilita ver si la distribución tiende a ser una campana de Gauss. También podemos comprobar con otro método que es el gráfico de probabilidad normal, donde los puntos deberían aproximarse a una línea recta, concluyendo que los datos son normales. Para poder validar la normalidad de las observaciones existen otros procedimientos más efectivos que son los contrastes de normalidad de los cuales estaremos mencionando a continuación:  Contraste de kolmogorov-Smirnov-Lilliefors: el contraste de kolmogorov realiza una comparación entre la distribución muestral con la población normal, donde rechazaríamos la hipótesis nula de normalidad si el valor del estadístico sig es significativamente grande. Este tipo de contraste es apropiado cuando el tamaño de muestra es grande.  Contraste de Shapiro-Wilks: el contraste de Shapiro-Wilks mide la verosimilitud de las observaciones de la muestra que se presenta en un gráfico de probabilidad normal, este contraste es el utilizado para muestras menores o iguales a 50, donde, con el valor de sig podemos ver si la variable dependiente en la población tiende a ser una distribución normal. Pasos para determinar los diferentes contrastes de normalidad univariante en SPSS. En la barra de menú buscamos la opción analizar y dentro ese nos vamos en la opción estadísticos descriptivos y buscamos la opción explorar y le damos clic. Donde nos aparecerá la siguiente tabla:
  • 4.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 4 www.virtual.facen.una.py En lista de dependientes ingresamos la variable que deseamos analizar que tiene que ser de tipo métrica, y en lista de factores ingresamos la variable no métrica. En el costado hay unos cuadritos donde dice gráficos, le damos clic, marcamos la opción de gráficos con pruebas de normalidad, le damos continuar, luego aceptar, y obtendremos los contrastes siguientes: Pruebas de normalidadb,c N° de piezas Kolmogorov-Smirnova Shapiro-Wilk Estadístico gl Sig. Estadístico gl Sig. Cantidad miembros de 0 a 5 años 1 ,389 226 ,000 ,680 226 ,000 2 ,377 442 ,000 ,684 442 ,000 3 ,409 566 ,000 ,632 566 ,000 4 ,415 506 ,000 ,641 506 ,000 5 ,423 208 ,000 ,627 208 ,000 6 ,404 75 ,000 ,643 75 ,000 7 ,347 45 ,000 ,729 45 ,000 8 ,376 13 ,000 ,688 13 ,000 9 ,367 5 ,026 ,684 5 ,006 10 ,385 3 . ,750 3 ,000 a. Corrección de la significación de Lilliefors b. Cantidad miembros de 0 a 5 años es una constante cuando N° de piezas = 12 y se ha desestimado. c. Cantidad miembros de 0 a 5 años es una constante cuando N° de piezas = 16 y se ha desestimado. Regla de decisión Ho: la variable dependiente en la población tiene una distribución normal. H1: la variable dependiente es distinta a la distribución normal. Si sig ≤0,05 se rechaza la hipótesis nula Si sig >0,05 se acepta la hipótesis nula
  • 5.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 5 www.virtual.facen.una.py Conclusión: primeramente, como la muestra es mayor a 50 utilizaremos el contraste de Kolmogorov, donde vemos que todos los valores de significancia (p-valores) son menores que el 0,05, concluimos que la variable dependiente cantidad de miembros de 0 a 5 años es distinta a la distribución normal. 1.1 Normalidad multivariada Ya visto la normalidad para cada variable, es necesario realizar de hipótesis de normalidad multivariente, a tal fin mencionando las palabras de Mardia en 1970 quien propuso algunos tests para contrastar si la asimetría y la curtosis multivariantes del conjunto de variables observables permite asumir o no la hipótesis de normalidad. Estos contrastes se construyen a partir de las siguientes medidas muestrales de asimetría y curtosis multivariante, donde con los contrastes vistos anteriormente podemos concluir las hipótesis, lo único que cambiaría es la opción lista de factores, donde incluiremos más de una variable, y con el valor de sig podemos concluir las hipótesis correspondientes. 2. Homocedasticidad En la prueba de homocedasticidad vamos midiendo si las varianzas entre grupos son o no iguales, para ello utilizamos el estadístico de levene, donde supones los las siguientes pruebas de hipótesis: Ho las varianzas son todos iguales y H1: las varianzas son distintas. Donde con nuestra regla de decisión para un valor de sig ≤, 0,05 se rechaza la hipótesis nula y si sig>0,05 se acepta la hipótesis nula. Ahora en SPSS realizamos la prueba de homocedasticidad de la siguiente manera:
  • 6.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 6 www.virtual.facen.una.py Siguiendo los pasos obtenemos los siguientes resultados: Prueba de homogeneidad de varianzas Cantidad de miembros dependientes Estadístico de Levene gl1 gl2 Sig. ,511 1 2089 ,475 Conclusión: como vemos que el valor de sig: 0,475>0,05 concluimos que se acepta la hipótesis donde las varianzas entre los grupos son iguales. 3. Linealidad La linealidad supone que la relación entre las variables tiende a ser lineal. Para conocer la relación entre las variables utilizaremos el gráfico de dispersión, el cual representa los valores para cada dos variables. Si los puntos siguen una línea recta la combinación de las variables es lineal, en caso de que los puntos tiendan a una línea curva la combinación de las variables no es lineal, en caso de que no se dé ninguno de los casos anteriores se dice que no existe relación entre las variables. Ahora veremos cómo hallar la linealidad con el SPSS:
  • 7.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 7 www.virtual.facen.una.py
  • 8.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 8 www.virtual.facen.una.py A partir de allí obtenemos los siguientes resultados: Como podemos ver, ninguna de las variables tiende a ser una línea recta por lo cual concluimos que no existe relación entre las variables. 4. Independencia de errores En la independencia de errores suponemos que las variables aleatorias que se representan como los errores son mutuamente independientes. Donde la hipótesis de la independencia de errores la realizamos a través del contraste de Durbin-Watson, donde para poder calcular en el SPSS ingresamos en analizar luego regresión lineal, seguida de los pasos que estaremos viendo:
  • 9.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 9 www.virtual.facen.una.py En el cuadro estadístico elegimos en residuos Durbin-Watson y hacemos cilc en continuar, luego en aceptar. De donde obtendremos los siguientes resultados: Resumen del modelob Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson 1 ,021a ,000 ,000 ,214 2,030 a. Variables predictoras:(Constante),Combustibleque usa para cocinar b. Variabledependiente: Cantidad de miembros dependientes Cabe mencionar que el estadístico de Durbin-Watson mide el grado de autocorrelación entre el residuo de cada observación y la anterior. Si su valor está próximo a 2, entonces concluimos que los residuos están incorrelados, y si se aproxima a 4, estarán negativamente autocorrelados y si su valor está cercano a 0 estarán positivamente autocorrelados. Conclusión: ya que nuestro valor de Durbin Watson es igual a 2,030 concluimos que los residuos están incorrelados, por lo cual se recomienda considerar otro modelo.
  • 10.
    Universidad Nacional deAsunción Facultad de Ciencias Exactas y Naturales Departamento de Educación a Distancia 10 www.virtual.facen.una.py Bibliografía  Terol, L. (11/04/2009). Introducción al SPSS . Recuperado de https://www.uv.es/innomide/spss/SPSS/SPSS_0402a.pdf http://gide.unileon.es/admin/UploadFolder/covarianzas.pdf