1) El documento describe tres ejercicios sobre correlación realizados como parte de un seminario de estadística.
2) El primer ejercicio encuentra una correlación débil entre el peso y las horas de deporte en la muestra, pero no en la población.
3) El segundo ejercicio encuentra una fuerte correlación decreciente entre el número de cigarrillos y la nota de acceso, tanto en la muestra como en la población.
4) El tercer ejercicio encuentra una fuerte correlación positiva entre el peso y la altura en la muestra y
1. Seminario de Estadísticas:
Ejercicio de Correlación
Realizado por Alba Gutiérrez Álvarez
Grupo 6 Curso 2012/13
1ºGrado en Enfermería
U.D. Virgen del Rocío
2. ¿Qué es la correlación?
A modo de introducción, la correlación es relación
dependencia que existe entre dos variables o
cambio sistémico en las puntuaciones de dos
variables de intervalo/razón.
Dos variables presentan correlación cuando al
modificar una (aumentar o disminuir) también
modifica la otra variable.
4. 1.1.- Utilizando nuestra base de datos comprueba la correlación
entre la variable peso y la variable horas de dedicación al deporte.
Comenta los resultados.
Para esta primera actividad, donde usaremos la base de datos de
SPSS, primero identificaremos las dos variables (peso y dedicación
al estudio).
Desde el programa estadístico SPSS, le damos a analizar, dispersión
y elegiremos la opción de dispersión simple.
5. En el gráfico obtenido, podemos apreciar como si existe una
correlación, quizás débil, ya que la nube de puntos se
distribuyen alrededor de la recta aunque no de forma
perfecta.
Como la recta es creciente la correlación es positiva o directa:
al aumentar una variable, la otra tiene también tendencia a
aumentar.
Sin embargo, con la nube de puntos no podemos confirmar con
certeza que exista correlación. Para ello, debemos de usar
una prueba de hipótesis para valorar si existe o no
correlación lineal entre las dos variables cuantitativas.
Esa prueba de contraste de hipótesis se realiza calculando el
denominado coeficiente de correlación lineal de Pearson. El
coeficiente de correlación lineal de Pearson permite estudiar
la fuerza de la correlación o asociación lineal entre dos
variables cuantitativas.
6. Para calcular el coeficiente de Pearson, primero debemos
de comprobar si ambas variables son cuantitativas y si
tienen una distribución normal (que sí lo cumple puesto que
el número de la muestra estudiada es de 30).
Una vez comprobada estas dos premisas, pasamos a
calcular el coeficiente de Pearson con SPSS.
De nuevo le damos a analizar, correlaciones, bivariadas, y
aquí es donde elegimos las dos variables estudiadas, le
damos a aceptar y obtenemos los gráficos esperados.
7. Como obtenemos que el coeficiente de Pearson es diferente
de cero (Pxy= 0,4) podemos afirmar que SÍ hay correlación,
aunque ésta es débil.
Hecho esto, sabemos que en la muestra sí hay correlación,
es decir, que las variables peso y dedicación al deporte
están relacionadas, pero lo que nosotros debemos
comprobar es sí esa correlación también se de en la
población. Para ello, llevamos a cabo el:
CONTRASTE DE HIPÓTESIS
8. Antes de realizar el contraste de hipótesis, estableceremos
las dos hipótesis:
H = no hay correlación entre ambas variables (p=0)₀
H = sí hay correlación entre las dos variables (p ≠ 0 )₁
Como el valor del punto crítico (p: 0,091) es mayor que el nivel
de significancia (α: 0,05) podemos afirmar que se acepta la
hipótesis nula (rechazamos la hipótesis alterna).
CONCLUSIÓN En la población, NO hay correlación
entre las variables peso y dedicación al deporte.
9. 1.2.- Calcula el Coeficiente de Correlación de Pearson para las
variables número de cigarrillos fumados al día y nota de acceso.
Comenta los resultados.
Como en el ejercicio anterior, buscamos en la tabla las dos variables
en las cuales queremos comprobar si hay correlación, que son el nº
de cigarrillos fumados al día y la nota de acceso.
Para ello, desde el programa de SPSS, le damos a analizar, dispersión
y elegiremos dispersión simple.
10. Como podemos observar en la gráfica resultante, los datos
podemos decir que se sitúan alineados (aunque no de forma
exacta) en torno a una recta, aunque también destacar que
uno de los datos se encuentra aislado.
Para comprobar con exactitud si hay o no correlación entre
ambas variables, tenemos que calcular el coeficiente lineal
de Pearson.
Como explicamos anteriormente, las dos premisas necesarias
que debe de cumplirse para poder aplicar Pearson es que
ambas sean variables cuantitativas y que sigan una
distribución normal (que sí lo cumple porque n>30).
Contrastadas estas premisas, podemos pasar a calcular el
coeficiente de Pearson.
Desde SPSS, le damos a analizar, correlaciones, bivariadas, y
elegimos nuestras dos variables.
11. Como hemos obtenido que el coeficiente de correlación es
diferente de 0 (p= -0,97), podemos afirmar sí existe
correlación, que además es muy fuerte y que es decreciente
( ya que el número obtenido es negativo).
12. Ya sabemos que en la muestra sí hay correlación, pero lo que
nosotros queremos comprobar es sí esa correlación también
se da en la población. Para ello, realizaremos el contraste de
hipótesis.
En primer lugar, estableceremos ambas hipótesis:
H : hipótesis nula; afirma que en la población no existe₀
correlación entre ambas variables (en la muestra la
correlación se ha debido al azar).
H : hipótesis alterna; afirma que sí existe correlación en la₁
población , al igual que en la muestra.
Como observamos en la tabla, el grado de significación es
α= 0,05. Por ello, como p (0,001) es menor que el grado de
significación (0,01), aceptamos la hipótesis alterna, por lo que
rechazamos la nula.
CONCLUSIÓN En la población, SÍ hay correlación entre
las variables nº de cigarrillos y nota de acceso.
13. 1.3.- Calcula el Coeficiente de Correlación de Pearson para
las variables peso y altura (limitando la muestra a 10 casos).
Comenta los resultados.
Antes de realizar el coeficiente de correlación de Pearson,
debemos de confirmar que se cumple que las variables
sean cuantitativas (que sí lo son) y que siguen una
distribución normal. Esta segunda premisa no la cumple,
puesto que el número de individuos es menor que 30 (es
10).
Para comprobar si sigue una distribución normal, hacemos la
prueba de normalidad con Kolmogorov. Para ello, desde
SPSS, le daremos a analizar, estadísticos descriptivos,
explorar, opciones, pruebas de normalidad y le damos a
aceptar.
Tras realizar Kolmogorov, obtenemos que el punto crítico es
0,2, que al ser mayor que el nivel de significación es 0,05,
las variables se distribuyen normalmente.
Por lo que ya podremos utilizar la prueba de correlación de
Pearson.
14. En primer lugar, haremos la gráfica desde SPSS y
obtenemos lo siguiente :
Observando la gráfica, podemos suponer que sí hay
correlación entre ambas variables, por la forma en la que se
distribuyen los puntos en torno a la gráfica, y que el valor de
la correlación será positivo puesto que es ascendente.
15. Para comprobar con certeza si hay o no correlación,
calcularemos el coeficiente lineal de Pearson, haciendo uso
del programa estadístico SPSS, y obtenemos lo siguiente:
Vemos como sí existe correlación (puesto que el valor no es 0),
y que además es fuerte (p= 0,757) y ascendente (porque el
valor es positivo).
Tras esto, estableceremos ambas hipótesis:
H (hipótesis nula): afirma que no hay correlación entre las dos₀
variables, solo se debe al azar.
H (hipótesis alterna): sí existe correlación entre la variable₁
peso y altura en la población.
16. Como el valor del punto crítico (0,011) es menor que el nivel de
significancia (0,05), debemos de rechazar la hipótesis nula y
aceptar la alterna, con un nivel de confianza del 95%.
CONCLUSIÓN Al igual que ocurre en la muestra, en la
población también hay correlación entre las variables peso y
altura.
17. Ejercicio S10.2: De una muestra de niños conocemos su edad (X) medida
en días y su peso (Y) en kg., según los resultados de la tabla. Si ambas
variables se distribuyen normalmente, averiguar si existe correlación entre
ambas variables en la población de donde proviene la muestra?
Tenemos dos variables cuantitativas “edad” y “peso” que se distribuyen
normalmente, por lo que tenemos que:
Edad (días) Peso corporal
(Kg)
0 3,65
0 3,4
0 3,175
30 3,9
30 4,2
30 5,19
60 5,82
60 5,115
60 4,5
90 5,2
90 6,8
90 6,2
120 7,07
120 7,85
150 7,235
150 6,12
150 8,1
180 8,67
180 7,75
180 6,9
18. 1. Calcular el coeficiente de correlación de Pearson.
Antes de usar la correlación de Pearson, debemos de comprobar si
sigue una distribución normal las variables (que sí puesto que lo
dice el enunciado) y que ambas variables sean cuantitativas
(premisa que también cumple).
Tras comprobar que podemos utilizar la correlación de Pearson,
pasamos a calcularlo. Para ello, debemos de realizar una tabla,
quedando de la siguiente forma:
19. Una vez realizada la tabla, aplicaremos la siguiente fórmula
para calcular el coeficiente de correlación de Pearson, cuyo
resultado es:
0,910,91
Como hemos obtenido que el coeficiente es distinto de cero
(Rxy=0,91), podemos afirmar que sí hay correlación y que además,
ésta es fuerte y ascendente (puesto que el valor es positivo).
Por ello, podemos decir que en la muestra sí hay correlación entre
ambas variables, pero debemos de comprobar sí esa correlación
también existe en la población CONTRASTE DE HIPÓTESIS
20. 2. Averiguar si el coeficiente de correlación es significativo.
Antes de realizar el contraste de hipótesis (por el que
sabremos si existe o no correlación en la población),
estableceremos las dos hipótesis:
H (hipótesis nula): afirma que en la población no hay₀
correlación, solo se debe al azar.
H (hipótesis alterna): afirma que en la población, al igual que₁
en la muestra, si existe correlación entre las dos variables
“edad” y “peso”.
Para el contraste de hipótesis, se calcula el estadístico t, que
sigue una distribución de T-Student, con n-2 grados de
libertad:
t n-2= rxy √ [(n-2)/1- (rxy)²]= 0.91·√19/0,1719= 9,57
21. A continuación, pasaremos a calcular el punto crítico. Para ello,
nos iremos a la tabla de T-Student, con n-2 grados de
libertad (20-2=19), y con α= 0,05 (nivel de significancia), y
obtenemos que el punto crítico es 2,093
22. Si comparamos el punto crítico con el estadístico t calculado,
podemos observar que el estadístico es mayor que el punto
crítico, por lo que rechazaríamos la hipótesis nula y
aceptamos la alterna: en la población, sí hay correlación
entre las variables edad y peso
23. Ejercicio S10.3: De una muestra de alumnos conocemos las
notas de Matemáticas (X) y de Lengua (Y), según los
resultados de la tabla. Si ambas variables se distribuyen
normalmente, averiguar ¿existe correlación entre ambas
variables en la población de donde proviene la muestra?.
Tenemos dos variables cuantitativas “nota de matemáticas”
y “nota de lengua” que se distribuyen normalmente, por lo
que tenemos:
X Y
6 7
3 6
7 2
5 6
4 5
2 7
1 2
24. Calcular el coeficiente de correlación de Pearson.
Antes de calcular el coeficiente, debemos de asegurarnos su
las variables son cuantitativas (que sí lo son) y si siguen una
distribución normal (que también lo cumple).
Cumplidas ambas condiciones, pasaremos a realizar la tabla
en primer lugar:
X Y X² Y² X·Y
6 7 36 49 42
3 6 9 36 18
7 2 49 4 14
5 6 25 36 30
4 5 16 25 20
2 7 4 49 14
1 2 1 4 2
: 28 : 35 : 140 : 203 : 140
25. Una vez realizada la tabla, calcularemos el coeficiente de
correlación de Pearson entre X e Y.
00
Como observamos, tras el cálculo vemos que el coeficiente
de correlación es 0, por lo que no podemos de seguir con
la actividad, puesto que en la muestra, no hay correlación
entre las variables.
Debido a ello, no realizaremos el contraste de hipótesis
puesto que, al igual que en la muestra, en la población
tampoco habrá correlación entre las variables de notas de
matemáticas y las notas de lengua.