2. Correlación lineal de
Pearson.
Medida de la estrechez de la
asociación entre dos variables
cuantitativas.
Asociación: fluctuación en conjunto
de dos variables
3. Correlación lineal de
Pearson:
Muchas veces en que se dispone de
datos en pares, se desea conocer si
ambas variables está relacionadas o
son independientes
4. Considere los siguientes
datos:
Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar:
4 1162 634
5 844 430
6 1008 573
7 956 438
8 825 474
9 899 409
10 801 504
11 1186 708
5. Gráfico de la asociación
300
350
400
450
500
550
600
650
700
750
700 800 900 1000 1100 1200 1300
altura sobre el nivel del mar (mts)
pluviometría
(mm)
Promedio de X= 959.2 mts
Promedio de Y= 530 mts
6. COVARIANZA: Medida de la variación
en conjunto de dos variables:
y
i
n
j
x
j
XY y
x
n
1
)
(
1
1
cov
1
cov )
(
n
n
Y
X
Y
X i
j
i
i
XY
CONCEPTO:
FORMULA DE CALCULO:
Donde n es el número de pares de valores X Y
8. Covarianza en el ejemplo:
Cov(XY)= 13.079,41
El signo positivo indica que valores por
sobre el promedio de X tienden a estar
asociados con valores por sobre el
promedio de Y
Valores negativos indican que valores por
sobre el promedio de X tienden a estar
asociados con valores por debajo del
promedio de Y
9. Estandarización de la
medición
Pearson, matemático Inglés,
desarrolló un índice, que divide la
covarianza por el producto de las
desviaciones estándares de X y de Y
Y
X
XY
Cov
rho
)
(
)
(
Y
X
XY
s
s
Cov
r
)
(
En la población En la muestra
10. Correlación lineal de
Pearson:
El índice r, fluctúa entre –1 y +1
Si la fluctuación en conjunto es
estrecha, el valor de r se acerca a –
1 o +1.
Si la fluctuación en conjunto es baja,
el valor de r se acerca a cero.
11. Coeficiente de correlación
de Pearson en el ejemplo:
Y
X
XY
s
s
Cov
r )
(
856
.
0
4
.
103
9
.
147
42
.
13079
r
12. Es la correlación observada
diferente de cero? (H0??)
1
1 2
N
r
r
t
XY
XY
1
1 2
N
r
r
z
XY
XY
N< 30 N> 30
N es la cantidad de pares XY
13. Es la correlación observada
diferente de cero, en el ejemplo?
25
.
5
163
.
0
856
.
0
10
733
.
0
1
856
.
0
t
t
t
En la tabla de t,
con alfa= 0.05 (dos colas)
y 10 grados de libertad
(n-1), el valor crítico
es 2.22
Por lo tanto se puede
rechazar H0 respecto
del valor poblacional de
rho:
Hay una asociación significativa
entre la altura sobre el nivel del
mar y la cantidad de precipitación
(P<0.05) (en la población)
14. 0.01
0.959
0.001
4 0.9 0.95 0.99 0.999
N 0.1 0.05
0.875
0.991
6 0.729 0.811 0.917 0.974
5 0.805 0.878
0.798
0.951
8 0.621 0.707 0.834 0.925
7 0.669 0.754
0.735
0.898
10 0.549 0.632 0.765 0.872
9 0.582 0.666
0.684
0.847
12 0.497 0.576 0.708 0.823
11 0.521 0.602
0.641
0.801
14 0.458 0.532 0.661 0.78
13 0.476 0.553
0.606
0.76
16 0.426 0.497 0.623 0.742
15 0.441 0.514
0.575
0.725
18 0.4 0.468 0.59 0.708
17 0.412 0.482
0.549
0.693
20 0.378 0.444 0.561 0.679
19 0.389 0.456
0.526
0.665
22 0.36 0.423 0.537 0.652
21 0.369 0.433
0.505
0.64
24 0.344 0.404 0.515 0.629
23 0.352 0.413
0.487
0.618
26 0.33 0.388 0.496 0.607
25 0.337 0.396
0.471
0.597
28 0.317 0.374 0.479 0.588
27 0.323 0.381
0.43
0.579
30 0.306 0.361 0.463 0.57
29 0.311 0.367
0.38
0.532
40 0.264 0.312 0.403 0.501
35 0.283 0.334
0.33
0.474
50 0.235 0.279 0.361 0.451
45 0.248 0.294
0.286
0.414
70 0.198 0.235 0.306 0.385
60 0.214 0.254
0.256
0.361
90 0.174 0.207 0.27 0.341
80 0.185 0.22
0.324
100 0.165 0.197
alfa
Otra opción es comparar
el valor de r calculado
con el valor de r de la tabla
adjunta.
Si el valor de r calculado
es mayor que el r del
número de grados de
libertad de la correlación
(n-1)=10
valor crítico= 0.632
15. Transformación de Fisher del
coeficiente de correlación
r
r
zrxy
1
1
ln
5
.
0
Z tiene distribución aproximadamente normal, con
media y error estándar:
5
.
0
)
3
(
1
N
ee
17. Intervalo de confianza del
coeficiente de correlación
3
-
N
1
)
( colas
dos
P
z
zrxy
Para obtener el intervalo de confianza en “unidades
de correlación” se transforman de modo inverso usando
el mismo método de r a z
En INTERNET:
http://faculty.vassar.edu/lowry/rho.html?
18. Intervalo de confianza en el
ejemplo:
653
.
0
275
.
1
1111
.
0
96
.
1
275
.
1
3
-
11
1
96
.
1
275
.
1
Según la página de Internet, el intervalo de
confianza de 95% para r=0.856
límite inferior=0.527
límite superior=0.961
19. Comparación de
coeficientes de correlación
3
1
3
1
2
1
2
1
n
n
z
z
z rxy
rxy
Se utilizan los coeficientes transformados
20. Correlación entre las líneas
eléctricas y el cáncer
Epidemiólogos del Instituto
Karolinska de Suecia investigaron
durante 25 años a 500.000 personas
que vivían a menos de 300 metros
de una línea eléctrica de alto voltaje.
Observaron que los niños tenían
mayor incidencia de leucemia.
21. Correlación entre las líneas
eléctricas y el cáncer
Los hallazgos descritos obligaron al
gobierno sueco a considerar
reglamentos que reducirían la
construcción de casas cercanas a las
líneas eléctricas de alto voltaje.
22. Correlación entre las líneas
eléctricas y el cáncer
En un artículo acerca del estudio, la
revista Time informó que “aunque
las investigaciones no demuestran
una relación de causa y efecto, sí
indican una inequívoca correlación
entre el grado de exposición y el
riesgo de leucemia infantil”.
23. Errores comunes respecto a
la correlación
Se debe tener cuidado de evitar
concluir que la correlación implica
causalidad
Variables ocultas
No utilizar tasas o promedios
Pérdida de variación entre individuos
Supuesto de linearidad de la relación
24. Correlación y regresión
lineal:
Si existe una conexión biológica (o
de otro tipo) entre las variables X e
Y, entonces puede formularse un
modelo lineal que represente esta
asociación.
El modelo se basa en la covarianza y
en su forma más sencilla es una
línea recta (Y= a + bX)
25. Ejemplo: Rendimiento promedio de plantas de soya
(gr/planta) obtenidos en respuesta a los niveles
indicados de exposición al ozono en la la fase de
crecimiento.
X Y
ozono (ppm) rendimiento (gr/pl)
0.02 242
0.07 237
0.11 231
0.15 201
SXi= 0.35 SYi= 911
X= 0.0875 Y= 227.75
SX2
i= 0.0399 SY2
i= 208495
SXiYi= 76.99
26. MODELO
Asumiendo una relación lineal entre el
rendimiento y el nivel del ozono, el
modelo establece que la media verdadera
de la variable dependiente cambia a una
tasa constante en la medida que la
variable dependiente aumenta o
disminuye.
La relación funcional entre la media
verdadera de Yi, E(Yi) y Xi es la ecuación
de la línea recta:
27. MODELO
Donde
a= intercepto (valor de E(Y)cuando X es
igual a cero
b= pendiente de la línea (tasa de cambio
de E(Y) ante un cambio unitario en X.
)
(
)
( i
i X
Y
E b
a
28. SUPUESTOS
Las observaciones de la variable
dependiente Yi se asumen como
observaciones aleatorias tomadas de
poblaciones de variables aleatorias
donde la media de cada población está
dada por E(Yi).
La desviación de una observación Yi desde
la media de su población, E(Yi) se
considera añadiendo un término de error
aleatorio ei para dar el siguiente modelo:
29. SUPUESTOS
El subíndice indica cada unidad de
observación en particular, i= 1, 2, …n. Los
Xi son las n ésimas observaciones de la
variable dependiente, que se supone son
tomadas sin error.
Es decir, son constantes conocidas; los Yi
y los Xi son observaciones pareadas,
tomadas en cada unidad observacional.
i
i
i X
Y e
b
a
30. Rendimiento de soya frente a diferentes concentraciones de
ozono
170
180
190
200
210
220
230
240
250
0 0.05 0.1 0.15 0.2
concentración de ozono (ppm)
rendimiento
soya
(gr/planta)
31. ESTIMACION DE MINIMOS
CUADRADOS
Los parámetros en el modelo son b y a, a ser
estimados desde los datos (muestra). Si no
existiese error aleatorio en Yi, cualquier par de
puntos podría ser utilizado para resolver los
valores de los parámetros.
La variación aleatoria de Y, sin embargo, hace
que cada par de valores de resultados diferentes
(Todos los estimadores serían idénticos sólo si
los datos observados cayeran exactamente sobre
una línea recta.)
32. ESTIMACION DE MINIMOS
CUADRADOS
Por lo tanto, el método de resolución debe
combinar toda la información para dar una sola
solución que sea la “mejor” en base a algún
criterio.
El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución
debe dar la suma más pequeña posible para las
desviaciones al cuadrado desde los valores
observados de Yi hasta sus medias verdaderas
dadas por la solución.
33. ESTIMACION DE MINIMOS
CUADRADOS
Sean b y a los estimadores numéricos de
los parámetros b y a, respectivamente, y
sea
el promedio estimado de Y para cada Xi,
i= 1, 2,…, n.
Se debe observar que Yi es obtenida
sustituyendo los parámetros en la forma
funcional del modelo que relaciona E(Yi)
con Xi, dado por la ecuación de la recta.
i
i bX
a
Y
ˆ
34. El principio de los mínimos cuadrados escoge valores de a y b
que minimizan la suma de cuadrados de los residuales, SC(Res):
Donde es el valor residual observado para la
iésima observación. La suma indicada por S es sobre todos los
valores del conjunto como lo indican los índices i= 1 hasta n
Los estimadores de b y a se obtienen usando cálculo para
encontrar los valores que minimizan SC(Res). Las derivadas de
SC(Res) con respecto a b y a son definidas iguales a cero.
2
)
(
1
2
)
( )
ˆ
(
i
RES
n
i
i
i
RES
e
SC
Y
Y
SC
)
ˆ
( i
i
i Y
Y
e
35. Las ecuaciones normales son:
n(a) + (SXi)b= SYi
(SXi)a + (SX2
i)b= SXiYi
Resolviendo las ecuaciones simultáneamente para a y b, da los
estimadores para a y b:
S(Xi-X)(Yi-Y) Sxiyi
b= =
S(Xi-X)2 Sx2
i
a= Y - bX
36. Para facilidad de cálculo:
(SXi)2
Sx2
i= SX2
i -
n
(SXi)(SYi)
Sxiyi= SXiYi -
n
Lo que da la siguiente fórmula de cálculo para la pendiente:
n
X
X
n
Y
X
Y
X
b
i
i
i
i
i
i
2
2 )
(
)
)(
(
37. Cálculo de la pendiente (b)
X Y
ozono (ppm) rendimiento (gr/pl)
0.02 242
0.07 237
0.11 231
0.15 201
0399
.
0
0875
.
0
35
.
0
2
i
i
X
X
X
208495
75
.
227
911
2
i
i
Y
Y
Y
99
.
76
i
iY
X
53
.
293
4
)
35
.
0
(
0399
.
0
4
)
911
)(
35
.
0
(
99
.
76
2
b
n
X
X
n
Y
X
Y
X
b
i
i
i
i
i
i
2
2 )
(
)
)(
(
38. Cálculo de la constante (a)
y ecuación:
X
b
Y
a
a= 227.75 - (-293.531)(0.08875)= 253.434
i
X
Y 5
.
293
4
.
253
ˆ
La ecuación de mínimo cuadrado que caracteriza el efecto del ozono
sobre el rendimiento promedio de la soya en este estudio, asumiendo
que el modelo lineal es correcto es:
40. Matriz de correlaciones del
ejemplo:
Valor crítico de r para alfa= 0.05 y 43 grados de libertad: 0.3 appx
Las celdas en color contienen correlaciones “significativas”
P<0.05)
BIO (gr) SAL (o/oo) pH K (ppm) Na (ppm) Zn (ppm)
BIO (gr) 1
SAL (o/oo) -0.1032 1
pH 0.7742 -0.0513 1
K (ppm) -0.2051 -0.0205 0.0187 1
Na (ppm) -0.2721 0.1623 -0.0377 0.7921 1
Zn (ppm) -0.6244 -0.4208 -0.7222 0.0740 0.1171 1
(obtenida con Herramientas para Análisis de Excel,
Correlación)
45. Análisis de regresión: pH vs
Biomasa
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.77418613
Coeficiente de determinación R^2 0.59936417
R^2 ajustado 0.59004705
Error típico 422.632251
Observaciones 45
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 11490388.4 11490388.4 64.3293909 4.4332E-10
Residuos 43 7680574.82 178618.019
Total 44 19170963.2
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -885.210514 243.440727 -3.63624659 0.000735 -1376.15519 -394.265836
pH 409.804313 51.0942237 8.02056051 4.4332E-10 306.763061 512.845564
significancia
IC 95% para
coeficientes
46. Gráfico de línea de regresión e intervalo de
confianza de 95% para la relación pH -
biomasa
Observe que la pendiente no es cero, con un 95% de
confianza
47. Análisis de regresión:
salinidad vs biomasa
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.1031678
Coeficiente de determinación R^2 0.01064359
R^2 ajustado -0.01236469
Error típico 664.14686
Observaciones 45
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 204047.962 204047.962 0.46259828 0.50005789
Residuos 43 18966915.2 441091.052
Total 44 19170963.2
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 1554.9067 820.681908 1.8946521 0.06487581 -100.154964 3209.96837
SAL (o/oo) -18.3074901 26.9170091 -0.68014578 0.50005789 -72.5907752 35.9757949
48. Gráfico de línea de regresión e intervalo de
confianza de 95% para la relación salinidad
- biomasa
Observe que la pendiente puede ser igual a cero, con un
95% de confianza