SlideShare una empresa de Scribd logo
1 de 48
CORRELACION Y
REGRESION LINEAL:
Introducción
Mario Briones L.
MV, MSc
Correlación lineal de
Pearson.
 Medida de la estrechez de la
asociación entre dos variables
cuantitativas.
 Asociación: fluctuación en conjunto
de dos variables
Correlación lineal de
Pearson:
 Muchas veces en que se dispone de
datos en pares, se desea conocer si
ambas variables está relacionadas o
son independientes
Considere los siguientes
datos:
 Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar:
4 1162 634
5 844 430
6 1008 573
7 956 438
8 825 474
9 899 409
10 801 504
11 1186 708
Gráfico de la asociación
300
350
400
450
500
550
600
650
700
750
700 800 900 1000 1100 1200 1300
altura sobre el nivel del mar (mts)
pluviometría
(mm)
Promedio de X= 959.2 mts
Promedio de Y= 530 mts
COVARIANZA: Medida de la variación
en conjunto de dos variables:
  
y
i
n
j
x
j
XY y
x
n

 


 
1
)
(
1
1
cov
  
1
cov )
(



 

n
n
Y
X
Y
X i
j
i
i
XY
CONCEPTO:
FORMULA DE CALCULO:
Donde n es el número de pares de valores X Y
En el ejemplo:
42
.
13079
10
11
5829
10551
16380




XY
COV
Atención! La función COVAR de Excel divide por n...
Covarianza en el ejemplo:
 Cov(XY)= 13.079,41
 El signo positivo indica que valores por
sobre el promedio de X tienden a estar
asociados con valores por sobre el
promedio de Y
 Valores negativos indican que valores por
sobre el promedio de X tienden a estar
asociados con valores por debajo del
promedio de Y
Estandarización de la
medición
 Pearson, matemático Inglés,
desarrolló un índice, que divide la
covarianza por el producto de las
desviaciones estándares de X y de Y
Y
X
XY
Cov
rho


 )
(
)
( 
Y
X
XY
s
s
Cov
r
)
(

En la población En la muestra
Correlación lineal de
Pearson:
 El índice r, fluctúa entre –1 y +1
 Si la fluctuación en conjunto es
estrecha, el valor de r se acerca a –
1 o +1.
 Si la fluctuación en conjunto es baja,
el valor de r se acerca a cero.
Coeficiente de correlación
de Pearson en el ejemplo:
Y
X
XY
s
s
Cov
r )
(

856
.
0
4
.
103
9
.
147
42
.
13079



r
Es la correlación observada
diferente de cero? (H0??)
1
1 2



N
r
r
t
XY
XY
1
1 2



N
r
r
z
XY
XY
N< 30 N> 30
N es la cantidad de pares XY
Es la correlación observada
diferente de cero, en el ejemplo?
25
.
5
163
.
0
856
.
0
10
733
.
0
1
856
.
0




t
t
t
En la tabla de t,
con alfa= 0.05 (dos colas)
y 10 grados de libertad
(n-1), el valor crítico
es 2.22
Por lo tanto se puede
rechazar H0 respecto
del valor poblacional de
rho:
Hay una asociación significativa
entre la altura sobre el nivel del
mar y la cantidad de precipitación
(P<0.05) (en la población)
0.01
0.959
0.001
4 0.9 0.95 0.99 0.999
N 0.1 0.05
0.875
0.991
6 0.729 0.811 0.917 0.974
5 0.805 0.878
0.798
0.951
8 0.621 0.707 0.834 0.925
7 0.669 0.754
0.735
0.898
10 0.549 0.632 0.765 0.872
9 0.582 0.666
0.684
0.847
12 0.497 0.576 0.708 0.823
11 0.521 0.602
0.641
0.801
14 0.458 0.532 0.661 0.78
13 0.476 0.553
0.606
0.76
16 0.426 0.497 0.623 0.742
15 0.441 0.514
0.575
0.725
18 0.4 0.468 0.59 0.708
17 0.412 0.482
0.549
0.693
20 0.378 0.444 0.561 0.679
19 0.389 0.456
0.526
0.665
22 0.36 0.423 0.537 0.652
21 0.369 0.433
0.505
0.64
24 0.344 0.404 0.515 0.629
23 0.352 0.413
0.487
0.618
26 0.33 0.388 0.496 0.607
25 0.337 0.396
0.471
0.597
28 0.317 0.374 0.479 0.588
27 0.323 0.381
0.43
0.579
30 0.306 0.361 0.463 0.57
29 0.311 0.367
0.38
0.532
40 0.264 0.312 0.403 0.501
35 0.283 0.334
0.33
0.474
50 0.235 0.279 0.361 0.451
45 0.248 0.294
0.286
0.414
70 0.198 0.235 0.306 0.385
60 0.214 0.254
0.256
0.361
90 0.174 0.207 0.27 0.341
80 0.185 0.22
0.324
100 0.165 0.197
alfa
Otra opción es comparar
el valor de r calculado
con el valor de r de la tabla
adjunta.
Si el valor de r calculado
es mayor que el r del
número de grados de
libertad de la correlación
(n-1)=10
valor crítico= 0.632
Transformación de Fisher del
coeficiente de correlación










r
r
zrxy
1
1
ln
5
.
0
Z tiene distribución aproximadamente normal, con
media  y error estándar:
5
.
0
)
3
(
1


N
ee
Transformación de Fisher en
el ejemplo:
275
.
1
55
.
2
5
.
0
144
.
856
.
1
ln
5
.
0
856
.
0
1
856
.
0
1
ln
5
.
0





















rxy
z
Intervalo de confianza del
coeficiente de correlación
3
-
N
1
)
( colas
dos
P
z
zrxy 
Para obtener el intervalo de confianza en “unidades
de correlación” se transforman de modo inverso usando
el mismo método de r a z
En INTERNET:
http://faculty.vassar.edu/lowry/rho.html?
Intervalo de confianza en el
ejemplo:
653
.
0
275
.
1
1111
.
0
96
.
1
275
.
1
3
-
11
1
96
.
1
275
.
1



Según la página de Internet, el intervalo de
confianza de 95% para r=0.856
límite inferior=0.527
límite superior=0.961
Comparación de
coeficientes de correlación





















3
1
3
1
2
1
2
1
n
n
z
z
z rxy
rxy
Se utilizan los coeficientes transformados
Correlación entre las líneas
eléctricas y el cáncer
 Epidemiólogos del Instituto
Karolinska de Suecia investigaron
durante 25 años a 500.000 personas
que vivían a menos de 300 metros
de una línea eléctrica de alto voltaje.
 Observaron que los niños tenían
mayor incidencia de leucemia.
Correlación entre las líneas
eléctricas y el cáncer
 Los hallazgos descritos obligaron al
gobierno sueco a considerar
reglamentos que reducirían la
construcción de casas cercanas a las
líneas eléctricas de alto voltaje.
Correlación entre las líneas
eléctricas y el cáncer
 En un artículo acerca del estudio, la
revista Time informó que “aunque
las investigaciones no demuestran
una relación de causa y efecto, sí
indican una inequívoca correlación
entre el grado de exposición y el
riesgo de leucemia infantil”.
Errores comunes respecto a
la correlación
 Se debe tener cuidado de evitar
concluir que la correlación implica
causalidad
 Variables ocultas
 No utilizar tasas o promedios
 Pérdida de variación entre individuos
 Supuesto de linearidad de la relación
Correlación y regresión
lineal:
 Si existe una conexión biológica (o
de otro tipo) entre las variables X e
Y, entonces puede formularse un
modelo lineal que represente esta
asociación.
 El modelo se basa en la covarianza y
en su forma más sencilla es una
línea recta (Y= a + bX)
Ejemplo: Rendimiento promedio de plantas de soya
(gr/planta) obtenidos en respuesta a los niveles
indicados de exposición al ozono en la la fase de
crecimiento.
X Y
ozono (ppm) rendimiento (gr/pl)
0.02 242
0.07 237
0.11 231
0.15 201
SXi= 0.35 SYi= 911
X= 0.0875 Y= 227.75
SX2
i= 0.0399 SY2
i= 208495
SXiYi= 76.99
MODELO
 Asumiendo una relación lineal entre el
rendimiento y el nivel del ozono, el
modelo establece que la media verdadera
de la variable dependiente cambia a una
tasa constante en la medida que la
variable dependiente aumenta o
disminuye.
 La relación funcional entre la media
verdadera de Yi, E(Yi) y Xi es la ecuación
de la línea recta:
MODELO
 Donde
 a= intercepto (valor de E(Y)cuando X es
igual a cero
 b= pendiente de la línea (tasa de cambio
de E(Y) ante un cambio unitario en X.
)
(
)
( i
i X
Y
E b
a 

SUPUESTOS
 Las observaciones de la variable
dependiente Yi se asumen como
observaciones aleatorias tomadas de
poblaciones de variables aleatorias
donde la media de cada población está
dada por E(Yi).
 La desviación de una observación Yi desde
la media de su población, E(Yi) se
considera añadiendo un término de error
aleatorio ei para dar el siguiente modelo:
SUPUESTOS
 El subíndice indica cada unidad de
observación en particular, i= 1, 2, …n. Los
Xi son las n ésimas observaciones de la
variable dependiente, que se supone son
tomadas sin error.
 Es decir, son constantes conocidas; los Yi
y los Xi son observaciones pareadas,
tomadas en cada unidad observacional.
i
i
i X
Y e
b
a 


Rendimiento de soya frente a diferentes concentraciones de
ozono
170
180
190
200
210
220
230
240
250
0 0.05 0.1 0.15 0.2
concentración de ozono (ppm)
rendimiento
soya
(gr/planta)
ESTIMACION DE MINIMOS
CUADRADOS
 Los parámetros en el modelo son b y a, a ser
estimados desde los datos (muestra). Si no
existiese error aleatorio en Yi, cualquier par de
puntos podría ser utilizado para resolver los
valores de los parámetros.
 La variación aleatoria de Y, sin embargo, hace
que cada par de valores de resultados diferentes
(Todos los estimadores serían idénticos sólo si
los datos observados cayeran exactamente sobre
una línea recta.)
ESTIMACION DE MINIMOS
CUADRADOS
 Por lo tanto, el método de resolución debe
combinar toda la información para dar una sola
solución que sea la “mejor” en base a algún
criterio.
 El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución
debe dar la suma más pequeña posible para las
desviaciones al cuadrado desde los valores
observados de Yi hasta sus medias verdaderas
dadas por la solución.
ESTIMACION DE MINIMOS
CUADRADOS
 Sean b y a los estimadores numéricos de
los parámetros b y a, respectivamente, y
sea
 el promedio estimado de Y para cada Xi,
i= 1, 2,…, n.
 Se debe observar que Yi es obtenida
sustituyendo los parámetros en la forma
funcional del modelo que relaciona E(Yi)
con Xi, dado por la ecuación de la recta.
i
i bX
a
Y 

ˆ
El principio de los mínimos cuadrados escoge valores de a y b
que minimizan la suma de cuadrados de los residuales, SC(Res):
Donde es el valor residual observado para la
iésima observación. La suma indicada por S es sobre todos los
valores del conjunto como lo indican los índices i= 1 hasta n
Los estimadores de b y a se obtienen usando cálculo para
encontrar los valores que minimizan SC(Res). Las derivadas de
SC(Res) con respecto a b y a son definidas iguales a cero.






2
)
(
1
2
)
( )
ˆ
(
i
RES
n
i
i
i
RES
e
SC
Y
Y
SC
)
ˆ
( i
i
i Y
Y
e 

Las ecuaciones normales son:
n(a) + (SXi)b= SYi
(SXi)a + (SX2
i)b= SXiYi
Resolviendo las ecuaciones simultáneamente para a y b, da los
estimadores para a y b:
S(Xi-X)(Yi-Y) Sxiyi
b= =
S(Xi-X)2 Sx2
i
a= Y - bX
Para facilidad de cálculo:
(SXi)2
Sx2
i= SX2
i -
n
(SXi)(SYi)
Sxiyi= SXiYi -
n
Lo que da la siguiente fórmula de cálculo para la pendiente:
 
  



n
X
X
n
Y
X
Y
X
b
i
i
i
i
i
i
2
2 )
(
)
)(
(
Cálculo de la pendiente (b)
X Y
ozono (ppm) rendimiento (gr/pl)
0.02 242
0.07 237
0.11 231
0.15 201





0399
.
0
0875
.
0
35
.
0
2
i
i
X
X
X





208495
75
.
227
911
2
i
i
Y
Y
Y
  99
.
76
i
iY
X
53
.
293
4
)
35
.
0
(
0399
.
0
4
)
911
)(
35
.
0
(
99
.
76
2





b
 
  



n
X
X
n
Y
X
Y
X
b
i
i
i
i
i
i
2
2 )
(
)
)(
(
Cálculo de la constante (a)
y ecuación:
X
b
Y
a 

a= 227.75 - (-293.531)(0.08875)= 253.434
i
X
Y 5
.
293
4
.
253
ˆ 

La ecuación de mínimo cuadrado que caracteriza el efecto del ozono
sobre el rendimiento promedio de la soya en este estudio, asumiendo
que el modelo lineal es correcto es:
Ejemplo Biomasa
BIO (gr) SAL (o/oo) pH K (ppm) Na (ppm) Zn (ppm)
676 33 5 1441.67 35184.5 16.4524
516 35 4.75 1299.19 28170.4 13.9852
1052 32 4.2 1154.27 26455 15.3276
868 30 4.4 1045.15 25072.9 17.3128
1008 33 5.55 521.62 31664.2 22.3312
436 33 5.05 1273.02 25491.7 12.2778
544 36 4.25 1346.35 20877.3 17.8225
680 30 4.45 1253.88 25621.3 14.3526
640 38 4.75 1242.65 27587.3 13.6826
492 30 4.6 1282.95 26511.7 11.7566
984 30 4.1 553.69 7886.5 9.882
1400 37 3.45 494.74 14596 16.6752
1276 33 3.45 526.97 9826.8 12.373
1736 36 4.1 571.14 11978.4 9.4058
1004 30 3.5 408.64 10368.6 14.9302
396 30 3.25 646.65 17307.4 31.2865
Matriz de correlaciones del
ejemplo:
Valor crítico de r para alfa= 0.05 y 43 grados de libertad: 0.3 appx
Las celdas en color contienen correlaciones “significativas”
P<0.05)
BIO (gr) SAL (o/oo) pH K (ppm) Na (ppm) Zn (ppm)
BIO (gr) 1
SAL (o/oo) -0.1032 1
pH 0.7742 -0.0513 1
K (ppm) -0.2051 -0.0205 0.0187 1
Na (ppm) -0.2721 0.1623 -0.0377 0.7921 1
Zn (ppm) -0.6244 -0.4208 -0.7222 0.0740 0.1171 1
(obtenida con Herramientas para Análisis de Excel,
Correlación)
Relación “significativa”
(P<0.05) entre pH y Biomasa
0
500
1000
1500
2000
2500
3 4 5 6 7 8
pH
Biomasa
(gr)
Regresión lineal simple
entre pH y biomasa
y = 409.8x - 885.21
R2
= 0.5994
0
500
1000
1500
2000
2500
3 4 5 6 7 8
biomasa
pH
Relación “no significativa” (P0.05)
entre salinidad y biomasa.
y = -18.307x + 1554.9
R2
= 0.0106
0
500
1000
1500
2000
2500
3000
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
salinidad (o/oo)
Biomasa
(gr)
Relación “significativa”
(P<0.05) entre Zn y Biomasa
y = -49.779x + 1890.6
R2
= 0.3899
0
500
1000
1500
2000
2500
3000
0 10 20 30 40
Zn (ppm)
Biomasa
(gr)
Análisis de regresión: pH vs
Biomasa
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.77418613
Coeficiente de determinación R^2 0.59936417
R^2 ajustado 0.59004705
Error típico 422.632251
Observaciones 45
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 11490388.4 11490388.4 64.3293909 4.4332E-10
Residuos 43 7680574.82 178618.019
Total 44 19170963.2
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -885.210514 243.440727 -3.63624659 0.000735 -1376.15519 -394.265836
pH 409.804313 51.0942237 8.02056051 4.4332E-10 306.763061 512.845564
significancia
IC 95% para
coeficientes
Gráfico de línea de regresión e intervalo de
confianza de 95% para la relación pH -
biomasa
Observe que la pendiente no es cero, con un 95% de
confianza
Análisis de regresión:
salinidad vs biomasa
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.1031678
Coeficiente de determinación R^2 0.01064359
R^2 ajustado -0.01236469
Error típico 664.14686
Observaciones 45
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 204047.962 204047.962 0.46259828 0.50005789
Residuos 43 18966915.2 441091.052
Total 44 19170963.2
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 1554.9067 820.681908 1.8946521 0.06487581 -100.154964 3209.96837
SAL (o/oo) -18.3074901 26.9170091 -0.68014578 0.50005789 -72.5907752 35.9757949
Gráfico de línea de regresión e intervalo de
confianza de 95% para la relación salinidad
- biomasa
Observe que la pendiente puede ser igual a cero, con un
95% de confianza

Más contenido relacionado

Similar a regresion_1.ppt

S14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfS14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdf
HeynerGomez2
 

Similar a regresion_1.ppt (20)

Correlación y Regresión lineal simple
Correlación y Regresión lineal simple Correlación y Regresión lineal simple
Correlación y Regresión lineal simple
 
Estadistica 3
Estadistica 3Estadistica 3
Estadistica 3
 
Unidad III: RELACIONES DE PROPORCIONALIDAD Y GRÁFICOS
Unidad III: RELACIONES DE PROPORCIONALIDAD Y GRÁFICOSUnidad III: RELACIONES DE PROPORCIONALIDAD Y GRÁFICOS
Unidad III: RELACIONES DE PROPORCIONALIDAD Y GRÁFICOS
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
Regresión simple y correlación - Estadística
Regresión simple y correlación - EstadísticaRegresión simple y correlación - Estadística
Regresión simple y correlación - Estadística
 
Regresion Y Correlacion
Regresion Y CorrelacionRegresion Y Correlacion
Regresion Y Correlacion
 
Regrecion lineal simple
Regrecion lineal simpleRegrecion lineal simple
Regrecion lineal simple
 
Solucion compendio siete
Solucion compendio sieteSolucion compendio siete
Solucion compendio siete
 
COMPENDIO SIETE
COMPENDIO SIETE COMPENDIO SIETE
COMPENDIO SIETE
 
6 regresion y correlación
6 regresion y correlación6 regresion y correlación
6 regresion y correlación
 
Capitulo 10
Capitulo 10Capitulo 10
Capitulo 10
 
SesióN 8
SesióN 8SesióN 8
SesióN 8
 
SesióN 8
SesióN 8SesióN 8
SesióN 8
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Tema 9.pdf
Tema 9.pdfTema 9.pdf
Tema 9.pdf
 
Mat 50140116 regr_ simple_2011_12gggggggggggggggggggggggggg
Mat 50140116 regr_ simple_2011_12ggggggggggggggggggggggggggMat 50140116 regr_ simple_2011_12gggggggggggggggggggggggggg
Mat 50140116 regr_ simple_2011_12gggggggggggggggggggggggggg
 
S14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdfS14 Regresión lineal simple.pdf
S14 Regresión lineal simple.pdf
 
17.Regresión y correlación simple.ppt
17.Regresión y correlación simple.ppt17.Regresión y correlación simple.ppt
17.Regresión y correlación simple.ppt
 
Ejericios
EjericiosEjericios
Ejericios
 
Regresion y Correlacion
Regresion y CorrelacionRegresion y Correlacion
Regresion y Correlacion
 

Último

Tipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplosTipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplos
andersonsubero28
 
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbbTema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
antoniolfdez2006
 
INFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdfINFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdf
octaviosalazar18
 

Último (20)

Tipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplosTipos de suelo y su clasificación y ejemplos
Tipos de suelo y su clasificación y ejemplos
 
Mecatronica Automotriz .pdf
Mecatronica Automotriz              .pdfMecatronica Automotriz              .pdf
Mecatronica Automotriz .pdf
 
Cereales tecnología de los alimentos. Cereales
Cereales tecnología de los alimentos. CerealesCereales tecnología de los alimentos. Cereales
Cereales tecnología de los alimentos. Cereales
 
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptxG4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
G4 - CASO DE ESTUDIO - VOLUMEN DE UN RESERVORIO (1).pptx
 
Determinación de espacios en la instalación
Determinación de espacios en la instalaciónDeterminación de espacios en la instalación
Determinación de espacios en la instalación
 
metodos de fitomejoramiento en la aolicacion de plantas
metodos de fitomejoramiento en la aolicacion de plantasmetodos de fitomejoramiento en la aolicacion de plantas
metodos de fitomejoramiento en la aolicacion de plantas
 
Instrumentacion para el control de procesos.pdf
Instrumentacion para el control de procesos.pdfInstrumentacion para el control de procesos.pdf
Instrumentacion para el control de procesos.pdf
 
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbbTema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
Tema ilustrado 9.2.docxbbbbbbbbbbbbbbbbbbb
 
ingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptxingenieria grafica para la carrera de ingeniera .pptx
ingenieria grafica para la carrera de ingeniera .pptx
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
INFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdfINFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdf
 
Auditoría de Sistemas de Gestión
Auditoría    de   Sistemas     de GestiónAuditoría    de   Sistemas     de Gestión
Auditoría de Sistemas de Gestión
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
 
dokumen.tips_311-determinacion-del-espacio-estatico.pptx
dokumen.tips_311-determinacion-del-espacio-estatico.pptxdokumen.tips_311-determinacion-del-espacio-estatico.pptx
dokumen.tips_311-determinacion-del-espacio-estatico.pptx
 
1. Equipos Primarios de una Subestaciones electricas
1. Equipos Primarios de una Subestaciones electricas1. Equipos Primarios de una Subestaciones electricas
1. Equipos Primarios de una Subestaciones electricas
 
Sistema de alumbrado.pptx fjhhgghrhgghhuughuh
Sistema de alumbrado.pptx fjhhgghrhgghhuughuhSistema de alumbrado.pptx fjhhgghrhgghhuughuh
Sistema de alumbrado.pptx fjhhgghrhgghhuughuh
 
680186431-3-Porcentaje-Presentacion-2022.pdf
680186431-3-Porcentaje-Presentacion-2022.pdf680186431-3-Porcentaje-Presentacion-2022.pdf
680186431-3-Porcentaje-Presentacion-2022.pdf
 
422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx422382393-Curso-de-Tableros-Electricos.pptx
422382393-Curso-de-Tableros-Electricos.pptx
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 

regresion_1.ppt

  • 2. Correlación lineal de Pearson.  Medida de la estrechez de la asociación entre dos variables cuantitativas.  Asociación: fluctuación en conjunto de dos variables
  • 3. Correlación lineal de Pearson:  Muchas veces en que se dispone de datos en pares, se desea conocer si ambas variables está relacionadas o son independientes
  • 4. Considere los siguientes datos:  Valores de pluviometría para once localidades a diferente altura sobre el nivel del mar: 4 1162 634 5 844 430 6 1008 573 7 956 438 8 825 474 9 899 409 10 801 504 11 1186 708
  • 5. Gráfico de la asociación 300 350 400 450 500 550 600 650 700 750 700 800 900 1000 1100 1200 1300 altura sobre el nivel del mar (mts) pluviometría (mm) Promedio de X= 959.2 mts Promedio de Y= 530 mts
  • 6. COVARIANZA: Medida de la variación en conjunto de dos variables:    y i n j x j XY y x n        1 ) ( 1 1 cov    1 cov ) (       n n Y X Y X i j i i XY CONCEPTO: FORMULA DE CALCULO: Donde n es el número de pares de valores X Y
  • 8. Covarianza en el ejemplo:  Cov(XY)= 13.079,41  El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y  Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y
  • 9. Estandarización de la medición  Pearson, matemático Inglés, desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y Y X XY Cov rho    ) ( ) (  Y X XY s s Cov r ) (  En la población En la muestra
  • 10. Correlación lineal de Pearson:  El índice r, fluctúa entre –1 y +1  Si la fluctuación en conjunto es estrecha, el valor de r se acerca a – 1 o +1.  Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.
  • 11. Coeficiente de correlación de Pearson en el ejemplo: Y X XY s s Cov r ) (  856 . 0 4 . 103 9 . 147 42 . 13079    r
  • 12. Es la correlación observada diferente de cero? (H0??) 1 1 2    N r r t XY XY 1 1 2    N r r z XY XY N< 30 N> 30 N es la cantidad de pares XY
  • 13. Es la correlación observada diferente de cero, en el ejemplo? 25 . 5 163 . 0 856 . 0 10 733 . 0 1 856 . 0     t t t En la tabla de t, con alfa= 0.05 (dos colas) y 10 grados de libertad (n-1), el valor crítico es 2.22 Por lo tanto se puede rechazar H0 respecto del valor poblacional de rho: Hay una asociación significativa entre la altura sobre el nivel del mar y la cantidad de precipitación (P<0.05) (en la población)
  • 14. 0.01 0.959 0.001 4 0.9 0.95 0.99 0.999 N 0.1 0.05 0.875 0.991 6 0.729 0.811 0.917 0.974 5 0.805 0.878 0.798 0.951 8 0.621 0.707 0.834 0.925 7 0.669 0.754 0.735 0.898 10 0.549 0.632 0.765 0.872 9 0.582 0.666 0.684 0.847 12 0.497 0.576 0.708 0.823 11 0.521 0.602 0.641 0.801 14 0.458 0.532 0.661 0.78 13 0.476 0.553 0.606 0.76 16 0.426 0.497 0.623 0.742 15 0.441 0.514 0.575 0.725 18 0.4 0.468 0.59 0.708 17 0.412 0.482 0.549 0.693 20 0.378 0.444 0.561 0.679 19 0.389 0.456 0.526 0.665 22 0.36 0.423 0.537 0.652 21 0.369 0.433 0.505 0.64 24 0.344 0.404 0.515 0.629 23 0.352 0.413 0.487 0.618 26 0.33 0.388 0.496 0.607 25 0.337 0.396 0.471 0.597 28 0.317 0.374 0.479 0.588 27 0.323 0.381 0.43 0.579 30 0.306 0.361 0.463 0.57 29 0.311 0.367 0.38 0.532 40 0.264 0.312 0.403 0.501 35 0.283 0.334 0.33 0.474 50 0.235 0.279 0.361 0.451 45 0.248 0.294 0.286 0.414 70 0.198 0.235 0.306 0.385 60 0.214 0.254 0.256 0.361 90 0.174 0.207 0.27 0.341 80 0.185 0.22 0.324 100 0.165 0.197 alfa Otra opción es comparar el valor de r calculado con el valor de r de la tabla adjunta. Si el valor de r calculado es mayor que el r del número de grados de libertad de la correlación (n-1)=10 valor crítico= 0.632
  • 15. Transformación de Fisher del coeficiente de correlación           r r zrxy 1 1 ln 5 . 0 Z tiene distribución aproximadamente normal, con media  y error estándar: 5 . 0 ) 3 ( 1   N ee
  • 16. Transformación de Fisher en el ejemplo: 275 . 1 55 . 2 5 . 0 144 . 856 . 1 ln 5 . 0 856 . 0 1 856 . 0 1 ln 5 . 0                      rxy z
  • 17. Intervalo de confianza del coeficiente de correlación 3 - N 1 ) ( colas dos P z zrxy  Para obtener el intervalo de confianza en “unidades de correlación” se transforman de modo inverso usando el mismo método de r a z En INTERNET: http://faculty.vassar.edu/lowry/rho.html?
  • 18. Intervalo de confianza en el ejemplo: 653 . 0 275 . 1 1111 . 0 96 . 1 275 . 1 3 - 11 1 96 . 1 275 . 1    Según la página de Internet, el intervalo de confianza de 95% para r=0.856 límite inferior=0.527 límite superior=0.961
  • 19. Comparación de coeficientes de correlación                      3 1 3 1 2 1 2 1 n n z z z rxy rxy Se utilizan los coeficientes transformados
  • 20. Correlación entre las líneas eléctricas y el cáncer  Epidemiólogos del Instituto Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.  Observaron que los niños tenían mayor incidencia de leucemia.
  • 21. Correlación entre las líneas eléctricas y el cáncer  Los hallazgos descritos obligaron al gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.
  • 22. Correlación entre las líneas eléctricas y el cáncer  En un artículo acerca del estudio, la revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.
  • 23. Errores comunes respecto a la correlación  Se debe tener cuidado de evitar concluir que la correlación implica causalidad  Variables ocultas  No utilizar tasas o promedios  Pérdida de variación entre individuos  Supuesto de linearidad de la relación
  • 24. Correlación y regresión lineal:  Si existe una conexión biológica (o de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación.  El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)
  • 25. Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento. X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201 SXi= 0.35 SYi= 911 X= 0.0875 Y= 227.75 SX2 i= 0.0399 SY2 i= 208495 SXiYi= 76.99
  • 26. MODELO  Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye.  La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:
  • 27. MODELO  Donde  a= intercepto (valor de E(Y)cuando X es igual a cero  b= pendiente de la línea (tasa de cambio de E(Y) ante un cambio unitario en X. ) ( ) ( i i X Y E b a  
  • 28. SUPUESTOS  Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi).  La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio ei para dar el siguiente modelo:
  • 29. SUPUESTOS  El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error.  Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional. i i i X Y e b a   
  • 30. Rendimiento de soya frente a diferentes concentraciones de ozono 170 180 190 200 210 220 230 240 250 0 0.05 0.1 0.15 0.2 concentración de ozono (ppm) rendimiento soya (gr/planta)
  • 31. ESTIMACION DE MINIMOS CUADRADOS  Los parámetros en el modelo son b y a, a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros.  La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)
  • 32. ESTIMACION DE MINIMOS CUADRADOS  Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún criterio.  El procedimiento de estimación de mínimos cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.
  • 33. ESTIMACION DE MINIMOS CUADRADOS  Sean b y a los estimadores numéricos de los parámetros b y a, respectivamente, y sea  el promedio estimado de Y para cada Xi, i= 1, 2,…, n.  Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta. i i bX a Y   ˆ
  • 34. El principio de los mínimos cuadrados escoge valores de a y b que minimizan la suma de cuadrados de los residuales, SC(Res): Donde es el valor residual observado para la iésima observación. La suma indicada por S es sobre todos los valores del conjunto como lo indican los índices i= 1 hasta n Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas de SC(Res) con respecto a b y a son definidas iguales a cero.       2 ) ( 1 2 ) ( ) ˆ ( i RES n i i i RES e SC Y Y SC ) ˆ ( i i i Y Y e  
  • 35. Las ecuaciones normales son: n(a) + (SXi)b= SYi (SXi)a + (SX2 i)b= SXiYi Resolviendo las ecuaciones simultáneamente para a y b, da los estimadores para a y b: S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2 Sx2 i a= Y - bX
  • 36. Para facilidad de cálculo: (SXi)2 Sx2 i= SX2 i - n (SXi)(SYi) Sxiyi= SXiYi - n Lo que da la siguiente fórmula de cálculo para la pendiente:         n X X n Y X Y X b i i i i i i 2 2 ) ( ) )( (
  • 37. Cálculo de la pendiente (b) X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201      0399 . 0 0875 . 0 35 . 0 2 i i X X X      208495 75 . 227 911 2 i i Y Y Y   99 . 76 i iY X 53 . 293 4 ) 35 . 0 ( 0399 . 0 4 ) 911 )( 35 . 0 ( 99 . 76 2      b         n X X n Y X Y X b i i i i i i 2 2 ) ( ) )( (
  • 38. Cálculo de la constante (a) y ecuación: X b Y a   a= 227.75 - (-293.531)(0.08875)= 253.434 i X Y 5 . 293 4 . 253 ˆ   La ecuación de mínimo cuadrado que caracteriza el efecto del ozono sobre el rendimiento promedio de la soya en este estudio, asumiendo que el modelo lineal es correcto es:
  • 39. Ejemplo Biomasa BIO (gr) SAL (o/oo) pH K (ppm) Na (ppm) Zn (ppm) 676 33 5 1441.67 35184.5 16.4524 516 35 4.75 1299.19 28170.4 13.9852 1052 32 4.2 1154.27 26455 15.3276 868 30 4.4 1045.15 25072.9 17.3128 1008 33 5.55 521.62 31664.2 22.3312 436 33 5.05 1273.02 25491.7 12.2778 544 36 4.25 1346.35 20877.3 17.8225 680 30 4.45 1253.88 25621.3 14.3526 640 38 4.75 1242.65 27587.3 13.6826 492 30 4.6 1282.95 26511.7 11.7566 984 30 4.1 553.69 7886.5 9.882 1400 37 3.45 494.74 14596 16.6752 1276 33 3.45 526.97 9826.8 12.373 1736 36 4.1 571.14 11978.4 9.4058 1004 30 3.5 408.64 10368.6 14.9302 396 30 3.25 646.65 17307.4 31.2865
  • 40. Matriz de correlaciones del ejemplo: Valor crítico de r para alfa= 0.05 y 43 grados de libertad: 0.3 appx Las celdas en color contienen correlaciones “significativas” P<0.05) BIO (gr) SAL (o/oo) pH K (ppm) Na (ppm) Zn (ppm) BIO (gr) 1 SAL (o/oo) -0.1032 1 pH 0.7742 -0.0513 1 K (ppm) -0.2051 -0.0205 0.0187 1 Na (ppm) -0.2721 0.1623 -0.0377 0.7921 1 Zn (ppm) -0.6244 -0.4208 -0.7222 0.0740 0.1171 1 (obtenida con Herramientas para Análisis de Excel, Correlación)
  • 41. Relación “significativa” (P<0.05) entre pH y Biomasa 0 500 1000 1500 2000 2500 3 4 5 6 7 8 pH Biomasa (gr)
  • 42. Regresión lineal simple entre pH y biomasa y = 409.8x - 885.21 R2 = 0.5994 0 500 1000 1500 2000 2500 3 4 5 6 7 8 biomasa pH
  • 43. Relación “no significativa” (P0.05) entre salinidad y biomasa. y = -18.307x + 1554.9 R2 = 0.0106 0 500 1000 1500 2000 2500 3000 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 salinidad (o/oo) Biomasa (gr)
  • 44. Relación “significativa” (P<0.05) entre Zn y Biomasa y = -49.779x + 1890.6 R2 = 0.3899 0 500 1000 1500 2000 2500 3000 0 10 20 30 40 Zn (ppm) Biomasa (gr)
  • 45. Análisis de regresión: pH vs Biomasa Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.77418613 Coeficiente de determinación R^2 0.59936417 R^2 ajustado 0.59004705 Error típico 422.632251 Observaciones 45 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crítico de F Regresión 1 11490388.4 11490388.4 64.3293909 4.4332E-10 Residuos 43 7680574.82 178618.019 Total 44 19170963.2 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción -885.210514 243.440727 -3.63624659 0.000735 -1376.15519 -394.265836 pH 409.804313 51.0942237 8.02056051 4.4332E-10 306.763061 512.845564 significancia IC 95% para coeficientes
  • 46. Gráfico de línea de regresión e intervalo de confianza de 95% para la relación pH - biomasa Observe que la pendiente no es cero, con un 95% de confianza
  • 47. Análisis de regresión: salinidad vs biomasa Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0.1031678 Coeficiente de determinación R^2 0.01064359 R^2 ajustado -0.01236469 Error típico 664.14686 Observaciones 45 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crítico de F Regresión 1 204047.962 204047.962 0.46259828 0.50005789 Residuos 43 18966915.2 441091.052 Total 44 19170963.2 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 1554.9067 820.681908 1.8946521 0.06487581 -100.154964 3209.96837 SAL (o/oo) -18.3074901 26.9170091 -0.68014578 0.50005789 -72.5907752 35.9757949
  • 48. Gráfico de línea de regresión e intervalo de confianza de 95% para la relación salinidad - biomasa Observe que la pendiente puede ser igual a cero, con un 95% de confianza