Este documento presenta el modelo de regresión lineal múltiple, incluyendo su motivación, asociación entre variables, caso particular y general del modelo, estimación de parámetros a través del método de mínimos cuadrados ordinarios, y un ejemplo de aplicación para predecir la resistencia a tracción de alambre usando tres variables independientes.
Caja de herramientas de inteligencia artificial para la academia y la investi...
Modelo de regresión lineal múltiple
1. Motivación
Asociación entre variables
MODELO DE REGRESIÓN LINEAL MÚLTIPLE
Andrey Mauricio Montoya Jurado
ASOCIACIÓN ENTRE VARIABLES
Estadística y Probabilidad
Universidad del Quindío
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
2. Motivación
Asociación entre variables
Contenido
1 Motivación
Regresión
Ejemplo de Motivación
2 Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
3. Motivación
Asociación entre variables
Regresión
Ejemplo de Motivación
Contenido
1 Motivación
Regresión
Ejemplo de Motivación
2 Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
4. Motivación
Asociación entre variables
Regresión
Ejemplo de Motivación
Regresión
La historia dice que Sir Francis Galton a finales del siglo XIX
estaba interesado en predecir la altura de los hijos a partir de la
altura de los padres.
Despues de reunir las alturas de padres e hijos, verificó que
padres altos tenían hijos altos y padres bajos tenían hijos bajos.
Esto lo hizo pensar que existía una regresión entre las alturas
de padres e hijos, desde entonces se usa el término Regresión
para asociar variables.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
5. Motivación
Asociación entre variables
Regresión
Ejemplo de Motivación
Contenido
1 Motivación
Regresión
Ejemplo de Motivación
2 Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
6. Motivación
Asociación entre variables
Regresión
Ejemplo de Motivación
Motivación
Una de las características del alambre para amarres es su resistencia
a tracción (Y ). Se desea estimar la resistencia a la tracción (Y ) con
la información que proporcionan las variables: altura del amarre (X1),
altura del poste (X2) y longitud del alambre(X3).
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
7. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Contenido
1 Motivación
Regresión
Ejemplo de Motivación
2 Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
8. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Modelo Poblacional del MRLM
Se tiene el interés de relacionar la variable Y con las variables expli-cativas
X1 y X2 utilizando la regresión lineal, se trataría de analizar
un modelo de la forma
Y = b0+b1X1+b2X2+e
Si se dispone de un conjunto de n observaciones (x1i ; x2i ; yi ); i =
1; : : : ;n
X1 X2 Y
x11 x21 y1
x12 x22 y2
x13 x22 y3
...
...
...
x1n x2n yn
Cuadro : Esquema de una Matriz de Datos con 3 variables
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
9. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Modelo Muestral del MRLM
El sistema de ecuaciones
yi = b0+b1x1i +b2x2i +ei ; i = 1; : : : ;n
Supuestos del modelo:
ei s N
0; s2
.
ei son no correlacionados.
X1 y X2 son no correlacionadas.
En notación matricial queda expresado en la forma
Y = Xb +e
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
10. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Modelo de Regresión Lineal Múltiple (MRLM)
donde Y =
2
6664
y1
y2
... yn
3
7775
, X =
2
6664
1 x11 x21
1 x12 x22
...
...
...
1 x1n x2n
3
7775
,
b =
2
4
b0
b1
b2
3
5, e =
2
6664
e1
e2
...
en
3
7775
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
11. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Estimación del modelo
Dado el modelo muestral
yi = b0+b1x1i +b2x2i +ei ; i = 1; : : : ;n
¿Cómo estimar los parámetros b0; b1 b2?
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
12. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Método de mínimos cuadrados
La ecuación Y = Xb +e puede también expresarse como
e = Y Xb
por lo tanto
e0e =
nå
i=1
e2
i = (Y Xb)0 (Y Xb)
= Y 0Y 2(Xb)0Y +(Xb)0 (Xb)
= Y 0Y 2b0X0Y +b0X0Xb
es una ecuación que expresa la suma de los cuadrados de los errores
en términos del vector de parámetros b.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
13. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Método de mínimos cuadrados
El mínimo de esta función se obtiene derivando e0e respecto a b e
igualando a cero, esto es
¶ e0e
¶b = 2X0Y +2X0Xb = 0
lo que conduce finalmente a la ecuación
X0Xb = X0Y (1)
y el estimador de mínimos cuadrados de b esta dador por :
b =
X0X
1X0Y (2)
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
14. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Contenido
1 Motivación
Regresión
Ejemplo de Motivación
2 Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
15. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Caso General del MRLM
Cuando se desea relacionar p variables independientes X1;X2; X3; ; : : : ; Xp
con una variable dependiente Y , el modelo de regresión toma la for-ma
Y = b0+b1X1+b2X2+ +bpXp +e
Si se dispone de n observaciones (x1i ; ;x2i ;; : : : ; ;xpi ; yi ) ; i =1; : : : ;n
yi = b0+b1x1i +b2x2i + +bpxpi +ei ; i = 1; : : : ;n
Supuestos del modelo:
ei s N
0; s2
.
ei son no correlacionados.
X0s sean no correlacionados entre ellas.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
16. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Caso General del MRLM
En notación matricial el modelo queda expresado en la forma Y =
Xb +e
donde Y =
2
6664
y1
y2
...
yn
3
7775
, X =
2
6664
1 x11 x21 xp1
1 x12 x22 xp2
...
...
...
...
...
1 x1n x2n xpn
3
7775
,
b =
2
6664
b0
b1
...
bp
3
7775
, e =
2
6664
e1
e2
...
en
3
7775
de (2) tenemos:
b =
X0X
1X0Y
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
17. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Caso General del MRLM
Con las matrices X0X y X0Y de la forma:
X0X =
2
666664
n åx1i åx2i åx3i åxpi
åx1i åx2
1i åx1i x2i åx1i x3i åx1i xpi
åx2i åx2i x1i åx2
2i åx2i x3i åx2i xpi
...
...
...
...
. . .
...
åxpi åxpi x1i åxpi x2i åxpi x3i åx2
pi
3
777775
X0Y =
2
666664
åyi
åx1i yi
åx2i yi
...
åxpi yi
3
777775
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
18. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Contenido
1 Motivación
Regresión
Ejemplo de Motivación
2 Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
19. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Problema de Aplicación del MRLM
Una de las características del alambre para amarres es su resistencia
a tracción (Y ). En la tabla, está la información sobre esta variable,
altura del amarre (X1), altura del poste (X2) y longitud (X3) para
19 alambres.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
20. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Datos de las variables de alambre para amarres.
Y X1 X2 X3
8;0 19;6 29;6 94;9
8;3 19;8 32;4 89;7
8;5 19;6 31 96;2
8;8 19;4 32;4 95;6
9;0 18;6 28;6 86;5
9;3 18;8 30;6 84;5
9;3 20;4 32;4 88;8
9;5 19;0 32;6 85;7
9;8 20;8 32;2 93;6
10;0 19;9 31;8 86;0
10;3 18;0 32;6 87;1
10;5 20;6 33;4 93;1
10;8 20;2 31;8 83;4
11;0 20;2 32;4 94;5
11;3 19;2 31;4 83;4
11;5 17;0 33;2 85;2
11;8 19;8 35;4 84;1
12;3 18;8 34 86;9
12;5 18;06 34;2 83;0
Cuadro : Datos de las variables de Alambre para amarres.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
21. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Forma matricial del problema
La variable Y se puede relacionar con las variables X1, X2, y X3 a
través del modelo de regresión lineal múltiple
Y = b0+b1X1+b2X2+b3X3+e
En forma matricial
Y =
2
666664
8
8;3
8;5
...
12;5
3
777775
X =
2
6664
1 19;6 29;6 94;9
1 19;8 32;4 89;7
...
...
...
...
1 18;6 34;2 83;0
3
7775
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
22. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Forma matricial del problema
Utilizando R (lenguaje y entorno de programación para análisis es-tadístico
y gráfico) tenemos:
X0X =
2
664
19 368;3 612 1682;2
368;3 7155;45 1186;22 32643;48
612 11863;22 19757;92 54154;88
1682;2 32643;48 54154;88 149323;1
3
775
X0Y =
2
664
192;5
3725;66
6227;26
16980;18
3
775
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
23. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Forma matricial del problema
(X0X)1 =
2
664
61;834 0;681 0;867 0;233
0;681 0;078 0;005 0;007
0;867 0;005 0;024 0;002
0;233 0;007 0;002 0;003
3
775
finalmente
b =
2
664 b0
b1
b2
b3
3
775
= (X0X)1X0Y =
2
664
5;6458
0;1131
0;5187
0;1133
3
775
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
24. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Modelo de regresión que relaciona las variables
Así el modelo que relaciona las variables: resistencia a la tracción
(Y ), altura del amarre (X1), altura del poste (X2), y longitud del
alambre (X3), para los datos de la tabla es
Y = 5;64580;1131X1+0;5187X20;1133X3 (3)
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
25. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Evaluación del modelo
Debemos probar la significancia de los parámetros estimados
H0 : bi = 0 i = 0;1;2;3
H1 : bi6= 0
Si pvalor 0;05
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
26. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Confirmación de los resultados utilizando STATGRAPHICS
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
27. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Mejor ajuste utilizando STATGRAPHICS
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
28. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Diagramas de dispersión para las variables explicativas
Para visualizar la no colinealidad entre las variables regresoras X1; X2
y X3 aparecen en la figura los diagramas de dispersión entre diferentes
pares de variables.
Figura : Diagramas de dispersión para las variables explicativas X1; X2 y X3.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
29. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
Matriz de correlación
La matriz de correlación entre las variables explicativas X1, X2 y X3
es
Corr(Xi ;Xj ) =
X1
X2
X3
X1 X2 X3
1;0000 0;0031 0;4463
0;0031 1;0000 0;2248
0;4463 0;2248 1;0000
y como puede observarse no existe correlación lineal alta entre ningún
par de variables, confirmándose de nuevo la no colinelidad.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
30. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
La calidad del Modelo de Regresión Multiple
La evaluación del Modelo de Regresión Multiple se hace, a travez de
R2 =
^ b0X0Y n (y)2
åni
i n (y)2
=1Y 2
Utilizando el paquete R tenemos
y = 10;13
nå
i=1
y2
i = 1983;55 ^ b0X0Y = 1971;9
Finalmente se tiene que el coeficiente de determinación es
R2 =
1971;919(10;13)2
1983;5519(10;13)2 = 0;65
lo cual significa que las tres variables independientes consideradas en
este ejemplo explican el 65% de la variación de la resistencia a la
tracción.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
31. Motivación
Asociación entre variables
Caso particular del modelo de Regresión Lineal Múltiple
Caso general del Modelo de Regresión Lineal Múltiple
Problema de Aplicación del MRLM
MUCHAS GRACIAS
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple
32. Bibliografia Lecturas Complementarias
Lecturas Complementarias I
Hurtado, L. H., García, M. D., Galvis, D. M., Salcedo, G. E.
(2006). Estadística Básica. Armenia.
Mendenhall, W., Beaver, R., Beaver, B. (2003). Introducción
a la probabilidad y estadística. Mexico: Thomson Learning.
Ross, S. (2000). Probabilidad y Estadística para Ingenieros.
Mexico: McGRAW-HILL.
Draper, N. R., Smith, H. (1966). Applied Regression
Analysis. New York: John Wiley Sons, Inc.
Andrey Mauricio Montoya Jurado Regresión Lineal Múltiple