SlideShare una empresa de Scribd logo
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 1
REGRESIÓN LINEAL
MÚLTIPLE
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 2
INTRODUCCIÓN
 A un modelo de regresión que contiene más de una
variable regresora se le llama MODELO DE REGRESIÓN
MÚLTIPLE. En general, la variable de respuesta o
dependiente “y”, puede relacionarse con k variables
regresoras o independientes. Al modelo siguiente:
Y=βO+β1x1+β2x2+…+βkxk+ε
Se le llama modelo de regresión lineal múltiple con k
variables regresoras. A los parámetros βj, j=0,1,…,k, se
les llama coeficientes de regresión. Este modelo describe
un hiperplano en el espacio de k dimensiones de las
variables regresoras {xj}. El parámetro βj representa el
cambio esperado en la variable de respuesta Y, por un
cambio unitario en xj cuando se mantienen constantes las
demás variables regresoras xi(i≠j).
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 3
CONTINUA…
 Los modelos de regresión lineal múltiple se usan con frecuencia
como funciones de aproximación. Es decir, se desconoce la
verdadera relación funcional entre Y y x1,x2,…,xk, pero en ciertos
rangos de las variables independientes el modelo de regresión lineal
es una aproximación adecuada.
 Muchas veces, incluso los modelos cuya estructura es más compleja
pueden analizarse mediante técnicas de regresión lineal múltiple,
por ejemplo:
 Modelos de polinomios de n orden.
 Modelos que incluyen efectos de interacción .
 En general, cualquier modelo de regresión cuyos parámetros
(las β) son lineales, se considera que es un modelo de
regresión lineal, independientemente de la forma de la
superficie que genera.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 4
EJEMPLOS:
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 5
DATOS DE UNA REGRESIÓN
LINEAL MÚLTIPLE
y x1 x2 … xk
y1
y2
.
.
.
yn
X11
X21
.
.
.
xn1
X12
X22
.
.
.
xn2
…
…
…
X1k
X2k
.
.
.
xnk
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 6
ESTIMACIÓN DE LOS PARÁMETROS POR
MÍNIMOS CUADRADOS
.
ˆ
,...,
ˆ
,
ˆ
regresión,
de
es
coeficient
los
de
cuadrados
mínimos
de
s
estimadore
los
serán
normales
ecuaciones
las
de
soluciones
Las
os.
desconocid
regresión
de
es
coeficient
los
de
uno
cada
para
una
normales,
ecuaciones
1
hay
que
Observese
ˆ
...
ˆ
ˆ
ˆ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ˆ
...
ˆ
ˆ
ˆ
ˆ
...
ˆ
ˆ
ˆ
1
o
1
1
2
2
1
2
1
1
1
1
1
1
1
1
2
1
1
2
1
2
1
1
1
1
1
1
1
2
2
1
1
1
k
n
i
i
ik
n
i
ik
k
i
n
i
ik
n
i
i
ik
n
i
ik
o
n
i
i
i
n
i
ik
i
k
i
n
i
i
n
i
i
n
i
i
o
n
i
i
n
i
ik
k
n
i
i
n
i
i
o
k
p
y
x
x
x
x
x
x
x
y
x
x
x
x
x
x
x
y
x
x
x
n




























































M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 7
ENFOQUE MATRICIAL DE LA
REGRESIÓN LINEAL MÚLTIPLE





























































n
k
o
nk
n
n
k
k
n
i
ik
k
i
i
o
i
x
x
x
x
x
x
x
x
x
y
y
X
y
n
n
i
x
x
x
y

























y
1
1
1
X
y
y
donde
,
:
como
expresarse
puede
matricial
notación
en
que
ecuaciones
de
sistema
un
es
modelo
Este
,...,
2
,
1
;
...
2
1
1
2
1
2
22
21
1
12
11
2
1
2
2
1
1
Al ajustar un modelo de regresión lineal múltiple, es mucho más
conveniente expresar las operaciones matemáticas utilizando la
notación matricial. Suponga que hay k variables regresoras y n
observaciones (xi1, xi2,…, xik,yi), i=1,2,…,n y que el modelo que
relaciona las variables regresoras con la variable de respuesta es:
En general, “y” es un vector
(nx1) de las observaciones,
X es una matriz (nxp) de
los niveles de las variables
independientes, β es un
vector (px1) de los
coeficientes de regresión, y
ε es un vector (nx1) de los
errores aleatorios.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 8
ESTIMACIÓN DE MÍNIMOS CUADRADOS DE
LOS COEFICIENTES DE REGRESIÓN
y
y
e
)
(nx
X
y
y
x
y
x
y
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
n
y
X
X
X
n
i
i
ik
n
i
i
i
n
i
i
k
o
n
i
ik
n
i
i
ik
n
i
i
ik
n
i
ik
i
ik
i
i
i
i
n
i
i
n
i
i
n
i
ik
n
i
i
n
i
i
ˆ
:
por
denota
se
residuales
los
de
1
vector
el
;
ˆ
ˆ
es
ajustado
modelo
el
matricial,
notación
en
ˆ
ˆ
ˆ
:
matricial
forma
en
expresión
esta
presenta
se
ón
continuaci
a
;
)
(
ˆ
1
1
1
1
1
1
2
1
2
1
1
1
2
1
1
2
1
2
1
1
2
1
1
1
1
1
2
1
1
1


















































































































M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 9
PROPIEDADES DE LOS ESTIMADORES
DE MÍNIMOS CUADRADOS Y
ESTIMACIÓN DE σ2
s.
covarianza
las
son
matriz
esta
de
diagonal
la
de
fuera
están
que
elementos
los
,
ˆ
,...,
ˆ
,
ˆ
de
varianzas
las
son
)
'
(
de
diagonal
la
de
elementos
Los
.
ˆ
regresión
de
es
coeficient
los
de
covarianza
de
matriz
la
representa
constante
la
por
da
multiplica
X
X'
de
inversa
La
X.
X'
matriz
la
de
inversa
la
de
elementos
los
de
s
en término
expresan
se
ˆ
las
de
varianzas
Las
.
,...,
,
regresión
de
es
coeficient
los
de
insesgados
s
estimadore
son
ˆ
,...,
ˆ
,
ˆ
cuadrados
mínimos
de
s
estimadore
Los
1
2
2
1
1
O
1
y
X
X k
O
k
O













p
n
y
X
y
y
p
n
SS
MSE
U
E






'
'
ˆ
'
ˆ
:
residual
o
medio
cuadrado
error
el
por
dado
esta
de
insesgado
estimador
n
2
2



M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 10
PRUEBA DE HIPÓTESIS EN
LA RLM
 La prueba de la significación de una regresión sirve para
determinar si existe una relación lineal entre la variable de
respuesta “y” y un subconjunto de las variables regresoras x1,
x2, …, xk, las hipótesis apropiadas son:
• HO: β1=β2= … =βk =0
• H1: βj≠0 para al menos una j.
El rechazo de HO: β1=β2= … =βk =0 implica que al menos una de las
variables regresoras x1, x2, …, xk, contribuye de manera
significativa al modelo.
.
F
que
mayor
es
F
prueba
de
o
estadístic
del
calculado
valor
el
si
H
rechazarse
Deberá
p
-
n
k,
,
O
O

M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 11
ANOVA (ANÁLISIS DE
VARIANZA)
FUENTE DE
VARIACIÓN
SUMA DE
CUADRADOS
GRADOS
DE
LIBERTAD
CUADRAD
O MEDIO
FO
REGRESIÓN
k
ERROR
RESIDUAL n-p
TOTAL
N-1
E
R
T SS
SS
SS 

R
T
E SS
SS
y
X
y
y
SS 


 '
'
ˆ
' 
n
y
y
X
SS
n
i
i
R
2
1
'
'
ˆ











E
R
O
MS
MS
F 
k
SS
MS R
R 
p
n
SS
MS E
E


M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 12
PRUEBAS PARA LOS
COEFICIENTES DE REGRESIÓN
INDIVIDUALES
 Con frecuencia existe interés en probar hipótesis sobre los
coeficientes de regresión individuales. Estas pruebas serían
útiles para determinar el valor potencial de cada una de las
variables regresoras del modelo de regresión. Por ejemplo, tal
vez el modelo sería más efectivo con la inclusión de variables
adicionales, o quizá con la eliminación de una o más de las
variables regresoras presentes en el modelo.
 La incorporación de una variable en un modelo de regresión
siempre hace que la suma de cuadrados de la regresión se
incremente y que la suma de cuadrados del error se
decremente. Es necesario decidir si el incremento de la suma de
cuadrados de la regresión es lo suficientemente grande para
justificar el uso de una variable adicional en el modelo. Las
hipótesis para probar la significación de cualquier coeficiente de
regresión individual, por ejemplo βj son:
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 13
CONTINUA…
modelo.
el
en
están
que
)
(
x
regresoras
variables
demás
las
todas
de
depende
regresión
de
e
coeficient
el
que
a
debido
MARGINAL,
O
PARCIAL
PRUEBA
llama
le
se
esta
A
T
si
rechaza
Se
,
0
:
.
ˆ
que
observese
,
ˆ
a
e
correspond
que
X)
(X'
de
diagonal
la
de
elemento
el
es
C
donde
;
ˆ
ˆ
:
es
hipótesis
esta
para
prueba
de
o
estadístic
El
modelo.
del
eliminarse
puede
regresora
variable
la
que
indica
esto
entonces
,
0
:
rechaza
se
no
Si
0
:
0
:
i
,
2
o
2
j
1
-
jj
2
1
j
i
t
H
MS
C
T
x
H
H
H
j
p
n
j
O
E
jj
j
O
j
j
O
j
j
O



















M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 14
INTERVALOS DE CONFIANZA EN LA RLM
)
)
'
(
1
(
ˆ
ŷ
)
)
'
(
1
(
ˆ
ŷ
:
por
dado
esta
múltiple
lineal
regresión
de
modelo
el
en
futura
n
observació
una
de
predicción
la
para
ciento
por
)
-
100(1
del
confianza
de
intervalo
Un
)
'
(
ˆ
ˆ
)
'
(
ˆ
ˆ
:
por
dado
esta
múltiple
lineal
regresión
de
modelo
el
en
,
x
,...,
x
,
x
punto
el
en
media
respuesta
la
para
ciento
por
)
-
100(1
del
confianza
de
intervalo
Un
ˆ
ˆ
ˆ
ˆ
:
por
dado
esta
múltiple
lineal
regresión
de
modelo
el
en
k,
...,
1,
0,
j
,
regresión
de
e
coeficient
el
para
ciento
por
)
-
100(1
del
confianza
de
intervalo
Un
0
1
0
2
,
2
0
0
0
1
0
2
,
2
0
0
1
0
2
,
2
0
1
0
2
,
2
0k
02
01
2
,
2
j
2
,
2
j
j
0
0
0
x
X
X
x
t
y
x
X
X
x
t
x
X
X
x
t
x
X
X
x
t
C
t
C
t
p
n
p
n
p
n
x
Y
x
Y
p
n
x
Y
jj
p
n
j
jj
p
n



















































M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 15
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE (R2)
T
E
T
R
SS
SS
SS
SS
R 

 1
:
como
define
se
R
múltiple
ión
determinac
de
e
coeficient
El
2
2
R2 es una medida de la cantidad en que se reduce la variabilidad del valor
de “y” obtenido al usar las variables regresoras x1, x2, …,xk. Como en el
caso de la regresión lineal simple, debe tenerse 0≤R2≤1. Sin embargo, un
valor grande R2 no implica necesariamente que el modelo de regresión es
adecuado. Agregar una variable al modelo incrementará siempre R2,
independientemente de si la variable adicional es estadísticamente
significativa o no. Por tanto, los modelos que tienen valores grandes de R2
puede producir predicciones pobres de nuevas observaciones, o
estimaciones pobres de la variable de respuesta media. A la raíz cuadrada
positiva de R2 se le llama COEFICIENTE DE CORRELACIÓN MÚLTIPLE entre
“y” y el conjunto de variables regresoras x1, x2, …, xk. Es decir, R es una
medida de la asociación lineal entre “y” y el conjunto de variables
regresoras x1, x2, …, xk. Cuando k=1, esto se reduce a la
correlación simple entre “y” y “x”.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 16
EJEMPLO
 Se piensa que la energía eléctrica consumida mensualmente por una planta
química se relaciona con la temperatura ambiente promedio (x1), el número de
días laborales del mes (x2), la pureza promedio del producto (x3) y las toneladas
del producto producidas (x4). Se cuenta con los datos del último año, los cuales
se presentan en la tabla siguiente:
y x1 x2 x3 x4
240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 17
CONTINUA…
a) Ajuste los datos a un modelo de regresión lineal múltiple.
b) Prediga el consumo de electricidad para un mes en el que
x1=75°F, x2=24 días, x3=90% y x4=98 toneladas.
c) Encuentre el coeficiente de determinación y explique el
resultado.
d) Encuentre un intervalo de confianza del 95% para la
respuesta media cuando x1=75°F, x2=24 días, x3=90% y
x4=98 toneladas.
e) Pruebe cuál o cuáles de las variables están relacionadas
linealmente con la variable de respuesta.
MINITAB
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 18
EJERCICIO #1
 Un embotellador de bebidas gaseosas
analiza las rutas de servicio de las
máquinas expendedoras en su sistema
de distribución. Le interesa predecir el
tiempo necesario para que el
representante de ruta atienda las
máquinas expendedoras en una
tienda. Esta actividad de servicio
consiste en abastecer la máquina con
productos embotellados, y algo de
mantenimiento o limpieza. El ingeniero
industrial responsable del estudio ha
sugerido que las dos variables más
importantes que afectan el tiempo de
entrega “y” son la cantidad de cajas de
producto abastecido, x1, y la distancia
caminada por el representante, x2. El
ingeniero ha reunido 25 observaciones
de tiempo de entrega que se ven en la
tabla siguiente. Se ajustará el modelo
de regresión lineal múltiple siguiente:
2
2
1
1
0 x
x
y 

 


Observación
número
Tiempo de
entrega
(minutos)
y
Cantidad de
cajas (x1)
Distancia
(pies) x2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
16.68
11.50
12.03
14.88
13.75
18.11
8.00
17.83
79.24
21.50
40.33
21.00
13.50
19.75
24.00
29.00
15.35
19.00
9.50
35.10
17.90
52.32
18.75
19.83
10.75
7
3
3
4
6
7
2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4
560
220
340
80
150
330
110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 19
OBSERVACIONES INFLUYENTES
 Cuando se usa una regresión múltiple, algunas veces se encuentra
que un subconjunto de las observaciones tiene una influencia fuera
de lo común. En ocasiones estas observaciones influyentes se
localizan relativamente lejos de la vecindad donde se recabaron el
resto de los datos. Una situación hipotética para dos variables se
describe en la siguiente figura, donde una de las observaciones del
espacio “x” está muy apartada del resto de los datos. La
disposición de los puntos en el espacio “x” es importante para
determinar las propiedades del modelo. Por ejemplo, el punto (xi1,
xi2) de la figura puede ejercer una gran influencia al determinar R2,
las estimaciones de los coeficientes de regresión o la magnitud del
cuadrado medio del error.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 20
CONTINUA…
 Sería conveniente examinar los puntos influyentes a fin de determinar si controlan
varias de las propiedades del modelo. Si estos puntos influyentes son puntos “malos”
o erróneos de alguna manera, entonces deberán eliminarse. Por otra parte, quizá no
haya nada malo con estos puntos, pero al menos sería conveniente determinar si
producen o no resultados consistentes con el resto de los datos. Un excelente
diagnóstico es la medida de la distancia desarrollada por Dennis R. Cook. Esta es una
medida del cuadrado de la distancia entre la estimación de mínimos cuadrados usual
de β basada en las “n” observaciones y la estimación obtenida cuando se elimina el
punto “i”, digamos, . La medida de la distancia Cook es:
i
̂
   
 
 
 
grande.
un valor
a
contribuir
puede
ambos)
(o
de
s
componente
los
de
Cualquiera
.
influyente
es
punto
el
que
indicaría
1
Un valor
'
X)
X(X'
H
Sombrero
;
;
1
ˆ
,
1
,
,...,
2
,
1
,
1
:
usando
hace
se
o
estadístic
del
real
cálculo
El
.
influyente
es
punto
el
que
implica
de
grande
un valor
Por tanto,
.
ˆ
valor
el
lemente
considerab
cambiando
ˆ
resultado
como
dará
n
eliminació
su
,
influyente
es
i"
"
el
si
nte,
Evidenteme
,...,
2
,
1
,
ˆ
ˆ
ˆ
'
ˆ
ˆ
1
-
1
2
2
i
2
i
i
i
i
ii
ii
i
ii
ii
i
i
i
i
i
i
i
D
D
X
Matriz
x
X
X
x
h
h
e
r
donde
k
p
donde
n
i
h
h
p
r
D
D
i
D
n
i
p
X
X
D

























MINITAB
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 21
MODELOS DE REGRESIÓN
POLINOMIAL
 El modelo lineal y=Xβ+ε es un modelo general que puede usarse
para ajustar cualquier relación que sea lineal en los parámetros
desconocidos β. Esto incluye la importante clase de los modelos
de regresión polinomiales. Por ejemplo, el polinomio de segundo
grado en una variable
datos.
los
con
e
consistent
sea
que
menor
grado
de
modelo
el
usar
preferirá
se
general
lo
por
,
polinomios
ajustar
Al
múltiple.
regresión
la
de
generales
principios
los
aplicarse
pueden
que
a
debido
,
curvilínea
es
respuesta
la
cuando
e
ampliament
usan
se
es
polinomial
regresión
de
modelos
Los
lineales.
regresión
de
modelos
variables
dos
en
grado
segundo
de
polinomio
el
y
2
1
12
2
2
22
2
1
11
2
2
1
1
0
2
11
1
0
Son
x
x
x
x
x
x
Y
x
x
Y






















M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 22
EJEMPLO: MINITAB
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 23
EJEMPLO:
 Los datos que se presentan
a continuación se recabaron
durante un experimento
para determinar el cambio
en la eficiencia del impulso
(“y”, en por ciento) cuando
el ángulo de divergencia de
la nariz del cohete (x)
cambia.
a) Ajuste un modelo de
segundo orden a estos
datos.
b) Pruebe la significación de la
regresión.
y X
24.60
24.71
23.90
39.50
39.60
57.12
67.11
67.24
67.15
77.87
80.11
84.67
4
4
4
5
5
6
6.5
6.5
6.75
7
7.1
7.3
MINITAB
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 24
VARIABLES INDICADORAS
EN LA RLM
 Los modelos de regresión presentados en las secciones
anteriores se basan en variables “cuantitativas”, es decir,
variables que se miden en una escala numérica. Por
ejemplo, variables tales como la temperatura, la presión, la
distancia y el voltaje son variables cuantitativas.
Ocasionalmente, es necesario incorporar variables
cualitativas en un modelo de regresión. Por ejemplo
suponga que una de las variables de un modelo de
regresión es el operador que está asociado con cada
observación yi. Suponga que solo participan dos
operadores. Quizás quieran asignarse niveles diferentes a
los dos operadores para tomar en consideración la
posibilidad de que cada operador puede tener un efecto
diferente sobre la variable de respuesta.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 25
CONTINUA…
 El método común para tomar en consideración los diferentes niveles de
una variable cualitativa es usando variables indicadoras. Por ejemplo, para
introducir el efecto de dos operadores diferentes en un modelo de
regresión, podría definirse una variable indicadora como sigue:
 En general, una variable cualitativa con t niveles puede modelarse con t-1
variables indicadoras, a las que se asigna el valor de cero o uno. Por
tanto, si hay tres operadores, los diferentes niveles se tomarán en
consideración con dos variables indicadoras definidas como sigue:




2
operador
del
es
n
observació
la
si
1
1
operador
del
es
n
observació
la
si
0
X
x1 x2
0
1
0
0
0
1
Si la observación es del operador 1
Si la observación es del operador 2
Si la observación es del operador 3
Las variables indicadoras también se conocen como variables
mudas.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 26
EJEMPLO
 Un ingeniero mecánico investiga el acabado superficial de las piezas
mecánicas fabricadas en un torno y su relación con la velocidad (en RPM)
del torno. Los datos recolectados se presentan a continuación. Obsérvese
que los datos se han recabado usando dos tipos diferentes de herramientas
de corte. Puesto que es probable que el tipo de herramienta de corte afecte
el acabado superficial, se ajustará el modelo 


 


 2
2
1
1
0 x
x
Y
Número de
observación
Acabado
Superficial
RPM Tipo de herramienta
de corte
VARIABLES
INDICADORAS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
45.44
42.03
50.10
48.75
47.92
47.79
52.26
50.52
45.58
44.78
33.50
31.23
37.52
37.13
34.70
33.92
32.13
35.47
33.49
32.29
225
200
250
245
235
237
265
259
221
218
224
212
248
260
243
238
224
251
232
216
302
302
302
302
302
302
302
302
302
302
416
416
416
416
416
416
416
416
416
416
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
MINITAB
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 27
SELECCIÓN DE VARIABLES
EN REGRESIÓN MÚLTIPLES
 Un problema importante en muchas aplicaciones del
análisis de regresión incluye la selección del conjunto de
variables regresoras o independientes que van usarse en el
modelo. En ocasiones experiencias previas o
consideraciones de la teoría fundamental pueden ayudar al
analista a especificar el conjunto de variables regresoras
que deberán usarse en una situación particular. Sin
embargo, por lo general el problema consiste en seleccionar
un conjunto apropiado de variables regresoras de un
conjunto que muy probablemente incluye todas las
variables importantes, aunque se tiene la seguridad de que
no todas estas variables regresoras candidatas son
necesarias para modelar adecuadamente la variable de
respuesta “Y”
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 28
COLINEALIDAD MÚLTIPLE
 En los problemas de regresión lineal múltiple se espera encontrar
dependencias entre la variable de respuesta “Y” y las variables
regresoras xj. Sin embargo, en la mayoría de los problemas de
regresión se encuentra que también hay dependencias entre las
variables regresoras xj. Cuando estas dependencias son fuertes,
se dice que existe colinealidad múltiple. La colinealidad múltiple
puede tener efectos de consecuencia sobre las estimaciones de
los coeficientes de regresión y sobre la aplicabilidad general del
modelo estimado.
 Los efectos de colinealidad múltiple pueden demostrarse con
facilidad. Los elementos de la diagonal de la matriz C=(X’X)-1
pueden escribirse como:
 
.
R
de
valor
el
será
grande
más
múltiple,
ad
colinealid
la
sea
fuerte
más
entre
por tanto
y
,
restantes
regresoras
variables
las
sobre
x
de
lineal
a
dependenci
la
sea
fuerte
más
entre
nte,
Evidenteme
.
regresoras
variables
1
-
k
las
sobre
x
de
regresión
la
hacer
de
resulta
que
múltiple
ión
determinac
de
e
coeficient
el
es
R
donde
k
1,2,...,
j
;
1
1
2
j
j
j
2
j
2




j
j
jj
R
VIF
C
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 29
CONTINUA…
 La colinealidad surge por varias razones, por ejemplo: si cuatro
variables regresoras son los componentes de una mezcla,
entonces esta restricción existirá siempre, porque la suma de los
componentes es siempre constante. Por lo general, estas
restricciones no se dan de forma precisa, y el analista podría
ignorar su existencia. Hay varias formas de detectar la presencia
de la colinealidad múltiple. Dos de las más fáciles de entender
son:
• Los factores de inflación de la varianza. Entre mayor sea el factor de
inflación de la varianza, más marcada será la colinealidad múltiple.
Algunos autores han sugerido que si cualquiera de los factores de
inflación de la varianza excede 10, entonces la colinealidad múltiple
constituye un problema. Otros autores consideran este valor muy
dadivoso y sugieren que los factores de inflación de la varianza no
deberán exceder 4 o 5.
• Si la prueba F de la significación de la regresión es significativa, pero
las pruebas de los coeficientes de regresión individuales son no
significativas, entonces puede estar presente la colinealidad múltiple.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 30
CONTINUA…
 Se han propuesto varias medidas correctivas para resolver el
problema de la colinealidad múltiple. Se sugiere con frecuencia
aumentar los datos con nuevas observaciones diseñadas
específicamente para romper las dependencias lineales
aproximadas que existen normalmente. Sin embargo, en
ocasiones esto es imposible debido a razones económicas o por
las restricciones físicas que relacionan las xj. Otra posibilidad es
eliminar ciertas variables del modelo, pero este enfoque tiene la
desventaja de descartar la información contenida en las variables
eliminadas. Puesto que la colinealidad múltiple afecta
principalmente la estabilidad de los coeficientes de regresión, al
parecer estimar estos parámetros con algún método que sea
menos sensitivo a la colinealidad múltiple que los mínimos
cuadrados ordinarios, sería de ayuda. Una alternativa de los
mínimos cuadrados ordinarios es, la “regresión sobre ascensos
(cordilleras)”.
M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 31
CONTINUA…
 En una situación como ésta, el interés se encuentra
en depurar las variables candidatas para obtener un
modelo de regresión que contenga el “mejor”
subconjunto de variables regresoras. Por otra parte,
para mantener los costos de mantenimiento del
modelo en un mínimo y para hacer que el modelo sea
fácil de usar, sería conveniente que el modelo usara el
menor número posible de variables regresoras. Por lo
general, se necesitará mucho criterio y experiencia
con el sistema que se ésta modelando para
seleccionar un conjunto apropiado de variables
regresoras para una ecuación de regresión.

Más contenido relacionado

Similar a EI2_MAMN_RLMultiple.ppt

Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
José Felipe
 
S07.s4 Regresion Lineal Multiple.R.pdf
S07.s4 Regresion Lineal Multiple.R.pdfS07.s4 Regresion Lineal Multiple.R.pdf
S07.s4 Regresion Lineal Multiple.R.pdf
JuanMallma3
 
Taller economtría 2011
Taller economtría 2011Taller economtría 2011
Taller economtría 2011
idea
 
Criterios logit
Criterios logitCriterios logit
Criterios logit
ulagos
 
10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple
AnniFenty
 

Similar a EI2_MAMN_RLMultiple.ppt (20)

Trabajo
TrabajoTrabajo
Trabajo
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
Notas distribución geométrica
Notas distribución geométricaNotas distribución geométrica
Notas distribución geométrica
 
Distribuciones De Probabilidad
Distribuciones De ProbabilidadDistribuciones De Probabilidad
Distribuciones De Probabilidad
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
 
2015 word
2015 word2015 word
2015 word
 
Tema 1.pdf
Tema 1.pdfTema 1.pdf
Tema 1.pdf
 
S07.s4 Regresion Lineal Multiple.R.pdf
S07.s4 Regresion Lineal Multiple.R.pdfS07.s4 Regresion Lineal Multiple.R.pdf
S07.s4 Regresion Lineal Multiple.R.pdf
 
Ecuaciones y sist de ecuaciones no lineales
Ecuaciones y sist de ecuaciones no linealesEcuaciones y sist de ecuaciones no lineales
Ecuaciones y sist de ecuaciones no lineales
 
Taller economtría 2011
Taller economtría 2011Taller economtría 2011
Taller economtría 2011
 
Sesion 03 - Recta y Parabola
Sesion 03 - Recta y ParabolaSesion 03 - Recta y Parabola
Sesion 03 - Recta y Parabola
 
Sesion 03 - Recta y Parabola
Sesion 03 - Recta y ParabolaSesion 03 - Recta y Parabola
Sesion 03 - Recta y Parabola
 
Criterios logit
Criterios logitCriterios logit
Criterios logit
 
Contingencia
ContingenciaContingencia
Contingencia
 
Clase3 El modelo de regresión múltiple
Clase3 El modelo de regresión múltipleClase3 El modelo de regresión múltiple
Clase3 El modelo de regresión múltiple
 
10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple10 regresion y correlacion lineal multiple
10 regresion y correlacion lineal multiple
 
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
Modelos de regresión lineales y no lineales au aplicación en problemas de ing...
 
Regresion aplicada a la ingenieria
Regresion aplicada a la ingenieriaRegresion aplicada a la ingenieria
Regresion aplicada a la ingenieria
 
2-el modelo de regresion lineal-2.ppt
2-el modelo de regresion lineal-2.ppt2-el modelo de regresion lineal-2.ppt
2-el modelo de regresion lineal-2.ppt
 
Clase12 heterocedasticidad
Clase12 heterocedasticidadClase12 heterocedasticidad
Clase12 heterocedasticidad
 

Último

evalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia leeevalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
MaribelGaitanRamosRa
 

Último (20)

6.Deícticos Dos_Enfermería_EspanolAcademico
6.Deícticos Dos_Enfermería_EspanolAcademico6.Deícticos Dos_Enfermería_EspanolAcademico
6.Deícticos Dos_Enfermería_EspanolAcademico
 
Cerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencialCerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencial
 
Diagnostico del corregimiento de Junin del municipio de Barbacoas
Diagnostico del corregimiento de Junin del municipio de BarbacoasDiagnostico del corregimiento de Junin del municipio de Barbacoas
Diagnostico del corregimiento de Junin del municipio de Barbacoas
 
Fase 2, Pensamiento variacional y trigonometrico
Fase 2, Pensamiento variacional y trigonometricoFase 2, Pensamiento variacional y trigonometrico
Fase 2, Pensamiento variacional y trigonometrico
 
Poemas de Beatriz Giménez de Ory_trabajos de 6º
Poemas de Beatriz Giménez de Ory_trabajos de 6ºPoemas de Beatriz Giménez de Ory_trabajos de 6º
Poemas de Beatriz Giménez de Ory_trabajos de 6º
 
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia leeevalaución de reforzamiento de cuarto de secundaria de la competencia lee
evalaución de reforzamiento de cuarto de secundaria de la competencia lee
 
Tarrajeo, tipos de tarrajeos, empastados, solaqueos y otros revestimientos.
Tarrajeo, tipos de tarrajeos, empastados, solaqueos y otros revestimientos.Tarrajeo, tipos de tarrajeos, empastados, solaqueos y otros revestimientos.
Tarrajeo, tipos de tarrajeos, empastados, solaqueos y otros revestimientos.
 
corpus-christi-sesion-de-aprendizaje.pdf
corpus-christi-sesion-de-aprendizaje.pdfcorpus-christi-sesion-de-aprendizaje.pdf
corpus-christi-sesion-de-aprendizaje.pdf
 
ensayo literario rios profundos jose maria ARGUEDAS
ensayo literario rios profundos jose maria ARGUEDASensayo literario rios profundos jose maria ARGUEDAS
ensayo literario rios profundos jose maria ARGUEDAS
 
3.Conectores uno_Enfermería_EspAcademico
3.Conectores uno_Enfermería_EspAcademico3.Conectores uno_Enfermería_EspAcademico
3.Conectores uno_Enfermería_EspAcademico
 
Presentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos DigitalesPresentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos Digitales
 
PROYECTO INTEGRADOR ARCHIDUQUE. presentacion
PROYECTO INTEGRADOR ARCHIDUQUE. presentacionPROYECTO INTEGRADOR ARCHIDUQUE. presentacion
PROYECTO INTEGRADOR ARCHIDUQUE. presentacion
 
Análisis de la situación actual .La Matriz de Perfil Competitivo (MPC)
Análisis de la situación actual .La Matriz de Perfil Competitivo (MPC)Análisis de la situación actual .La Matriz de Perfil Competitivo (MPC)
Análisis de la situación actual .La Matriz de Perfil Competitivo (MPC)
 
Presentación Propuesta de Proyecto Social Colorido y Juvenil Multicolor y Neg...
Presentación Propuesta de Proyecto Social Colorido y Juvenil Multicolor y Neg...Presentación Propuesta de Proyecto Social Colorido y Juvenil Multicolor y Neg...
Presentación Propuesta de Proyecto Social Colorido y Juvenil Multicolor y Neg...
 
Creación WEB. Ideas clave para crear un sitio web
Creación WEB. Ideas clave para crear un sitio webCreación WEB. Ideas clave para crear un sitio web
Creación WEB. Ideas clave para crear un sitio web
 
Presentación Pedagoía medieval para exposición en clases
Presentación Pedagoía medieval para exposición en clasesPresentación Pedagoía medieval para exposición en clases
Presentación Pedagoía medieval para exposición en clases
 
Sesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdfSesión: El fundamento del gobierno de Dios.pdf
Sesión: El fundamento del gobierno de Dios.pdf
 
32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf
32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf
32 LECTURAS CORTAS PARA NIÑOS.pdf · versión 1.pdf
 
El fundamento del gobierno de Dios. Lec. 09. docx
El fundamento del gobierno de Dios. Lec. 09. docxEl fundamento del gobierno de Dios. Lec. 09. docx
El fundamento del gobierno de Dios. Lec. 09. docx
 
TRABAJO CON TRES O MAS FRACCIONES PARA NIÑOS
TRABAJO CON TRES O MAS FRACCIONES PARA NIÑOSTRABAJO CON TRES O MAS FRACCIONES PARA NIÑOS
TRABAJO CON TRES O MAS FRACCIONES PARA NIÑOS
 

EI2_MAMN_RLMultiple.ppt

  • 1. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 1 REGRESIÓN LINEAL MÚLTIPLE
  • 2. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 2 INTRODUCCIÓN  A un modelo de regresión que contiene más de una variable regresora se le llama MODELO DE REGRESIÓN MÚLTIPLE. En general, la variable de respuesta o dependiente “y”, puede relacionarse con k variables regresoras o independientes. Al modelo siguiente: Y=βO+β1x1+β2x2+…+βkxk+ε Se le llama modelo de regresión lineal múltiple con k variables regresoras. A los parámetros βj, j=0,1,…,k, se les llama coeficientes de regresión. Este modelo describe un hiperplano en el espacio de k dimensiones de las variables regresoras {xj}. El parámetro βj representa el cambio esperado en la variable de respuesta Y, por un cambio unitario en xj cuando se mantienen constantes las demás variables regresoras xi(i≠j).
  • 3. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 3 CONTINUA…  Los modelos de regresión lineal múltiple se usan con frecuencia como funciones de aproximación. Es decir, se desconoce la verdadera relación funcional entre Y y x1,x2,…,xk, pero en ciertos rangos de las variables independientes el modelo de regresión lineal es una aproximación adecuada.  Muchas veces, incluso los modelos cuya estructura es más compleja pueden analizarse mediante técnicas de regresión lineal múltiple, por ejemplo:  Modelos de polinomios de n orden.  Modelos que incluyen efectos de interacción .  En general, cualquier modelo de regresión cuyos parámetros (las β) son lineales, se considera que es un modelo de regresión lineal, independientemente de la forma de la superficie que genera.
  • 4. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 4 EJEMPLOS:
  • 5. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 5 DATOS DE UNA REGRESIÓN LINEAL MÚLTIPLE y x1 x2 … xk y1 y2 . . . yn X11 X21 . . . xn1 X12 X22 . . . xn2 … … … X1k X2k . . . xnk
  • 6. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 6 ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS . ˆ ,..., ˆ , ˆ regresión, de es coeficient los de cuadrados mínimos de s estimadore los serán normales ecuaciones las de soluciones Las os. desconocid regresión de es coeficient los de uno cada para una normales, ecuaciones 1 hay que Observese ˆ ... ˆ ˆ ˆ . . . . . . . . . . . . . . . . . . ˆ ... ˆ ˆ ˆ ˆ ... ˆ ˆ ˆ 1 o 1 1 2 2 1 2 1 1 1 1 1 1 1 1 2 1 1 2 1 2 1 1 1 1 1 1 1 2 2 1 1 1 k n i i ik n i ik k i n i ik n i i ik n i ik o n i i i n i ik i k i n i i n i i n i i o n i i n i ik k n i i n i i o k p y x x x x x x x y x x x x x x x y x x x n                                                            
  • 7. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 7 ENFOQUE MATRICIAL DE LA REGRESIÓN LINEAL MÚLTIPLE                                                              n k o nk n n k k n i ik k i i o i x x x x x x x x x y y X y n n i x x x y                          y 1 1 1 X y y donde , : como expresarse puede matricial notación en que ecuaciones de sistema un es modelo Este ,..., 2 , 1 ; ... 2 1 1 2 1 2 22 21 1 12 11 2 1 2 2 1 1 Al ajustar un modelo de regresión lineal múltiple, es mucho más conveniente expresar las operaciones matemáticas utilizando la notación matricial. Suponga que hay k variables regresoras y n observaciones (xi1, xi2,…, xik,yi), i=1,2,…,n y que el modelo que relaciona las variables regresoras con la variable de respuesta es: En general, “y” es un vector (nx1) de las observaciones, X es una matriz (nxp) de los niveles de las variables independientes, β es un vector (px1) de los coeficientes de regresión, y ε es un vector (nx1) de los errores aleatorios.
  • 8. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 8 ESTIMACIÓN DE MÍNIMOS CUADRADOS DE LOS COEFICIENTES DE REGRESIÓN y y e ) (nx X y y x y x y x x x x x x x x x x x x x x x n y X X X n i i ik n i i i n i i k o n i ik n i i ik n i i ik n i ik i ik i i i i n i i n i i n i ik n i i n i i ˆ : por denota se residuales los de 1 vector el ; ˆ ˆ es ajustado modelo el matricial, notación en ˆ ˆ ˆ : matricial forma en expresión esta presenta se ón continuaci a ; ) ( ˆ 1 1 1 1 1 1 2 1 2 1 1 1 2 1 1 2 1 2 1 1 2 1 1 1 1 1 2 1 1 1                                                                                                                  
  • 9. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 9 PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS CUADRADOS Y ESTIMACIÓN DE σ2 s. covarianza las son matriz esta de diagonal la de fuera están que elementos los , ˆ ,..., ˆ , ˆ de varianzas las son ) ' ( de diagonal la de elementos Los . ˆ regresión de es coeficient los de covarianza de matriz la representa constante la por da multiplica X X' de inversa La X. X' matriz la de inversa la de elementos los de s en término expresan se ˆ las de varianzas Las . ,..., , regresión de es coeficient los de insesgados s estimadore son ˆ ,..., ˆ , ˆ cuadrados mínimos de s estimadore Los 1 2 2 1 1 O 1 y X X k O k O              p n y X y y p n SS MSE U E       ' ' ˆ ' ˆ : residual o medio cuadrado error el por dado esta de insesgado estimador n 2 2   
  • 10. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 10 PRUEBA DE HIPÓTESIS EN LA RLM  La prueba de la significación de una regresión sirve para determinar si existe una relación lineal entre la variable de respuesta “y” y un subconjunto de las variables regresoras x1, x2, …, xk, las hipótesis apropiadas son: • HO: β1=β2= … =βk =0 • H1: βj≠0 para al menos una j. El rechazo de HO: β1=β2= … =βk =0 implica que al menos una de las variables regresoras x1, x2, …, xk, contribuye de manera significativa al modelo. . F que mayor es F prueba de o estadístic del calculado valor el si H rechazarse Deberá p - n k, , O O 
  • 11. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 11 ANOVA (ANÁLISIS DE VARIANZA) FUENTE DE VARIACIÓN SUMA DE CUADRADOS GRADOS DE LIBERTAD CUADRAD O MEDIO FO REGRESIÓN k ERROR RESIDUAL n-p TOTAL N-1 E R T SS SS SS   R T E SS SS y X y y SS     ' ' ˆ '  n y y X SS n i i R 2 1 ' ' ˆ            E R O MS MS F  k SS MS R R  p n SS MS E E  
  • 12. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 12 PRUEBAS PARA LOS COEFICIENTES DE REGRESIÓN INDIVIDUALES  Con frecuencia existe interés en probar hipótesis sobre los coeficientes de regresión individuales. Estas pruebas serían útiles para determinar el valor potencial de cada una de las variables regresoras del modelo de regresión. Por ejemplo, tal vez el modelo sería más efectivo con la inclusión de variables adicionales, o quizá con la eliminación de una o más de las variables regresoras presentes en el modelo.  La incorporación de una variable en un modelo de regresión siempre hace que la suma de cuadrados de la regresión se incremente y que la suma de cuadrados del error se decremente. Es necesario decidir si el incremento de la suma de cuadrados de la regresión es lo suficientemente grande para justificar el uso de una variable adicional en el modelo. Las hipótesis para probar la significación de cualquier coeficiente de regresión individual, por ejemplo βj son:
  • 13. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 13 CONTINUA… modelo. el en están que ) ( x regresoras variables demás las todas de depende regresión de e coeficient el que a debido MARGINAL, O PARCIAL PRUEBA llama le se esta A T si rechaza Se , 0 : . ˆ que observese , ˆ a e correspond que X) (X' de diagonal la de elemento el es C donde ; ˆ ˆ : es hipótesis esta para prueba de o estadístic El modelo. del eliminarse puede regresora variable la que indica esto entonces , 0 : rechaza se no Si 0 : 0 : i , 2 o 2 j 1 - jj 2 1 j i t H MS C T x H H H j p n j O E jj j O j j O j j O                   
  • 14. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 14 INTERVALOS DE CONFIANZA EN LA RLM ) ) ' ( 1 ( ˆ ŷ ) ) ' ( 1 ( ˆ ŷ : por dado esta múltiple lineal regresión de modelo el en futura n observació una de predicción la para ciento por ) - 100(1 del confianza de intervalo Un ) ' ( ˆ ˆ ) ' ( ˆ ˆ : por dado esta múltiple lineal regresión de modelo el en , x ,..., x , x punto el en media respuesta la para ciento por ) - 100(1 del confianza de intervalo Un ˆ ˆ ˆ ˆ : por dado esta múltiple lineal regresión de modelo el en k, ..., 1, 0, j , regresión de e coeficient el para ciento por ) - 100(1 del confianza de intervalo Un 0 1 0 2 , 2 0 0 0 1 0 2 , 2 0 0 1 0 2 , 2 0 1 0 2 , 2 0k 02 01 2 , 2 j 2 , 2 j j 0 0 0 x X X x t y x X X x t x X X x t x X X x t C t C t p n p n p n x Y x Y p n x Y jj p n j jj p n                                                   
  • 15. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 15 COEFICIENTE DE DETERMINACIÓN MÚLTIPLE (R2) T E T R SS SS SS SS R    1 : como define se R múltiple ión determinac de e coeficient El 2 2 R2 es una medida de la cantidad en que se reduce la variabilidad del valor de “y” obtenido al usar las variables regresoras x1, x2, …,xk. Como en el caso de la regresión lineal simple, debe tenerse 0≤R2≤1. Sin embargo, un valor grande R2 no implica necesariamente que el modelo de regresión es adecuado. Agregar una variable al modelo incrementará siempre R2, independientemente de si la variable adicional es estadísticamente significativa o no. Por tanto, los modelos que tienen valores grandes de R2 puede producir predicciones pobres de nuevas observaciones, o estimaciones pobres de la variable de respuesta media. A la raíz cuadrada positiva de R2 se le llama COEFICIENTE DE CORRELACIÓN MÚLTIPLE entre “y” y el conjunto de variables regresoras x1, x2, …, xk. Es decir, R es una medida de la asociación lineal entre “y” y el conjunto de variables regresoras x1, x2, …, xk. Cuando k=1, esto se reduce a la correlación simple entre “y” y “x”.
  • 16. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 16 EJEMPLO  Se piensa que la energía eléctrica consumida mensualmente por una planta química se relaciona con la temperatura ambiente promedio (x1), el número de días laborales del mes (x2), la pureza promedio del producto (x3) y las toneladas del producto producidas (x4). Se cuenta con los datos del último año, los cuales se presentan en la tabla siguiente: y x1 x2 x3 x4 240 25 24 91 100 236 31 21 90 95 290 45 24 88 110 274 60 25 87 88 301 65 25 91 94 316 72 26 94 99 300 80 25 87 97 296 84 25 86 96 267 75 24 88 110 276 60 25 91 105 288 50 25 90 100 261 38 23 89 98
  • 17. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 17 CONTINUA… a) Ajuste los datos a un modelo de regresión lineal múltiple. b) Prediga el consumo de electricidad para un mes en el que x1=75°F, x2=24 días, x3=90% y x4=98 toneladas. c) Encuentre el coeficiente de determinación y explique el resultado. d) Encuentre un intervalo de confianza del 95% para la respuesta media cuando x1=75°F, x2=24 días, x3=90% y x4=98 toneladas. e) Pruebe cuál o cuáles de las variables están relacionadas linealmente con la variable de respuesta. MINITAB
  • 18. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 18 EJERCICIO #1  Un embotellador de bebidas gaseosas analiza las rutas de servicio de las máquinas expendedoras en su sistema de distribución. Le interesa predecir el tiempo necesario para que el representante de ruta atienda las máquinas expendedoras en una tienda. Esta actividad de servicio consiste en abastecer la máquina con productos embotellados, y algo de mantenimiento o limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos variables más importantes que afectan el tiempo de entrega “y” son la cantidad de cajas de producto abastecido, x1, y la distancia caminada por el representante, x2. El ingeniero ha reunido 25 observaciones de tiempo de entrega que se ven en la tabla siguiente. Se ajustará el modelo de regresión lineal múltiple siguiente: 2 2 1 1 0 x x y       Observación número Tiempo de entrega (minutos) y Cantidad de cajas (x1) Distancia (pies) x2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 16.68 11.50 12.03 14.88 13.75 18.11 8.00 17.83 79.24 21.50 40.33 21.00 13.50 19.75 24.00 29.00 15.35 19.00 9.50 35.10 17.90 52.32 18.75 19.83 10.75 7 3 3 4 6 7 2 7 30 5 16 10 4 6 9 10 6 7 3 17 10 26 9 8 4 560 220 340 80 150 330 110 210 1460 605 688 215 255 462 448 776 200 132 36 770 140 810 450 635 150
  • 19. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 19 OBSERVACIONES INFLUYENTES  Cuando se usa una regresión múltiple, algunas veces se encuentra que un subconjunto de las observaciones tiene una influencia fuera de lo común. En ocasiones estas observaciones influyentes se localizan relativamente lejos de la vecindad donde se recabaron el resto de los datos. Una situación hipotética para dos variables se describe en la siguiente figura, donde una de las observaciones del espacio “x” está muy apartada del resto de los datos. La disposición de los puntos en el espacio “x” es importante para determinar las propiedades del modelo. Por ejemplo, el punto (xi1, xi2) de la figura puede ejercer una gran influencia al determinar R2, las estimaciones de los coeficientes de regresión o la magnitud del cuadrado medio del error.
  • 20. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 20 CONTINUA…  Sería conveniente examinar los puntos influyentes a fin de determinar si controlan varias de las propiedades del modelo. Si estos puntos influyentes son puntos “malos” o erróneos de alguna manera, entonces deberán eliminarse. Por otra parte, quizá no haya nada malo con estos puntos, pero al menos sería conveniente determinar si producen o no resultados consistentes con el resto de los datos. Un excelente diagnóstico es la medida de la distancia desarrollada por Dennis R. Cook. Esta es una medida del cuadrado de la distancia entre la estimación de mínimos cuadrados usual de β basada en las “n” observaciones y la estimación obtenida cuando se elimina el punto “i”, digamos, . La medida de la distancia Cook es: i ̂           grande. un valor a contribuir puede ambos) (o de s componente los de Cualquiera . influyente es punto el que indicaría 1 Un valor ' X) X(X' H Sombrero ; ; 1 ˆ , 1 , ,..., 2 , 1 , 1 : usando hace se o estadístic del real cálculo El . influyente es punto el que implica de grande un valor Por tanto, . ˆ valor el lemente considerab cambiando ˆ resultado como dará n eliminació su , influyente es i" " el si nte, Evidenteme ,..., 2 , 1 , ˆ ˆ ˆ ' ˆ ˆ 1 - 1 2 2 i 2 i i i i ii ii i ii ii i i i i i i i D D X Matriz x X X x h h e r donde k p donde n i h h p r D D i D n i p X X D                          MINITAB
  • 21. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 21 MODELOS DE REGRESIÓN POLINOMIAL  El modelo lineal y=Xβ+ε es un modelo general que puede usarse para ajustar cualquier relación que sea lineal en los parámetros desconocidos β. Esto incluye la importante clase de los modelos de regresión polinomiales. Por ejemplo, el polinomio de segundo grado en una variable datos. los con e consistent sea que menor grado de modelo el usar preferirá se general lo por , polinomios ajustar Al múltiple. regresión la de generales principios los aplicarse pueden que a debido , curvilínea es respuesta la cuando e ampliament usan se es polinomial regresión de modelos Los lineales. regresión de modelos variables dos en grado segundo de polinomio el y 2 1 12 2 2 22 2 1 11 2 2 1 1 0 2 11 1 0 Son x x x x x x Y x x Y                      
  • 22. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 22 EJEMPLO: MINITAB
  • 23. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 23 EJEMPLO:  Los datos que se presentan a continuación se recabaron durante un experimento para determinar el cambio en la eficiencia del impulso (“y”, en por ciento) cuando el ángulo de divergencia de la nariz del cohete (x) cambia. a) Ajuste un modelo de segundo orden a estos datos. b) Pruebe la significación de la regresión. y X 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67 4 4 4 5 5 6 6.5 6.5 6.75 7 7.1 7.3 MINITAB
  • 24. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 24 VARIABLES INDICADORAS EN LA RLM  Los modelos de regresión presentados en las secciones anteriores se basan en variables “cuantitativas”, es decir, variables que se miden en una escala numérica. Por ejemplo, variables tales como la temperatura, la presión, la distancia y el voltaje son variables cuantitativas. Ocasionalmente, es necesario incorporar variables cualitativas en un modelo de regresión. Por ejemplo suponga que una de las variables de un modelo de regresión es el operador que está asociado con cada observación yi. Suponga que solo participan dos operadores. Quizás quieran asignarse niveles diferentes a los dos operadores para tomar en consideración la posibilidad de que cada operador puede tener un efecto diferente sobre la variable de respuesta.
  • 25. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 25 CONTINUA…  El método común para tomar en consideración los diferentes niveles de una variable cualitativa es usando variables indicadoras. Por ejemplo, para introducir el efecto de dos operadores diferentes en un modelo de regresión, podría definirse una variable indicadora como sigue:  En general, una variable cualitativa con t niveles puede modelarse con t-1 variables indicadoras, a las que se asigna el valor de cero o uno. Por tanto, si hay tres operadores, los diferentes niveles se tomarán en consideración con dos variables indicadoras definidas como sigue:     2 operador del es n observació la si 1 1 operador del es n observació la si 0 X x1 x2 0 1 0 0 0 1 Si la observación es del operador 1 Si la observación es del operador 2 Si la observación es del operador 3 Las variables indicadoras también se conocen como variables mudas.
  • 26. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 26 EJEMPLO  Un ingeniero mecánico investiga el acabado superficial de las piezas mecánicas fabricadas en un torno y su relación con la velocidad (en RPM) del torno. Los datos recolectados se presentan a continuación. Obsérvese que los datos se han recabado usando dos tipos diferentes de herramientas de corte. Puesto que es probable que el tipo de herramienta de corte afecte el acabado superficial, se ajustará el modelo         2 2 1 1 0 x x Y Número de observación Acabado Superficial RPM Tipo de herramienta de corte VARIABLES INDICADORAS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 45.44 42.03 50.10 48.75 47.92 47.79 52.26 50.52 45.58 44.78 33.50 31.23 37.52 37.13 34.70 33.92 32.13 35.47 33.49 32.29 225 200 250 245 235 237 265 259 221 218 224 212 248 260 243 238 224 251 232 216 302 302 302 302 302 302 302 302 302 302 416 416 416 416 416 416 416 416 416 416 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 MINITAB
  • 27. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 27 SELECCIÓN DE VARIABLES EN REGRESIÓN MÚLTIPLES  Un problema importante en muchas aplicaciones del análisis de regresión incluye la selección del conjunto de variables regresoras o independientes que van usarse en el modelo. En ocasiones experiencias previas o consideraciones de la teoría fundamental pueden ayudar al analista a especificar el conjunto de variables regresoras que deberán usarse en una situación particular. Sin embargo, por lo general el problema consiste en seleccionar un conjunto apropiado de variables regresoras de un conjunto que muy probablemente incluye todas las variables importantes, aunque se tiene la seguridad de que no todas estas variables regresoras candidatas son necesarias para modelar adecuadamente la variable de respuesta “Y”
  • 28. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 28 COLINEALIDAD MÚLTIPLE  En los problemas de regresión lineal múltiple se espera encontrar dependencias entre la variable de respuesta “Y” y las variables regresoras xj. Sin embargo, en la mayoría de los problemas de regresión se encuentra que también hay dependencias entre las variables regresoras xj. Cuando estas dependencias son fuertes, se dice que existe colinealidad múltiple. La colinealidad múltiple puede tener efectos de consecuencia sobre las estimaciones de los coeficientes de regresión y sobre la aplicabilidad general del modelo estimado.  Los efectos de colinealidad múltiple pueden demostrarse con facilidad. Los elementos de la diagonal de la matriz C=(X’X)-1 pueden escribirse como:   . R de valor el será grande más múltiple, ad colinealid la sea fuerte más entre por tanto y , restantes regresoras variables las sobre x de lineal a dependenci la sea fuerte más entre nte, Evidenteme . regresoras variables 1 - k las sobre x de regresión la hacer de resulta que múltiple ión determinac de e coeficient el es R donde k 1,2,..., j ; 1 1 2 j j j 2 j 2     j j jj R VIF C
  • 29. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 29 CONTINUA…  La colinealidad surge por varias razones, por ejemplo: si cuatro variables regresoras son los componentes de una mezcla, entonces esta restricción existirá siempre, porque la suma de los componentes es siempre constante. Por lo general, estas restricciones no se dan de forma precisa, y el analista podría ignorar su existencia. Hay varias formas de detectar la presencia de la colinealidad múltiple. Dos de las más fáciles de entender son: • Los factores de inflación de la varianza. Entre mayor sea el factor de inflación de la varianza, más marcada será la colinealidad múltiple. Algunos autores han sugerido que si cualquiera de los factores de inflación de la varianza excede 10, entonces la colinealidad múltiple constituye un problema. Otros autores consideran este valor muy dadivoso y sugieren que los factores de inflación de la varianza no deberán exceder 4 o 5. • Si la prueba F de la significación de la regresión es significativa, pero las pruebas de los coeficientes de regresión individuales son no significativas, entonces puede estar presente la colinealidad múltiple.
  • 30. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 30 CONTINUA…  Se han propuesto varias medidas correctivas para resolver el problema de la colinealidad múltiple. Se sugiere con frecuencia aumentar los datos con nuevas observaciones diseñadas específicamente para romper las dependencias lineales aproximadas que existen normalmente. Sin embargo, en ocasiones esto es imposible debido a razones económicas o por las restricciones físicas que relacionan las xj. Otra posibilidad es eliminar ciertas variables del modelo, pero este enfoque tiene la desventaja de descartar la información contenida en las variables eliminadas. Puesto que la colinealidad múltiple afecta principalmente la estabilidad de los coeficientes de regresión, al parecer estimar estos parámetros con algún método que sea menos sensitivo a la colinealidad múltiple que los mínimos cuadrados ordinarios, sería de ayuda. Una alternativa de los mínimos cuadrados ordinarios es, la “regresión sobre ascensos (cordilleras)”.
  • 31. M.C. MIGUEL ÁNGEL MELCHOR NAVARRO EI2_RLM 31 CONTINUA…  En una situación como ésta, el interés se encuentra en depurar las variables candidatas para obtener un modelo de regresión que contenga el “mejor” subconjunto de variables regresoras. Por otra parte, para mantener los costos de mantenimiento del modelo en un mínimo y para hacer que el modelo sea fácil de usar, sería conveniente que el modelo usara el menor número posible de variables regresoras. Por lo general, se necesitará mucho criterio y experiencia con el sistema que se ésta modelando para seleccionar un conjunto apropiado de variables regresoras para una ecuación de regresión.