2. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 2
INTRODUCCIÓN
A un modelo de regresión que contiene más de una
variable regresora se le llama MODELO DE REGRESIÓN
MÚLTIPLE. En general, la variable de respuesta o
dependiente “y”, puede relacionarse con k variables
regresoras o independientes. Al modelo siguiente:
Y=βO+β1x1+β2x2+…+βkxk+ε
Se le llama modelo de regresión lineal múltiple con k
variables regresoras. A los parámetros βj, j=0,1,…,k, se
les llama coeficientes de regresión. Este modelo describe
un hiperplano en el espacio de k dimensiones de las
variables regresoras {xj}. El parámetro βj representa el
cambio esperado en la variable de respuesta Y, por un
cambio unitario en xj cuando se mantienen constantes las
demás variables regresoras xi(i≠j).
3. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 3
CONTINUA…
Los modelos de regresión lineal múltiple se usan con frecuencia
como funciones de aproximación. Es decir, se desconoce la
verdadera relación funcional entre Y y x1,x2,…,xk, pero en ciertos
rangos de las variables independientes el modelo de regresión lineal
es una aproximación adecuada.
Muchas veces, incluso los modelos cuya estructura es más compleja
pueden analizarse mediante técnicas de regresión lineal múltiple,
por ejemplo:
Modelos de polinomios de n orden.
Modelos que incluyen efectos de interacción .
En general, cualquier modelo de regresión cuyos parámetros
(las β) son lineales, se considera que es un modelo de
regresión lineal, independientemente de la forma de la
superficie que genera.
5. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 5
DATOS DE UNA REGRESIÓN
LINEAL MÚLTIPLE
y x1 x2 … xk
y1
y2
.
.
.
yn
X11
X21
.
.
.
xn1
X12
X22
.
.
.
xn2
…
…
…
X1k
X2k
.
.
.
xnk
6. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 6
ESTIMACIÓN DE LOS PARÁMETROS POR
MÍNIMOS CUADRADOS
.
ˆ
,...,
ˆ
,
ˆ
regresión,
de
es
coeficient
los
de
cuadrados
mínimos
de
s
estimadore
los
serán
normales
ecuaciones
las
de
soluciones
Las
os.
desconocid
regresión
de
es
coeficient
los
de
uno
cada
para
una
normales,
ecuaciones
1
hay
que
Observese
ˆ
...
ˆ
ˆ
ˆ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ˆ
...
ˆ
ˆ
ˆ
ˆ
...
ˆ
ˆ
ˆ
1
o
1
1
2
2
1
2
1
1
1
1
1
1
1
1
2
1
1
2
1
2
1
1
1
1
1
1
1
2
2
1
1
1
k
n
i
i
ik
n
i
ik
k
i
n
i
ik
n
i
i
ik
n
i
ik
o
n
i
i
i
n
i
ik
i
k
i
n
i
i
n
i
i
n
i
i
o
n
i
i
n
i
ik
k
n
i
i
n
i
i
o
k
p
y
x
x
x
x
x
x
x
y
x
x
x
x
x
x
x
y
x
x
x
n
7. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 7
ENFOQUE MATRICIAL DE LA
REGRESIÓN LINEAL MÚLTIPLE
n
k
o
nk
n
n
k
k
n
i
ik
k
i
i
o
i
x
x
x
x
x
x
x
x
x
y
y
X
y
n
n
i
x
x
x
y
y
1
1
1
X
y
y
donde
,
:
como
expresarse
puede
matricial
notación
en
que
ecuaciones
de
sistema
un
es
modelo
Este
,...,
2
,
1
;
...
2
1
1
2
1
2
22
21
1
12
11
2
1
2
2
1
1
Al ajustar un modelo de regresión lineal múltiple, es mucho más
conveniente expresar las operaciones matemáticas utilizando la
notación matricial. Suponga que hay k variables regresoras y n
observaciones (xi1, xi2,…, xik,yi), i=1,2,…,n y que el modelo que
relaciona las variables regresoras con la variable de respuesta es:
En general, “y” es un vector
(nx1) de las observaciones,
X es una matriz (nxp) de
los niveles de las variables
independientes, β es un
vector (px1) de los
coeficientes de regresión, y
ε es un vector (nx1) de los
errores aleatorios.
8. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 8
ESTIMACIÓN DE MÍNIMOS CUADRADOS DE
LOS COEFICIENTES DE REGRESIÓN
y
y
e
)
(nx
X
y
y
x
y
x
y
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
n
y
X
X
X
n
i
i
ik
n
i
i
i
n
i
i
k
o
n
i
ik
n
i
i
ik
n
i
i
ik
n
i
ik
i
ik
i
i
i
i
n
i
i
n
i
i
n
i
ik
n
i
i
n
i
i
ˆ
:
por
denota
se
residuales
los
de
1
vector
el
;
ˆ
ˆ
es
ajustado
modelo
el
matricial,
notación
en
ˆ
ˆ
ˆ
:
matricial
forma
en
expresión
esta
presenta
se
ón
continuaci
a
;
)
(
ˆ
1
1
1
1
1
1
2
1
2
1
1
1
2
1
1
2
1
2
1
1
2
1
1
1
1
1
2
1
1
1
9. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 9
PROPIEDADES DE LOS ESTIMADORES
DE MÍNIMOS CUADRADOS Y
ESTIMACIÓN DE σ2
s.
covarianza
las
son
matriz
esta
de
diagonal
la
de
fuera
están
que
elementos
los
,
ˆ
,...,
ˆ
,
ˆ
de
varianzas
las
son
)
'
(
de
diagonal
la
de
elementos
Los
.
ˆ
regresión
de
es
coeficient
los
de
covarianza
de
matriz
la
representa
constante
la
por
da
multiplica
X
X'
de
inversa
La
X.
X'
matriz
la
de
inversa
la
de
elementos
los
de
s
en término
expresan
se
ˆ
las
de
varianzas
Las
.
,...,
,
regresión
de
es
coeficient
los
de
insesgados
s
estimadore
son
ˆ
,...,
ˆ
,
ˆ
cuadrados
mínimos
de
s
estimadore
Los
1
2
2
1
1
O
1
y
X
X k
O
k
O
p
n
y
X
y
y
p
n
SS
MSE
U
E
'
'
ˆ
'
ˆ
:
residual
o
medio
cuadrado
error
el
por
dado
esta
de
insesgado
estimador
n
2
2
10. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 10
PRUEBA DE HIPÓTESIS EN
LA RLM
La prueba de la significación de una regresión sirve para
determinar si existe una relación lineal entre la variable de
respuesta “y” y un subconjunto de las variables regresoras x1,
x2, …, xk, las hipótesis apropiadas son:
• HO: β1=β2= … =βk =0
• H1: βj≠0 para al menos una j.
El rechazo de HO: β1=β2= … =βk =0 implica que al menos una de las
variables regresoras x1, x2, …, xk, contribuye de manera
significativa al modelo.
.
F
que
mayor
es
F
prueba
de
o
estadístic
del
calculado
valor
el
si
H
rechazarse
Deberá
p
-
n
k,
,
O
O
11. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 11
ANOVA (ANÁLISIS DE
VARIANZA)
FUENTE DE
VARIACIÓN
SUMA DE
CUADRADOS
GRADOS
DE
LIBERTAD
CUADRAD
O MEDIO
FO
REGRESIÓN
k
ERROR
RESIDUAL n-p
TOTAL
N-1
E
R
T SS
SS
SS
R
T
E SS
SS
y
X
y
y
SS
'
'
ˆ
'
n
y
y
X
SS
n
i
i
R
2
1
'
'
ˆ
E
R
O
MS
MS
F
k
SS
MS R
R
p
n
SS
MS E
E
12. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 12
PRUEBAS PARA LOS
COEFICIENTES DE REGRESIÓN
INDIVIDUALES
Con frecuencia existe interés en probar hipótesis sobre los
coeficientes de regresión individuales. Estas pruebas serían
útiles para determinar el valor potencial de cada una de las
variables regresoras del modelo de regresión. Por ejemplo, tal
vez el modelo sería más efectivo con la inclusión de variables
adicionales, o quizá con la eliminación de una o más de las
variables regresoras presentes en el modelo.
La incorporación de una variable en un modelo de regresión
siempre hace que la suma de cuadrados de la regresión se
incremente y que la suma de cuadrados del error se
decremente. Es necesario decidir si el incremento de la suma de
cuadrados de la regresión es lo suficientemente grande para
justificar el uso de una variable adicional en el modelo. Las
hipótesis para probar la significación de cualquier coeficiente de
regresión individual, por ejemplo βj son:
13. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 13
CONTINUA…
modelo.
el
en
están
que
)
(
x
regresoras
variables
demás
las
todas
de
depende
regresión
de
e
coeficient
el
que
a
debido
MARGINAL,
O
PARCIAL
PRUEBA
llama
le
se
esta
A
T
si
rechaza
Se
,
0
:
.
ˆ
que
observese
,
ˆ
a
e
correspond
que
X)
(X'
de
diagonal
la
de
elemento
el
es
C
donde
;
ˆ
ˆ
:
es
hipótesis
esta
para
prueba
de
o
estadístic
El
modelo.
del
eliminarse
puede
regresora
variable
la
que
indica
esto
entonces
,
0
:
rechaza
se
no
Si
0
:
0
:
i
,
2
o
2
j
1
-
jj
2
1
j
i
t
H
MS
C
T
x
H
H
H
j
p
n
j
O
E
jj
j
O
j
j
O
j
j
O
14. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 14
INTERVALOS DE CONFIANZA EN LA RLM
)
)
'
(
1
(
ˆ
ŷ
)
)
'
(
1
(
ˆ
ŷ
:
por
dado
esta
múltiple
lineal
regresión
de
modelo
el
en
futura
n
observació
una
de
predicción
la
para
ciento
por
)
-
100(1
del
confianza
de
intervalo
Un
)
'
(
ˆ
ˆ
)
'
(
ˆ
ˆ
:
por
dado
esta
múltiple
lineal
regresión
de
modelo
el
en
,
x
,...,
x
,
x
punto
el
en
media
respuesta
la
para
ciento
por
)
-
100(1
del
confianza
de
intervalo
Un
ˆ
ˆ
ˆ
ˆ
:
por
dado
esta
múltiple
lineal
regresión
de
modelo
el
en
k,
...,
1,
0,
j
,
regresión
de
e
coeficient
el
para
ciento
por
)
-
100(1
del
confianza
de
intervalo
Un
0
1
0
2
,
2
0
0
0
1
0
2
,
2
0
0
1
0
2
,
2
0
1
0
2
,
2
0k
02
01
2
,
2
j
2
,
2
j
j
0
0
0
x
X
X
x
t
y
x
X
X
x
t
x
X
X
x
t
x
X
X
x
t
C
t
C
t
p
n
p
n
p
n
x
Y
x
Y
p
n
x
Y
jj
p
n
j
jj
p
n
15. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 15
COEFICIENTE DE DETERMINACIÓN
MÚLTIPLE (R2)
T
E
T
R
SS
SS
SS
SS
R
1
:
como
define
se
R
múltiple
ión
determinac
de
e
coeficient
El
2
2
R2 es una medida de la cantidad en que se reduce la variabilidad del valor
de “y” obtenido al usar las variables regresoras x1, x2, …,xk. Como en el
caso de la regresión lineal simple, debe tenerse 0≤R2≤1. Sin embargo, un
valor grande R2 no implica necesariamente que el modelo de regresión es
adecuado. Agregar una variable al modelo incrementará siempre R2,
independientemente de si la variable adicional es estadísticamente
significativa o no. Por tanto, los modelos que tienen valores grandes de R2
puede producir predicciones pobres de nuevas observaciones, o
estimaciones pobres de la variable de respuesta media. A la raíz cuadrada
positiva de R2 se le llama COEFICIENTE DE CORRELACIÓN MÚLTIPLE entre
“y” y el conjunto de variables regresoras x1, x2, …, xk. Es decir, R es una
medida de la asociación lineal entre “y” y el conjunto de variables
regresoras x1, x2, …, xk. Cuando k=1, esto se reduce a la
correlación simple entre “y” y “x”.
16. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 16
EJEMPLO
Se piensa que la energía eléctrica consumida mensualmente por una planta
química se relaciona con la temperatura ambiente promedio (x1), el número de
días laborales del mes (x2), la pureza promedio del producto (x3) y las toneladas
del producto producidas (x4). Se cuenta con los datos del último año, los cuales
se presentan en la tabla siguiente:
y x1 x2 x3 x4
240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
17. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 17
CONTINUA…
a) Ajuste los datos a un modelo de regresión lineal múltiple.
b) Prediga el consumo de electricidad para un mes en el que
x1=75°F, x2=24 días, x3=90% y x4=98 toneladas.
c) Encuentre el coeficiente de determinación y explique el
resultado.
d) Encuentre un intervalo de confianza del 95% para la
respuesta media cuando x1=75°F, x2=24 días, x3=90% y
x4=98 toneladas.
e) Pruebe cuál o cuáles de las variables están relacionadas
linealmente con la variable de respuesta.
MINITAB
18. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 18
EJERCICIO #1
Un embotellador de bebidas gaseosas
analiza las rutas de servicio de las
máquinas expendedoras en su sistema
de distribución. Le interesa predecir el
tiempo necesario para que el
representante de ruta atienda las
máquinas expendedoras en una
tienda. Esta actividad de servicio
consiste en abastecer la máquina con
productos embotellados, y algo de
mantenimiento o limpieza. El ingeniero
industrial responsable del estudio ha
sugerido que las dos variables más
importantes que afectan el tiempo de
entrega “y” son la cantidad de cajas de
producto abastecido, x1, y la distancia
caminada por el representante, x2. El
ingeniero ha reunido 25 observaciones
de tiempo de entrega que se ven en la
tabla siguiente. Se ajustará el modelo
de regresión lineal múltiple siguiente:
2
2
1
1
0 x
x
y
Observación
número
Tiempo de
entrega
(minutos)
y
Cantidad de
cajas (x1)
Distancia
(pies) x2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
16.68
11.50
12.03
14.88
13.75
18.11
8.00
17.83
79.24
21.50
40.33
21.00
13.50
19.75
24.00
29.00
15.35
19.00
9.50
35.10
17.90
52.32
18.75
19.83
10.75
7
3
3
4
6
7
2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4
560
220
340
80
150
330
110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150
19. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 19
OBSERVACIONES INFLUYENTES
Cuando se usa una regresión múltiple, algunas veces se encuentra
que un subconjunto de las observaciones tiene una influencia fuera
de lo común. En ocasiones estas observaciones influyentes se
localizan relativamente lejos de la vecindad donde se recabaron el
resto de los datos. Una situación hipotética para dos variables se
describe en la siguiente figura, donde una de las observaciones del
espacio “x” está muy apartada del resto de los datos. La
disposición de los puntos en el espacio “x” es importante para
determinar las propiedades del modelo. Por ejemplo, el punto (xi1,
xi2) de la figura puede ejercer una gran influencia al determinar R2,
las estimaciones de los coeficientes de regresión o la magnitud del
cuadrado medio del error.
20. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 20
CONTINUA…
Sería conveniente examinar los puntos influyentes a fin de determinar si controlan
varias de las propiedades del modelo. Si estos puntos influyentes son puntos “malos”
o erróneos de alguna manera, entonces deberán eliminarse. Por otra parte, quizá no
haya nada malo con estos puntos, pero al menos sería conveniente determinar si
producen o no resultados consistentes con el resto de los datos. Un excelente
diagnóstico es la medida de la distancia desarrollada por Dennis R. Cook. Esta es una
medida del cuadrado de la distancia entre la estimación de mínimos cuadrados usual
de β basada en las “n” observaciones y la estimación obtenida cuando se elimina el
punto “i”, digamos, . La medida de la distancia Cook es:
i
̂
grande.
un valor
a
contribuir
puede
ambos)
(o
de
s
componente
los
de
Cualquiera
.
influyente
es
punto
el
que
indicaría
1
Un valor
'
X)
X(X'
H
Sombrero
;
;
1
ˆ
,
1
,
,...,
2
,
1
,
1
:
usando
hace
se
o
estadístic
del
real
cálculo
El
.
influyente
es
punto
el
que
implica
de
grande
un valor
Por tanto,
.
ˆ
valor
el
lemente
considerab
cambiando
ˆ
resultado
como
dará
n
eliminació
su
,
influyente
es
i"
"
el
si
nte,
Evidenteme
,...,
2
,
1
,
ˆ
ˆ
ˆ
'
ˆ
ˆ
1
-
1
2
2
i
2
i
i
i
i
ii
ii
i
ii
ii
i
i
i
i
i
i
i
D
D
X
Matriz
x
X
X
x
h
h
e
r
donde
k
p
donde
n
i
h
h
p
r
D
D
i
D
n
i
p
X
X
D
MINITAB
21. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 21
MODELOS DE REGRESIÓN
POLINOMIAL
El modelo lineal y=Xβ+ε es un modelo general que puede usarse
para ajustar cualquier relación que sea lineal en los parámetros
desconocidos β. Esto incluye la importante clase de los modelos
de regresión polinomiales. Por ejemplo, el polinomio de segundo
grado en una variable
datos.
los
con
e
consistent
sea
que
menor
grado
de
modelo
el
usar
preferirá
se
general
lo
por
,
polinomios
ajustar
Al
múltiple.
regresión
la
de
generales
principios
los
aplicarse
pueden
que
a
debido
,
curvilínea
es
respuesta
la
cuando
e
ampliament
usan
se
es
polinomial
regresión
de
modelos
Los
lineales.
regresión
de
modelos
variables
dos
en
grado
segundo
de
polinomio
el
y
2
1
12
2
2
22
2
1
11
2
2
1
1
0
2
11
1
0
Son
x
x
x
x
x
x
Y
x
x
Y
23. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 23
EJEMPLO:
Los datos que se presentan
a continuación se recabaron
durante un experimento
para determinar el cambio
en la eficiencia del impulso
(“y”, en por ciento) cuando
el ángulo de divergencia de
la nariz del cohete (x)
cambia.
a) Ajuste un modelo de
segundo orden a estos
datos.
b) Pruebe la significación de la
regresión.
y X
24.60
24.71
23.90
39.50
39.60
57.12
67.11
67.24
67.15
77.87
80.11
84.67
4
4
4
5
5
6
6.5
6.5
6.75
7
7.1
7.3
MINITAB
24. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 24
VARIABLES INDICADORAS
EN LA RLM
Los modelos de regresión presentados en las secciones
anteriores se basan en variables “cuantitativas”, es decir,
variables que se miden en una escala numérica. Por
ejemplo, variables tales como la temperatura, la presión, la
distancia y el voltaje son variables cuantitativas.
Ocasionalmente, es necesario incorporar variables
cualitativas en un modelo de regresión. Por ejemplo
suponga que una de las variables de un modelo de
regresión es el operador que está asociado con cada
observación yi. Suponga que solo participan dos
operadores. Quizás quieran asignarse niveles diferentes a
los dos operadores para tomar en consideración la
posibilidad de que cada operador puede tener un efecto
diferente sobre la variable de respuesta.
25. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 25
CONTINUA…
El método común para tomar en consideración los diferentes niveles de
una variable cualitativa es usando variables indicadoras. Por ejemplo, para
introducir el efecto de dos operadores diferentes en un modelo de
regresión, podría definirse una variable indicadora como sigue:
En general, una variable cualitativa con t niveles puede modelarse con t-1
variables indicadoras, a las que se asigna el valor de cero o uno. Por
tanto, si hay tres operadores, los diferentes niveles se tomarán en
consideración con dos variables indicadoras definidas como sigue:
2
operador
del
es
n
observació
la
si
1
1
operador
del
es
n
observació
la
si
0
X
x1 x2
0
1
0
0
0
1
Si la observación es del operador 1
Si la observación es del operador 2
Si la observación es del operador 3
Las variables indicadoras también se conocen como variables
mudas.
26. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 26
EJEMPLO
Un ingeniero mecánico investiga el acabado superficial de las piezas
mecánicas fabricadas en un torno y su relación con la velocidad (en RPM)
del torno. Los datos recolectados se presentan a continuación. Obsérvese
que los datos se han recabado usando dos tipos diferentes de herramientas
de corte. Puesto que es probable que el tipo de herramienta de corte afecte
el acabado superficial, se ajustará el modelo
2
2
1
1
0 x
x
Y
Número de
observación
Acabado
Superficial
RPM Tipo de herramienta
de corte
VARIABLES
INDICADORAS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
45.44
42.03
50.10
48.75
47.92
47.79
52.26
50.52
45.58
44.78
33.50
31.23
37.52
37.13
34.70
33.92
32.13
35.47
33.49
32.29
225
200
250
245
235
237
265
259
221
218
224
212
248
260
243
238
224
251
232
216
302
302
302
302
302
302
302
302
302
302
416
416
416
416
416
416
416
416
416
416
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
MINITAB
27. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 27
SELECCIÓN DE VARIABLES
EN REGRESIÓN MÚLTIPLES
Un problema importante en muchas aplicaciones del
análisis de regresión incluye la selección del conjunto de
variables regresoras o independientes que van usarse en el
modelo. En ocasiones experiencias previas o
consideraciones de la teoría fundamental pueden ayudar al
analista a especificar el conjunto de variables regresoras
que deberán usarse en una situación particular. Sin
embargo, por lo general el problema consiste en seleccionar
un conjunto apropiado de variables regresoras de un
conjunto que muy probablemente incluye todas las
variables importantes, aunque se tiene la seguridad de que
no todas estas variables regresoras candidatas son
necesarias para modelar adecuadamente la variable de
respuesta “Y”
28. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 28
COLINEALIDAD MÚLTIPLE
En los problemas de regresión lineal múltiple se espera encontrar
dependencias entre la variable de respuesta “Y” y las variables
regresoras xj. Sin embargo, en la mayoría de los problemas de
regresión se encuentra que también hay dependencias entre las
variables regresoras xj. Cuando estas dependencias son fuertes,
se dice que existe colinealidad múltiple. La colinealidad múltiple
puede tener efectos de consecuencia sobre las estimaciones de
los coeficientes de regresión y sobre la aplicabilidad general del
modelo estimado.
Los efectos de colinealidad múltiple pueden demostrarse con
facilidad. Los elementos de la diagonal de la matriz C=(X’X)-1
pueden escribirse como:
.
R
de
valor
el
será
grande
más
múltiple,
ad
colinealid
la
sea
fuerte
más
entre
por tanto
y
,
restantes
regresoras
variables
las
sobre
x
de
lineal
a
dependenci
la
sea
fuerte
más
entre
nte,
Evidenteme
.
regresoras
variables
1
-
k
las
sobre
x
de
regresión
la
hacer
de
resulta
que
múltiple
ión
determinac
de
e
coeficient
el
es
R
donde
k
1,2,...,
j
;
1
1
2
j
j
j
2
j
2
j
j
jj
R
VIF
C
29. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 29
CONTINUA…
La colinealidad surge por varias razones, por ejemplo: si cuatro
variables regresoras son los componentes de una mezcla,
entonces esta restricción existirá siempre, porque la suma de los
componentes es siempre constante. Por lo general, estas
restricciones no se dan de forma precisa, y el analista podría
ignorar su existencia. Hay varias formas de detectar la presencia
de la colinealidad múltiple. Dos de las más fáciles de entender
son:
• Los factores de inflación de la varianza. Entre mayor sea el factor de
inflación de la varianza, más marcada será la colinealidad múltiple.
Algunos autores han sugerido que si cualquiera de los factores de
inflación de la varianza excede 10, entonces la colinealidad múltiple
constituye un problema. Otros autores consideran este valor muy
dadivoso y sugieren que los factores de inflación de la varianza no
deberán exceder 4 o 5.
• Si la prueba F de la significación de la regresión es significativa, pero
las pruebas de los coeficientes de regresión individuales son no
significativas, entonces puede estar presente la colinealidad múltiple.
30. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 30
CONTINUA…
Se han propuesto varias medidas correctivas para resolver el
problema de la colinealidad múltiple. Se sugiere con frecuencia
aumentar los datos con nuevas observaciones diseñadas
específicamente para romper las dependencias lineales
aproximadas que existen normalmente. Sin embargo, en
ocasiones esto es imposible debido a razones económicas o por
las restricciones físicas que relacionan las xj. Otra posibilidad es
eliminar ciertas variables del modelo, pero este enfoque tiene la
desventaja de descartar la información contenida en las variables
eliminadas. Puesto que la colinealidad múltiple afecta
principalmente la estabilidad de los coeficientes de regresión, al
parecer estimar estos parámetros con algún método que sea
menos sensitivo a la colinealidad múltiple que los mínimos
cuadrados ordinarios, sería de ayuda. Una alternativa de los
mínimos cuadrados ordinarios es, la “regresión sobre ascensos
(cordilleras)”.
31. M.C. MIGUEL ÁNGEL MELCHOR
NAVARRO
EI2_RLM 31
CONTINUA…
En una situación como ésta, el interés se encuentra
en depurar las variables candidatas para obtener un
modelo de regresión que contenga el “mejor”
subconjunto de variables regresoras. Por otra parte,
para mantener los costos de mantenimiento del
modelo en un mínimo y para hacer que el modelo sea
fácil de usar, sería conveniente que el modelo usara el
menor número posible de variables regresoras. Por lo
general, se necesitará mucho criterio y experiencia
con el sistema que se ésta modelando para
seleccionar un conjunto apropiado de variables
regresoras para una ecuación de regresión.