Análisis de Regresión Múltiple

ANALISIS DE REGRESIÓN
MULTIPLE
Ing. William León Velásquez
ESTADISTICA
INDUSTRIAL
TEMA
07
UNMSM
FII
Ing William León Velásquez 1

Ing. William león Velásquez 2

INTRODUCCIÓN
El procedimiento de Regresión Lineal permite
utilizar más de una variable independiente y
permite llevar a cabo análisis de regresión
múltiple
• En el análisis de regresión
múltiple la ecuación ya no
define una recta en el plano,
sino un hiperplano en un
espacio multidimensional

En el caso de una variable dependiente y dos
independientes…
Se necesita tres ejes para poder representar el
diagrama de dispersión
INTRODUCCIÓN

Si en lugar de dos variables independientes
utilizáramos tres sería necesario un espacio de
cuatro dimensiones para poder construir el
diagrama de dispersión
POR
TANTO
Con más de dos variables independientes, la
representación gráfica de las relaciones
presentes en un modelo de regresión resulta
poco intuitiva, muy complicada y nada útil
INTRODUCCIÓN

Es más fácil y práctico partir de la ecuación del
modelo de regresión lineal:
Y = β0 + β1*X1 + β2*X2 +……..+ βk*Xk + ε
 La variable dependiente Y se interpreta como una
combinación lineal de un conjunto de K variables
independientes, cada una de las cuales va acompañada
de un coeficiente β, que indica el peso relativo de esa
variable en la ecuación
La ecuación incluye un componente aleatorio (los residuos
ε) que recoge todo lo que las variables independientes no
son capaces de explicar
INTRODUCCIÓN

DATOS PARA REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
Los datos para regresión lineal simple consisten en pares
de observaciones (xi, yi) de dos variables cuantitativas.
Ahora se tiene múltiples variables explicativas, por lo que
la notación será más elaborada.
1 x11 x12 ... x1p y1
2 x21 x22 ... x2p y2
:
N xn1 xn2 ... xnp yn
• Se llamará xij el valor de la j-
ésima variable del i-ésimo
sujeto o unidad (i=1,2,...,n ;
j=1,2,...,p).
• Los datos se pueden
organizar de la siguiente
forma en una base:
• Donde n es el número de casos o tamaño muestral y p
es el número de variables explicatorias.
• Esta es una forma de organizar la base de datos, no
importa el orden de las variables.

MODELO DE REGRESIÓN LINEAL
MÚLTIPLE:
El modelo estadístico de regresión lineal múltiple es:
para i= 1, 2, ...,n
La respuesta media es una función lineal de las variables
explicatorias:
Las desviaciones son independientes y normalmente distribuidas
con media 0 y desviación estándar :
Los parámetros del modelo son: µ y , los coeficiente de regresión
y la estimación de la variabilidad, es decir son en total (p + 2)
parámetros.
iippiii xxxy   22110
ppy xxx   22110
),0(~ 2
 Ni

MODELO DE REGRESIÓN LINEAL
MÚLTIPLE:
Si se supone que la respuesta media está
relacionada con los parámetros a través de la
ecuación:
Esto quiere decir:
Que se puede estimar la media de la variable
respuesta a través de la estimación de los
parámetros de regresión.
Si esta ecuación se ajusta a la realidad entonces
tenemos una forma de describir cómo la media
de la variable respuesta y varía con las variables
explicatorias .
ppy xxx   22110
pxxx ,,, 21 

ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE.
En regresión lineal simple se usa el método
de mínimos cuadrados para obtener
estimadores del intercepto y de la pendiente.
En regresión lineal múltiple el principio es el
mismo, pero se necesita estimar más
parámetros.
Se llamará a los estimadores
de los parámetros
pbbb ,,, 10 
p ,,, 10 

REGRESIÓN MÚLTIPLE
La respuesta estimada por el modelo para la i-ésima
observación es:
El i-ésimo residuo es la diferencia entre la respuesta
observada y la predicha:
residuo =
El i-ésimo residuo =
ippiii xbxbxbby  22110ˆ
estimadoˆobservado yy 
iii yye ˆ
 ippiiii xbxbxbbye  22110

El método mínimos cuadrados elige los valores de los
estimadores óptimos, es decir, que hacen la suma de
cuadrados de los residuos menor posible.
Es decir, los parámetros estimados minimizan la
diferencia entre la respuesta observada y la respuesta
estimada, lo que equivale a minimizar:
• La fórmula de los estimadores de mínimos cuadrados
para regresión múltiple se complica porque se necesita
notación matricial, sin embargo lo importante es que se
entienda el concepto y se deja a los software hacer
los cálculos.
(𝑦𝑖 − 𝑦𝑖 )2

El parámetro σ2 mide la variabilidad de la respuesta
alrededor de la ecuación de regresión en la población.
Como en regresión lineal simple estimamos σ2 como
el promedio de los residuos al cuadrado:
1
ˆ
2
22

 
pn
e
s i
xy  =
(𝑦 𝑖 − 𝑦 𝑖 )2
𝑛−𝑝−1

La cantidad (n-p-1) son los grados de libertad
asociados con la estimación de la variabilidad: S2
y/x
S2
y/x es entonces el estimador de la variabilidad de
la respuesta y, tomando en cuenta las variables
explicatorias xj.
Lo distinguimos de que es
la variabilidad de y sin tomar en cuenta las variables
explicativas xj.
𝑆2
𝑦=
(𝑦 𝑖 − 𝑦 𝑖 )2
𝑛−𝑝−1

Se ha realizado un estudio a seis obreros
para poder estimar la eficiencia de cada uno
de ellos.
Para ello se ha medido su Ratio de
Puntualidad X1, y su ratio de Habilidad
manual X2
Luego a los mismos trabajadores se le ha
sometido diferentes pruebas para obtener
su nivel de eficiencia.
Los datos obtenidos se muestran a
continuación.
EJEMPLO 1
Eficiencia Y 66.0 43.0 36.0 23.0 22.0 14.0 12.0 7.6
Puntualidad X1 38 41 34 35 31 34 29 32
Habilidad X2 47.5 21.3 36.5 18.0 29.5 14.2 21.0 10.0
• Encuentre un modelo que le permita estimar la eficiencia, si se
conoce de antemano su puntualidad y su habilidad

El gráfico para los datos del ejemplo esta dado en la
siguiente figura.
Sólo los modelos de regresión múltiple con dos variables
independientes pueden ser graficados.
EJEMPLO 1

MÉTODOS DE MÍNIMOS CUADRADOS
El método de mínimos cuadrados es utilizado para
estimar los parámetros en el modelo de regresión lineal
múltiple
DESARROLLO DEL MODELO DE

Suponga que se tienen n >k observaciones.
Se asume que E(ε) =0 y V(ε) =σ2 y que los errores
son no correlacionados.
El método de mínimos cuadrados minimiza la suma
de cuadrados
con respecto a cada uno de los parámetros del
modelo β0 β1 …..βk

Luego las ecuaciones normales son:

En esta notación el modelo se expresa como
con
Y= X β + ε

donde
Y es el vector de observaciones
X es una matriz de n x p niveles de la variable
regresora
β es un vector p x 1 de coeficientes de regresión
ε es el vector aleatorio error de orden p x 1 .
Es importante recordar que p=k+1 ecuaciones.
Para obtener la solución es conveniente utilizar
notación matricial.
Y= X β + ε

La suma de cuadrados del error es dada por
y de manera análoga a la presentada en la
notación matricial para regresión simple se
obtiene que las ecuaciones normales son

la cual es similar a las obtenidas anteriormente
Para solucionar las ecuaciones normales se requiere que
exista la inversa de la matriz .
Esta existe siempre que las variables regresoras sean
linealmente independientes. Así, la solución de mínimos
cuadrados de vector parámetrico β es

Para los datos del ejemplo:
EJEMPLO 1
Eficiencia Y 66.0 43.0 36.0 23.0 22.0 14.0 12.0 7.6
Puntualidad X1 38 41 34 35 31 34 29 32
Habilidad X2 47.5 21.3 36.5 18.0 29.5 14.2 21.0 10.0
el vector Y y la matriz X son respectivamente

La matriz X´X es
EJEMPLO 1

Y el vector X´Y es
EJEMPLO 1

El estimador de mínimos cuadrados de β es
EJEMPLO 1

Luego el modelo ajustado por mínimos cuadrados es
EJEMPLO 1

El director de recursos humanos de Ventas S.A. está
entrevistando y seleccionando nuevos vendedores.
El ha diseñado una prueba que le ayudará a realizar la
mejor selección posible para la fuerza de ventas.
EJEMPLO 2
• Con el fin de probar la validez de
la prueba para predecir las
ventas semanales, él eligió
vendedores experimentados y
aplicó la prueba a cada uno.
• La calificación de cada vendedor
fue entonces pareada con sus
ventas semanales.

Tabla de datos
Calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Vendedor Calificación
Ventas
semanales
Calificación
histórica
Carlos 4 5,000 2
Manuel 7 12,000 5
María 3 4,000 1
Roberto 6 8,000 4
Carmen 10 11,000 6
EJEMPLO 2

La ecuación de regresión simple que tiene una sola variable
independiente tiene la forma general de y' = a + bx.
En el caso de la regresión múltiple la ecuación tiene varias
variables independientes:
y' = b0 + b1x1 + b2x2 + ... + bkxk
ANÁLISIS DE REGRESIÓN MÚLTIPLE
donde:
X1, X2, ... Xk son las variables independientes.
b0 es el punto donde la línea de regresión cruza el
eje de las Y.
b1, b2, ... bk son los coeficientes de regresión.

Para encontrar las valores de los coeficientes de la
ecuación de regresión ( b0, b1, b2, ... bk ) se utiliza el método
de mínimos cuadrados que consiste en resolver el siguiente
sistema de ecuaciones simultaneas.

Σy = b0n + b1Σx1 + b2Σx2 + ... + bkΣxk
Σx1y = b0Σx1 + b1Σx1x1 + b2Σx1x2 + ... + bkΣx1xk
Σx2x = b0Σx2 + b1Σx2x1 + b2Σx2x2 + ... + bkΣx2xk
... ... ... ...
Σxky = b0Σxk + b1Σxkx1 + b2Σxk x2 + ... + bkΣxkxk
Las ventas semanales se representan con y,
La calificación de la prueba con x1, y
Las calificaciones histórica con x2.

Calificaciones y ventas semanales de 5 vendedores de
Ventas S.A.
Vendedor Y X1 X2 X1
2 X2
2 X1Y X2Y X1X2
Carlos 5 4 2 16 4 20 10 8
Manuel 12 7 5 49 25 84 60 35
María 4 3 1 9 1 12 4 3
Roberto 8 6 4 36 16 48 32 24
Carmen 11 10 6 100 36 110 66 60
Σ 40 30 18 210 82 274 172 130
Con estos datos completamos la siguiente tabla:
EJEMPLO 2

Sustituir las sumatorias en las fórmulas de las
ecuaciones:
• El sistema de ecuaciones de la siguiente forma:
40 = b05 + b130 + b2 18
274 = b030 + b1210 + b2 130
172 = b018 + b1130 + b2 82
EJEMPLO 2

En base al sistema de ecuaciones, se procede a
resolverlo con el método de nuestra preferencia.
ESTIMACIÓN DE LOS COEFICIENTES DE
REGRESIÓN
MÉTODO DE GAUSS-JORDAN
El método de Gauss-Jordan consiste
en convertir la matriz de
coeficientes en una matriz
identidad, donde todos los
elementos son nulos salvo los de la
diagonal principal que son 1.

En la columna de los términos independientes
quedarán los valores de los coeficientes de la
ecuación de regresión.
Estimación de los coeficientes de
regresión. Método de Gauss-Jordan

1. Expresamos el sistema de ecuaciones como una matriz
aumentada:
Estimación de los coeficientes
de regresión
Método de Gauss-Jordan
EJEMPLO 2
40 = b05 + b130 + b2 18
274 = b030 + b1210 + b2 130
172 = b018 + b1130 + b2 82

2. Para convertir el elemento (1,1) en 1, se divide el primer
renglón entre 5.
Para convertir el elemento (2,1) en cero, se multiplica el
renglón 1 por (-30) y se suma al renglón 2.
Estimación de los coeficientes
de regresión
EJEMPLO 2

3. Para convertir el elemento (2,2) en 1, se divide el segundo
renglón entre 30.
Estimación de los
coeficientes de regresión
EJEMPLO 2

4. Para convertir el elemento (3,3) en 1, se divide el tercer
renglón entre 32/30.
renglón 3 por (4/5) y se suma al renglón 1.
renglón 3 por (-22/30) y se suma al renglón 2.
Estimación de los
EJEMPLO 2

Los valores que están en la columna de la derecha
corresponden a los valores de los coeficientes de la
ecuación de regresión, de tal forma que:
b0 = 560/160 = 3.5
b1 = -936/960 = -0.975
b2 = 92/32 = 2.875
La ecuación de regresión queda:
y' = 3.5 - 0.975x1 + 2.875x2
Estimación de los
EJEMPLO 2

y' = 3.5 - .975X1 + 2.875X2
Vendedor y x1 x2 y' y - y' ( y - y’ )2 y - 𝑌 ( y - 𝑌)2
Carlos 5 4 2 5.35 -.35 .1225 - 3 9
Manuel 12 7 5 11.05 .95 .9025 4 16
María 4 3 1 3.45 .55 .3025 - 4 16
Roberto 8 6 4 9.15 -1.15 1.3225 0 0
Carmen 11 10 6 11 0 0 3 9
Σ 2.65 50
Del ejemplo de los cinco vendedores de Ventas S.A.
Calcular la varianza residual
Calcular la Varianza total del modelo
Calcular la varianza explicada
Varianzas del modeloEJEMPLO 2

En el ejemplo de los cinco vendedores de Ventas S.A.
Calcular la varianza residual del modelo
𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
De la tabla anterior se obtiene que la varianza residual es 2.65
EJEMPLO 2 Varianzas del modelo

Calcular la varianza total del modelo
De la tabla anterior se obtiene que la varianza total es 50
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2

Calcular la varianza explicada del modelo
De la relación anterior se tiene:
SC Mod = 50 - 2.65 = 47.35
Por lo tanto la varianza explicada del modelo es 47.35
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
SCT = SCMod + SCRes
Entonces SCMod = SCT - CCRes
𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
= -

Los mismos tres coeficientes utilizados en el análisis de
correlación simple para describir la relación entre la
variable dependiente una variable independiente son
usados en el análisis de correlación múltiple.
Estos coeficientes son
El coeficiente de correlación múltiple,
El coeficiente de determinación múltiple, y
El coeficiente de no determinación múltiple
ANÁLISIS DE CORRELACIÓN MÚLTIPLE

El coeficiente de correlación múltiple es una medida
de la fuerza de la asociación entre la variable
dependiente y dos o mas variables independientes.
El coeficiente de correlación múltiple solo puede
tener valores entre 0 y + 1.00 inclusive y se
representa con la letra R.
Un coeficiente cercano a + 1.00 indica una muy
fuerte correlación entre la variable dependiente y las
variables independientes.
Un coeficiente cercano a 0 revela una débil
correlación.

El coeficiente de correlación múltiple se calcula de la
siguiente manera:
𝑟 = 1 −
𝑦 − 𝑦 2
𝑦 − 𝑦 2 𝑟 = 1 −
𝑉𝑟𝑒𝑠
𝑉𝑇𝑜𝑡

y' = 3.5 - .975X1 + 2.875X2
Vendedor y x1 x2 y' y - y' ( y - y’ )2 y - 𝑌 ( y - 𝑌)2
Carlos 5 4 2 5.35 -.35 .1225 - 3 9
Manuel 12 7 5 11.05 .95 .9025 4 16
María 4 3 1 3.45 .55 .3025 - 4 16
Roberto 8 6 4 9.15 -1.15 1.3225 0 0
Carmen 11 10 6 11 0 0 3 9
Σ 2.65 50
Calcular el coeficiente de correlación múltiple
Análisis de correlación
múltipleEJEMPLO 2

Se calcula el coeficiente de correlación múltiple.
Interpretación
Podemos concluir que hay una fuerte correlación entre
las ventas y las dos variables independientes, las
calificaciones de la prueba y las calificaciones
archivadas.
Análisis de correlación
múltiple.
𝑟 = 1 −
𝑦 − 𝑦 2
𝑦 − 𝑦 2 𝑟 = 1 −
2.65
50
= 0.973
EJEMPLO 2
𝑟 = 1 −
𝑉𝑟𝑒𝑠
𝑉𝑇𝑜𝑡

COEFICIENTE DE DETERMINACIÓN
(r2)
En regresión lineal simple se vio que el cuadrado
del coeficiente de correlación era
y se podía interpretar como la proporción de la
variabilidad de y que podía ser explicada por x.
Un coeficiente similar se calcula en regresión
múltiple:
Total
Reg2
SC
SC
r 
 



 2
2
2
)ˆ(
Total
Mod
yy
yy
SC
SC
R
i

(r2)
Donde R2 es la proporción de la variabilidad de la
variable respuesta y que es explicada por las
variables explicatorias en la regresión lineal múltiple.
A menudo se multiplica R2 por 100 y se expresa como
porcentaje. La raíz cuadrada de R2 es el coeficiente
de correlación múltiple, es la correlación entre las
observaciones yi y los valores predichos .
 



 2
2
2
)ˆ(
Total
Mod
yy
yy
SC
SC
R
i
iyˆ

Es la proporción de la variación total en la variable
dependiente ( Y ) que es explicada por la serie de variables
independientes.
El coeficiente de determinación múltiple es una medida mas
significativa y precisa para medir la asociación la variable
dependiente y las variables independientes.
Se simboliza con r². Lógicamente, el coeficiente de no
determinación múltiple mide la proporción de la variación en
la variable dependiente que no es explicada por las
variables independientes.
COEFICIENTE DE DETERMINACION
MÚLTIPLE

Calcular el coeficiente de determinación múltiple.
Coeficiente de
determinación múltiple
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2 𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
= +
𝑆𝐶𝑅𝑒𝑠
𝑦𝑖 − 𝑦𝑖
2
𝑆𝐶𝑇𝑜𝑡
𝑦 − 𝑦 2
EJEMPLO 2
2.65 50
= 𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2
- 𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
= 50 - 2.65 = 47.35

Primero se calcula el coeficiente de correlación
Interpretación:
Un 94.7% de la variación de las ventas semanales se
explican por la variación de las calificaciones de la
prueba y la variación de las calificaciones archivadas.
Coeficiente de
determinación múltiple.
𝑟2 =
𝑦 − 𝑦 2
𝑦 − 𝑦 2
𝑟2 =
47.35
50
= 0.947
EJEMPLO 2
𝑟2
=
𝑆𝐶 𝑀𝑜𝑑
𝑆𝐶 𝑇𝑜𝑡

(R2) AJUSTADO
Cuando se evalúa un modelo de regresión lineal
múltiple nos interesa decidir si una variable dada
mejora la capacidad para predecir la respuesta
comparando el R2 de un modelo que contiene la
variable, con el R2 del modelo sin la variable.
El modelo con mejor R2 debería ser el mejor
modelo.
Pero se debe ser cuidadoso cuando se compara los
coeficientes de determinación de dos modelos
diferentes.
La inclusión de una variable adicional en el
modelo nunca provoca la reducción de R2.

COEFICIENTE DE
DETERMINACIÓN (R2) AJUSTADO
Para manejar este problema, se puede utilizar el
r2 ajustado, que ajusta por el número de
variables que hay en el modelo.
El r2 ajustado es:
𝑟2
𝑎 = 1 −
𝑛 − 1
𝑛 − 𝑝 − 1
(1 − 𝑟2
)
𝑟2
𝑎 = 1 −
5−1
5−3
(1 − 0947)=0.894
n= 5
p= 2
r2= 0.947

La tabla ANOVA es similar a la de regresión simple.
Los grados de libertad del modelo son ahora p en
vez de 1, lo que refleja que ahora tenemos p
variables explicatorias en vez de sólo una.
Las sumas de cuadrados representan las fuentes
de variación.
Recuerde que la suma de cuadrados total es igual a
la suma de los cuadrados del modelo de regresión
más la suma de los cuadrados del residuo:
SCT = SCMod + SCRes
TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE

TABLA DE ANOVA PARA
La tabla de análisis de varianza para la
regresión múltiple es la siguiente:
Fuente de
variación
GL
Grados de
libertad
SC
Suma de
Cuadrados
CM
Cuadrados
Medios
Modelo p
Residuo
n-p-1
Total
n-1
𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2
𝑆𝐶𝑀𝑜𝑑
𝑝
𝑆𝐶𝑀𝑜𝑑
𝑛 − 𝑝 − 1

TABLA DE ANOVA PARA
Con los datos de la tabla
EJEMPLO 2
Fuente d var SC GL CM F
Modelo 47.3500 2 23.675 17.8679245
Residuo 2.6500 2 1.325
Total 50 4

TABLA DE ANOVA PARA
Recuerde que en regresión lineal simple la prueba
F de la tabla ANOVA es equivalente a la prueba
bilateral para la hipótesis de que la pendiente es
cero.
Ahora, la prueba F de regresión múltiple prueba la
hipótesis de que todos los coeficientes de
regresión (con excepción del intercepto) son cero,
hipótesis que no es de mucho interés.
En el problema de regresión múltiple interesan
más las hipótesis individuales para cada
parámetro asociado a cada variable explicitaría.

TABLA DE ANOVA PARA
El estimador de la varianza σ2 de nuestro
modelo está dado por la media cuadrática
residual
𝑀𝐶𝑅 𝑒𝑠 =
𝑆𝐶𝑅 𝑒𝑠
(𝑛 − 𝑝 − 1)
𝑀𝐶𝑅 𝑒𝑠 =
2.65
(5−2−1)
=1.325

TABLA DE ANOVA PARA
Estadístico F
La razón entre el cuadrado medio del modelo
y el residuo
𝐹 =
𝑀𝐶𝑀 𝑜𝑑
𝑀𝐶𝑅 𝑒𝑠
𝐹 =
23.675
1.325
=17.867
permite estimar si la relación entre las variables
explicatorias y la respuesta es significativa.

INFERENCIA AL MODELO DE
REGRESION
1.- Formulación de las Hipótesis:
ceroesnounmenosal:
0:
1
210
j
p
H
H

  
La hipótesis nula dice que ninguna de las variables
explicatorias son predictores de la variable
respuesta.
La hipótesis alternativa dice que al menos una de
las variables explicatorias está linealmente
relacionada con la respuesta

REGRESION
2.- Calculo del estadístico de la prueba. Se obtiene de
la tabla ANOVA
Con los datos del ejemplo 2 se tiene
CM F
23.675 17.8679245
1.325

REGRESION
3.- Calculo del valor critico
El estadístico F tiene distribución F de Fisher con
(p, n-p-1) grados de libertad.
Los grados de libertad están asociados a los
grados de libertad del modelo y del residuo en la
tabla ANOVA.
Para los datos del ejemplo 2
F2,2,0.95 =19

REGRESION
4.- Conclusión:
Como el F de la prueba (17.86) es menor que el F
critico (19) no se rechaza la Ho
No existe suficiente evidencia a un nivel de
significancia del 5% que al menos uno de los
coeficiente es diferente de cero

EJEMPLO 3
Como parte de un estudio para investigar la
relación entre la tensión nerviosa (estrés) y otras
variables (tamaño de la empresa, número de años
en la posición actual, salario anual en miles de
dólares, edad en años),
• Se reunieron los
siguientes datos a partir
de una muestra aleatoria
simple de quince
ejecutivos de una
empresa.

COMO SE INTERPRETA LOS
RESULTADOS
a) Escriba la recta de regresión múltiple estimada a
partir de estos datos. Interprete los coeficientes de
regresión.
b) ¿Cuál es el valor del coeficiente de determinación
que usaría para describir la bondad de ajuste del
modelo? Interprételo en términos del problema de
regresión
c) Examine los tests t de los coeficientes de regresión.
¿Le parece que es este un modelo adecuado para
describir el estrés o propone otro?
d) Qué supuestos se deben cumplir para la utilización de
este modelo.
e) Dé un estimador de la desviación estándar
poblacional. ¿A qué se refiere esta medida de
variabilidad?

RESULTADOS
Solución 1 (a):
La recta de regresión es:
Estrés= −126,505+0,176Tamaño−1,563Años+1,575Salario+1,629Edad
Interpretación de los coeficientes de regresión:
Intercepto=-126,505 Si el tamaño de la empresa, el número
de años, el salario y la edad fueran cero, es decir, si todas las
variables explicativas fueran cero, el puntaje de estrés del
ejecutivo sería menos 126,505
EJEMPLO 3

RESULTADOS
Pendiente de Tamaño: Por cada unidad que aumenta el
tamaño de la empresa, el estrés del ejecutivo aumenta en
0,176 unidades.
Pendiente de Años: Por cada año en posición actual, el estrés
del ejecutivo disminuye en 1,563 puntos.
Pendiente de Salario: Por cada mil dólares que aumenta el
salario, el estrés del ejecutivo aumenta en 1,575 puntos.
Pendiente de la edad: por cada año de edad, el estrés del
ejecutivo aumenta en 1,629 puntos.
EJEMPLO 3

RESULTADOS
Solución 1 (b):
El coeficiente de determinación que se usa en regresión
lineal múltiple es el R2 ajustado, que en este caso es de
0,779.
Este coeficiente nos indica que las variables usadas en el
modelo explican en un 77,9% la variabilidad total del estrés.
EJEMPLO 3

COMO SE INTERPRETA
LOS RESULTADOS
Solución 1 (c):
La prueba t de los coeficientes de regresión sirven para probar la
hipótesis:
Ho:βj = 0
H1: βj ≠ 0 En este problema tenemos 4 pruebas de esta forma
(j=1,2,3,4).
EJEMPLO 3

COMO SE INTERPRETA
LOS RESULTADOS
Al examinar los valores p correspondientes a cada uno de
las pruebas nos damos cuenta que casi todas las pendientes
son significativas (distintas de cero), salvo la de la variable
Años en posición actual, cuyo valor p es 0,455, por lo tanto
no se rechaza la hipótesis nula, y concluimos que la
pendiente es igual a cero.
Por lo tanto este no sería un modelo adecuado para
describir el estrés de los ejecutivos, deberíamos ajustar otro
modelo sin la variable "Años en posición actual".
EJEMPLO 3

COMO SE INTERPRETA
LOS RESULTADOS
Solución 1 (d):
Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relación entre la variable respuesta y
las explicativas debe ser lineal
2) Nocolinealidad: las variables explicativas no deben
estar correlacionadas entre sí
3) Normalidad de los residuos
4) Homocedasticidad de los residuos (varianza
constante).
EJEMPLO 3

RESULTADOS
Solución 1 (e):
El estimador de la desviación estándar poblacional es
24,031 o la raíz de la media cuadrática residual: raíz de
577,493= 24,03
Este es un estimador de la variabilidad del estrés
considerando las variables explicativas del modelo, y lo
podemos contrastar con el estimador de la variabilidad del
estrés de 51,164 que es la desviación estándar del estrés
sin tomar en cuenta estas variables.
EJEMPLO 3

COMO SE INTERPRETA
LOS RESULTADOS
Este es un estimador de la variabilidad del estrés
considerando las variables explicativas del modelo, y lo
podemos contrastar con el estimador de la variabilidad
del estrés de 51,164 que es la desviación estándar del
estrés sin tomar en cuenta estas variables.
EJEMPLO 3

El propietario de la cadena de cines CINE
PLANET desea estimar el ingreso semanal
neto en función de los gastos de
publicidad.
Los datos históricos de una muestra de 8
semanas son los siguientes:
EJEMPLO 4
Ingresos Brutos
semanales (en miles
de dólares)
Y
96 90 95 92 95 94 94 94
Anuncios en TV (en
miles de dólares)
x1
5 2 4 2.5 3 3.5 2.5 3
Anuncios en periódicos
(en miles de dólares) x2
1.5 2 1.5 2.5 3.3 2.3 4.2 2.5

Planteando
matricialmente los datos
1894
94
94
95
92
95
90
96
x
y



























1 5.0 1.5
1 2.0 2.0
1 4.0 1.5
1 2.5 2.5
1 3.0 3.3
1 3.5 2.3
1 2.5 4.2
1 3.0 2.5
X
132
1
0
x
b
b
b











8x3
EJEMPLO 4:

Determinando la
ecuación de regresión
22110
ˆ xbxbby 
El modelo es:
yXXX  1
)(
 Entonces primero resolvemos las matrices para
encontrar los parámetros:

0,24910,1313-1,0353
0,13130,2239-1,0389
-1,0353-1,03895,9989
























2
1
0
3010.1
2902.2
2301.83
1856
2401
750
b
b
b
1
)( 
XX yX
EJEMPLO 4:

Finalmente la ecuación es:
21
3010.12902.22301.83ˆ XXy 
EJEMPLO 4:

Interpretación
• Interpretemos los parámetros estimados de las variables
independientes:
− Para b1: Cuando los gastos de anunciar en televisión
varían una unidad y los gastos de anunciar en
periódicos se mantienen constantes, los ingresos
brutos semanales se incrementarán en 2.2902 miles
de dólares.
− Para b2: Cuando los gastos de anunciar en televisión
se mantienen constantes y los gastos de anunciar en
periódicos varían una unidad, los ingresos brutos
semanales se incrementarán en 1.3010 miles de
dólares
EJEMPLO 4:

• Para lo cual usaremos la fórmula abreviada
para dos variables independientes la cual se
deriva de la forma general presentada en las
fórmulas a utilizar. La fórmula es la siguiente:
Hallando el error
estándar de estimación
3
22110
2
. 21



   
n
yXbyXbyby
S XXy
EJEMPLO 4:

64.021. XXyS
Hallando el error
estándar de estimación
Reemplazando los valores previamente encontrados
y tomando el denominador al valor 3 por ser el
número de parámetros q intervienen en la ecuación:
Interpretación: La distancia promedio de los valores
observados alrededor de la ecuación de regresión es de 0.64.
Es decir la dispersión de los valores observados es 0.64.
EJEMPLO 4:

Hallando el Coeficiente
de Determinación
919.0
959.0
2


r
r
Elevamos al cuadrado el coeficiente de correlación
y encontraremos el coeficiente de determinación:
Interpretación: Aproximadamente el 91.9% de los
cambios producidos en los ingresos brutos
semanales son explicados por los cambios
producidos en los gastos de publicidad (en
televisión y periódicos)
919.0
959.0
2


r
r
EJEMPLO 4:

Coeficiente de
determinación corregido
R2
Y.12...p= -----------SCE
Coeficiente de
Determinación
Múltiple
SCTO
R2
Corr.= 1- ((1- R2
Y.12.. k ) ----------n-1
n-k-1
Representa la porción
de la variación en Y
que se puede explicar
por Xi
Necesario cuando se
comparan 2 o +
modelos de regresión
que predicen Y, pero
con diferente Nº de Xi
EJEMPLO 4:

ANOVA
0:1 iunmenosloPorH 
0...: 3210  kH 
En este caso p = 0.002 < 0.05, por lo que se rechaza Ho,
lo que ratifica la relación entre las variables.
EJEMPLO 4:

La Facultad de una Universidad
quiere entender los factores de
aprendizaje de los alumnos que
cursan la asignatura de Gestión de
Proyectos.
Para lo cual se escoge al azar una
muestra de 7 alumnos y ellos
registran notas promedios en las
asignaturas de Contabilidad
Básica, Doctrina Contable y
Macroeconomía como se
muestran en el siguiente cuadro.
EJEMPLO 5

Alumno
Gestión de
Proyectos
Contabilidad
Básica
Doctrina
Contable
Macroeconomía
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
Determinar la dependencia que exista de aprendizaje reflejada en las
notas de la asignatura de Gestión de Proyectos, conociendo las notas
de las asignaturas Contabilidad Básica, Doctrina Contable II y
Macroeconomía, con un nivel de significancia del 5%
EJEMPLO 5

Calculamos los coeficientes de regresión
utilizando las fórmulas de las ecuaciones o
mediante un programa
EJEMPLO 5

Por lo tanto podemos construir la ecuación de
regresión que buscamos:
Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3
En el análisis de regresión múltiple la constante es
el valor de la ecuación de regresión de la variable
dependiente Y dado que todas las variables
independientes sean iguales a cero.
EJEMPLO 5

En los resultados del programas se llama error
típico y para explicar la relación del aprendizaje de
Métodos Cuantitativos que se viene desarrollando
es de 0.529
EJEMPLO 5

Calculando el coeficiente de Determinación en
el ejemplo (con variable independiente).
12.018 = 0.934
12.857
r = ……; Interprete
𝑟2
=
𝑆𝐶𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
𝑆𝐶 𝑇𝑜𝑡𝑎𝑙
EJEMPLO 5

Trabajando con el ejemplo del curso de Gestión de
Proyectos, veremos que aplicando SPSS, nos
saldría como resultado:
¿A que conclusión podemos llegar al 3% de error?
EJEMPLO 5

FIN
wjleonv@yahoo.com

Análisis de Regresión Múltiple

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Análisis de Regresión Múltiple

Similar a Análisis de Regresión Múltiple (20)

Más de Universidad Nacional Mayor de San Marcos

Más de Universidad Nacional Mayor de San Marcos (15)

Último

Último (20)

Análisis de Regresión Múltiple