1. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
230
REGRESIÓN LINEAL MÚLTIPLE:
1.1. INTRODUCCIÓN:
En los trabajos de Investigación es necesario emplear técnicas
estadísticas que permitan interpretar los resultados y de estas
forma poder llegar a conclusiones valederas que permitan al
investigador aceptar o rechazar Hipótesis planteadas
inicialmente e inclusive formular nuevas hipótesis, una de esas
técnicas de gran utilidad es el análisis de regresión que
permite estudiar la asociación entre dos o más variables.
REGRESIÓN: Consiste en determinar una relación funcional
entre las variables con el fin de que se pueda predecir el valor
de una variable (dependiente) en base a otra(s) variables
(independientes).
CORRELACIÓN: Consiste en determinar la variación conjunta
de las variables, su grado de relación y su sentido (positivo o
negativo).
Los modelos para un análisis de regresión múltiple son similares
a los de regresión lineal simple, excepto que contienen más
términos y pueden servir para proponer relaciones más
complejas que una línea recta en lugar de usar un modelo de
línea recta E(y) =β0 + β1 X , para modelar el componente
determinístico podríamos emplear el modelo cuadrático E(y)
=β0 + β1X + β2X2
También conocido como modelo de segundo
orden se representa gráficamente como una parábola en
contraste con los modelos de línea recta o modelos de primer
orden.
Si por añadidura pensamos incluir en el modelo otra variable
una gráfica de E(y) como función de X1, X2 describe una
superficie de respuesta en el plano (X1,X2) y el modelo de
primer orden es: E(y) =β0 + β1 X1 + β1X2 (describe una
superficie plana) sin embargo en la mayor parte de las
aplicaciones de la vida real esperaríamos una curvatura en la
superficie de respuesta y utilizaríamos un modelo de tercer
orden: 3
25
2
1421322110E(y) XXXXXX para modelar
la relación.
Estos modelos e denominan modelos lineales generales porque
E(y) es función lineal de los PARÁMETROS desconocidos
β0, β1, β2...
El modelo
X
yE 1
0)(
no es un modelo lineal porque E(y)
no es función lineal de los parámetros β0 + β1
2. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
231
Podemos incluir variables cuantitativas y cualitativas en el modelo, éstas
variables son denominadas ficticias, dicotomas o de índice. Ejemplo:
Si E(y): Tiempo medio para ejecutar un trabajo
X : Día de la semana en que se ejecuta en trabajo
X1= 1 Si la observación se hace en domingo
0 Si no es así.
X2= 1 Si la observación se hace en lunes
0 Si no es así.
X3= 1 Si la observación se hace en martes
0 Si no es así.
X4= 1 Si la observación se hace en miércoles
0 Si no es así.
X5= 1 Si la observación se hace en jueves
0 Si no es así.
X6= 1 Si la observación se hace en viernes
0 Si no es así.
Podemos escribir el modelo:
6655443322110E(y) XXXXXX
Las variables ficticias introducen al parámetro β apropiado ( de que
puede ser positivo o negativo) dependiendo del día de la semana. Así:
En domingo X1= 1, X2 = X3, ...., = X6 = 0 y el valor medio de Y es:
E(y) =β0 + β1(1)
E(y) =β0 + β1
En lunes E(y) =β0 + β2
En martes E(y) =β0 + β3
En miércoles E(y) =β0 + β4
En jueves E(y) =β0 + β5
En viernes E(y) =β0 + β6
En sábado se asigna 0 a todas las variables ficticias y el valor medio de Y
es: E(y) =β0
Se recomienda seleccionar el modelo de regresión apropiado para una
situación en particular. Ningún método estadístico puede compensar una
mala selección del modelo. Propondremos un análisis más profundo al
respecto en una próxima sesión. En el presente su pondremos que se ha
seleccionado un modelo razonable para la situación y nos
concentraremos en el procedimiento de ajuste del modelo a un conjunto
de datos y en los métodos asociados de inferencia estadística.
Después de haber seleccionado una porción determinística de un modelo
de regresión, esto es para E(y) agregamos un componente ε a fin de
compensar el error aleatorio, de modo que se tiene:
3. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
232
Y = E(y) + ε
Componente
aleatorio
Componente
Deterministico
El componente aleatorio ε debe obedecer los supuestos del modelo de
regresión lineal:
Tenga distribución normal con media 0 y varianza σ2
. Esto implica
que la media de Y equivale al componente deterministico
kk XX ...E(y) 110
Para todos los valores de las variables independientes X1, X2,
X3,..., Xk la varianza de ε es constante.
La distribución de probabilidad de ε es normal.
Los errores aleatorios asociados a cualquier par de Y son
independientes (en sentido probabilístico).
1.2. DESCRIPCIÓN DE LOS DATOS Y DEL MODELO:
Los datos consisten de n observaciones sobre una variable independiente
o respuesta Y y de K variables independientes:
X1, X2, X3, ..., Xk. Si kn y Xij es la ij-ésima observación o nivel de la
variable Xj , donde i=1,2,3,...,n; j=1,2,3,..,k.
Las observaciones usualmente son presentadas de la siguiente
manera:
Observaciones Y X1 X2 X3 ... Xk
1 Y1 X11 X12 X13 ... X1K
2 Y2 X21 X22 X23 ... X2K
3 Y3 X31 X32 X33 ... X3K
. . . . . ... .
. . . . . ... .
. . . . . ... .
n Yn Xn1 Xn2 Xn3 … Xnk
4. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
233
Las relaciones entre la variable Y con las variables X1, X2, X3, ..., Xk,
donde cada observación (Xi1 Xi2 Xi3 ... Xik , Y) satisface el
modelo lineal general de regresión siguiente:
iikkiii XXXX ...Y 3322110i
Cada modelo describe un hiperplano en el espacio k-dimensional
formado por {Xi }
Donde:
Yi: Variable dependiente ( respuesta)
X1, X2, X3, ..., Xk: variables independientes. Podrían en realidad
representar los cuadrados cubos productos
cruzados u otras funciones (sen, log. Etc.)
de las variables de predicción. Lo esencial
es que se pueden medir sin error cuando se
observe un valor de Y y que no intervengan
parámetros desconocidos.
βj: Parámetros de la regresión .
constantes desconocidas. Expresan el
incremento en la variable respuesta Y que
se corresponde a una unidad de
incremento en Xj cuando otras variables Xi
ji se mantienen constantes.
εi: Vector aleatorio de errores supuestos.
Los coeficientes βj : 0,k son estimados por el método de mínimos
cuadrados, así:
El modelo:
iikkiii XXXX ...Y 3322110i
Despejando εi y elevando al cuadrado ambos miembros:
(εi)2
=
2
3322110i ))...((Y ikkiii XXXX
5. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
234
Aplicando el operador de sumatoria en ambos miembros de la igualdad:
2
3322110i
11
2
))...((Y ikkiii
n
i
n
i
i XXXX
Derivando parcialmente con respecto a βj e igualando a cero buscamos
minimizar la suma de los cuadrados del error aleatorio:
SSEYi
n
i
n
i
i
2
i
11
2
)ˆ(Y
Obteniéndose un sistema de ecuaciones lineales simultaneas llamadas
ecuaciones normales de mínimos cuadrados del modelo:
0
0
SSE
0
1
SSE
0
2
SSE
.
.
.
0
k
SSE
Examinemos la primera ecuación:
Si tomamos la primera derivada parcial de SSE con respecto a β0
obtenemos:
)1))(...((Y2 3322110i
10
ikkiii
n
i
XXXX
SSE
6. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
235
Introduciendo el operador SUMATORIA e Igualando a cero, queda:
0)...(Y 3322110i ikkiii XXXXn
Osea: (despejando e intercambiado miembros):
iikkiii YXXXXn ...3322110
Esta es una ecuación lineal en los β parámetros. Las ecuaciones de
mínimos cuadrados restantes todas lineales en los β parámetros son:
iiikikiiii YXXXXXXX 11212
2
1110 ...
iiikikiiii YXXXXXXX 22
2
2212120 ...
.
.
.
iikikkiikiikik YXXXXXXX 2
22110 ...
Luego el sistema es:
iikkiii YXXXXn ...3322110
iiikikiiii YXXXXXXX 11212
2
1110 ...
iiikikiiii YXXXXXXX 22
2
2212120 ...
.
.
.
iikikkiikiikik YXXXXXXX 2
22110 ...
El sistema tiene p = k +1 ecuaciones e incógnitas
7. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
236
Como puede verse, escribir k+1 ecuaciones lineales de mínimos
cuadrados ya cuesta trabajo, resolverlos simultáneamente a mano es
todavía más difícil. Una forma fácil de expresar las ecuaciones y
resolverlos es mediante el álgebra de Matrices y obtener fórmulas
para las estimaciones de los coeficientes de regresión lineal de mínimos
cuadrados, SSE, estadísticas de prueba, intervalos de confianza y de
predicción.
1.2.1. ECUACIONES DE MINIMOS CUADRADOS Y SU
RESOLUCION: ENFOQUE MATRICIAL.
Es preciso acomodar los datos en matrices siguiendo un patrón
específico:
Supondremos que el modelo es:
Y = βo + β1X1 + β2X2 + β3 X3 +…+βk Xk + ε
Donde:
X1 X2 X3 … Xk: Variables de predicción
ε : error aleatorio
p = k +1: número de parámetros del modelo
k: Número de variables de predicción
Supongamos que se tiene una muestra de tamaño n ( kn ) que se
denota así:
Valor Variables explicatorias Error
de aleatorio
Datos Y X1 X2 X3... Xk ε
1 Y1 X11 X12 X13...X1K ε1
2 Y2 X21 X22 X23...X2K ε2
3 Y3 X31 X32 X33...X3K ε3
. . . . . ....
. . . . . ....
. . . . . ....
n Yn Xn1 Xn2 Xn3… Xnk εk
8. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
237
En notación matricial:
En forma desarrollada puede verse así:
1
3
2
1
1
2
1
0
npn3n2n1
3p333231
2p232221
1p131211
1n
3
2
1
.
.
.
.
.
..
XXXX1
......
......
......
X...XXX1
X...XXX1
X...XXX1
Y
.
.
.
Y
Y
Y
nxnpxk
nxp
nx
Ynx1 = Xnxp . βpx1 + ε nx1
Matriz de error
Matriz de parámetros coeficientes
De regresión
k: n°de variables X´s
p= k +1 n° de parámetros
Matriz de datos x´s
Matriz de los datos Y´s
OBSERVACIONES:
La primera columna de X es una columna de unos, es decir
estamos insertando un valor de X, específicamente X0 como
coeficiente de βo donde X0 es una variable que siempre toma
valores iguales a 1.
Hay una columna en la matriz X para cada parámetro β
Un punto de datos en particular se identifica mediante filas
específicas de las matrices Y y X. Ejemplo: el Valor de Y para el
punto de datos 3, osea y3 está en la tercera fila de la matriz Y y
sus valores correspondientes de X1 X2 X3 … Xk aparecen en la
tercera fila de la matriz X.
Con ésta notación el modelo lineal general se pude expresar en la
forma de matriz como: Y = Xβ + ε
9. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
238
La matriz β contiene a los parámetros βo, β1, β2, β3,…,βp de modo
que resolver el sistema nos dará como resultado, las estimaciones
de mínimos cuadrados de cada uno de ellos, denotados por:
'
3210 )ˆˆˆˆˆ(ˆ y el modelo de estimación es
YydondeXy ˆ,ˆ
Ahora bien:
ESTIMACIÓN DE LOS PARÁMETROS
Utilizamos las matrices de datos Y y X, sus transpuestas y la matriz
'
3210 )ˆˆˆˆˆ(ˆ , podemos escribir las ecuaciones de mínimos
cuadrados, así:
* El modelo: ˆXy
Despejando ε
ˆXy
Elevando al cuadrado en ambos miembros , en notación matricial
es multiplicar por la izquierda en cada miembro por su transpuesta
correspondiente:
)ˆ()'ˆ(' XyXy
))'ˆ(')(ˆ(' XyXy
ˆ)'ˆ()'ˆ()ˆ(''' XXyXXyyy
yXXy )'ˆ()ˆ('
ˆ)'ˆ()ˆ(')ˆ(''' XXXyXyyy
Se obtiene:
ˆ''ˆ)ˆ('2'' XXXyyy
Derivando con respecto a ˆ para minimizar ' que es la suma
de cuadrados del error:
ˆ'2'2
ˆ
'
XXyX
10. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
239
Igualando a cero:
0ˆ'2'2 XXyX
Obtenemos:
yXXX 'ˆ'
Para despejar ˆ multiplicamos en ambos miembros de la igualdad
por (X’X)-1
que es la inversa de la matriz X’X:
(X’X)-1
X’X ˆ = (X’X)-1
X’y
Por tanto:
PARA EL CÁLCULO, A PARTIR DE:
1
3
2
1
1
2
1
0
npn3n2n1
3p333231
2p232221
1p131211
1n
3
2
1
.
.
.
.
.
..
XXXX1
......
......
......
X...XXX1
X...XXX1
X...XXX1
Y
.
.
.
Y
Y
Y
nxnpxk
nxp
nx
SE ESCRIBE:
ˆ = (X’X)-1
X’y
11. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
240
nxppxn
XX
nkn3n2n1
3k333231
2k232221
1k131211
nk3k2k1k
n33313
n2322212
n1312111
XXXX1
......
......
......
X...XXX1
X...XXX1
X...XXX1
XXXX
.
XXXX
XXXX
XXXX
1111
' 23
El producto resulta:
pxpiki XX
XX
ikiniki32iki1ik
iki3
2
i3i3i2i3i1i3
iki2i3i2
2
i2i2i1i2
iki1i3i1i2i1
2
i1i1
iki3i2i1
XXXXXXX
XXXXXXXX
XX...XXXXXX
XX...XXXXXX
X...XXXn
'
X’X: Es una matriz no singular, es matriz cuadrada. El cálculo de su
inversa se realiza mediante:
(X’X)-1
= (1/|X’X|)adjunta(X’X)
12. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
241
1
33
22
11
1
1n
3
2
1
nk3k2k1k
n33313
n2322212
n1312111
Y
.
.
.
Y
Y
Y
XXXX
.
XXXX
XXXX
XXXX
1111
' 23
pxnik
i
i
i
i
nxpxn
YX
YX
YX
YX
Y
YX
Luego el vector de parámetros es:
K
YXXX
2
1
0
1
')'(ˆ
Y el modelo de regresión estimado es:
ˆˆ
,1,1;ˆˆˆ
1
0
XY
kjniXY ij
k
j
ji
1.3. CARACTERÍSTICAS DE LOS ESTIMADORES ˆ DE MINIMOS
CUADRADOS
a. ESPERANZA MATEMÁTICA DE ˆ
E( ˆ ) =
Demostración:
E( ˆ )= )(')'()')'( 11
XXXXEYXXXE
E( ˆ )= )')'(')'(( 11
XXXXXXXE
E( ˆ )= )(')'()( 1
EXXXE
14. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
243
c. Los errores estándar y la covarianza de los estimadores jˆ se
determinan mediante los elementos de la matriz (X’X)-1
cuya
notación es:
ij
pxpkkkkkk
k
k
k
c
ccccc
ccccc
ccccc
ccccc
XX
3210
223222120
113121110
003020100
1
)'(
Los elementos de la diagonal proporcionan los valores que se necesitan
para calcular los errores estándar de los estimadores. De modo que:
Var-cov( jˆ )= jjc2
Luego: Los errores estándar de los estimadores de jˆ son:
aleatorioerrordeldesviaciólaesDondecSE jjj ,)ˆ(
Los elementos que están fuera de la diagonal proporcionan valores
necesarios para calcular las covarianzas de los parámetros, digamos
jˆ , jiDondei ˆ
cov( ji ˆˆ )= jiij cc 22
Estas covarianzas son necesarias para determinar la varianza de la
ecuación de predicción, o cualquier otra función lineal de parámetros.
Desempeñan un papel el el establecimiento de un intervalo dre confianza
para E(y) y un intervalo de predicción para Y
15. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
244
ESTIMADOR DE
2
. VARIANZA DE EN EL MODELO DE
REGRESIÓN MÚLTIPLE
Las varianzas de los estimadores de los parámetros y de Yˆ dependen
del valor de
2
(varianza del error aleatorio ) que aparece en el
modelo y casi nunca se se le conoce por adelantado, debemos usar los
datos de la muestra para estimar su valor
pn
SSE
pn
YXYY
''ˆ'2
COMPONENTES DE LA SUMA DE CUADRADOS DEL TOTAL DE Y
SCT = SCR + SCE
Suma de cuadrados del total de Y.
2
' YnYYSCT
Suma de cuadrados de la regresión
2
'ˆ YnYXSCR
Suma de cuadrados del error (residual)
YXYYSCT 'ˆ'
Varianza explicada SCR/n Varianza no explicada SCE/n-p
1.4. PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL
MÚLTIPLE
16. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
245
a. Prueba para la significación de la regresión
Hipótesis
H0: β1= β2= β3=…=βK=0
H1: Por lo menos uno de los parámetros es distinto de cero
ANÁLISIS DE VARIANZA
Fuente de
Variación
Suma de
cuadrados
G. L. Cuadrados
medios
FC
REGRESIÓN SCR K CMR CMR/CME
ERROR SCE n-p CME
TOTAL SCT n-1
Donde: n es tamaño de la muestral o número de datos
k número de variables independiente
p número de parámetros
Rechazar H0 Si Fc es mayor que F(k, n-p)
El rechazo de H0 implica que al menos una de las variables de regresión
tienen una contribución significativa en el modelo.
b.PRUEBAS SOBRE LOS COEFICIENTES INDIVIDUALES DE
REGRESIÓN
Estas pruebas son útiles para determinar el valor potencial de cada una
de las variables de regresión del modelo, así el modelo puede ser mas
eficaz con la inclusión de variables adicionales o quizá con la eliminación
de una o más regresoras presentes en el modelo
Hipótesis
H0 : jˆ =0
H1 : jˆ ≠0
ESTADÍSTICA DE PRUEBA
17. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
246
jj
j
O
c
T
2
ˆ
ˆ
DECISIÓN:
Rechazar H0 si |To|> tn-p para un % de significación
CONCLUSIÓN
Si no se rechaza la hipótesis H0 indica que el regresor Xj puede
eliminarse del modelo
1.5. MEDIDAS DE ADECUACION DEL MODELO
a. Coeficiente de determinación múltiple
Es una medida de la magnitud de la reducción en la variabilidad de Y,
obtenida mediante el empleo de variables de regresión X1 X2 X3 … Xk.
10,1 22
R
SCT
SSE
SCT
SSR
R
R2
grande no necesariamente implica que el modelo de regresión sea
bueno, pues la adición de una variable al modelo siempre aumenta R2
sin
importar si la variable es o no estadísticamente significativa.
RR 2
Es el coeficiente de correlación múltiple entre Y y el
conjunto de variables de regresión X1 X2 X3 … Xk
R es una mediad de asociación lineal que existe entre Y y X1 X2 X3 …
Xk. Cuando k=1 tenemos el coeficiente de correlación simple entre Y y X
18. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
247
PROBLEMAS PROPUESTOS DE REGRESION LINEAL MULTIPLE
1. dados los siguientes datos: X1 X2 Y
1 4 6.4
3 3 4.3
4 2 2.2
Donde: X1: Precio en soles
X2: Ingreso en cientos de soles,
Y: Demanda de cuadernos en miles de unidades
a) Calcular la ecuación de la demanda e interpretar sus pendientes.
b) Si los errores estándar de 1 y 2 son respectivamente 0.006 y
0.005 en una muestra de tamaño n=10. Probar si es significativo
el aporte del ingreso al modelo. Como debería ser el modelo? (
Usar 5% de significancia)
2. En un estudio de 125 trabajadores expuestos a compuestos químicos
contaminados con dioxina (Y) en un trabajador (medido en partes
por millon) con variables independientes:
X1: Logaritmo de los años de exposición a la dioxina.
X2: Número de años de la primera exposición.
X3: Edad(en años).
X4: Índice de masa corporal.
Los resultados computarizados según Eviews se muestran en el
siguiente cuadro:
Variable coeficiente error estándar t-estadístico
C 1.721 0.770 2.24
X1 0.566 0.054 10.48
X2 -0.085 0.018 -4.72
X3 0.044 0.010 4.40
X4 0.075 0.021 3.57........
a) Probar la significación del modelo
b) Probar la significación de los parámetros de regresión e indicar el
efecto sobre el nivel de dioxina en un trabajador.
c) Describir el modelo de regresión lineal e interpretar el coeficiente
de correlación y determinación.
d) Qué aporte técnico consideraría Ud. respecto a los resultados
obtenidos en éste análisis.
3. Dados los siguientes datos: X1 X2 Y
2 1 1.1
3 2 2.2
1 1 1.2
Donde: X1: Precio en soles
X2: Ingreso en cientos de soles,
19. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
248
Y: Demanda de cuadernos en miles de unidades
a) Calcular la ecuación de la demanda e interpretar sus pendientes.
b) Si los errores estándar de 1 y 2 son respectivamente 0.006 y
0.005 en una muestra de tamaño n=15. Probar si es significativo
el aporte del ingreso al modelo. Como debería ser el modelo? (
Usar 1% de significancia)
3. En un estudio de 30 trabajadores expuestos a compuestos químicos
contaminados con dioxina (Y) en un trabajador (medido en partes
por millon) con 4 variables independientes:
X1: Logaritmo de los años de exposición a la dioxina.
X2: Número de años de la primera exposición.
X3: Edad(en años).
X4: Índice de masa corporal.
Los resultados computarizados según Eviews se muestran en el
siguiente cuadro:
Variable coeficiente error estándar t-estadístico
C 1.721 0.770 2.24
X1 0.566 0.054 10.48
X2 -0.085 0.018 -4.72
X3 0.044 0.010 4.40
X4 0.075 0.021 3.57........
a) Probar la significación del modelo
b) Probar la significación de los parámetros de regresión e indicar el
efecto sobre el nivel de dioxina en un trabajador.
c) Describir el modelo de regresión lineal e interpretar el coeficiente
de correlación y determinación.
d) Qué aporte técnico consideraría Ud. respecto a los resultados
obtenidos en éste análisis.
4. Se tiene la información sobre ventas, puntuaciones de prueba y
calificación de desempeño para una muestras de vendedores:
VENDEDOR VENTA PUNTUACIÓN CALIFICACIÓN DE
SEMANAL DE PRUEBA DESEMPEÑO
1 5 4 2
2 12 7 5
3 4 3 1
4 8 6 4
5 11 10 6
a) ¿Cuál es la ecuación de regresión múltiple?.
b) Supóngase que un solicitante de empleo en el departamento de
ventas tuvo una puntuación de 6.0 en la prueba y una
calificación de desempeño de 3.8 ¿Cuáles son las ventas
estimadas del solicitante.
20. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
249
c) Probar si existe regresión lineal múltiple entre las variables
ventas, puntuación y calificación, usar un nivel dignificancia de
1% y 5%.
d) Probar si la variable puntuación de la prueba mejora el modelo
una vez que la variable calificación de desempeño esta incluida
en el modelo y si la variable calificación de desempeño mejora
el modelo una vez que la variable puntuación esta incluida en el
modelo. Nivel significancia 5%.
e) Probar si existe efecto debido a la variable puntuación. Nivel de
significancia de 5% (prueba t).
f) Probar si la variable calificación de desempeño debe estar en el
modelo (usar los coeficientes de correlación parcial, con un
error del 5%.
g) Encontrar los intervalos de confianza 1 y 2, al 95% de
probabilidad.
5. Al ingeniero de control de calidad de una industria le interesa
pronosticar la resistencia a la fusión de un alambre de acero
fabricado, con base en su diámetro exterior y la cantidad de
molibdeno contenida en el metal. Como experimento, selecciona
cuatro tramos de alambre, mide a diámetro exterior y determina el
contenido de molibdeno. Después mide la resistencia a la tensión de
cada tramo de alambre. Los resultados son:
RESIST. A LA TENSION (psi) DIAM. EXTERIOR (cm) ANT. DE MOLIBD.
11 3 6
9 2 5
16 4 8
12 3 7
a) ¿Cuál es la resistencia pronosticada a la tensión de un alambre
de acero que tenga un diámetro exterior de 3.5 cm. y 6.4
unidades de molibdeno.
b) Explique que significa el valor b1 y b2 en la ecuación.
c) Probar si existe regresión lineal múltiple entre la variable
resistencia a la tensión y las variables diámetro exterior.
Cantidad de molibdeno. Usar el nivel de significancia al 1% y
5%.
d) Calcular e interpretar el coeficiente de determinación.
e) Probar si la variable diámetro exterior mejora el modelo una
vez que la variable cantidad de molibdeno está incluida en el
modelo y si la variable cantidad de molibdeno mejora el modelo
una vez que la variable diámetro exterior está incluida en el
modelo. Usar un nivel de significancia del 5%.
f) Probar si existe efecto debido a la variable diámetro exterior.
Usar un nivel de significancia del 5%.
21. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
250
g) Probar si la variable cantidad de molibdeno debe estar en el
modelo de regresión. Usar los coeficientes de correlación
parcial. Usar el nivel significancia de 5%.
h) Encontrar los intervalos de confianza 1 y 2, con una
confianza del 5%.
i) Probar si la variable diámetro exterior debe estar en el modelo
de regresión. Usar los coeficientes de correlación parcial. Usar
el nivel de significancia de 5%.
6. El señor López es presidente de una organización de profesores en el
distrito de Rupa Rupa. Al prepararse para futuras negociaciones, al
señor López le gustaría investigar la estructura de sueldos de los
profesores del distrito. Considera que existe 2 factores que afectan
el sueldo de un profesor; año de experiencia y una calificación de la
efectividad de la enseñanza dada por el director. Una muestra de 8
profesores dio como resultado los datos que siguen.
SUELDO AÑOS DE EXPERIENCIA CALIFICACIÓN
(ciento de soles)
5.5 8 55
6.1 10 78
5.8 9 67
6.8 11 75
7.2 14 61
6.5 12 50
7.0 13 39
6.3 11 49
a) Qué sueldos estimaría usted para un profesor con 5 años de
experiencia una calificación del director de 72
b) Realice una prueba de hipótesis global para determinar alguno
de los coeficientes de regresión netos son diferentes de cero.
Margen de error de 5%.
c) Realice una prueba de hipótesis para los coeficientes
individuales de regresión ¿Considera usted eliminar cualquiera
de las variables independientes usar un nivel de significancia de
1% y 5%.
d) Determine los residuos.
e) Probar si la variable años de experiencia debe estar en el
modelo de regresión usar los coeficientes de correlación parcial,
con un error del 5%.
f) Encontrar los intervalos de confianza para 1 y 2, con 1% de
error.
7. El gerente de ventas distrital de un fabricante importante de
automóviles está estudiando las ventas. De manera específica le
gustaría determinar que factores afectan el número de automóviles
vendidos en una distribución. Para investigar selecciona al azar 12
22. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
251
distribuidores . De estos últimos obtiene el número de automóviles
vendidos el último mes los minutos de publicidad en la televisión
comprados el último mes y el número de vendedores de tiempo
completo empleados en la distribución. La información es como
sigue:
AUTOS VENDIDOS PUBLICIDAD FUERZA DE VENTA
127 18 10
138 15 15
159 22 14
144 23 12
139 17 12
128 16 12
161 25 14
180 26 17
102 15 7
163 24 16
106 18 10
149 25 11
a) Determine la ecuación de regresión ¿Cuántos automóviles
esperaría usted que se vendieran en una distribuidora con 20
vendedores y que paga 15 minutos de publicidad .ea
b) Realice una prueba global de hipótesis para determinar si
algunos de los coeficiente netos de regresión difiere de cero.
Error al 5%.
c) Realice una prueba de hipótesis para los coeficientes
individuales de regresión. ¿Consideraría eliminar algunas de la
variables independientes de error al 5%.
d) Calcular los coeficientes de correlación parcial.
e) Calcular e interpretar el coeficiente de correlación múltiple.
8. Un economista especializado en agricultura está estudiando la
relación entre el ingreso per cápita de un distrito y el porcentaje de la
población que se dedica a la agricultura y el número medio de años
de educación para las personas mayores de 25 años de edad. Se
seleccionan al azar 20 distritos rurales.
a) Determine la ecuación de regresión. El distrito “X” tiene 12%
de fuerza de trabajo dedicada a la agricultura y la media de
años de educación es 15 ¿Cuál es el ingreso estimado para el
distrito.
b) Realice una prueba global de hipótesis para determinar si
algunos de los coeficientes netos de regresión difiere de cero.
Error al 5%.
c) Realice una prueba de hipótesis para los coeficientes
individuales de regresión ¿Consideraría eliminar algunas de la
variables independientes de Error al 5%.
d) Determine los residuos.
23. Métodos Estadísticos para la investigación Ms. C. Elías A. Torres Armas
252
e) Encontrar e interpretar los intervalos de confianza para los
coeficientes de regresión parcial, con 99% de confianza.
f) Calcular e interpretar el coeficiente de determinar múltiple.
g) Calcular e interpretar los coeficientes de correlación parcial.
ING. PER CAPITA %DE PERSONAS EDUCACIÓN
(miles de soles)
1.96 10.2 10.6
1.94 13.4 16.9
1.60 10.2 15.1
1.98 10.8 14.9
2.18 10.3 15.0
1.82 13.3 16.0
1.82 11.3 16.0
2.14 10.3 15.1
1.52 12.7 12.9
2.48 8.5 10.1
2.14 12.6 16.0
1.92 12.8 10.4
2.64 9.7 13.7
2.58 9.5 14.0
2.02 10.5 10.2
1.98 10.6 13.0
2.48 8.4 15.2
1.33 9.6 13.8
9. Se desarrolla un modelo de regresión para predecir la capacidad de
un suelo para absorber contaminantes químicos. Para ello se toman
10 observaciones del índice de absorción del suelo (Y) y de dos
regresores: X1= cantidad de mineral de hierro que puede extraerse,
X2: cantidad de bauxita. Algunas cantidades necesarias para ajustar
el modelo son:
1.17991 -7.30982E-3 7.3006E-4
(X’X)-1
= -7.30982E-3 7.9799E-5 -1.237113E-4
7.3006E-4 -1.237113E-4 4.6576E-4
a) Estime los coeficientes de regresión del modelo
b) ¿Cuál el el valor predicho del índice de absorción Y, cuando X1=200 y
X2=50?
La suma de cuadrados del total para Y es 742.00
c) Pruebe la significancia de la regresión al 1%
d) Estime 2
e) Estime el error estándar del estimador de 1
f) Pruebe la significación de 1 al 1% ¿Qué conclusión puede obtenerse
sobre la utilidad de x1 como variable de regresión en este modelo?
g) Encuentre un intervalo de confianza del 95% para el coeficiente de
regresión 1
h) Encuentre un intervalo de confianza del 95% para el índice de
absorción promedio del suelo cuando X1=200 y X2=50.
i) Encuentre un intervalo de confianza del 95% para el índice de
absorción del suelo cuando X1=200 y X2=50.