Regresión lineal,s 15,16

Modelo general de regresión
lineal

Variables
• Y:
– Variable dependiente
– Variable endógena
– Variable explicada
• Xj:
– Variables exógenas
– Variables
independientes
– Variables explicativas
Sólo una Al menos una

Ejemplo de ilustración
• Y: Ingresos del supermercado
• X1: Habitantes del municipio del
supermercado
• X2: Superficie del supermercado (m2
)
( )21, XXfY =

Tabla de datos
Ingresos (Y) Habitantes (X1) Superficie (X2)
198 70 21
209 35 26
197 55 14
156 25 10
85 28 12
187 43 20
43 15 5
211 33 28
120 23 9
62 4 6
176 45 10
117 20 8
273 56 36

Modelo de regresión lineal
• Deseamos explicar los ingresos del supermercado
(Y), mediante la población del municipio (X1) y la
superficie del supermercado (X2).
• Si la relación existente entre las variables fuera de
tipo lineal utilizaríamos la siguiente expresión:
2211 iii xβxβαy ++=

Modelo de regresión lineal (II)
• Pero la relación entre las variables no es
necesariamente perfecta. Por ese motivo
añadimos un elemento aleatorio a cada
observación:
iiii εxβxβαy +++= 2211
ni ≤≤1donde

Modelo de regresión lineal (III)
ni ≤≤1donde
Renta de los habitantes
Medio rural o urbano
...
Edad promedio de los habitantes
Variables que no hemos considerado

Modelo de regresión lineal (IV)
• Es el término constante del modelo y es
desconocido.
• Son los coeficientes desconocidos de la
combinación lineal.
• Es el i-ésimo término de error (desconocido)

Modelo de regresión lineal (V)
desconocido.

Modelo de regresión lineal (VI)
desconocido.

Modelo de regresión lineal (VII)







+×+×+=
+×+×+=
+×+×+=
1321
221
121
3656273
...
2635209
2170198
εββα
εββα
εββα
• Este sistema de ecuaciónes:
– Consta de 13 ecuaciones y 16 incógnitas.
– Tiene infinitas soluciones.
• Podemos asignar valores arbitrarios a cualesquiera tres
incógnitas y calcular las demás.

• Así lo haremos:
– Nuestro objetivo es que los valores de las
incógnitas sean lo más pequeños posible.
– Determinaremos cuáles son los valores más
adecuados de los coeficientes del modelo para
alcanzar este objetivo.
– Llamaremos residuos a los valores que toman las
incógnitas en la solución del sistema de
ecuaciones.
2211 b, βba, βα ===
Especificación del modelo
iε
iε
ii e=ε

• Dicho de otro modo:
– queremos encontrar valores concretos para las
incógnitas a los que llamaremos
– Estos valores concretos consiguen que los valores
de las incógnitas sean lo más pequeños
posible.
21 y βα, β
Especificación del modelo(II)
iεie
21 y ba, b

Especificación del modelo(III)
• Para minimizar los residuos de manera global
emplearemos la siguiente expresión:
• Es decir, debemos encontrar los valores de los
coeficientes que minimizan la suma de los cuadrados
de los residuos.
• A este criterio se le llama de los “mínimos
cuadrados”.
[ ]∑ 2
min ie

Especificación del modelo(IV)
( )
( )
( ) 






×−×−−
+×−×−−
+×−×−−
2
21
2
21
2
21
3656273
...
2635209
2170198
bba
bba
bba
Deseamos minimizar esta suma
( )






−−−∑=
n
i
iii xbxbayMin
1
2
2211

Especificación del modelo (V)
• Por tanto, la solución del sistema de
ecuaciones será la siguiente:
– Las incógnitas tomarán los
valores . Estos valores consiguen
que los valores de las icógnitas sean lo
más pequeños posible.
– Las incógnitas tomarán los valores
21 y βα, β
21 y ba, b
iεie
iε
2211 iiii xbxbaye −−−=

Modelo de ajuste lineal
• Después de calcular los valores de los parámetros
de la combinación lineal, podremos construir el
modelo de ajuste lineal:
• Los valores calculados para la variable
dependiente mediante el modelo de ajuste lineal
serán los llamados valores estimados.
2211
ˆ iii xbxbay ++=

Modelo de ajuste lineal (II)
• A la diferencia entre los valores observados
y los valores estimados para la variable
dependiente los llamamos residuos:
2211
ˆ iiiiii xbxbayyye −−−=−=

¡Cuidado!
• Es muy importante distinguir los residuos de los errores:
– Los errores son cantidades desconocidas y aleatorias. Miden el
efecto de las variables que no hemos tomado en cuenta.
– Los residuos, por el contrario, son valores conocidos. Miden las
diferencias entre los valores observados y los valores estimados de
la variable dependiente.
( )2211 iiii xβxβαyε ++−=
( )2211 iiii xbxbaye ++−=

Estimación de los parámetros
• Recordemos:
– Queremos encontrar unos valores concretos
para las incógnitas .
– Estas estimaciones consiguen que los valores
concretos de las incógnitas -a los que
llamamos - sean lo más pequeños posible.
21 y βα, β
iε
ie
21 y ba, b
( )






−−−∑=
n
i
iii xbxbayMin
1
2
2211

Estimación de los parámetros (II)
( )
0
ˆ 2
=
∂
−∂∑
a
yy ii
( )
0
ˆ
1
2
=
∂
−∂∑
b
yy ii
( )
0
ˆ
2
2
=
∂
−∂∑
b
yy ii
∑∑∑ =++ iii yxbxbna 2211
∑∑∑∑ =++ iiiiii yxxxbxbxa 1212
2
111
∑∑∑∑ =++ iiiiii yxxbxxbxa 2
2
222112
Ecuaciones normales
(3 ecuaciones, 3 incógnitas)

Estimación de los parámetros (III)










=




















∑
∑
∑
∑∑∑
∑∑∑
∑∑
ii
ii
i
iii
iii
ii
yx
yx
y
b
b
a
xxxx
xxxx
xxn
i
i
2
1
2
1
2
212
21
2
1
21
2
1




















=










∑
∑
∑
∑∑∑
∑∑∑
∑∑
−
ii
ii
i
iii
iii
ii
yx
yx
y
xxxx
xxxx
xxn
b
b
a
i
i
2
1
1
2
212
21
2
1
21
2
1
2
1
• Empleando matrices:

Estimación de los parámetros (IV)










=




















38769
82495
2034
43438452205
845219828452
20545213
2
1
b
b
a
• En nuestro ejemplo de ilustración:










≈




















=










−
245,4
496,1
502,37
38769
82495
2034
43438452205
845219828452
20545213
1
2
1
b
b
a
21 XXY 245,4496,1502,37ˆ ++=

Modelo de regresión lineal
Caso general
• Cuando tenemos más de dos variables
explicativas:
( ),...,ni
εxβxβxβαy iikkiii
1con
...2211
=
+++++=
εXXX1Y k21 +++++= kβββα ...21

( )














=
nk
k
k
n
x
x
x
...
2
1
1,
kX
Modelo de regresión lineal (II)
Caso general
( )














=
n
n
y
y
y
...
2
1
1,
Y
( )














=
1
21
11
1, ...
n
n
x
x
x
1X
( )














=
n
n
ε
ε
ε
...
2
1
1,
ε
( )














=
1
...
1
1
1,n
1

Modelo de regresión lineal (III)
Caso general
• Podemos expresar el modelo de regresión
lineal de un modo más sencillo:
εXβY += Modelo de regresión lineal
n ecuaciones
n+k+1 incógnitas

Modelo de regresión lineal (IV)
Caso general
( )














=
+
nknn
k
k
kn
xxx
xxx
xxx
...1
...............
...1
...1
21
22221
11211
1,
X
( )














=
n
n
ε
ε
ε
...
2
1
1,
ε
( )














=
n
n
y
y
y
...
2
1
1,
Y
( )














=
+
k
k
β
β
α
...
1
1,1
β

kk bβb, βba, βα ==== ,...,2211
– Nuestro objetivo es conseguir que los valores de
las incógnitas sean lo más pequeños posible.
– Buscaremos los valores de los coeficientes del
modelo que resulten los más adecuados de cara a
cumplir con el objetivo planteado.
– A los valores que en la solución del sistema de
ecuaciones toman las inógnitas los
llamaremos residuos.
Especificación del modelo
Caso general
iε
iε
ii e=ε

• Expresado de otro modo:
– Deseamos encontrar un vector , que es un
valor concreto del vector .
– Este vector concreto consigue que los valores
de las incógnitas sean lo más pequeños
posible.
Especificación del modelo (II)
Caso general
ie
B
β
B
iε

Esepecificación del modelo (III)
Caso general
• Por lo tanto, la solución del sistema de
ecuaciones será la siguiente:
– El vector tomará el valor . Este valor
del vector consigue que el valor del
vector sea mínimo.
– El vector tomará el valor
β B
ε
e
ε XBYe −=
β

Especificación del modelo (IV)
Caso general
• Para minimizar los residuos de manera global
emplearemos la siguiente expresión:
• Es decir, tenemos que encontrar los valores de los
coeficientes del modelo que hacen mínima la suma de
los cuadrados de los residuos.
• A este criterio se le da el nombre de “criterio de los
mínimos cuadrados”.
[ ] [ ]
( ) ( )[ ]XBY'XBY
ee'
−−=
==∑
min
minmin 2
ie

Caso general
• Cuando tenemos más de dos variables
explicativas:
( )1con
...ˆ 2211
,...,ni
xbxbxbay ikkiii
=
++++=
k21 XXX1Y kbbba ++++= ...ˆ
21

Caso general
• Podemos expresar el modelo de ajuste lineal
de una forma más sencilla:
XBY =ˆ Modelo de ajuste lineal

Modelo de ajuste lineal (III)
Caso general
( )














=
n
n
y
y
y
ˆ
...
ˆ
ˆ
ˆ 2
1
1,
Y
( )














=
+
k
k
b
b
a
...
1
1,1
B
( )














=
+
nknn
k
k
kn
xxx
xxx
xxx
...1
...............
...1
...1
21
22221
11211
1,
X

Modelo de ajuste lineal (IV)
Caso general
• El valor estimado de la variable dependiente
para un individuo será el siguiente:
• Con:
( ) BXXY ii
'ˆ =
















=
ik
i
i
x
x
x
...
1
2
1
i
X

Caso general
• Recordemos:
– Queremos encontrar un vector de valores
concretos para el vector .
– Este vector debe ser tal que minimice
globalmente los residuos.
β
B
B
[ ] [ ] [ ]XB)(YXB)'(Yee' −−==∑ minminmin 2
ie

Caso general
XBX'YX'
B
22
2
+−=
∂
∂∑ ie
XBX'B'YX'B'YY' +−=∑ 22
ie
• Teniendo en cuenta que:
• Derivando respecto a B:

Caso general
YX'XBX' =
( ) YX'XX'B
1−
=
• Igualando la derivada a cero:
• Si la matriz es no singular:XX'

Estimación de los parámetros (IV)
Caso general
• ¿La solución que se ha encontrado consigue
minimizar la SCR?
• Supongamos que es otra solución. Entonces:
( ) ( ) ( )BBXeBXXBXBYBXYe
~~~~ −+=−+−=−=
( )[ ] ( )[ ]BBXeBBXee'e
' ~~~~ −+−+=
( ) ( ) ( ) ( )BBXX''BBeX''BBBBXe'ee'e'e
~~~~~~ −−+−+−+=
( ) ( ) ( )BBXX''BBeX''BBee'e'e
~~~
2~~ −−+−+=
( ) ( ) ( )[ ] ( )[ ] ( ) 2~~~~~~~ BBXee'BBX'BBXee'BBXX''BBee'e'e −+=−−+=−−+=
ee'e'e ≥~~
B
~

Modelo de ajuste
Datos centrados
• Cuando las variables explicativas toman sus
respectivos valores promedio el valor estimado para
la variable dependiente es su media:
• Es decir, el hiperplano del modelo de ajuste pasa por
la media de las variables.
( ) YXY =ˆ
kk xbxbxbay ++++= ...2211

Modelo de ajuste (II)
Datos centrados
• Por lo tanto podemos escribir el modelo de ajuste
lineal de otro modo:
• O empleando matrices:
( ) ( ) ( )
( )1con
...222111
,...,ni
exxbxxbxxbyy ikikkiii
=
+−++−+−=−
eBXY +=
~~

Modelo de ajuste (III)
Datos centrados
• Con:
( )














−−−
−−−
−−−
=
knknn
kk
kk
kn
xxxxxx
xxxxxx
xxxxxx
...
............
...
...
~
2211
2222121
1212111
,
X
( )














=
n
n
e
e
e
...
2
1
1,
e
( )














−
−
−
=
yy
yy
yy
n
n ...
~ 2
1
1,
Y
( )














=
k
k
b
b
b
...
2
1
1,
B

Datos centrados
• Recordemos:
– Para encontrar el vector debemos minimizar de
manera global los residuos.
B
[ ] [ ] [ ]B)XY(B)'XY(ee'
~~~~
minminmin 2
−−==∑ ie

Datos centrados
BX'XY'X
B
~~
2
~~
2
2
+−=
∂
∂∑ ie
BX'XB'Y'XB'Y'Y
~~~~
2
~~2
+−=∑ ie
• Teniendo en cuenta que:
• Dervando respecto a B:

• Igualando a cero la derivada anterior:
• Si la matriz es no singular:
Datos centrados
Y'XBX'X
~~~~
=
( ) Y'XX'XB
1 ~~~~ −
=
X'X
~~

Datos centrados
• Si trabajamos con datos centrados:
• y:
( ) Y'XX'XB
~~~~ 1−
=
BXY
~ˆ~
=

Datos centrados
• Con:
( )














−
−
−
=
yy
yy
yy
n
n
ˆ
...
ˆ
ˆ
ˆ~ 2
1
1,
Y
( )














=
k
k
b
b
b
...
2
1
1,
B
( )














−−−
−−−
−−−
=
knknn
kk
kk
kn
xxxxxx
xxxxxx
xxxxxx
...
............
...
...
~
2211
2222121
1212111
,
X

Modelo de ajuste lineal (III)
Datos centrados
• Para obtener el término constante utilizaremos la
siguiente expresión:
• Por lo tanto:
kk xbxbxbay ++++= ...2211
kk xbxbxbya −−−−= ...2211

Datos centrados
• Trabajar con datos centrados supone una
gran ventaja:
– Con datos originales, la dimensión de es
(k+1, k+1).
– Con datos centrados, la dimensión de es
(k,k).
• Por lo tanto, el cálculo de la matriz inversa
es más sencillo en el caso de la matriz .
XX'
X'X
~~
X'X
~~

Matriz de varianzas y
covarianzas

Matriz de varianzas y covarianzas
( ) ( )( ) ( )( )
( )( ) ( ) ( )( )
( )( ) ( )( ) ( )


























−−−−−
−−−−−
−−−−−
=
∑∑∑
∑∑∑
∑∑∑
===
===
===
n
xx
n
xxxx
n
xxxx
n
xxxx
n
xx
n
xxxx
n
xxxx
n
xxxx
n
xx
n
i
kik
n
i
ikik
n
i
ikik
n
i
kiki
n
i
i
n
i
ii
n
i
kiki
n
i
ii
n
i
i
1
2
1
22
1
11
1
22
1
2
22
1
1122
1
11
1
2211
1
2
11
...
............
...
...
XXV

( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) 













=
kkk
k
k
VarCovCov
CovVarCov
CovCovVar
XX,XX,X
X,XXX,X
X,XX,XX
V
111
XX
...
............
...
...
21
2212
2

( ) ( )( ) ( )( )
( )( ) ( ) ( )( )
( )( ) ( )( ) ( ) 



















−−−−−
−−−−−
−−−−−
=
∑∑∑
∑∑∑
∑∑∑
===
===
===
n
i
kik
n
i
ikik
n
i
ikik
n
i
kiki
n
i
i
n
i
ii
n
i
kiki
n
i
ii
n
i
i
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
1
2
1
22
1
11
1
22
1
2
22
1
1122
1
11
1
2211
1
2
11
...
............
...
...
~~
X'X
XXVX'X n=
~~

( ) ( ) ( ) XYXXXYXX VVVVY'XX'XB
111 ~~~~ −−−
=== nn
XYXX VVB
1−
=

Modelo de ajuste
Datos centrados
( ) ( )
( )
( ) YY1XY
1X'XX'X1
YX'XX'X1XB1XY
1
1
==
=
==
−
−
'
1ˆ
tantoloPor
''
demostrarpuedesecomoPero,
'
1
'
1ˆ
n
nn

BIBLIOGRAFÍA
CHOU, Ya Lun Análisis Estadístico, México, Interamericana,
1972.
TARO, Yamane Estadística. México, Harper y Row 1974.

Regresión lineal,s 15,16

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Similar a Regresión lineal,s 15,16

Similar a Regresión lineal,s 15,16 (20)

Más de aalcalar

Más de aalcalar (20)

Regresión lineal,s 15,16