Este documento presenta los objetivos y fundamentos teóricos para realizar un análisis de regresión lineal simple cuando hay datos atípicos. Los objetivos incluyen identificar y eliminar datos atípicos, encontrar una ecuación de regresión precisa y hacer inferencias sobre sus parámetros. Explica conceptos como mínimos cuadrados ordinarios, distribución de los estimadores, pruebas de hipótesis e inferencia estadística. También presenta un ejemplo aplicado sobre la relación entre años de experiencia e ingresos.
2. Objetivos generales:
• Realizar un Análisis de Regresión Lineal Simple completo cuando se presenta
en los pares de observaciones a ser asociadas, datos atípicos.
• Mostrar el uso de la RLS cuando cumple con los requisitos exigidos al aplicar
dicho método, de tal manera que el modelo fijado sea correcto.
Objetivos específicos:
• Presentar la Prueba de Hipótesis que nos permitirá decidir si la observación
sospechosa es realmente atípica.
• Eliminar científicamente los datos atípicos.
• Encontrar una ecuación del modelo de regresión que presente lo más preciso
posible la relación entre dos variables en torno al problema de los datos
atípicos haciendo uso de la estadística inferencial.
• Hacer inferencias respecto a sus parámetros.
3. Problemas en el Análisis de Regresión:
Algunos de los problemas estadísticos implicados en
el análisis de regresión son:
• Identificar la existencia de datos atípicos
• Obtener un buen estimador de los parámetros del
modelo
• Contrastar hipótesis sobre dichos parámetros
• Determinar la bondad del modelo para los datos
particulares
• Comprobar que se cumplen las hipótesis exigidas
4. FUNDAMENTO TEÓRICO
Regresión Lineal Simple.- Cuando la relación entre las dos variables tiende a
una recta, se dice Regresión Lineal. Así por ejemplo, observar las Figuras a,
b y c.
El modelo de regresión lineal simple
Yi X i ui MRLSP
Yi X i ei
ˆ ˆ Modelo aleatorio(MRLSM)
Modelo determinístico
Yi a bX i
ˆ
5. Método de Mínimos Cuadrados Ordinarios
Yi a bX i
ˆ
Los valores de los estimadores resultan de la aplicación del Método de Mínimos Cuadrados Ordinarios
que consiste en minimizar los errores (ei).
De ese procedimiento se obtiene dos ecuaciones normales:
n n
Yi na b X i 1
i1 i1
n n n
Yi X i a X i b X i2 2
i1 i1 i1
Estimadores de Regresión:
X iYi - X i Yi /n
b = ... observaciones
Xi2 - ( X )2 /n
i
xi yi
b = .......... desviaciones
xi2
a = Y - bX
6. Propiedades de los errores
Los errores definidos como ei Yi Yˆi satisface las siguientes propiedades:
n
1) ei 0
i 1
n n n n n
ei (Yi Yi ) (Yi X i ) Yi n X i 0
ˆ ˆ ˆ ˆ ˆ
i 1 i 1 i 1 i 1 i 1
n
2) ei X i 0
i 1
n n n
ei X i (Yi Yi )X i (Yi X i )X i
ˆ ˆ ˆ
i 1 i 1 i 1
n n n
Yi X i X i X i2 0
ˆ ˆ
i 1 i 1 i 1
n
3) eiYi 0
ˆ
i 1
n n n n
eiYi ei ( X i ) ei ei X i 0
ˆ ˆ ˆ ˆ ˆ
i 1 i 1 i 1 i 1
7. Análisis de Varianza
Para obtener la estimación de la varianza de los errores, se debe descomponer
la varianza total del modelo. Para ello se parte de la definición de los errores:
ei Yi Yˆi
(Yi Yˆi ) Yi Yˆi Y Y (Yi Y ) (Yˆi Y )
n n n
(Yi Y ) (Yi Y ) (Yi Yi )
2 ˆ 2 ˆ 2
i 1 i 1 i 1
La varianza de los errores representada por es desconocida y se estima
utilizando la suma de cuadrados de los errores. Un estimador insesgado de
es: n
SCE i (Yi Yi )
ˆ 2
S CME
2
1
n2 n2
e
8. Distribución de los estimadores MCO
Para hacer inferencias, se asumen que los errores son independientes y
ei N (0, 2 ) . También las son una combinación
lineal de as Yi. Por lo tanto, una combinación lineal de v.a. normales e independientes
se distribuyen normalmente, es decir:
ˆ N ,
2
i) 2
xi
2 1 X 2
ii) N , 2
ˆ
n xi
2
ˆi N X i , 2 1 xi
iii) Y
x
2
n
2 1 ( X o X )2
iv) ˆ
Yi / X X N X 0 , 1
x
2
n
0
9. Inferencia acerca de los parámetros
P ˆ t 0 S ˆ ˆ t 0 S ˆ 1 a l f a
P ˆ t 0 S
ˆ t 0 S 1
ˆ ˆ
10. 1 xi2 1 xi2
P Yi t0 S e
ˆ 2
2
E (Y / X i ) Yi t0 S e
ˆ 2
2
1
n x n x
1 (Xo X)2 1 (Xo X)2
PYi t0 Se2 1 Y / X X Yi t0 Se2 1 1
ˆ ˆ
n x n x
2 0 2
11. 1) Ho : 0 Ho : 0
0 a) 0 a)
H1 : 0 b) H1 : 0 b)
0 c) 0 c)
2) Elegir la distribución t de student
3) n.s. alfa
4) a) Si t c t1 ; n 2 ?, entonces se rechaza H 0
b) Si t c t ; n 2 ?, entonces se rechaza H 0
c) S i t c t1 / 2 ; n 2 ?, e n to n c e s s e r e c h a z a H 0
t c ˆ tc ˆ
5)
S ˆ S ˆ
6) Conclusión
12. 1) Ho : YS YS 0
H1 : YS YS0
2) Elegir la distribución t de student
3) n.s. alfa
4) S i t c t1 / 2 ; n 2 ?, e n to n c e s s e r e c h a z a H 0
YS YS
ˆ 1 ( Xo X )2
5) tc Donde : SYˆ Se 1
2
x
2
S Yˆ S
n
S
6) Conclusión
13. Aplicación
Un investigador debe
realizar el análisis de
regresión para un
conjunto de
profesionales cuando
las variables de
estudio son los años
de experiencia y los
ingresos que perciben.
Uno de los objetivos
es fijar un modelo de
regresión sin
considerar las
observaciones
sospechosas y otro
objetivo es hacer
inferencias acerca de
sus parámetros. Los
datos considerados en
el estudio son:
14. Verificando la normalidad de los errores y detectando los datos atípicos
El gráfico permitirá
verificar:
• Si la distribución de los
errores es normal y sin
“outliers” o datos atípicos.
• Si la varianza de los errores
es constante y si se requieren
transformaciones de las
variables.
• Si la relación entre las
variables es efectivamente
lineal o presenta algún tipo
de curvatura.
• Si hay dependencia de los
errores, especialmente en el
caso de que la variable
independiente sea el tiempo.
22. FIJACIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE SIN LAS OBSERVACIONES
ATÍPICAS
Antes de utilizar el modelo de regresión lineal debemos preguntarnos:
• Qué también se ajusta la ecuación a los datos?
• El modelo puede ser utilizado para la predicción?
• Cumple con los supuestos para que garantice su correcta aplicación?
Para responder las primeras interrogantes observamos el siguiente cuadro:
Ahora procedemos a la comprobación de supuestos.
Para que tenga validez las inferencias como las pruebas de hipótesis y las
estimaciones es necesario comprobar los supuestos básicos.
23. LINEALIDAD
El diagrama de dispersión es un gráfico que Esto mismo lo podemos hacer de una
visualiza una primera aproximación no muy manera más directa recurriendo al
rigurosa al estudio de la linealidad. En este caso, diagrama de dispersión con observaciones
como no presenta alguna configuración especial estandarizadas para los errores y las
entonces se corrobora la supuesta linealidad. Aquí estimaciones de Y. Una ventaja es de que
se comparan los errores y las estimaciones de Y, las variables están en la misma escala.
siendo:
24. NORMALIDAD
Se puede observar en ambos casos una buena aproximación a la normalidad.
Pero, si queremos ser más rigurosos recurrir a procedimientos analíticos. Uno de
los métodos estadísticos que prueba la normalidad de los datos es la prueba de
Kolmogorov-Smirnov o la prueba de Shapiro-Wilk.
25. HOMOSCEDASTICIDAD
Este exige que para todo el recorrido de la
variable X la varianza del error sea constante.
Uno de los recursos es el gráfico de los errores y
las estimaciones de Y estandarizadas para
comprobar la homocedasticidad. Si no hay
homocedasticidad (heterocedasticidad) la nube
de puntos tiene forma de "embudo", sea a la
derecha o a la izquierda, lo que es indicativo que
la magnitud de los residuos varía en un sentido o
en otro.
Pero, para ser más rigurosos, un
método analítico es calcular la
correlación entre los errores en valores
absolutos y las puntuaciones
predichas. Se considera en valores
absolutos para que la correlación no
sea cero.
26. INDEPENDENCIA DE LOS ERRORES
Para verificar la independencia
de los errores utilizamos la
Durbin-Watson
29. CONCLUSIÓN:
• En la aplicación expuesta se ha mostrado el análisis de
regresión lineal simple completo, desde la verificación de la
normalidad de los errores, detección de datos atípicos,
eliminación científica de los datos sospechosos, identificación
del modelo sin observaciones sospechosas, comprobación de
supuestos e inferencia acerca de los parámetros.
• Se ha mostrado en detalle los métodos estadísticos utilizados
cuando se realiza un Análisis de Regresión Lineal Simple.
• Se ha encontrado la ecuación del modelo de regresión lo más
precisa posible sin los datos atípicos.
• Se ha eliminado mediante pruebas de hipótesis los datos
atípicos .
• Se ha realizado inferencias acerca de los parámetros en los
resultados de las pruebas F y t.
30. BIBLIOGRAFÍA
• Johnston J. J. Dinardo (1997), · “Métodos Econométricos”, Mc
Graw-Hill.
• Gujarati D. N. (1997), “Econometría” , Mc Graw-Hill.
• Salvatore, Dominick , “Econometría”, Serie Schaum. Mc Graw-
Hill.
• G. S. Maddala (1996), “Introducción a la Econometría”, 2da.
Edición Pretince Hall, México.
• Draper, N y Smith, H. (1998). Applied Regression Analysis, Third
Edition. John Wiley, New York.
• Rao, C.R. (1973). Linear Statistical Inference and its
applications. John Wiley and Sons, New York.