REGRESIÓN LINEAL SIMPLE
Email:cgonzales1@usmp.edu.pe
Objetivos:
Al finalizar este capitulo el alumno será capaz de:
• Representar la recta que define la relación lineal
entre dos variables
• Estimar la recta de regresión por el método de
mínimos cuadrados e interpretar su ajuste.
• Realizar inferencia sobre los parámetros de la recta
de regresión
• Construir e interpretar intervalos de confianza e
intervalos de predicción para la variable
dependiente
• Realizar una prueba de hipótesis para determinar si
el coeficiente de correlación es distinto de cero
USOS DEL ANÁLISIS DE REGRESIÓN:
• Predicción: razón principal para usar regresión.
• Descripción: La idea es establecer una ecuación que
describa la relación entre la variable dependiente y las
variables predictoras.
• Control: Controlar el comportamiento o variación de la
variable de respuesta. Selección de variables
REPRESENTACION GRAFICA
• Relación entre las variables
• Sugerir modelos posibles
• Existencia de valores atípicos
GRAFICO DE DISPERSION
EL MODELO DE REGRESIÓN LINEAL SIMPLE
iii eXY ++= βα
• La variable X es no aleatoria y observada con
la mejor precisión posible.
• Los errores ei son variables aleatorias con
media 0 y varianza σ2
constantes .
• Los errores ei y ej (i,j=1…,n) son
independientes entre si. Es decir,
Cov(eiej)=0.
Suposiciones del modelo:
ESTIMACION DE LOS PARAMETROS
OBJETIVO:
Hallar los estimadores bo y b1 de los parámetros desconocidos βo,
β1 respectivamente, y obtener la ecuación de predicción
ANALISIS DE VARIANZA
Descomposición de la variación total
CUADRO ANOVA
Fuentes deVariación G.L SumadeCuadrados(SC) Cuadrados Medios(CM) Test F
Regresión 1 SCReg CMReg=SCReg F=CMReg/CME
Error n-2 SCE CME =SCE/n-2
Total n-1 SCY
Test de F de la tabla del ANOVA
1
1
: 0
: 0
Ho
Ha
β
β
=
≠
El coeficiente de determinación R2
Corresponde a la porción de la variación total SCTo, de
la variable dependiente que es explicada por el modelo
de regresión.
2 ReSC g
R
SCTo
=
Se han recogido datos de una localidad mediante sendas
encuestas sobre el consumo (Y ) de productos de hogar
y del ingreso (X) de los consumidores consultados,
obteniéndose los siguientes resultados:
X Y
7.1 54.6
3.4 44.7
5.5 51
4.3 49.7
3.7 47.2
6 55
3.3 42.9
6.7 55.6
5.1 47.6
4.5 49.5
2.7 44.6
5.9 57.2
• ¿Cumple los supuestos de la regresión?
• Hallar la ecuación de regresión estimada
• Hallar el ANOVA
• Determinar el coeficiente de determinación
• Probar si existe relación lineal entre X e Y. Usar un nivel
de significación del 5 %..
3 4 5 6 7
42
47
52
57
X2
Y2
Y2 = 35.1728 + 3.05029 X2
S = 2.11519 R-Sq = 82.2 % R-Sq(adj) = 80.5 %
Regression Plot
Average: -0.0000000
StDev: 2.01676
N: 12
Anderson-Darling Normality Test
A-Squared: 0.241
P-Value: 0.713
-3 -2 -1 0 1 2 3 4
.001
.01
.05
.20
.50
.80
.95
.99
.999
Probability
RESI3
Normal Probability Plot
-3 -2 -1 0 1 2 3 4
0
1
2
3
4
Residual
Frequency
Histogram of Residuals
0 5 10
-5
0
5
Observation Number
Residual
I Chart of Residuals
Mean=-5.9E-16
UCL=5.266
LCL=-5.266
45 50 55
-3
-2
-1
0
1
2
3
4
Fit
Residual
Residuals vs. Fits
-2 -1 0 1 2
-3
-2
-1
0
1
2
3
4
Normal Plot of Residuals
Normal Score
Residual
Residual Model Diagnostics
The regression equation is
Y2 = 35.2 + 3.05 X2
Predictor Coef SE Coef T P
Constant 35.173 2.258 15.58 0.000
X2 3.0503 0.4482 6.81 0.000
S = 2.115 R-Sq = 82.2% R-Sq(adj) = 80.5%
Analysis of Variance
Source DF SS MS F P
Regression 1 207.21 207.21 46.31 0.000
Residual Error 10 44.74 4.47
Total 11 251.95
INTERVALO DE CONFIANZA PARA EL
COEFICIENTE DE REGRESIÓN
Supuesto:
1 1 1( , ( ))b N Vβ β:
Luego, un intervalo de confianza de 100(1-α) para β1 está
dado por:
1 11 1 1( ) ;b bIC b tS b tSβ = − +
1
( )
b
CME
S
SC X
= (1 , 2)
2
n
t t α
− −
=
Donde:
PRUEBA DE HIPOTESIS PARA β1
1
1
: 0
: 0
Ho
Ha
β
β
=
≠
( )
c
b
t
CME
SC X
=
ESTIMACIÓN DE LA RECTA MEDIA
Interesa estimar la respuesta media en función de un valor
especifico de Xh
2
/( , )hy xY N µ σ:
0 1
ˆ
h hY b b X= +
Luego, un intervalo de confianza de 100(1-α) para µY/X está
dado por:
ˆ ˆ/
ˆ ˆ( ) ;
h h
Y X h hY Y
IC Y tS Y tSµ = − +
(1 , 2)
2
n
t t α
− −
=
( )
2
ˆ
1
( )h
h
Y
X X
S CME
n SC X
 −
 = +
  
 
Donde:
PREDICCION DE UNA NUEVA OBSERVACION
Interesa predecir una observación que se producirá para
un valor especifico Xp
2
/( , )pp y xY N µ σ:
Luego, un intervalo de confianza de 100(1-α) para la nueva
observación Yp está dado por:
ˆ ˆ
ˆ ˆ( ) ;
p
p p pY Yp
IC Y Y tS Y tS= − +
Donde:
(1 , 2)
2
n
t t α
− −
= ( )
2
ˆ
1
1
( )
p
Yp
X X
S CME
n SC X
 −
 = + +
  
 
COEFICIENTE DE CORRELACION
.
SPxy
r
SCx SCy
=
El análisis de CORRELACION intenta medir la fuerza de
la relación lineal entre dos variables.
cov( )
XY
x y
XY
ρ
σ σ
=
Estimado por:
1r = + 1r = −
0r = 0r =
PRUEBA DE HIPOTESIS DE LA CORRELACION
: 0Ho ρ =
: 0Ha ρ ≠
2
1
2
c
r
t
r
n
=
−
−
Un comerciante al menudeo lleva a cabo un estudio para
determinar la relación entre los gastos semanales de
publicidad y las ventas. Se registran los siguientes datos:
Costos por Publicidad 40 20 25 20 30 50 40 20 50 40 25 50
Ventas($) 385 400 395 365 475 440 490 420 560 525 480 510
Resolver:
1. Analizar el diagrama de dispersión
2. Ajustar un modelo de regresión lineal simple
3. Determinar si el efecto del monto de las ventas sobre el
costo promedio de la publicidad es significativo.
4.Calcule el intervalo de confianza del 95% para el
parámetro β.
5. ¿Podría afirmarse que por cada $10 de aumento en el
costo de publicidad, el monto promedio de las ventas
aumenta en $35?.
6.Estime el monto promedio de las ventas si en una semana
en particular se invierte en publicidad $35. Calcule un
intervalo de confianza del 95% para esta estimación.
7.Suponga que la semana entrante se van a invertir en
publicidad un total de $45. ¿Cuál será el monto de las
ventas? Encuentre un intervalo de confianza del 95 %
para esta predicción.
8. Análisis de los supuestos sobre el término de error.
Average: -0.0000000
StDev: 47.8883
N: 12
Anderson-Darling Normality Test
A-Squared: 0.281
P-Value: 0.575
-50 0 50
.001
.01
.05
.20
.50
.80
.95
.99
.999Probability
RESI5
Normal Probability Plot
400 450 500
-2
-1
0
1
Fitted Value
StandardizedResidual
Residuals Versus the Fitted Values
(response is Ventas($)
-2 -1 0 1
-2
-1
0
1
2
NormalScore
Standardized Residual
Normal Probability Plot of the Residuals
(response is Ventas($)

Unidad5 reglineal

  • 1.
  • 2.
    Objetivos: Al finalizar estecapitulo el alumno será capaz de: • Representar la recta que define la relación lineal entre dos variables • Estimar la recta de regresión por el método de mínimos cuadrados e interpretar su ajuste. • Realizar inferencia sobre los parámetros de la recta de regresión • Construir e interpretar intervalos de confianza e intervalos de predicción para la variable dependiente • Realizar una prueba de hipótesis para determinar si el coeficiente de correlación es distinto de cero
  • 3.
    USOS DEL ANÁLISISDE REGRESIÓN: • Predicción: razón principal para usar regresión. • Descripción: La idea es establecer una ecuación que describa la relación entre la variable dependiente y las variables predictoras. • Control: Controlar el comportamiento o variación de la variable de respuesta. Selección de variables
  • 4.
    REPRESENTACION GRAFICA • Relaciónentre las variables • Sugerir modelos posibles • Existencia de valores atípicos GRAFICO DE DISPERSION
  • 5.
    EL MODELO DEREGRESIÓN LINEAL SIMPLE iii eXY ++= βα
  • 6.
    • La variableX es no aleatoria y observada con la mejor precisión posible. • Los errores ei son variables aleatorias con media 0 y varianza σ2 constantes . • Los errores ei y ej (i,j=1…,n) son independientes entre si. Es decir, Cov(eiej)=0. Suposiciones del modelo:
  • 7.
    ESTIMACION DE LOSPARAMETROS OBJETIVO: Hallar los estimadores bo y b1 de los parámetros desconocidos βo, β1 respectivamente, y obtener la ecuación de predicción
  • 8.
  • 9.
    CUADRO ANOVA Fuentes deVariaciónG.L SumadeCuadrados(SC) Cuadrados Medios(CM) Test F Regresión 1 SCReg CMReg=SCReg F=CMReg/CME Error n-2 SCE CME =SCE/n-2 Total n-1 SCY Test de F de la tabla del ANOVA 1 1 : 0 : 0 Ho Ha β β = ≠
  • 10.
    El coeficiente dedeterminación R2 Corresponde a la porción de la variación total SCTo, de la variable dependiente que es explicada por el modelo de regresión. 2 ReSC g R SCTo =
  • 11.
    Se han recogidodatos de una localidad mediante sendas encuestas sobre el consumo (Y ) de productos de hogar y del ingreso (X) de los consumidores consultados, obteniéndose los siguientes resultados: X Y 7.1 54.6 3.4 44.7 5.5 51 4.3 49.7 3.7 47.2 6 55 3.3 42.9 6.7 55.6 5.1 47.6 4.5 49.5 2.7 44.6 5.9 57.2
  • 12.
    • ¿Cumple lossupuestos de la regresión? • Hallar la ecuación de regresión estimada • Hallar el ANOVA • Determinar el coeficiente de determinación • Probar si existe relación lineal entre X e Y. Usar un nivel de significación del 5 %..
  • 13.
    3 4 56 7 42 47 52 57 X2 Y2 Y2 = 35.1728 + 3.05029 X2 S = 2.11519 R-Sq = 82.2 % R-Sq(adj) = 80.5 % Regression Plot
  • 14.
    Average: -0.0000000 StDev: 2.01676 N:12 Anderson-Darling Normality Test A-Squared: 0.241 P-Value: 0.713 -3 -2 -1 0 1 2 3 4 .001 .01 .05 .20 .50 .80 .95 .99 .999 Probability RESI3 Normal Probability Plot
  • 15.
    -3 -2 -10 1 2 3 4 0 1 2 3 4 Residual Frequency Histogram of Residuals 0 5 10 -5 0 5 Observation Number Residual I Chart of Residuals Mean=-5.9E-16 UCL=5.266 LCL=-5.266 45 50 55 -3 -2 -1 0 1 2 3 4 Fit Residual Residuals vs. Fits -2 -1 0 1 2 -3 -2 -1 0 1 2 3 4 Normal Plot of Residuals Normal Score Residual Residual Model Diagnostics
  • 16.
    The regression equationis Y2 = 35.2 + 3.05 X2 Predictor Coef SE Coef T P Constant 35.173 2.258 15.58 0.000 X2 3.0503 0.4482 6.81 0.000 S = 2.115 R-Sq = 82.2% R-Sq(adj) = 80.5% Analysis of Variance Source DF SS MS F P Regression 1 207.21 207.21 46.31 0.000 Residual Error 10 44.74 4.47 Total 11 251.95
  • 17.
    INTERVALO DE CONFIANZAPARA EL COEFICIENTE DE REGRESIÓN Supuesto: 1 1 1( , ( ))b N Vβ β: Luego, un intervalo de confianza de 100(1-α) para β1 está dado por: 1 11 1 1( ) ;b bIC b tS b tSβ = − + 1 ( ) b CME S SC X = (1 , 2) 2 n t t α − − = Donde:
  • 18.
    PRUEBA DE HIPOTESISPARA β1 1 1 : 0 : 0 Ho Ha β β = ≠ ( ) c b t CME SC X =
  • 19.
    ESTIMACIÓN DE LARECTA MEDIA Interesa estimar la respuesta media en función de un valor especifico de Xh 2 /( , )hy xY N µ σ: 0 1 ˆ h hY b b X= +
  • 20.
    Luego, un intervalode confianza de 100(1-α) para µY/X está dado por: ˆ ˆ/ ˆ ˆ( ) ; h h Y X h hY Y IC Y tS Y tSµ = − + (1 , 2) 2 n t t α − − = ( ) 2 ˆ 1 ( )h h Y X X S CME n SC X  −  = +      Donde:
  • 21.
    PREDICCION DE UNANUEVA OBSERVACION Interesa predecir una observación que se producirá para un valor especifico Xp 2 /( , )pp y xY N µ σ:
  • 22.
    Luego, un intervalode confianza de 100(1-α) para la nueva observación Yp está dado por: ˆ ˆ ˆ ˆ( ) ; p p p pY Yp IC Y Y tS Y tS= − + Donde: (1 , 2) 2 n t t α − − = ( ) 2 ˆ 1 1 ( ) p Yp X X S CME n SC X  −  = + +     
  • 24.
    COEFICIENTE DE CORRELACION . SPxy r SCxSCy = El análisis de CORRELACION intenta medir la fuerza de la relación lineal entre dos variables. cov( ) XY x y XY ρ σ σ = Estimado por:
  • 25.
    1r = +1r = − 0r = 0r =
  • 26.
    PRUEBA DE HIPOTESISDE LA CORRELACION : 0Ho ρ = : 0Ha ρ ≠ 2 1 2 c r t r n = − −
  • 27.
    Un comerciante almenudeo lleva a cabo un estudio para determinar la relación entre los gastos semanales de publicidad y las ventas. Se registran los siguientes datos: Costos por Publicidad 40 20 25 20 30 50 40 20 50 40 25 50 Ventas($) 385 400 395 365 475 440 490 420 560 525 480 510 Resolver: 1. Analizar el diagrama de dispersión 2. Ajustar un modelo de regresión lineal simple 3. Determinar si el efecto del monto de las ventas sobre el costo promedio de la publicidad es significativo.
  • 28.
    4.Calcule el intervalode confianza del 95% para el parámetro β. 5. ¿Podría afirmarse que por cada $10 de aumento en el costo de publicidad, el monto promedio de las ventas aumenta en $35?. 6.Estime el monto promedio de las ventas si en una semana en particular se invierte en publicidad $35. Calcule un intervalo de confianza del 95% para esta estimación. 7.Suponga que la semana entrante se van a invertir en publicidad un total de $45. ¿Cuál será el monto de las ventas? Encuentre un intervalo de confianza del 95 % para esta predicción. 8. Análisis de los supuestos sobre el término de error.
  • 29.
    Average: -0.0000000 StDev: 47.8883 N:12 Anderson-Darling Normality Test A-Squared: 0.281 P-Value: 0.575 -50 0 50 .001 .01 .05 .20 .50 .80 .95 .99 .999Probability RESI5 Normal Probability Plot
  • 30.
    400 450 500 -2 -1 0 1 FittedValue StandardizedResidual Residuals Versus the Fitted Values (response is Ventas($) -2 -1 0 1 -2 -1 0 1 2 NormalScore Standardized Residual Normal Probability Plot of the Residuals (response is Ventas($)