Clase 6 Análisis de regresión.pdf

1
Mejorar: Análisis de Regresión
1
2
Contenido
I. ANÁLISIS DE REGRESIÓN
III. REGRESIÓN LINEAL MÚLTIPLE
IV. REGRESIÓN POLINOMIAL
EJEMPLOS
EJERCICIOS
V. MÉTODO DE SELECCIÓN DE VARIABLES
II. REGRESIÓN LINEAL SIMPLE
2

2
3
Técnica usada para relacionar a través de un modelo, una o más variables
independientes con una variable dependiente (respuesta).
Usos de la Regresión:
1. Descripción. Representar el comportamiento de un proceso.
2. Predicción y estimación. Predicción es en base a un valor x
desconocido. Estimación es en base a un valor conocido de x.
3. Control. Para obtener cierta respuesta deseada del proceso.
I. Análisis de Regresión
3
4
e
+
b
+
b
= x
y 1
0
§ y = variable dependiente a modelar (respuesta).
§ x = variable independiente (predictor de y).
§ = componente de error (medición + natural). Variable aleatoria.
§ β0 = intersección. Si lo datos incluyen el cero representa la media de la
distribución de y cuando x = 0. No tiene sentido si los datos no incluyen
el cero.
§ β1 = pendiente. Es el cambio en la media de y por cada cambio unitario
de x.
e
II. Regresión Lineal Simple
4

3
5
Por medio del método de mínimos cuadrados, que consiste en minimizar el
error de modelo, se obtienen:
x
ˆ
y
ˆ
n
)
x
(
x
Sxx
n
)
y
)(
x
(
xy
Sxy
Sxx
Sxy
ˆ
1
0
2
2
1
b
-
=
b
-
=
-
=
=
b
å
å
å å å
x
ˆ
ˆ
ŷ 1
0 b
+
b
=
1. Estimación de los parámetros del modelo
5
6
En el caso de la Dureza vs. la Temperatura de templado (*):
Dureza (y) = 75,27 – 0,2684x.
(*) Es importante realizar todas las pruebas estadísticas al modelo resultante.
140
130
120
110
100
50
48
46
44
42
40
38
36
S 1,48229
R-cuad. 85,5%
R-cuad.(ajustado) 84,4%
Temp (x)
Dureza
(y)
Gráfica de línea ajustada
Dureza (y) = 75,27 - 0,2684 Temp (x)
Ejemplo
6

4
7
7
8
x
ˆ
ˆ
ŷ
27
,
75
15
818
.
1
)
2684
,
0
(
15
641
x
ˆ
y
ˆ
2684
,
0
4
,
336
.
2
2
,
627
Sxx
Sxy
ˆ
4
,
336
.
2
15
818
.
1
678
.
222
n
)
x
(
x
Sxx
2
,
627
15
641
818
.
1
062
.
77
n
)
y
)(
x
(
xy
Sxy
1
0
1
0
1
2
2
2
b
+
b
=
=
×
-
-
=
b
-
=
b
-
=
-
=
=
b
=
-
=
-
=
-
=
×
-
=
-
=
å
å
å å å
Por cada unidad de aumento en la temperatura de templado, la dureza disminuirá en 0,2684
unidades. Como el rango de los datos no incluye x = 0, el valor de 75,27 no tiene un significado
en particular.
Dureza = 75,27 - 0,2684 temperatura de templado
8

5
9
Construir el modelo de regresión para el Avance vs. el Acabado e
interpretar los coeficientes del mismo.
Ejercicio
9
10
10

6
11
Ho: β1 = 0
Ha: β1 ≠ 0
No existe relación lineal entre x e y. La regresión NO
tiene sentido.
x es valiosa para explicar la variación de y.
y y
2. Prueba del significado de la regresión
11
12
Elementos necesarios para obtener un estadístico de prueba:
12

7
13
Considerando todos los puntos:
2
i
i
2
i
2
i )
ŷ
y
(
)
y
ŷ
(
)
y
y
( -
+
-
=
- å
å
å
SCT = Syy = SCR + SCE
SCT = Syy = Variación total de los datos
SCR = Variación representada por el modelo de regresión
SCE = Variación residual no representada por la regresión
n
)
y
(
y
Syy
SCT
2
i
2
i
å
å -
=
=
Sxy
ˆ
SCR 1 ×
b
=
SCR
SCT
SCE -
=
13
14
TABLA ANOVA
Se rechaza Ho si F > F (tablas) = Fα;1;n-2
14

8
15
Resultado gráfico de la prueba:
β1 = 0. La regresión NO tiene sentido.
15
16
β1 ≠ 0. La regresión SÍ tiene sentido.
16

9
17
Para el caso de la Dureza vs. la Temperatura de precalentamiento.
Ejemplo
17
18
563
,
28
37
,
168
93
,
196
SCR
Syy
SCE
370
,
168
)
2
,
627
(
2684
,
0
Sxy
ˆ
SCR
933
,
196
15
)
641
(
589
.
27
n
)
y
(
y
Syy
SCT
1
2
2
i
2
i
=
-
=
-
=
=
-
×
-
=
×
b
=
=
-
=
-
=
=
å
å
Fα;gl (R); gl (E)= F0,05;1;13 = 4,67.
Como 76,63 > 4,67, la regresión SÍ tiene sentido.
18

10
19
Realizar la prueba de significación de la regresión para el Avance vs. el
Acabado.
Ejercicio
19
20
Otras formas de probar la significación de los parámetros del modelo son:
a) Pruebas t
Ho: β1 = 0 Ha: β1 ≠ 0
75
,
8
4
,
336
.
2
197
,
2
2684
,
0
Sxx
MSE
ˆ
)
ˆ
(
se
ˆ
t
:
EP 1
1
1
-
=
-
=
b
=
b
b
=
tα/2;n-2= t0,025;13 = 2,16
Se rechaza Ho si,
En este caso el modelo SÍ es significativo (merece la pena hacer la
regresión).
2
-
n
/2;
t
t a
>
3. Pruebas a los parámetros de la regresión β1 y β0
20

11
21
Ho: β0 = 0 Ha: β0 ≠ 0
14
,
20
4
,
336
.
2
)
2
,
121
(
15
1
197
,
2
27
,
75
Sxx
)
x
(
n
1
MSE
ˆ
)
ˆ
(
se
ˆ
t
:
Ep
2
2
0
0
0
=
÷
÷
ø
ö
ç
ç
è
æ
+
=
÷
÷
ø
ö
ç
ç
è
æ
+
b
=
b
b
=
tα/2;n-2= t0,025;13 = 2,16
Se rechaza Ho si,
En este caso el término de la intersección SÍ debe formar parte del
modelo.
2
-
n
/2;
t
t a
>
21
22
Si no se rechaza que la intersección es cero, indica que el ajuste puede
mejorarse usando el modelo sin dicho término (regresión "a través del
origen").
Se debe comparar MCE de ambos modelos para ver cuál es menor, y
considerar además si es factible que el modelo pase por el punto (0,0).
Los residuos representan al término del error en el modelo (ε):
e
+
b
= x
y 1
å
å
=
b 2
1
x
xy
ˆ x
ˆ
ŷ 1
b
=
1
n
xy
ˆ
y
ˆ
MCE 1
2
2
-
b
-
=
s
=
å å
å
-
a
±
b
=
b 2
1
n
;
2
/
1
1
x
MCE
t
ˆ
)
(
IC
Regresión a través del origen
22

12
23
b) Intervalos de confianza
2022
,
0
;
3347
,
0
4
,
336
.
2
197
,
2
16
,
2
2684
,
0
Sxx
MCE
)
t
(
ˆ
)
ˆ
(
se
)
t
(
ˆ
2
n
;
2
/
1
1
2
n
;
2
/
1
-
-
=
±
-
=
±
b
=
b
±
b -
a
-
a
83,34
;
20
,
67
4
,
336
.
2
)
2
,
121
(
15
1
197
,
2
16
,
2
27
,
75
Sxx
)
x
(
n
1
MCE
)
t
(
ˆ
)
ˆ
(
se
)
t
(
ˆ
2
2
2
n
;
2
/
0
0
2
n
;
2
/
0
=
÷
÷
ø
ö
ç
ç
è
æ
+
±
=
÷
÷
ø
ö
ç
ç
è
æ
+
±
b
=
b
±
b -
a
-
a
Los resultados coinciden con las pruebas t (el valor cero NO está en
ninguno de los intervalos).
23
24
Realizar la prueba de significancia de la regresión usando la prueba t, y los
intervalos de confianza, para el caso del Avance vs. el Acabado.
Ejercicio
24

13
25
En el caso de querer "predecir" el resultado de una nueva observación
(diferente valor de x – dentro del rango – o un valor de los datos originales)
se tienen dos intervalos de confianza: uno es para observaciones
individuales y el otro es para la predicción promedio.
0
0 ŷ
x ®
)
Sxx
)
x
x
(
n
1
1
(
MCE
t
ŷ
2
0
2
n
;
2
/
0
-
+
+
± -
a
§ Intervalo de predicción (IP)
§ Intervalo de confianza de la predicción (IC)
)
Sxx
)
x
x
(
n
1
(
MCE
t
ŷ
2
0
2
n
;
2
/
0
-
+
± -
a
Predicción de nuevas observaciones
25
26
Se tiene la siguiente información sobre la dureza de
ejes en función del tratamiento térmico (temperatura
de templado).
Ejemplo
26

14
27
27
28
Se desea saber el valor de dureza a una temperatura de 112 grados:
16
,
2
t
t
2030
,
45
ŷ
112
x
2030
,
45
112
2684
,
0
27
,
75
ŷ
13
;
025
,
0
2
-
n
/2;
0
0
0
=
=
=
=
=
×
-
=
a
48,5660
;
8400
,
41
)
4
,
336
.
2
)
2
,
121
112
(
15
1
1
(
197
,
2
16
,
2
2030
,
45
2
=
-
+
+
±
Intervalo de predicción individual:
Obtener la predicción individual en el caso del Acabado (1,8) vs. el Avance.
Ejercicio
28

15
29
855
,
0
933
,
196
370
,
168
R
1
R
0
SCT
SCR
r
R 2
2
2
2
=
=
£
£
=
=
Es la proporción de la variación explicada (representada por el modelo de
regresión.
Para el caso del tratamiento térmico: el 85,50% de la variación en la dureza
es explicada por la temperatura.
Obtener el coeficiente de determinación en el caso del Acabado vs. el
Avance.
4. Coeficiente de determinación
Ejercicio
29
30
[ ][ ]
1
r
1
-
R
)
y
(
y
n
)
x
(
x
n
y
x
-
xy
n
Sxx
Syy
Sxy
r 2
2
2
2
2
£
£
=
-
-
=
×
=
å å
å å
å å å
Representa una medida del grado de asociación lineal entre "x" e "y". Para
el caso del tratamiento térmico:
Obtener el coeficiente de correlación en el caso del Acabado vs. el Avance.
925
,
0
)
4
,
336
.
2
(
)
933
,
196
(
2
,
627
r -
=
×
-
=
Coeficiente de correlación
Ejercicio
30

16
31
a) Muestras pequeñas (n < 50)
Ho: ρ = 0 Ha: ρ ≠ 0
2
r
1
2
n
r
t
:
EP
-
-
= Se rechaza Ho si, 2
-
n
/2;
t
t a
>
b) Muestras grandes (n ≥ 50)
1
n
r
z
:
EP -
= Se rechaza Ho si, /2
z
z a
>
Pruebas sobre el significado de r
31
32
En el caso del tratamiento térmico:
Ho: ρ = 0 Ha: ρ ≠ 0
75
,
8
)
925
,
0
(
1
2
15
925
,
0
r
1
2
n
r
t
:
EP
2
2
-
=
-
-
-
-
=
-
-
=
16
,
2
t
t ,025;13
0
2
-
n
/2; =
=
a
Por tanto, la correlación es estadísticamente significativa.
Nota:
Un valor relativamente bajo de r puede ser estadísticamente significativo sin que esto
implique que dicha relación sea útil desde el punto de vista práctico.
Una correlación útil deberá ser de por lo menos 0,8 ó 0,9 (Wheeler, 1995).
32

17
33
El modelo a considerar incluye el término del error, y se supone que dichos
errores siguen una distribución normal con varianza constante y que son
independientes entre sí.
El incumplimiento de las suposiciones pueden generar un modelo inestable
desde el punto de vista de que diferentes muestras pueden producir
modelos diferentes con conclusiones opuestas.
Los residuos representan al término del error en el modelo (ε):
§ Regular
§ Eliminado estudentizado
i
i
i ŷ
y
e -
=
MCE
e
d i
i =
ú
û
ù
ê
ë
é -
+
-
=
Sxx
)
x
x
(
n
1
(
1
MCE
e
r
2
i
i
i
§ Estandarizado
Suposiciones del modelo
33
34
1. Obtener los residuos.
2. Elaborar la siguiente tabla:
3. Graficar en papel probabilístico normal.
4. Si los residuos siguen una trayectoria aproximadamente lineal, se
acepta su normalidad.
i F = 100 (i - 0,5)/N Residuos ordenados
1
2
…
N
(N = número de residuos)
5. Prueba de normalidad
34

18
35
Datos del tratamiento térmico:
x
2684
,
0
27
,
75
ŷ -
=
Ejemplo
35
36
Datos del tratamiento térmico:
Ejemplo
36

19
37
La normalidad NO se rechaza
37
38
Ejemplo de no-normalidad
38

20
39
Obtener los residuos en el caso del Acabado vs. el Avance y probar su
normalidad.
Ejercicio
39
40
40

21
41
1. Graficar residuos vs. .
2. Se acepta que la varianza es constante si la dispersión de los puntos es
aproximadamente la misma.
ŷ
Para el
tratamiento
térmico se
considera la
varianza
constante.
6. Prueba de varianza constante
41
42
Interpretación general de los residuos
Banda aleatoria Box y Bisgaard (1996)
42

22
43
Interpretación de los residuos vs. estimados
(y vs. niveles de un factor) Box y Bisgaard 1996)
La varianza depende de la media.
Transformar datos. Cuando es la
gráfica de un factor, ese factor
afecta a la variación
Tal vez sea necesario un término de
segundo orden (en el modelo o
para un factor específico), o
transformar datos.
43
44
Error en el análisis. Tal vez se omitió
β0 en el modelo (o ese factor en el
modelo).
Interpretación de los residuos vs. estimados
(y vs. niveles de un factor) Box y Bisgaard 1996)
44

23
45
Realizar la prueba de varianza constante en el caso del Acabado vs. el
Avance .
Ejercicio
45
46
§ Al efectuar experimentos, se deberá registrar en el orden en el que
fueron realizados.
§ La prueba de independencia consiste en graficar los residuos vs. el
orden de cada experimento.
§ Si se observan fluctuaciones aleatorias en una banda horizontal, la
independencia se acepta.
§ En caso contrario se deberá repetir el experimento teniendo cuidado
con la aleatorización de las pruebas.
§ En caso de que el estudio no sea experimental es importante buscar el
orden en que se obtuvieron las observaciones.
7. Prueba de independencia
46

24
47
Probar la independencia del tratamiento térmico.
No se rechaza la independencia. Se supone que el orden de los datos es en
el que quedaron en la tabla.
Ejemplo
47
48
Ejemplo de no-independencia
48

25
49
Ejemplo de no-independencia
49
50
Probar la independencia en el caso del Acabado vs. el Avance.
Ejercicio
50

26
51
§ La prueba de falta de ajuste asume que se cumplen las suposiciones del
modelo.
§ Se quiere probar:
Ho: y = β0 + β1x + ε Ha: y ≠ β0 + β1x + ε
(El modelo lineal es el adecuado) (El modelo lineal no es el adecuado)
Para realizar esta prueba se requiere tener observaciones repetidas de "y"
para algunos valores de "x".
8. Prueba de falta de ajuste del modelo (lack-of-fit)
51
52
Hacer la prueba de falta de ajuste del tratamiento térmico.
Ejemplo
52

27
53
Procedimiento:
El desarrollo de la prueba es el siguiente:
§ Sea m el número de niveles totales de x (m = 11)
§ Sea ni el número de observaciones en xi (i = 1…m)
§ Sea yij la j-ésima observación de xi (j = 1…ni)
§ n = número total de observaciones
El principio básico es la partición del error en dos componentes:
§ Falta de ajuste (LOF)
§ Error puro (PE)
å
=
m
1
i
n
n
53
54
ij
i
ij e
)
ŷ
y
( =
-
y
x
54

28
55
MC(PE)
MC(LOF)
m)
SC(PE)/(n
2)
SC(LOF)/(m
F
:
EP
SC(PE)
SC(LOF)
SCE
=
-
-
=
+
=
Rechazar Ho si, m
n
;
2
m
;
F
F -
-
a
>
i
y å 2
i
ij )
y
-
(y
55
56
Como 0,56 no es mayor que 6, NO se rechaza que el modelo lineal
propuesto sea el adecuado.
56
,
0
167
,
3
766
,
1
MC(PE)
MC(LOF)
F
:
EP =
=
=
Rechazar Ho si, )
6
(F
F
F 4
;
9
;
05
,
0
m
n
;
2
m
; =
> -
-
a
56

29
57
Completar la siguiente tabla ANOVA basado en los siguientes datos:
Ejercicio
57
58
9. Distancia D de Cook
Detecta observaciones influyentes.
En la práctica, considerar D significativa si es mayor que 1. En este caso
se deberá estudiar la observación para ver si es real. Si no es real,
borrarla. Si es real, ver causas en el proceso.
10.PRESS (Predicted SSE)
Evalúa la capacidad de predicción del modelo.
Se compara PRESS contra SCE, y de manera empírica, si la relación es
menor a 2, se considera que el modelo es bueno para predecir.
Otras medidas de diagnostico y problemas
58

30
59
11.Prueba de Durbin-Watson
Detecta autocorrelación entre los errores (falta de independencia de
manera analítica).
Esta prueba supone que los errores siguen una distribución normal:
Ho: No existe correlación positiva, ρ = 0
Ha: Existe correlación positiva, ρ > 0
También se puede probar:
Ho: No existe correlación negativa, ρ = 0
Ha: Existe correlación negativa, ρ < 0
El estadístico de prueba es:
å
å
=
=
-
-
= n
1
t
2
t
n
2
t
2
1
t
t
e
)
e
e
(
d
:
EP
59
60
Buscar dL y dU en las tablas de Durbin-Watson y llegar a una conclusión en
base a la siguiente figura:
Se puede sospechar de autocorrelacion cuando una de la variables es el
tiempo.
60

31
61
En el caso del tratamiento térmico, de Minitab se obtiene d = 1,75396.
Con n = 15, p – 1 = 1, y usando α = 5% se obtiene de la tabla DW: dL = 1,08
y dU = 1,36 y se concluye que NO existe autocorrelación entre los errores.
Para usar las tablas de Durbin-Watson (DW) es necesario tener n mayor o
igual a 15, definir p – 1 (p = número de parámetros, βs) y el nivel de α (5% ó
1%).
Ejemplo
61
62
La autocorrelación está en general provocada cuando no se incluyen una o
más variables importantes en el modelo, por ejemplo al relacionar las
ventas anuales de refresco contra los gastos en publicidad, la variables
crecimiento poblacional (en el tiempo) debería estar incluida.
Los efectos de la autocorrelación son:
§ estimadores ineficientes del modelo,
§ se subestima el error,
§ y los resultados de pruebas de hipótesis e intervalos de confianza
pueden ser erróneos.
62

32
63
La autocorrelación también puede detectarse al graficar los residuos contra
el orden (prueba de independencia) y observar grupos de puntos de un
solo lado de la línea central.
Ejercicio
Realizar en el caso del Acabado vs. el Avance las siguientes pruebas:
Distancia D de Cook, PRESS y Durbin-Watson.
63
64
Consiste en generar modelos de regresión con más de una variable
independiente (Xs).
e
+
b
+
+
b
+
b
+
b
= k
k
2
2
1
1
0 x
x
x
y !
§ n = número de datos
§ p = número de parámetros (βs)
§ k = número de variables (Xs)
§ = componente de error (medición + natural). Variable aleatoria.
La relación entre el número de parámetros y el número de variables es:
p = k + 1.
e
III. Regresión Lineal Múltiple
64

33
65
e
+
b
=
!
!
!
!
X
y
βi (i = 1…k) representa el cambio esperado en la respuesta "y" cuando xi
cambia una unidad, manteniendo constantes las demás Xs.
A las βs se les llama coeficientes de correlación parcial.
β0 representa la intersección del hiperplano de regresión.
Si el rango de los datos Xs incluye x1 = x2 = … = xk = 0, β0 representa la
media de "y" cuando x1 = x2 = … = xk = 0.
El modelo en forma matricial es:
65
66
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
=
n
2
1
y
y
y
y
!
"
Donde:
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
=
nk
2
n
1
n
k
2
22
21
k
1
12
11
x
x
x
1
x
x
x
1
x
x
x
1
x
!
!
!
!
!
!
!
!
"
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
b
b
b
=
b
k
1
0
!
"
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
e
e
e
=
e
n
2
1
!
"
La solución matricial es:
y
X
)
X
X
(
ˆ '
1
' !
!
!
!
!
-
=
b
Para obtener el modelo:
b
=
!
!
!
ˆ
x
ŷ
66

34
67
Se supone que en el tratamiento térmico se introduce una variable más
que es la temperatura de la pieza:
X1 (Temp) X2 (Tempza) Y (Dureza)
101 848 49
115 845 44
115 847 46
140 837 38
123 844 43
107 847 47 Estadísticas de la regresión
135 840 41
135 838 38
105 846 47
110 845 45
110 844 43
135 836 37
125 845 44
132 840 40
130 839 39
Ejemplo
67
68
ú
ú
ú
ú
ú
ù
ê
ê
ê
ê
ê
é
=
39
44
49
y
!
"
Donde:
ú
ú
ú
ú
ú
ù
ê
ê
ê
ê
ê
é
=
839
130
1
845
120
1
848
101
1
x
!
!
!
"
ú
ú
ú
ú
ú
ú
ù
ê
ê
ê
ê
ê
ê
é
b
b
b
=
b
k
1
0
ˆ
ˆ
ˆ
ˆ
!
"
b
=
!
!
!
ˆ
x
ŷ
Y (Dureza) = -574 – 0,0606 X1 (Temp) + 0,741 X2 (Tempza)
68

35
69
Para estimar la varianza σ2 es necesario obtener:
y
X
ˆ
y
y
SCE '
'
' !
!
!
!
!
b
-
=
p
n
SCE
MCE
-
=
MCE
ˆ2
=
s
Donde:
§ n = número de datos
§ p = k + 1
69
70
a) Prueba de significación de la regresión
Ho: β1 = β2 = … = βk = 0
Ha: βj ≠ 0 para al menos una j
MCE
MCR
)
1
k
n
/(
SCE
k
/
SCR
F
:
EP =
-
-
=
§ p = k + 1 n – k -1 = n – p k = p - 1
Rechazar Ho si, 1
k
n
;
k
;
F
F -
-
a
>
Pruebas de hipótesis
70

36
71
Cjj son los elementos de la diagonal de la matriz
Rechazar Ho si,
b) Pruebas sobre coeficientes individuales
Ho: βj = 0
Ha: βj ≠ 0
jj
2
j
j
j
c
ˆ
ˆ
)
ˆ
(
se
ˆ
t
:
EP
s
b
=
b
b
=
1
k
n
;
2
/
t
t -
-
a
>
1
'
)
X
X
( -
!
!
71
72
Resultados e interpretación usando Minitab:
72

37
73
§ El modelo es significativo y tiene buena capacidad de predicción pues
SCE = 7,037 no es muy diferente a PRESS = 11, 0332. La diferencia es
menos del doble (1,5106).
§ El modelo explica el 96,43% de la variación de la dureza, sin embargo la
variable Temperatura no es significativa. Se eliminará del modelo, se
generará otro y se compararán ambos.
§ Con respecto a la prueba de autocorrelación, estadístico de Durbin-
Watson = 2,33858.
Con α = 0,05, se obtiene de las tablas DW: dL = 0,95, dU = 1,54, 4–dU =
2,46, por lo que no existe autocorrelación.
73
74
NO se rechaza la Normalidad
74

38
75
No se rechaza la Varianza constante
75
76
No se rechaza la Independencia
Se supone que el orden de los datos es en el que quedaron en la tabla
76

39
77
Ajustando el modelo de regresión sin la variable temperatura:
77
78
§ Durbin-Watson es 2,39601 (no existe autocorrelación).
§ Las suposiciones de normalidad, varianza constante e independencia
se cumplen.
§ La S (medida del error) del modelo completo (2 factores) es 0,765780
mientras que la del modelo reducido es 0,810823 (6% mayor).
§ Los coeficientes de determinación son 96,43% y 95,66%
respectivamente, y ambos modelos tienen buena capacidad de
predicción (comparar PRESS vs. SCE).
§ En conclusión, aunque el modelo completo es ligeramente mejor que
el modelo reducido, es preferible usar el reducido pues contiene una
variable menos.
78

40
79
Considerar que al caso del Acabado se le agrega una variable más: posición.
Construir un modelo de regresión e interpretarlo:
Ejercicio
79
80
Método usado para medir la contribución de factores adicionales en un
modelo de regresión.
Por ejemplo, si se desea saber la contribución de una segunda variable (X2)
en el modelo, dado que ya se tiene a X1.
§ Modelo Completo y = β0 + β1x1 + β2x2 + ε → SCR (β1, β2)
§ Modelo Reducido y = β0 + β1x1 + ε → SCR (β1)
La SCR condicional es:
SCR (β2│β1) = SCR (β1, β2) - SCR (β1)
Y representa la contribución de agregar X2 al modelo, dado que ya tiene a
X1.
Método de las sumas de los cuadrados extras
80

41
81
← SCR (β1)
← SCR (β2 │β1)
SCR (Anova) = SCR (β1, β2) = 189,896
Ho: β2 = 0 Ha: β2 ≠ 0
708
,
36
5864
,
0
1
/
526
,
21
MCE
1
/
)
(
SCR
F
:
EP 1
2
=
=
b
b
=
A pesar de que la Temperatura de la pieza (X2) contribuye poco dado que ya
se incluyó a la variable Temperatura, la primera es significativa (ver también
prueba t).
Rechazar Ho si, 75
,
4
F
F
F 12
;
1
2
;
05
,
0
GLE
;
1
GLR
;
05
,
0 =
=
> -
-
81
82
← SCR (β2)
← SCR (β1 │β2)
Se observa que la variable Temp (dado que ya se incluyó a la variable
Tempza) contribuye aún menos que la Tempza (dado que se incluye Temp,
ver prueba anterior).
Ho: β1 = 0 Ha: β 1 ≠ 0
575
,
2
5864
,
0
1
/
510
,
1
MCE
1
/
)
(
SCR
F
:
EP 2
1
=
=
b
b
=
Rechazar Ho si,
como 2,575 < que 4,75, se confirma que Temp NO es necesaria en el modelo.
75
,
4
F
F
F 12
;
1
2
;
05
,
0
GLE
;
1
GLR
;
05
,
0 =
=
> -
-
82

42
83
Se define por:
)
R
1
(
p
n
1
n
1
MCT
MCE
1
adj
R 2
2
-
-
-
-
=
-
=
Siendo:
• n = número de observaciones.
• p = número de parámetros (βs).
• R2 = SCR/SCT.
Si los dos valores R2adj y R2 son muy diferentes significa que el modelo está
sobre ajustado.
R2adj penaliza al agregar variables que no son importantes en el modelo.
12. Coeficiente de determinación múltiple ajustado
83
84
Significa que algunas variables (Xs) pueden estar correlacionadas entres sí.
Indicaciones de Multicolinealidad son las siguientes:
1. Correlaciones significativas entre pares de Xs.
2. Que los signos de algunos parámetros del modelo sean contrarios a lo
esperado.
3. VIFi (Variance Inflation Factor) > 10.
1...k
i
R
1
1
VIF 2
i
i =
-
= Ri
2 del modelo sin incluir xi
13. Multicolinealidad
84

43
85
Soluciones a la multicolinealidad:
1. Eliminar una o más variables del modelo (se puede usar el
procedimiento stepwise – paso a paso).
2. Si se decide dejar todas las variables, evitar establecer relaciones causa-
efecto entre "y" y las Xs.
En el ejemplo anterior, VIF = 5,69 para las dos variables de temperatura, lo
cual indica que no existe multicolinealidad.
85
86
Es un caso particular del modelo lineal en el cual los parámetros (βs) son
lineales.
El modelo polinomial de 2º orden y una variable es:
e
+
b
+
b
+
b
= 2
2
1
0 x
x
y
El modelo polinomial de 2º orden y dos variables es:
e
+
b
+
b
+
b
+
b
+
b
+
b
= 2
1
12
2
2
22
2
1
11
2
2
1
1
0 x
x
x
x
x
x
y
IV. Regresión Polinomial
86

44
87
e
+
b
+
b
+
b
= 2
2
1
0 x
x
y
§ β0 = Valor de E(y) cuando y si x = 0.
§ β1 = parámetro de traslación de la parábola (derecha, izquierda).
§ β2 = razón de curvatura (hacia arriba o hacia abajo).
Notas:
§ Mantener el orden del polinomio lo más bajo posible (probar
transformaciones en primer lugar - parsimonia)
§ La extrapolación puede ser muy riesgosa.
§ Conviene usar la forma corregida del modelo para aumentar la
precisión de los estimadores y evitar posible multicolinealidad.
87
88
Considerar la relación existente entre el contenido de
carbón y la resistencia a la tensión de un metal.
Ejemplo
88

45
89
89
90
Este modelo con variables originales presenta multicolinealidad.
90

46
91
k = 3 (p + 1 = 2 + 1) n = 15 α = 0,05 dL = 0,95 dU= 1,54
El modelo presenta autocorrelación positiva.
91
92
Se observa falta de independencia
92

47
93
Al modificar las variables originales desapareció la multicolinealidad.
93
94
k = 3 (p + 1 = 2 + 1) n = 15 α = 0,05 dL = 0,94 dU= 1,54
Sin embargo la autocorrelación positiva persiste.
D.COOK 0,4486 0,0885 0,0277 0,0728 0,1700 0,0414 0,0051 0,0027 0,0187 0,0483 0,0672 0,0084 0,0204 0,0141 1,0774
Al aplicar la prueba D de Cook, se nota que la última observación tiene
mucha influencia (D > 1).
94

48
95
Se prueba el modelo cúbico:
95
96
Aumenta R2, disminuye s y la prueba de Durbin-Watson es inconclusa.
k = 4 (p + 1 = 3 + 1) n = 15 α = 0,05 dL = 0,81 dU= 1,75
Al aplicar la prueba de independencia no se observa problema alguno.
96

49
97
No se observa autocorrelación o falta de independencia
Posible
outlier
97
98
Analizar la relación entre la presión de un gas en base a
la temperatura del mismo.
Ejercicio
98

50
99
Se inicia con un modelo vacío, excepto por β0, y empieza a agregar variables
de una en una, tomando la variable que tenga la mayor correlación con "y".
Esta variable se incluye si su F es mayor que cierto valor preseleccionado (F
a entrar).
La segunda variable seleccionada es la que tenga mayor correlación parcial
con "y".
A cada paso que se agrega una variable, todas las que ya se habían incluido
anteriormente son reevaluadas por medio de pruebas F parciales para ver si
vale la pena que sigan estando en el modelo a la luz de la incorporación de
otras variables.
Así también se tienen un valor F a retirar.
V. Métodos de Selección de Variables
1. Regresión por pasos (stepwise regression)
99
100
Desarrolla modelos de regresión de las mejores combinaciones de las
variables y calcula las siguientes medidas de desempeño:
R2, R2adj, Cp (Mallows)
p
2
n
MCE
SCE
Cp +
-
=
§ p = número de parámetros del subconjunto particular.
§ SCE del modelo basado en el subconjunto particular.
§ MCE del modelo completo (todas las variables).
2. Regresión de mejores subconjuntos (best subsets)
100

51
101
Aplicar los dos métodos anteriores a
los siguientes datos (no son los
mismos que en el ejemplo de
regresión múltiple de Dureza vs. Temp
y Tempza).
Ejemplo
101
102
102

52
103
El procedimiento de regresión por pasos recomienda incluir a las variables
Temperatura y Temperatura de la pieza.
103
104
El procedimiento de regresión de mejores subconjuntos pasos recomienda
incluir a las variables Temperatura y Temperatura de la pieza.
104

53
105
Aplicar los dos métodos de
selección de variables a la
siguiente información.
Ejercicio
105

Clase 6 Análisis de regresión.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Clase 6 Análisis de regresión.pdf

Similar a Clase 6 Análisis de regresión.pdf (20)

Último

Último (20)

Clase 6 Análisis de regresión.pdf