SlideShare una empresa de Scribd logo
1
Mejorar: Análisis de Regresión
1
2
Contenido
I. ANÁLISIS DE REGRESIÓN
III. REGRESIÓN LINEAL MÚLTIPLE
IV. REGRESIÓN POLINOMIAL
EJEMPLOS
EJERCICIOS
V. MÉTODO DE SELECCIÓN DE VARIABLES
II. REGRESIÓN LINEAL SIMPLE
2
2
3
Técnica usada para relacionar a través de un modelo, una o más variables
independientes con una variable dependiente (respuesta).
Usos de la Regresión:
1. Descripción. Representar el comportamiento de un proceso.
2. Predicción y estimación. Predicción es en base a un valor x
desconocido. Estimación es en base a un valor conocido de x.
3. Control. Para obtener cierta respuesta deseada del proceso.
I. Análisis de Regresión
3
4
e
+
b
+
b
= x
y 1
0
§ y = variable dependiente a modelar (respuesta).
§ x = variable independiente (predictor de y).
§ = componente de error (medición + natural). Variable aleatoria.
§ β0 = intersección. Si lo datos incluyen el cero representa la media de la
distribución de y cuando x = 0. No tiene sentido si los datos no incluyen
el cero.
§ β1 = pendiente. Es el cambio en la media de y por cada cambio unitario
de x.
e
II. Regresión Lineal Simple
4
3
5
Por medio del método de mínimos cuadrados, que consiste en minimizar el
error de modelo, se obtienen:
x
ˆ
y
ˆ
n
)
x
(
x
Sxx
n
)
y
)(
x
(
xy
Sxy
Sxx
Sxy
ˆ
1
0
2
2
1
b
-
=
b
-
=
-
=
=
b
å
å
å å å
x
ˆ
ˆ
ŷ 1
0 b
+
b
=
1. Estimación de los parámetros del modelo
5
6
En el caso de la Dureza vs. la Temperatura de templado (*):
Dureza (y) = 75,27 – 0,2684x.
(*) Es importante realizar todas las pruebas estadísticas al modelo resultante.
140
130
120
110
100
50
48
46
44
42
40
38
36
S 1,48229
R-cuad. 85,5%
R-cuad.(ajustado) 84,4%
Temp (x)
Dureza
(y)
Gráfica de línea ajustada
Dureza (y) = 75,27 - 0,2684 Temp (x)
Ejemplo
6
4
7
7
8
x
ˆ
ˆ
ŷ
27
,
75
15
818
.
1
)
2684
,
0
(
15
641
x
ˆ
y
ˆ
2684
,
0
4
,
336
.
2
2
,
627
Sxx
Sxy
ˆ
4
,
336
.
2
15
818
.
1
678
.
222
n
)
x
(
x
Sxx
2
,
627
15
641
818
.
1
062
.
77
n
)
y
)(
x
(
xy
Sxy
1
0
1
0
1
2
2
2
b
+
b
=
=
×
-
-
=
b
-
=
b
-
=
-
=
=
b
=
-
=
-
=
-
=
×
-
=
-
=
å
å
å å å
Por cada unidad de aumento en la temperatura de templado, la dureza disminuirá en 0,2684
unidades. Como el rango de los datos no incluye x = 0, el valor de 75,27 no tiene un significado
en particular.
Dureza = 75,27 - 0,2684 temperatura de templado
8
5
9
Construir el modelo de regresión para el Avance vs. el Acabado e
interpretar los coeficientes del mismo.
Ejercicio
9
10
10
6
11
Ho: β1 = 0
Ha: β1 ≠ 0
No existe relación lineal entre x e y. La regresión NO
tiene sentido.
x es valiosa para explicar la variación de y.
y y
2. Prueba del significado de la regresión
11
12
Elementos necesarios para obtener un estadístico de prueba:
12
7
13
Considerando todos los puntos:
2
i
i
2
i
2
i )
ŷ
y
(
)
y
ŷ
(
)
y
y
( -
+
-
=
- å
å
å
SCT = Syy = SCR + SCE
SCT = Syy = Variación total de los datos
SCR = Variación representada por el modelo de regresión
SCE = Variación residual no representada por la regresión
n
)
y
(
y
Syy
SCT
2
i
2
i
å
å -
=
=
Sxy
ˆ
SCR 1 ×
b
=
SCR
SCT
SCE -
=
13
14
TABLA ANOVA
Se rechaza Ho si F > F (tablas) = Fα;1;n-2
14
8
15
Resultado gráfico de la prueba:
β1 = 0. La regresión NO tiene sentido.
15
16
β1 ≠ 0. La regresión SÍ tiene sentido.
16
9
17
Para el caso de la Dureza vs. la Temperatura de precalentamiento.
Ejemplo
17
18
563
,
28
37
,
168
93
,
196
SCR
Syy
SCE
370
,
168
)
2
,
627
(
2684
,
0
Sxy
ˆ
SCR
933
,
196
15
)
641
(
589
.
27
n
)
y
(
y
Syy
SCT
1
2
2
i
2
i
=
-
=
-
=
=
-
×
-
=
×
b
=
=
-
=
-
=
=
å
å
Fα;gl (R); gl (E)= F0,05;1;13 = 4,67.
Como 76,63 > 4,67, la regresión SÍ tiene sentido.
18
10
19
Realizar la prueba de significación de la regresión para el Avance vs. el
Acabado.
Ejercicio
19
20
Otras formas de probar la significación de los parámetros del modelo son:
a) Pruebas t
Ho: β1 = 0 Ha: β1 ≠ 0
75
,
8
4
,
336
.
2
197
,
2
2684
,
0
Sxx
MSE
ˆ
)
ˆ
(
se
ˆ
t
:
EP 1
1
1
-
=
-
=
b
=
b
b
=
tα/2;n-2= t0,025;13 = 2,16
Se rechaza Ho si,
En este caso el modelo SÍ es significativo (merece la pena hacer la
regresión).
2
-
n
/2;
t
t a
>
3. Pruebas a los parámetros de la regresión β1 y β0
20
11
21
Ho: β0 = 0 Ha: β0 ≠ 0
14
,
20
4
,
336
.
2
)
2
,
121
(
15
1
197
,
2
27
,
75
Sxx
)
x
(
n
1
MSE
ˆ
)
ˆ
(
se
ˆ
t
:
Ep
2
2
0
0
0
=
÷
÷
ø
ö
ç
ç
è
æ
+
=
÷
÷
ø
ö
ç
ç
è
æ
+
b
=
b
b
=
tα/2;n-2= t0,025;13 = 2,16
Se rechaza Ho si,
En este caso el término de la intersección SÍ debe formar parte del
modelo.
2
-
n
/2;
t
t a
>
21
22
Si no se rechaza que la intersección es cero, indica que el ajuste puede
mejorarse usando el modelo sin dicho término (regresión "a través del
origen").
Se debe comparar MCE de ambos modelos para ver cuál es menor, y
considerar además si es factible que el modelo pase por el punto (0,0).
Los residuos representan al término del error en el modelo (ε):
e
+
b
= x
y 1
å
å
=
b 2
1
x
xy
ˆ x
ˆ
ŷ 1
b
=
1
n
xy
ˆ
y
ˆ
MCE 1
2
2
-
b
-
=
s
=
å å
å
-
a
±
b
=
b 2
1
n
;
2
/
1
1
x
MCE
t
ˆ
)
(
IC
Regresión a través del origen
22
12
23
b) Intervalos de confianza
2022
,
0
;
3347
,
0
4
,
336
.
2
197
,
2
16
,
2
2684
,
0
Sxx
MCE
)
t
(
ˆ
)
ˆ
(
se
)
t
(
ˆ
2
n
;
2
/
1
1
2
n
;
2
/
1
-
-
=
±
-
=
±
b
=
b
±
b -
a
-
a
83,34
;
20
,
67
4
,
336
.
2
)
2
,
121
(
15
1
197
,
2
16
,
2
27
,
75
Sxx
)
x
(
n
1
MCE
)
t
(
ˆ
)
ˆ
(
se
)
t
(
ˆ
2
2
2
n
;
2
/
0
0
2
n
;
2
/
0
=
÷
÷
ø
ö
ç
ç
è
æ
+
±
=
÷
÷
ø
ö
ç
ç
è
æ
+
±
b
=
b
±
b -
a
-
a
Los resultados coinciden con las pruebas t (el valor cero NO está en
ninguno de los intervalos).
23
24
Realizar la prueba de significancia de la regresión usando la prueba t, y los
intervalos de confianza, para el caso del Avance vs. el Acabado.
Ejercicio
24
13
25
En el caso de querer "predecir" el resultado de una nueva observación
(diferente valor de x – dentro del rango – o un valor de los datos originales)
se tienen dos intervalos de confianza: uno es para observaciones
individuales y el otro es para la predicción promedio.
0
0 ŷ
x ®
)
Sxx
)
x
x
(
n
1
1
(
MCE
t
ŷ
2
0
2
n
;
2
/
0
-
+
+
± -
a
§ Intervalo de predicción (IP)
§ Intervalo de confianza de la predicción (IC)
)
Sxx
)
x
x
(
n
1
(
MCE
t
ŷ
2
0
2
n
;
2
/
0
-
+
± -
a
Predicción de nuevas observaciones
25
26
Se tiene la siguiente información sobre la dureza de
ejes en función del tratamiento térmico (temperatura
de templado).
Ejemplo
26
14
27
27
28
Se desea saber el valor de dureza a una temperatura de 112 grados:
16
,
2
t
t
2030
,
45
ŷ
112
x
2030
,
45
112
2684
,
0
27
,
75
ŷ
13
;
025
,
0
2
-
n
/2;
0
0
0
=
=
=
=
=
×
-
=
a
48,5660
;
8400
,
41
)
4
,
336
.
2
)
2
,
121
112
(
15
1
1
(
197
,
2
16
,
2
2030
,
45
2
=
-
+
+
±
Intervalo de predicción individual:
Obtener la predicción individual en el caso del Acabado (1,8) vs. el Avance.
Ejercicio
28
15
29
855
,
0
933
,
196
370
,
168
R
1
R
0
SCT
SCR
r
R 2
2
2
2
=
=
£
£
=
=
Es la proporción de la variación explicada (representada por el modelo de
regresión.
Para el caso del tratamiento térmico: el 85,50% de la variación en la dureza
es explicada por la temperatura.
Obtener el coeficiente de determinación en el caso del Acabado vs. el
Avance.
4. Coeficiente de determinación
Ejercicio
29
30
[ ][ ]
1
r
1
-
R
)
y
(
y
n
)
x
(
x
n
y
x
-
xy
n
Sxx
Syy
Sxy
r 2
2
2
2
2
£
£
=
-
-
=
×
=
å å
å å
å å å
Representa una medida del grado de asociación lineal entre "x" e "y". Para
el caso del tratamiento térmico:
Obtener el coeficiente de correlación en el caso del Acabado vs. el Avance.
925
,
0
)
4
,
336
.
2
(
)
933
,
196
(
2
,
627
r -
=
×
-
=
Coeficiente de correlación
Ejercicio
30
16
31
a) Muestras pequeñas (n < 50)
Ho: ρ = 0 Ha: ρ ≠ 0
2
r
1
2
n
r
t
:
EP
-
-
= Se rechaza Ho si, 2
-
n
/2;
t
t a
>
b) Muestras grandes (n ≥ 50)
1
n
r
z
:
EP -
= Se rechaza Ho si, /2
z
z a
>
Pruebas sobre el significado de r
31
32
En el caso del tratamiento térmico:
Ho: ρ = 0 Ha: ρ ≠ 0
75
,
8
)
925
,
0
(
1
2
15
925
,
0
r
1
2
n
r
t
:
EP
2
2
-
=
-
-
-
-
=
-
-
=
16
,
2
t
t ,025;13
0
2
-
n
/2; =
=
a
Por tanto, la correlación es estadísticamente significativa.
Nota:
Un valor relativamente bajo de r puede ser estadísticamente significativo sin que esto
implique que dicha relación sea útil desde el punto de vista práctico.
Una correlación útil deberá ser de por lo menos 0,8 ó 0,9 (Wheeler, 1995).
32
17
33
El modelo a considerar incluye el término del error, y se supone que dichos
errores siguen una distribución normal con varianza constante y que son
independientes entre sí.
El incumplimiento de las suposiciones pueden generar un modelo inestable
desde el punto de vista de que diferentes muestras pueden producir
modelos diferentes con conclusiones opuestas.
Los residuos representan al término del error en el modelo (ε):
§ Regular
§ Eliminado estudentizado
i
i
i ŷ
y
e -
=
MCE
e
d i
i =
ú
û
ù
ê
ë
é -
+
-
=
Sxx
)
x
x
(
n
1
(
1
MCE
e
r
2
i
i
i
§ Estandarizado
Suposiciones del modelo
33
34
1. Obtener los residuos.
2. Elaborar la siguiente tabla:
3. Graficar en papel probabilístico normal.
4. Si los residuos siguen una trayectoria aproximadamente lineal, se
acepta su normalidad.
i F = 100 (i - 0,5)/N Residuos ordenados
1
2
…
N
(N = número de residuos)
5. Prueba de normalidad
34
18
35
Datos del tratamiento térmico:
x
2684
,
0
27
,
75
ŷ -
=
Ejemplo
35
36
Datos del tratamiento térmico:
Ejemplo
36
19
37
La normalidad NO se rechaza
37
38
Ejemplo de no-normalidad
38
20
39
Obtener los residuos en el caso del Acabado vs. el Avance y probar su
normalidad.
Ejercicio
39
40
40
21
41
1. Graficar residuos vs. .
2. Se acepta que la varianza es constante si la dispersión de los puntos es
aproximadamente la misma.
ŷ
Para el
tratamiento
térmico se
considera la
varianza
constante.
6. Prueba de varianza constante
41
42
Interpretación general de los residuos
Banda aleatoria Box y Bisgaard (1996)
42
22
43
Interpretación de los residuos vs. estimados
(y vs. niveles de un factor) Box y Bisgaard 1996)
La varianza depende de la media.
Transformar datos. Cuando es la
gráfica de un factor, ese factor
afecta a la variación
Tal vez sea necesario un término de
segundo orden (en el modelo o
para un factor específico), o
transformar datos.
43
44
Error en el análisis. Tal vez se omitió
β0 en el modelo (o ese factor en el
modelo).
Interpretación de los residuos vs. estimados
(y vs. niveles de un factor) Box y Bisgaard 1996)
44
23
45
Realizar la prueba de varianza constante en el caso del Acabado vs. el
Avance .
Ejercicio
45
46
§ Al efectuar experimentos, se deberá registrar en el orden en el que
fueron realizados.
§ La prueba de independencia consiste en graficar los residuos vs. el
orden de cada experimento.
§ Si se observan fluctuaciones aleatorias en una banda horizontal, la
independencia se acepta.
§ En caso contrario se deberá repetir el experimento teniendo cuidado
con la aleatorización de las pruebas.
§ En caso de que el estudio no sea experimental es importante buscar el
orden en que se obtuvieron las observaciones.
7. Prueba de independencia
46
24
47
Probar la independencia del tratamiento térmico.
No se rechaza la independencia. Se supone que el orden de los datos es en
el que quedaron en la tabla.
Ejemplo
47
48
Ejemplo de no-independencia
48
25
49
Ejemplo de no-independencia
49
50
Probar la independencia en el caso del Acabado vs. el Avance.
Ejercicio
50
26
51
§ La prueba de falta de ajuste asume que se cumplen las suposiciones del
modelo.
§ Se quiere probar:
Ho: y = β0 + β1x + ε Ha: y ≠ β0 + β1x + ε
(El modelo lineal es el adecuado) (El modelo lineal no es el adecuado)
Para realizar esta prueba se requiere tener observaciones repetidas de "y"
para algunos valores de "x".
8. Prueba de falta de ajuste del modelo (lack-of-fit)
51
52
Hacer la prueba de falta de ajuste del tratamiento térmico.
Ejemplo
52
27
53
Procedimiento:
El desarrollo de la prueba es el siguiente:
§ Sea m el número de niveles totales de x (m = 11)
§ Sea ni el número de observaciones en xi (i = 1…m)
§ Sea yij la j-ésima observación de xi (j = 1…ni)
§ n = número total de observaciones
El principio básico es la partición del error en dos componentes:
§ Falta de ajuste (LOF)
§ Error puro (PE)
å
=
m
1
i
n
n
53
54
ij
i
ij e
)
ŷ
y
( =
-
y
x
54
28
55
MC(PE)
MC(LOF)
m)
SC(PE)/(n
2)
SC(LOF)/(m
F
:
EP
SC(PE)
SC(LOF)
SCE
=
-
-
=
+
=
Rechazar Ho si, m
n
;
2
m
;
F
F -
-
a
>
i
y å 2
i
ij )
y
-
(y
55
56
Como 0,56 no es mayor que 6, NO se rechaza que el modelo lineal
propuesto sea el adecuado.
56
,
0
167
,
3
766
,
1
MC(PE)
MC(LOF)
F
:
EP =
=
=
Rechazar Ho si, )
6
(F
F
F 4
;
9
;
05
,
0
m
n
;
2
m
; =
> -
-
a
56
29
57
Completar la siguiente tabla ANOVA basado en los siguientes datos:
Ejercicio
57
58
9. Distancia D de Cook
Detecta observaciones influyentes.
En la práctica, considerar D significativa si es mayor que 1. En este caso
se deberá estudiar la observación para ver si es real. Si no es real,
borrarla. Si es real, ver causas en el proceso.
10.PRESS (Predicted SSE)
Evalúa la capacidad de predicción del modelo.
Se compara PRESS contra SCE, y de manera empírica, si la relación es
menor a 2, se considera que el modelo es bueno para predecir.
Otras medidas de diagnostico y problemas
58
30
59
11.Prueba de Durbin-Watson
Detecta autocorrelación entre los errores (falta de independencia de
manera analítica).
Esta prueba supone que los errores siguen una distribución normal:
Ho: No existe correlación positiva, ρ = 0
Ha: Existe correlación positiva, ρ > 0
También se puede probar:
Ho: No existe correlación negativa, ρ = 0
Ha: Existe correlación negativa, ρ < 0
El estadístico de prueba es:
å
å
=
=
-
-
= n
1
t
2
t
n
2
t
2
1
t
t
e
)
e
e
(
d
:
EP
59
60
Buscar dL y dU en las tablas de Durbin-Watson y llegar a una conclusión en
base a la siguiente figura:
Se puede sospechar de autocorrelacion cuando una de la variables es el
tiempo.
60
31
61
En el caso del tratamiento térmico, de Minitab se obtiene d = 1,75396.
Con n = 15, p – 1 = 1, y usando α = 5% se obtiene de la tabla DW: dL = 1,08
y dU = 1,36 y se concluye que NO existe autocorrelación entre los errores.
Para usar las tablas de Durbin-Watson (DW) es necesario tener n mayor o
igual a 15, definir p – 1 (p = número de parámetros, βs) y el nivel de α (5% ó
1%).
Ejemplo
61
62
La autocorrelación está en general provocada cuando no se incluyen una o
más variables importantes en el modelo, por ejemplo al relacionar las
ventas anuales de refresco contra los gastos en publicidad, la variables
crecimiento poblacional (en el tiempo) debería estar incluida.
Los efectos de la autocorrelación son:
§ estimadores ineficientes del modelo,
§ se subestima el error,
§ y los resultados de pruebas de hipótesis e intervalos de confianza
pueden ser erróneos.
62
32
63
La autocorrelación también puede detectarse al graficar los residuos contra
el orden (prueba de independencia) y observar grupos de puntos de un
solo lado de la línea central.
Ejercicio
Realizar en el caso del Acabado vs. el Avance las siguientes pruebas:
Distancia D de Cook, PRESS y Durbin-Watson.
63
64
Consiste en generar modelos de regresión con más de una variable
independiente (Xs).
e
+
b
+
+
b
+
b
+
b
= k
k
2
2
1
1
0 x
x
x
y !
§ n = número de datos
§ p = número de parámetros (βs)
§ k = número de variables (Xs)
§ = componente de error (medición + natural). Variable aleatoria.
La relación entre el número de parámetros y el número de variables es:
p = k + 1.
e
III. Regresión Lineal Múltiple
64
33
65
e
+
b
=
!
!
!
!
X
y
βi (i = 1…k) representa el cambio esperado en la respuesta "y" cuando xi
cambia una unidad, manteniendo constantes las demás Xs.
A las βs se les llama coeficientes de correlación parcial.
β0 representa la intersección del hiperplano de regresión.
Si el rango de los datos Xs incluye x1 = x2 = … = xk = 0, β0 representa la
media de "y" cuando x1 = x2 = … = xk = 0.
El modelo en forma matricial es:
65
66
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
=
n
2
1
y
y
y
y
!
"
Donde:
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
=
nk
2
n
1
n
k
2
22
21
k
1
12
11
x
x
x
1
x
x
x
1
x
x
x
1
x
!
!
!
!
!
!
!
!
"
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
b
b
b
=
b
k
1
0
!
"
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
e
e
e
=
e
n
2
1
!
"
La solución matricial es:
y
X
)
X
X
(
ˆ '
1
' !
!
!
!
!
-
=
b
Para obtener el modelo:
b
=
!
!
!
ˆ
x
ŷ
66
34
67
Se supone que en el tratamiento térmico se introduce una variable más
que es la temperatura de la pieza:
X1 (Temp) X2 (Tempza) Y (Dureza)
101 848 49
115 845 44
115 847 46
140 837 38
123 844 43
107 847 47 Estadísticas de la regresión
135 840 41
135 838 38
105 846 47
110 845 45
110 844 43
135 836 37
125 845 44
132 840 40
130 839 39
Ejemplo
67
68
ú
ú
ú
ú
ú
ù
ê
ê
ê
ê
ê
é
=
39
44
49
y
!
"
Donde:
ú
ú
ú
ú
ú
ù
ê
ê
ê
ê
ê
é
=
839
130
1
845
120
1
848
101
1
x
!
!
!
"
ú
ú
ú
ú
ú
ú
ù
ê
ê
ê
ê
ê
ê
é
b
b
b
=
b
k
1
0
ˆ
ˆ
ˆ
ˆ
!
"
b
=
!
!
!
ˆ
x
ŷ
Y (Dureza) = -574 – 0,0606 X1 (Temp) + 0,741 X2 (Tempza)
68
35
69
Para estimar la varianza σ2 es necesario obtener:
y
X
ˆ
y
y
SCE '
'
' !
!
!
!
!
b
-
=
p
n
SCE
MCE
-
=
MCE
ˆ2
=
s
Donde:
§ n = número de datos
§ p = número de parámetros (βs)
§ k = número de variables (Xs)
§ p = k + 1
69
70
a) Prueba de significación de la regresión
Ho: β1 = β2 = … = βk = 0
Ha: βj ≠ 0 para al menos una j
El estadístico de prueba es:
MCE
MCR
)
1
k
n
/(
SCE
k
/
SCR
F
:
EP =
-
-
=
§ p = número de parámetros (βs)
§ k = número de variables (Xs)
§ p = k + 1 n – k -1 = n – p k = p - 1
Rechazar Ho si, 1
k
n
;
k
;
F
F -
-
a
>
Pruebas de hipótesis
70
36
71
Cjj son los elementos de la diagonal de la matriz
Rechazar Ho si,
b) Pruebas sobre coeficientes individuales
Ho: βj = 0
Ha: βj ≠ 0
El estadístico de prueba es:
jj
2
j
j
j
c
ˆ
ˆ
)
ˆ
(
se
ˆ
t
:
EP
s
b
=
b
b
=
1
k
n
;
2
/
t
t -
-
a
>
1
'
)
X
X
( -
!
!
71
72
Resultados e interpretación usando Minitab:
72
37
73
§ El modelo es significativo y tiene buena capacidad de predicción pues
SCE = 7,037 no es muy diferente a PRESS = 11, 0332. La diferencia es
menos del doble (1,5106).
§ El modelo explica el 96,43% de la variación de la dureza, sin embargo la
variable Temperatura no es significativa. Se eliminará del modelo, se
generará otro y se compararán ambos.
§ Con respecto a la prueba de autocorrelación, estadístico de Durbin-
Watson = 2,33858.
Con α = 0,05, se obtiene de las tablas DW: dL = 0,95, dU = 1,54, 4–dU =
2,46, por lo que no existe autocorrelación.
73
74
NO se rechaza la Normalidad
74
38
75
No se rechaza la Varianza constante
75
76
No se rechaza la Independencia
Se supone que el orden de los datos es en el que quedaron en la tabla
76
39
77
Ajustando el modelo de regresión sin la variable temperatura:
77
78
§ Durbin-Watson es 2,39601 (no existe autocorrelación).
§ Las suposiciones de normalidad, varianza constante e independencia
se cumplen.
§ La S (medida del error) del modelo completo (2 factores) es 0,765780
mientras que la del modelo reducido es 0,810823 (6% mayor).
§ Los coeficientes de determinación son 96,43% y 95,66%
respectivamente, y ambos modelos tienen buena capacidad de
predicción (comparar PRESS vs. SCE).
§ En conclusión, aunque el modelo completo es ligeramente mejor que
el modelo reducido, es preferible usar el reducido pues contiene una
variable menos.
78
40
79
Considerar que al caso del Acabado se le agrega una variable más: posición.
Construir un modelo de regresión e interpretarlo:
Ejercicio
79
80
Método usado para medir la contribución de factores adicionales en un
modelo de regresión.
Por ejemplo, si se desea saber la contribución de una segunda variable (X2)
en el modelo, dado que ya se tiene a X1.
§ Modelo Completo y = β0 + β1x1 + β2x2 + ε → SCR (β1, β2)
§ Modelo Reducido y = β0 + β1x1 + ε → SCR (β1)
La SCR condicional es:
SCR (β2│β1) = SCR (β1, β2) - SCR (β1)
Y representa la contribución de agregar X2 al modelo, dado que ya tiene a
X1.
Método de las sumas de los cuadrados extras
80
41
81
← SCR (β1)
← SCR (β2 │β1)
SCR (Anova) = SCR (β1, β2) = 189,896
Ho: β2 = 0 Ha: β2 ≠ 0
El estadístico de prueba es:
708
,
36
5864
,
0
1
/
526
,
21
MCE
1
/
)
(
SCR
F
:
EP 1
2
=
=
b
b
=
A pesar de que la Temperatura de la pieza (X2) contribuye poco dado que ya
se incluyó a la variable Temperatura, la primera es significativa (ver también
prueba t).
Rechazar Ho si, 75
,
4
F
F
F 12
;
1
2
;
05
,
0
GLE
;
1
GLR
;
05
,
0 =
=
> -
-
81
82
← SCR (β2)
← SCR (β1 │β2)
Se observa que la variable Temp (dado que ya se incluyó a la variable
Tempza) contribuye aún menos que la Tempza (dado que se incluye Temp,
ver prueba anterior).
Ho: β1 = 0 Ha: β 1 ≠ 0
El estadístico de prueba es:
575
,
2
5864
,
0
1
/
510
,
1
MCE
1
/
)
(
SCR
F
:
EP 2
1
=
=
b
b
=
Rechazar Ho si,
como 2,575 < que 4,75, se confirma que Temp NO es necesaria en el modelo.
75
,
4
F
F
F 12
;
1
2
;
05
,
0
GLE
;
1
GLR
;
05
,
0 =
=
> -
-
82
42
83
Se define por:
)
R
1
(
p
n
1
n
1
MCT
MCE
1
adj
R 2
2
-
-
-
-
=
-
=
Siendo:
• n = número de observaciones.
• p = número de parámetros (βs).
• R2 = SCR/SCT.
Si los dos valores R2adj y R2 son muy diferentes significa que el modelo está
sobre ajustado.
R2adj penaliza al agregar variables que no son importantes en el modelo.
12. Coeficiente de determinación múltiple ajustado
83
84
Significa que algunas variables (Xs) pueden estar correlacionadas entres sí.
Indicaciones de Multicolinealidad son las siguientes:
1. Correlaciones significativas entre pares de Xs.
2. Que los signos de algunos parámetros del modelo sean contrarios a lo
esperado.
3. VIFi (Variance Inflation Factor) > 10.
1...k
i
R
1
1
VIF 2
i
i =
-
= Ri
2 del modelo sin incluir xi
13. Multicolinealidad
84
43
85
Soluciones a la multicolinealidad:
1. Eliminar una o más variables del modelo (se puede usar el
procedimiento stepwise – paso a paso).
2. Si se decide dejar todas las variables, evitar establecer relaciones causa-
efecto entre "y" y las Xs.
En el ejemplo anterior, VIF = 5,69 para las dos variables de temperatura, lo
cual indica que no existe multicolinealidad.
85
86
Es un caso particular del modelo lineal en el cual los parámetros (βs) son
lineales.
El modelo polinomial de 2º orden y una variable es:
e
+
b
+
b
+
b
= 2
2
1
0 x
x
y
El modelo polinomial de 2º orden y dos variables es:
e
+
b
+
b
+
b
+
b
+
b
+
b
= 2
1
12
2
2
22
2
1
11
2
2
1
1
0 x
x
x
x
x
x
y
IV. Regresión Polinomial
86
44
87
e
+
b
+
b
+
b
= 2
2
1
0 x
x
y
§ β0 = Valor de E(y) cuando y si x = 0.
§ β1 = parámetro de traslación de la parábola (derecha, izquierda).
§ β2 = razón de curvatura (hacia arriba o hacia abajo).
Notas:
§ Mantener el orden del polinomio lo más bajo posible (probar
transformaciones en primer lugar - parsimonia)
§ La extrapolación puede ser muy riesgosa.
§ Conviene usar la forma corregida del modelo para aumentar la
precisión de los estimadores y evitar posible multicolinealidad.
87
88
Considerar la relación existente entre el contenido de
carbón y la resistencia a la tensión de un metal.
Ejemplo
88
45
89
89
90
Este modelo con variables originales presenta multicolinealidad.
90
46
91
k = 3 (p + 1 = 2 + 1) n = 15 α = 0,05 dL = 0,95 dU= 1,54
El modelo presenta autocorrelación positiva.
91
92
Se observa falta de independencia
92
47
93
Al modificar las variables originales desapareció la multicolinealidad.
93
94
k = 3 (p + 1 = 2 + 1) n = 15 α = 0,05 dL = 0,94 dU= 1,54
Sin embargo la autocorrelación positiva persiste.
D.COOK 0,4486 0,0885 0,0277 0,0728 0,1700 0,0414 0,0051 0,0027 0,0187 0,0483 0,0672 0,0084 0,0204 0,0141 1,0774
Al aplicar la prueba D de Cook, se nota que la última observación tiene
mucha influencia (D > 1).
94
48
95
Se prueba el modelo cúbico:
95
96
Aumenta R2, disminuye s y la prueba de Durbin-Watson es inconclusa.
k = 4 (p + 1 = 3 + 1) n = 15 α = 0,05 dL = 0,81 dU= 1,75
Al aplicar la prueba de independencia no se observa problema alguno.
96
49
97
No se observa autocorrelación o falta de independencia
Posible
outlier
97
98
Analizar la relación entre la presión de un gas en base a
la temperatura del mismo.
Ejercicio
98
50
99
Se inicia con un modelo vacío, excepto por β0, y empieza a agregar variables
de una en una, tomando la variable que tenga la mayor correlación con "y".
Esta variable se incluye si su F es mayor que cierto valor preseleccionado (F
a entrar).
La segunda variable seleccionada es la que tenga mayor correlación parcial
con "y".
A cada paso que se agrega una variable, todas las que ya se habían incluido
anteriormente son reevaluadas por medio de pruebas F parciales para ver si
vale la pena que sigan estando en el modelo a la luz de la incorporación de
otras variables.
Así también se tienen un valor F a retirar.
V. Métodos de Selección de Variables
1. Regresión por pasos (stepwise regression)
99
100
Desarrolla modelos de regresión de las mejores combinaciones de las
variables y calcula las siguientes medidas de desempeño:
R2, R2adj, Cp (Mallows)
p
2
n
MCE
SCE
Cp +
-
=
§ p = número de parámetros del subconjunto particular.
§ SCE del modelo basado en el subconjunto particular.
§ MCE del modelo completo (todas las variables).
2. Regresión de mejores subconjuntos (best subsets)
100
51
101
Aplicar los dos métodos anteriores a
los siguientes datos (no son los
mismos que en el ejemplo de
regresión múltiple de Dureza vs. Temp
y Tempza).
Ejemplo
101
102
102
52
103
El procedimiento de regresión por pasos recomienda incluir a las variables
Temperatura y Temperatura de la pieza.
103
104
El procedimiento de regresión de mejores subconjuntos pasos recomienda
incluir a las variables Temperatura y Temperatura de la pieza.
104
53
105
Aplicar los dos métodos de
selección de variables a la
siguiente información.
Ejercicio
105

Más contenido relacionado

Similar a Clase 6 Análisis de regresión.pdf

Transformaciones en regresion
Transformaciones en regresionTransformaciones en regresion
Transformaciones en regresion
PSICOLOGIA Y EDUCACION INTEGRAL A.C.
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basica
vestaoriginal
 
Ejercicios econometría1
Ejercicios econometría1Ejercicios econometría1
Ejercicios econometría1
cesarmanosalvas
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
ronaldmamaniyana
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
Julio Oseda
 
Exposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank Nicholson
Exposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank NicholsonExposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank Nicholson
Exposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank Nicholson
HernanFula
 
Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011
Robinho Navarrete
 
Ajuste de una_recta_por_minimos_cuadrados
Ajuste de una_recta_por_minimos_cuadradosAjuste de una_recta_por_minimos_cuadrados
Ajuste de una_recta_por_minimos_cuadrados
Angie Garcia
 
Sistemas de ecuauciones dif.
Sistemas de ecuauciones dif.Sistemas de ecuauciones dif.
Sistemas de ecuauciones dif.
verdonica
 
10.sistemas mal condicionados
10.sistemas mal condicionados10.sistemas mal condicionados
10.sistemas mal condicionados
rjvillon
 
2.-Regresiones.pdf
2.-Regresiones.pdf2.-Regresiones.pdf
2.-Regresiones.pdf
Fausto Haro
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
Hernan Espinoza
 
Ecuaciones diferenciales parciales
Ecuaciones diferenciales parciales Ecuaciones diferenciales parciales
Ecuaciones diferenciales parciales
Kike Prieto
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
PEALOZACASTILLOCINTI
 
Regresion Polinomial
Regresion PolinomialRegresion Polinomial
Regresion Polinomial
Diego Egas
 
Continuation methods
Continuation methodsContinuation methods
Continuation methods
Juan Manzanero Torrico
 
Unidad V
Unidad VUnidad V
Unidad V
thor de asgard
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
José Felipe
 
Formulario estadisticas
Formulario estadisticas Formulario estadisticas
Formulario estadisticas
Moises Martinez Vega
 
Presentacion programacion lineal ivo
Presentacion programacion lineal ivoPresentacion programacion lineal ivo
Presentacion programacion lineal ivo
JosPerdign
 

Similar a Clase 6 Análisis de regresión.pdf (20)

Transformaciones en regresion
Transformaciones en regresionTransformaciones en regresion
Transformaciones en regresion
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basica
 
Ejercicios econometría1
Ejercicios econometría1Ejercicios econometría1
Ejercicios econometría1
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 
Exposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank Nicholson
Exposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank NicholsonExposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank Nicholson
Exposición Tratamiento de las Ec. Dif. Parciales, Implicitas, Crank Nicholson
 
Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011Cap2. modelo regresión multiple-v2-2011
Cap2. modelo regresión multiple-v2-2011
 
Ajuste de una_recta_por_minimos_cuadrados
Ajuste de una_recta_por_minimos_cuadradosAjuste de una_recta_por_minimos_cuadrados
Ajuste de una_recta_por_minimos_cuadrados
 
Sistemas de ecuauciones dif.
Sistemas de ecuauciones dif.Sistemas de ecuauciones dif.
Sistemas de ecuauciones dif.
 
10.sistemas mal condicionados
10.sistemas mal condicionados10.sistemas mal condicionados
10.sistemas mal condicionados
 
2.-Regresiones.pdf
2.-Regresiones.pdf2.-Regresiones.pdf
2.-Regresiones.pdf
 
Clase8 minisem
Clase8 minisemClase8 minisem
Clase8 minisem
 
Ecuaciones diferenciales parciales
Ecuaciones diferenciales parciales Ecuaciones diferenciales parciales
Ecuaciones diferenciales parciales
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
Regresion Polinomial
Regresion PolinomialRegresion Polinomial
Regresion Polinomial
 
Continuation methods
Continuation methodsContinuation methods
Continuation methods
 
Unidad V
Unidad VUnidad V
Unidad V
 
Análisis de la regresión en SPSS
Análisis de la regresión en SPSSAnálisis de la regresión en SPSS
Análisis de la regresión en SPSS
 
Formulario estadisticas
Formulario estadisticas Formulario estadisticas
Formulario estadisticas
 
Presentacion programacion lineal ivo
Presentacion programacion lineal ivoPresentacion programacion lineal ivo
Presentacion programacion lineal ivo
 

Último

Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomomRinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
DanielaLoaeza5
 
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdfFocos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
PatoLokooGuevara
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
yamilbailonw
 
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
DiegoAlexanderChecaG
 
muros de contencion, diseño y generalidades
muros de contencion, diseño y generalidadesmuros de contencion, diseño y generalidades
muros de contencion, diseño y generalidades
AlejandroArturoGutie1
 
PRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptx
PRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptxPRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptx
PRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptx
ANGELJOELSILVAPINZN
 
Aletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdfAletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdf
elsanti003
 
Infografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - ConstrucciónInfografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - Construcción
MaraManuelaUrribarri
 
Dosificacion de hormigon NCH 170 actualizada
Dosificacion de hormigon NCH 170 actualizadaDosificacion de hormigon NCH 170 actualizada
Dosificacion de hormigon NCH 170 actualizada
pipex55
 
Calculo-de-Camaras-Frigorificas.pdf para trabajos
Calculo-de-Camaras-Frigorificas.pdf para trabajosCalculo-de-Camaras-Frigorificas.pdf para trabajos
Calculo-de-Camaras-Frigorificas.pdf para trabajos
JuanCarlos695207
 
INFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docx
INFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docxINFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docx
INFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docx
LuzdeFatimaCarranzaG
 
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-BoshProceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
shirllyleytonm
 
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdfEXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
hugodennis88
 
tipos de energias: la Energía Radiante.pdf
tipos de energias: la Energía Radiante.pdftipos de energias: la Energía Radiante.pdf
tipos de energias: la Energía Radiante.pdf
munozvanessa878
 
Las operaciones básicas en la construcción.
Las operaciones básicas en la construcción.Las operaciones básicas en la construcción.
Las operaciones básicas en la construcción.
MaraManuelaUrribarri
 
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTOOPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
GERARDO GONZALEZ
 
Uso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptxUso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptx
OmarPadillaGarcia
 
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
KarinToledo2
 
Presentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptxPresentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptx
ronnyrocha223
 
chancadoras.............................
chancadoras.............................chancadoras.............................
chancadoras.............................
ssuser8827cb1
 

Último (20)

Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomomRinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
 
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdfFocos SSO Fin de Semana del 31 MAYO A  al 02 de JUNIO  de 2024.pdf
Focos SSO Fin de Semana del 31 MAYO A al 02 de JUNIO de 2024.pdf
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
 
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
380378757-velocidades-maximas-y-minimas-en-los-canales.pdf
 
muros de contencion, diseño y generalidades
muros de contencion, diseño y generalidadesmuros de contencion, diseño y generalidades
muros de contencion, diseño y generalidades
 
PRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptx
PRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptxPRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptx
PRACTICA 2 EDAFOLOGÍA TEXTURA DEL SUELO.pptx
 
Aletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdfAletas de transferencia de calor o superficies extendidas dylan.pdf
Aletas de transferencia de calor o superficies extendidas dylan.pdf
 
Infografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - ConstrucciónInfografia - Hugo Hidalgo - Construcción
Infografia - Hugo Hidalgo - Construcción
 
Dosificacion de hormigon NCH 170 actualizada
Dosificacion de hormigon NCH 170 actualizadaDosificacion de hormigon NCH 170 actualizada
Dosificacion de hormigon NCH 170 actualizada
 
Calculo-de-Camaras-Frigorificas.pdf para trabajos
Calculo-de-Camaras-Frigorificas.pdf para trabajosCalculo-de-Camaras-Frigorificas.pdf para trabajos
Calculo-de-Camaras-Frigorificas.pdf para trabajos
 
INFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docx
INFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docxINFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docx
INFORME DE LABORATORIO MECANICA DE FLUIDOS (1).docx
 
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-BoshProceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
 
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdfEXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
 
tipos de energias: la Energía Radiante.pdf
tipos de energias: la Energía Radiante.pdftipos de energias: la Energía Radiante.pdf
tipos de energias: la Energía Radiante.pdf
 
Las operaciones básicas en la construcción.
Las operaciones básicas en la construcción.Las operaciones básicas en la construcción.
Las operaciones básicas en la construcción.
 
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTOOPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
OPERACIONES BÁSICAS (INFOGRAFIA) DOCUMENTO
 
Uso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptxUso de equipos de protección personal.pptx
Uso de equipos de protección personal.pptx
 
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
9 Lección perro.pptxcvBWRFWBCCCCCCCCCCCCCCTEN
 
Presentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptxPresentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptx
 
chancadoras.............................
chancadoras.............................chancadoras.............................
chancadoras.............................
 

Clase 6 Análisis de regresión.pdf

  • 1. 1 Mejorar: Análisis de Regresión 1 2 Contenido I. ANÁLISIS DE REGRESIÓN III. REGRESIÓN LINEAL MÚLTIPLE IV. REGRESIÓN POLINOMIAL EJEMPLOS EJERCICIOS V. MÉTODO DE SELECCIÓN DE VARIABLES II. REGRESIÓN LINEAL SIMPLE 2
  • 2. 2 3 Técnica usada para relacionar a través de un modelo, una o más variables independientes con una variable dependiente (respuesta). Usos de la Regresión: 1. Descripción. Representar el comportamiento de un proceso. 2. Predicción y estimación. Predicción es en base a un valor x desconocido. Estimación es en base a un valor conocido de x. 3. Control. Para obtener cierta respuesta deseada del proceso. I. Análisis de Regresión 3 4 e + b + b = x y 1 0 § y = variable dependiente a modelar (respuesta). § x = variable independiente (predictor de y). § = componente de error (medición + natural). Variable aleatoria. § β0 = intersección. Si lo datos incluyen el cero representa la media de la distribución de y cuando x = 0. No tiene sentido si los datos no incluyen el cero. § β1 = pendiente. Es el cambio en la media de y por cada cambio unitario de x. e II. Regresión Lineal Simple 4
  • 3. 3 5 Por medio del método de mínimos cuadrados, que consiste en minimizar el error de modelo, se obtienen: x ˆ y ˆ n ) x ( x Sxx n ) y )( x ( xy Sxy Sxx Sxy ˆ 1 0 2 2 1 b - = b - = - = = b å å å å å x ˆ ˆ ŷ 1 0 b + b = 1. Estimación de los parámetros del modelo 5 6 En el caso de la Dureza vs. la Temperatura de templado (*): Dureza (y) = 75,27 – 0,2684x. (*) Es importante realizar todas las pruebas estadísticas al modelo resultante. 140 130 120 110 100 50 48 46 44 42 40 38 36 S 1,48229 R-cuad. 85,5% R-cuad.(ajustado) 84,4% Temp (x) Dureza (y) Gráfica de línea ajustada Dureza (y) = 75,27 - 0,2684 Temp (x) Ejemplo 6
  • 4. 4 7 7 8 x ˆ ˆ ŷ 27 , 75 15 818 . 1 ) 2684 , 0 ( 15 641 x ˆ y ˆ 2684 , 0 4 , 336 . 2 2 , 627 Sxx Sxy ˆ 4 , 336 . 2 15 818 . 1 678 . 222 n ) x ( x Sxx 2 , 627 15 641 818 . 1 062 . 77 n ) y )( x ( xy Sxy 1 0 1 0 1 2 2 2 b + b = = × - - = b - = b - = - = = b = - = - = - = × - = - = å å å å å Por cada unidad de aumento en la temperatura de templado, la dureza disminuirá en 0,2684 unidades. Como el rango de los datos no incluye x = 0, el valor de 75,27 no tiene un significado en particular. Dureza = 75,27 - 0,2684 temperatura de templado 8
  • 5. 5 9 Construir el modelo de regresión para el Avance vs. el Acabado e interpretar los coeficientes del mismo. Ejercicio 9 10 10
  • 6. 6 11 Ho: β1 = 0 Ha: β1 ≠ 0 No existe relación lineal entre x e y. La regresión NO tiene sentido. x es valiosa para explicar la variación de y. y y 2. Prueba del significado de la regresión 11 12 Elementos necesarios para obtener un estadístico de prueba: 12
  • 7. 7 13 Considerando todos los puntos: 2 i i 2 i 2 i ) ŷ y ( ) y ŷ ( ) y y ( - + - = - å å å SCT = Syy = SCR + SCE SCT = Syy = Variación total de los datos SCR = Variación representada por el modelo de regresión SCE = Variación residual no representada por la regresión n ) y ( y Syy SCT 2 i 2 i å å - = = Sxy ˆ SCR 1 × b = SCR SCT SCE - = 13 14 TABLA ANOVA Se rechaza Ho si F > F (tablas) = Fα;1;n-2 14
  • 8. 8 15 Resultado gráfico de la prueba: β1 = 0. La regresión NO tiene sentido. 15 16 β1 ≠ 0. La regresión SÍ tiene sentido. 16
  • 9. 9 17 Para el caso de la Dureza vs. la Temperatura de precalentamiento. Ejemplo 17 18 563 , 28 37 , 168 93 , 196 SCR Syy SCE 370 , 168 ) 2 , 627 ( 2684 , 0 Sxy ˆ SCR 933 , 196 15 ) 641 ( 589 . 27 n ) y ( y Syy SCT 1 2 2 i 2 i = - = - = = - × - = × b = = - = - = = å å Fα;gl (R); gl (E)= F0,05;1;13 = 4,67. Como 76,63 > 4,67, la regresión SÍ tiene sentido. 18
  • 10. 10 19 Realizar la prueba de significación de la regresión para el Avance vs. el Acabado. Ejercicio 19 20 Otras formas de probar la significación de los parámetros del modelo son: a) Pruebas t Ho: β1 = 0 Ha: β1 ≠ 0 75 , 8 4 , 336 . 2 197 , 2 2684 , 0 Sxx MSE ˆ ) ˆ ( se ˆ t : EP 1 1 1 - = - = b = b b = tα/2;n-2= t0,025;13 = 2,16 Se rechaza Ho si, En este caso el modelo SÍ es significativo (merece la pena hacer la regresión). 2 - n /2; t t a > 3. Pruebas a los parámetros de la regresión β1 y β0 20
  • 11. 11 21 Ho: β0 = 0 Ha: β0 ≠ 0 14 , 20 4 , 336 . 2 ) 2 , 121 ( 15 1 197 , 2 27 , 75 Sxx ) x ( n 1 MSE ˆ ) ˆ ( se ˆ t : Ep 2 2 0 0 0 = ÷ ÷ ø ö ç ç è æ + = ÷ ÷ ø ö ç ç è æ + b = b b = tα/2;n-2= t0,025;13 = 2,16 Se rechaza Ho si, En este caso el término de la intersección SÍ debe formar parte del modelo. 2 - n /2; t t a > 21 22 Si no se rechaza que la intersección es cero, indica que el ajuste puede mejorarse usando el modelo sin dicho término (regresión "a través del origen"). Se debe comparar MCE de ambos modelos para ver cuál es menor, y considerar además si es factible que el modelo pase por el punto (0,0). Los residuos representan al término del error en el modelo (ε): e + b = x y 1 å å = b 2 1 x xy ˆ x ˆ ŷ 1 b = 1 n xy ˆ y ˆ MCE 1 2 2 - b - = s = å å å - a ± b = b 2 1 n ; 2 / 1 1 x MCE t ˆ ) ( IC Regresión a través del origen 22
  • 12. 12 23 b) Intervalos de confianza 2022 , 0 ; 3347 , 0 4 , 336 . 2 197 , 2 16 , 2 2684 , 0 Sxx MCE ) t ( ˆ ) ˆ ( se ) t ( ˆ 2 n ; 2 / 1 1 2 n ; 2 / 1 - - = ± - = ± b = b ± b - a - a 83,34 ; 20 , 67 4 , 336 . 2 ) 2 , 121 ( 15 1 197 , 2 16 , 2 27 , 75 Sxx ) x ( n 1 MCE ) t ( ˆ ) ˆ ( se ) t ( ˆ 2 2 2 n ; 2 / 0 0 2 n ; 2 / 0 = ÷ ÷ ø ö ç ç è æ + ± = ÷ ÷ ø ö ç ç è æ + ± b = b ± b - a - a Los resultados coinciden con las pruebas t (el valor cero NO está en ninguno de los intervalos). 23 24 Realizar la prueba de significancia de la regresión usando la prueba t, y los intervalos de confianza, para el caso del Avance vs. el Acabado. Ejercicio 24
  • 13. 13 25 En el caso de querer "predecir" el resultado de una nueva observación (diferente valor de x – dentro del rango – o un valor de los datos originales) se tienen dos intervalos de confianza: uno es para observaciones individuales y el otro es para la predicción promedio. 0 0 ŷ x ® ) Sxx ) x x ( n 1 1 ( MCE t ŷ 2 0 2 n ; 2 / 0 - + + ± - a § Intervalo de predicción (IP) § Intervalo de confianza de la predicción (IC) ) Sxx ) x x ( n 1 ( MCE t ŷ 2 0 2 n ; 2 / 0 - + ± - a Predicción de nuevas observaciones 25 26 Se tiene la siguiente información sobre la dureza de ejes en función del tratamiento térmico (temperatura de templado). Ejemplo 26
  • 14. 14 27 27 28 Se desea saber el valor de dureza a una temperatura de 112 grados: 16 , 2 t t 2030 , 45 ŷ 112 x 2030 , 45 112 2684 , 0 27 , 75 ŷ 13 ; 025 , 0 2 - n /2; 0 0 0 = = = = = × - = a 48,5660 ; 8400 , 41 ) 4 , 336 . 2 ) 2 , 121 112 ( 15 1 1 ( 197 , 2 16 , 2 2030 , 45 2 = - + + ± Intervalo de predicción individual: Obtener la predicción individual en el caso del Acabado (1,8) vs. el Avance. Ejercicio 28
  • 15. 15 29 855 , 0 933 , 196 370 , 168 R 1 R 0 SCT SCR r R 2 2 2 2 = = £ £ = = Es la proporción de la variación explicada (representada por el modelo de regresión. Para el caso del tratamiento térmico: el 85,50% de la variación en la dureza es explicada por la temperatura. Obtener el coeficiente de determinación en el caso del Acabado vs. el Avance. 4. Coeficiente de determinación Ejercicio 29 30 [ ][ ] 1 r 1 - R ) y ( y n ) x ( x n y x - xy n Sxx Syy Sxy r 2 2 2 2 2 £ £ = - - = × = å å å å å å å Representa una medida del grado de asociación lineal entre "x" e "y". Para el caso del tratamiento térmico: Obtener el coeficiente de correlación en el caso del Acabado vs. el Avance. 925 , 0 ) 4 , 336 . 2 ( ) 933 , 196 ( 2 , 627 r - = × - = Coeficiente de correlación Ejercicio 30
  • 16. 16 31 a) Muestras pequeñas (n < 50) Ho: ρ = 0 Ha: ρ ≠ 0 2 r 1 2 n r t : EP - - = Se rechaza Ho si, 2 - n /2; t t a > b) Muestras grandes (n ≥ 50) 1 n r z : EP - = Se rechaza Ho si, /2 z z a > Pruebas sobre el significado de r 31 32 En el caso del tratamiento térmico: Ho: ρ = 0 Ha: ρ ≠ 0 75 , 8 ) 925 , 0 ( 1 2 15 925 , 0 r 1 2 n r t : EP 2 2 - = - - - - = - - = 16 , 2 t t ,025;13 0 2 - n /2; = = a Por tanto, la correlación es estadísticamente significativa. Nota: Un valor relativamente bajo de r puede ser estadísticamente significativo sin que esto implique que dicha relación sea útil desde el punto de vista práctico. Una correlación útil deberá ser de por lo menos 0,8 ó 0,9 (Wheeler, 1995). 32
  • 17. 17 33 El modelo a considerar incluye el término del error, y se supone que dichos errores siguen una distribución normal con varianza constante y que son independientes entre sí. El incumplimiento de las suposiciones pueden generar un modelo inestable desde el punto de vista de que diferentes muestras pueden producir modelos diferentes con conclusiones opuestas. Los residuos representan al término del error en el modelo (ε): § Regular § Eliminado estudentizado i i i ŷ y e - = MCE e d i i = ú û ù ê ë é - + - = Sxx ) x x ( n 1 ( 1 MCE e r 2 i i i § Estandarizado Suposiciones del modelo 33 34 1. Obtener los residuos. 2. Elaborar la siguiente tabla: 3. Graficar en papel probabilístico normal. 4. Si los residuos siguen una trayectoria aproximadamente lineal, se acepta su normalidad. i F = 100 (i - 0,5)/N Residuos ordenados 1 2 … N (N = número de residuos) 5. Prueba de normalidad 34
  • 18. 18 35 Datos del tratamiento térmico: x 2684 , 0 27 , 75 ŷ - = Ejemplo 35 36 Datos del tratamiento térmico: Ejemplo 36
  • 19. 19 37 La normalidad NO se rechaza 37 38 Ejemplo de no-normalidad 38
  • 20. 20 39 Obtener los residuos en el caso del Acabado vs. el Avance y probar su normalidad. Ejercicio 39 40 40
  • 21. 21 41 1. Graficar residuos vs. . 2. Se acepta que la varianza es constante si la dispersión de los puntos es aproximadamente la misma. ŷ Para el tratamiento térmico se considera la varianza constante. 6. Prueba de varianza constante 41 42 Interpretación general de los residuos Banda aleatoria Box y Bisgaard (1996) 42
  • 22. 22 43 Interpretación de los residuos vs. estimados (y vs. niveles de un factor) Box y Bisgaard 1996) La varianza depende de la media. Transformar datos. Cuando es la gráfica de un factor, ese factor afecta a la variación Tal vez sea necesario un término de segundo orden (en el modelo o para un factor específico), o transformar datos. 43 44 Error en el análisis. Tal vez se omitió β0 en el modelo (o ese factor en el modelo). Interpretación de los residuos vs. estimados (y vs. niveles de un factor) Box y Bisgaard 1996) 44
  • 23. 23 45 Realizar la prueba de varianza constante en el caso del Acabado vs. el Avance . Ejercicio 45 46 § Al efectuar experimentos, se deberá registrar en el orden en el que fueron realizados. § La prueba de independencia consiste en graficar los residuos vs. el orden de cada experimento. § Si se observan fluctuaciones aleatorias en una banda horizontal, la independencia se acepta. § En caso contrario se deberá repetir el experimento teniendo cuidado con la aleatorización de las pruebas. § En caso de que el estudio no sea experimental es importante buscar el orden en que se obtuvieron las observaciones. 7. Prueba de independencia 46
  • 24. 24 47 Probar la independencia del tratamiento térmico. No se rechaza la independencia. Se supone que el orden de los datos es en el que quedaron en la tabla. Ejemplo 47 48 Ejemplo de no-independencia 48
  • 25. 25 49 Ejemplo de no-independencia 49 50 Probar la independencia en el caso del Acabado vs. el Avance. Ejercicio 50
  • 26. 26 51 § La prueba de falta de ajuste asume que se cumplen las suposiciones del modelo. § Se quiere probar: Ho: y = β0 + β1x + ε Ha: y ≠ β0 + β1x + ε (El modelo lineal es el adecuado) (El modelo lineal no es el adecuado) Para realizar esta prueba se requiere tener observaciones repetidas de "y" para algunos valores de "x". 8. Prueba de falta de ajuste del modelo (lack-of-fit) 51 52 Hacer la prueba de falta de ajuste del tratamiento térmico. Ejemplo 52
  • 27. 27 53 Procedimiento: El desarrollo de la prueba es el siguiente: § Sea m el número de niveles totales de x (m = 11) § Sea ni el número de observaciones en xi (i = 1…m) § Sea yij la j-ésima observación de xi (j = 1…ni) § n = número total de observaciones El principio básico es la partición del error en dos componentes: § Falta de ajuste (LOF) § Error puro (PE) å = m 1 i n n 53 54 ij i ij e ) ŷ y ( = - y x 54
  • 28. 28 55 MC(PE) MC(LOF) m) SC(PE)/(n 2) SC(LOF)/(m F : EP SC(PE) SC(LOF) SCE = - - = + = Rechazar Ho si, m n ; 2 m ; F F - - a > i y å 2 i ij ) y - (y 55 56 Como 0,56 no es mayor que 6, NO se rechaza que el modelo lineal propuesto sea el adecuado. 56 , 0 167 , 3 766 , 1 MC(PE) MC(LOF) F : EP = = = Rechazar Ho si, ) 6 (F F F 4 ; 9 ; 05 , 0 m n ; 2 m ; = > - - a 56
  • 29. 29 57 Completar la siguiente tabla ANOVA basado en los siguientes datos: Ejercicio 57 58 9. Distancia D de Cook Detecta observaciones influyentes. En la práctica, considerar D significativa si es mayor que 1. En este caso se deberá estudiar la observación para ver si es real. Si no es real, borrarla. Si es real, ver causas en el proceso. 10.PRESS (Predicted SSE) Evalúa la capacidad de predicción del modelo. Se compara PRESS contra SCE, y de manera empírica, si la relación es menor a 2, se considera que el modelo es bueno para predecir. Otras medidas de diagnostico y problemas 58
  • 30. 30 59 11.Prueba de Durbin-Watson Detecta autocorrelación entre los errores (falta de independencia de manera analítica). Esta prueba supone que los errores siguen una distribución normal: Ho: No existe correlación positiva, ρ = 0 Ha: Existe correlación positiva, ρ > 0 También se puede probar: Ho: No existe correlación negativa, ρ = 0 Ha: Existe correlación negativa, ρ < 0 El estadístico de prueba es: å å = = - - = n 1 t 2 t n 2 t 2 1 t t e ) e e ( d : EP 59 60 Buscar dL y dU en las tablas de Durbin-Watson y llegar a una conclusión en base a la siguiente figura: Se puede sospechar de autocorrelacion cuando una de la variables es el tiempo. 60
  • 31. 31 61 En el caso del tratamiento térmico, de Minitab se obtiene d = 1,75396. Con n = 15, p – 1 = 1, y usando α = 5% se obtiene de la tabla DW: dL = 1,08 y dU = 1,36 y se concluye que NO existe autocorrelación entre los errores. Para usar las tablas de Durbin-Watson (DW) es necesario tener n mayor o igual a 15, definir p – 1 (p = número de parámetros, βs) y el nivel de α (5% ó 1%). Ejemplo 61 62 La autocorrelación está en general provocada cuando no se incluyen una o más variables importantes en el modelo, por ejemplo al relacionar las ventas anuales de refresco contra los gastos en publicidad, la variables crecimiento poblacional (en el tiempo) debería estar incluida. Los efectos de la autocorrelación son: § estimadores ineficientes del modelo, § se subestima el error, § y los resultados de pruebas de hipótesis e intervalos de confianza pueden ser erróneos. 62
  • 32. 32 63 La autocorrelación también puede detectarse al graficar los residuos contra el orden (prueba de independencia) y observar grupos de puntos de un solo lado de la línea central. Ejercicio Realizar en el caso del Acabado vs. el Avance las siguientes pruebas: Distancia D de Cook, PRESS y Durbin-Watson. 63 64 Consiste en generar modelos de regresión con más de una variable independiente (Xs). e + b + + b + b + b = k k 2 2 1 1 0 x x x y ! § n = número de datos § p = número de parámetros (βs) § k = número de variables (Xs) § = componente de error (medición + natural). Variable aleatoria. La relación entre el número de parámetros y el número de variables es: p = k + 1. e III. Regresión Lineal Múltiple 64
  • 33. 33 65 e + b = ! ! ! ! X y βi (i = 1…k) representa el cambio esperado en la respuesta "y" cuando xi cambia una unidad, manteniendo constantes las demás Xs. A las βs se les llama coeficientes de correlación parcial. β0 representa la intersección del hiperplano de regresión. Si el rango de los datos Xs incluye x1 = x2 = … = xk = 0, β0 representa la media de "y" cuando x1 = x2 = … = xk = 0. El modelo en forma matricial es: 65 66 ú ú ú ú û ù ê ê ê ê ë é = n 2 1 y y y y ! " Donde: ú ú ú ú û ù ê ê ê ê ë é = nk 2 n 1 n k 2 22 21 k 1 12 11 x x x 1 x x x 1 x x x 1 x ! ! ! ! ! ! ! ! " ú ú ú ú û ù ê ê ê ê ë é b b b = b k 1 0 ! " ú ú ú ú û ù ê ê ê ê ë é e e e = e n 2 1 ! " La solución matricial es: y X ) X X ( ˆ ' 1 ' ! ! ! ! ! - = b Para obtener el modelo: b = ! ! ! ˆ x ŷ 66
  • 34. 34 67 Se supone que en el tratamiento térmico se introduce una variable más que es la temperatura de la pieza: X1 (Temp) X2 (Tempza) Y (Dureza) 101 848 49 115 845 44 115 847 46 140 837 38 123 844 43 107 847 47 Estadísticas de la regresión 135 840 41 135 838 38 105 846 47 110 845 45 110 844 43 135 836 37 125 845 44 132 840 40 130 839 39 Ejemplo 67 68 ú ú ú ú ú ù ê ê ê ê ê é = 39 44 49 y ! " Donde: ú ú ú ú ú ù ê ê ê ê ê é = 839 130 1 845 120 1 848 101 1 x ! ! ! " ú ú ú ú ú ú ù ê ê ê ê ê ê é b b b = b k 1 0 ˆ ˆ ˆ ˆ ! " b = ! ! ! ˆ x ŷ Y (Dureza) = -574 – 0,0606 X1 (Temp) + 0,741 X2 (Tempza) 68
  • 35. 35 69 Para estimar la varianza σ2 es necesario obtener: y X ˆ y y SCE ' ' ' ! ! ! ! ! b - = p n SCE MCE - = MCE ˆ2 = s Donde: § n = número de datos § p = número de parámetros (βs) § k = número de variables (Xs) § p = k + 1 69 70 a) Prueba de significación de la regresión Ho: β1 = β2 = … = βk = 0 Ha: βj ≠ 0 para al menos una j El estadístico de prueba es: MCE MCR ) 1 k n /( SCE k / SCR F : EP = - - = § p = número de parámetros (βs) § k = número de variables (Xs) § p = k + 1 n – k -1 = n – p k = p - 1 Rechazar Ho si, 1 k n ; k ; F F - - a > Pruebas de hipótesis 70
  • 36. 36 71 Cjj son los elementos de la diagonal de la matriz Rechazar Ho si, b) Pruebas sobre coeficientes individuales Ho: βj = 0 Ha: βj ≠ 0 El estadístico de prueba es: jj 2 j j j c ˆ ˆ ) ˆ ( se ˆ t : EP s b = b b = 1 k n ; 2 / t t - - a > 1 ' ) X X ( - ! ! 71 72 Resultados e interpretación usando Minitab: 72
  • 37. 37 73 § El modelo es significativo y tiene buena capacidad de predicción pues SCE = 7,037 no es muy diferente a PRESS = 11, 0332. La diferencia es menos del doble (1,5106). § El modelo explica el 96,43% de la variación de la dureza, sin embargo la variable Temperatura no es significativa. Se eliminará del modelo, se generará otro y se compararán ambos. § Con respecto a la prueba de autocorrelación, estadístico de Durbin- Watson = 2,33858. Con α = 0,05, se obtiene de las tablas DW: dL = 0,95, dU = 1,54, 4–dU = 2,46, por lo que no existe autocorrelación. 73 74 NO se rechaza la Normalidad 74
  • 38. 38 75 No se rechaza la Varianza constante 75 76 No se rechaza la Independencia Se supone que el orden de los datos es en el que quedaron en la tabla 76
  • 39. 39 77 Ajustando el modelo de regresión sin la variable temperatura: 77 78 § Durbin-Watson es 2,39601 (no existe autocorrelación). § Las suposiciones de normalidad, varianza constante e independencia se cumplen. § La S (medida del error) del modelo completo (2 factores) es 0,765780 mientras que la del modelo reducido es 0,810823 (6% mayor). § Los coeficientes de determinación son 96,43% y 95,66% respectivamente, y ambos modelos tienen buena capacidad de predicción (comparar PRESS vs. SCE). § En conclusión, aunque el modelo completo es ligeramente mejor que el modelo reducido, es preferible usar el reducido pues contiene una variable menos. 78
  • 40. 40 79 Considerar que al caso del Acabado se le agrega una variable más: posición. Construir un modelo de regresión e interpretarlo: Ejercicio 79 80 Método usado para medir la contribución de factores adicionales en un modelo de regresión. Por ejemplo, si se desea saber la contribución de una segunda variable (X2) en el modelo, dado que ya se tiene a X1. § Modelo Completo y = β0 + β1x1 + β2x2 + ε → SCR (β1, β2) § Modelo Reducido y = β0 + β1x1 + ε → SCR (β1) La SCR condicional es: SCR (β2│β1) = SCR (β1, β2) - SCR (β1) Y representa la contribución de agregar X2 al modelo, dado que ya tiene a X1. Método de las sumas de los cuadrados extras 80
  • 41. 41 81 ← SCR (β1) ← SCR (β2 │β1) SCR (Anova) = SCR (β1, β2) = 189,896 Ho: β2 = 0 Ha: β2 ≠ 0 El estadístico de prueba es: 708 , 36 5864 , 0 1 / 526 , 21 MCE 1 / ) ( SCR F : EP 1 2 = = b b = A pesar de que la Temperatura de la pieza (X2) contribuye poco dado que ya se incluyó a la variable Temperatura, la primera es significativa (ver también prueba t). Rechazar Ho si, 75 , 4 F F F 12 ; 1 2 ; 05 , 0 GLE ; 1 GLR ; 05 , 0 = = > - - 81 82 ← SCR (β2) ← SCR (β1 │β2) Se observa que la variable Temp (dado que ya se incluyó a la variable Tempza) contribuye aún menos que la Tempza (dado que se incluye Temp, ver prueba anterior). Ho: β1 = 0 Ha: β 1 ≠ 0 El estadístico de prueba es: 575 , 2 5864 , 0 1 / 510 , 1 MCE 1 / ) ( SCR F : EP 2 1 = = b b = Rechazar Ho si, como 2,575 < que 4,75, se confirma que Temp NO es necesaria en el modelo. 75 , 4 F F F 12 ; 1 2 ; 05 , 0 GLE ; 1 GLR ; 05 , 0 = = > - - 82
  • 42. 42 83 Se define por: ) R 1 ( p n 1 n 1 MCT MCE 1 adj R 2 2 - - - - = - = Siendo: • n = número de observaciones. • p = número de parámetros (βs). • R2 = SCR/SCT. Si los dos valores R2adj y R2 son muy diferentes significa que el modelo está sobre ajustado. R2adj penaliza al agregar variables que no son importantes en el modelo. 12. Coeficiente de determinación múltiple ajustado 83 84 Significa que algunas variables (Xs) pueden estar correlacionadas entres sí. Indicaciones de Multicolinealidad son las siguientes: 1. Correlaciones significativas entre pares de Xs. 2. Que los signos de algunos parámetros del modelo sean contrarios a lo esperado. 3. VIFi (Variance Inflation Factor) > 10. 1...k i R 1 1 VIF 2 i i = - = Ri 2 del modelo sin incluir xi 13. Multicolinealidad 84
  • 43. 43 85 Soluciones a la multicolinealidad: 1. Eliminar una o más variables del modelo (se puede usar el procedimiento stepwise – paso a paso). 2. Si se decide dejar todas las variables, evitar establecer relaciones causa- efecto entre "y" y las Xs. En el ejemplo anterior, VIF = 5,69 para las dos variables de temperatura, lo cual indica que no existe multicolinealidad. 85 86 Es un caso particular del modelo lineal en el cual los parámetros (βs) son lineales. El modelo polinomial de 2º orden y una variable es: e + b + b + b = 2 2 1 0 x x y El modelo polinomial de 2º orden y dos variables es: e + b + b + b + b + b + b = 2 1 12 2 2 22 2 1 11 2 2 1 1 0 x x x x x x y IV. Regresión Polinomial 86
  • 44. 44 87 e + b + b + b = 2 2 1 0 x x y § β0 = Valor de E(y) cuando y si x = 0. § β1 = parámetro de traslación de la parábola (derecha, izquierda). § β2 = razón de curvatura (hacia arriba o hacia abajo). Notas: § Mantener el orden del polinomio lo más bajo posible (probar transformaciones en primer lugar - parsimonia) § La extrapolación puede ser muy riesgosa. § Conviene usar la forma corregida del modelo para aumentar la precisión de los estimadores y evitar posible multicolinealidad. 87 88 Considerar la relación existente entre el contenido de carbón y la resistencia a la tensión de un metal. Ejemplo 88
  • 45. 45 89 89 90 Este modelo con variables originales presenta multicolinealidad. 90
  • 46. 46 91 k = 3 (p + 1 = 2 + 1) n = 15 α = 0,05 dL = 0,95 dU= 1,54 El modelo presenta autocorrelación positiva. 91 92 Se observa falta de independencia 92
  • 47. 47 93 Al modificar las variables originales desapareció la multicolinealidad. 93 94 k = 3 (p + 1 = 2 + 1) n = 15 α = 0,05 dL = 0,94 dU= 1,54 Sin embargo la autocorrelación positiva persiste. D.COOK 0,4486 0,0885 0,0277 0,0728 0,1700 0,0414 0,0051 0,0027 0,0187 0,0483 0,0672 0,0084 0,0204 0,0141 1,0774 Al aplicar la prueba D de Cook, se nota que la última observación tiene mucha influencia (D > 1). 94
  • 48. 48 95 Se prueba el modelo cúbico: 95 96 Aumenta R2, disminuye s y la prueba de Durbin-Watson es inconclusa. k = 4 (p + 1 = 3 + 1) n = 15 α = 0,05 dL = 0,81 dU= 1,75 Al aplicar la prueba de independencia no se observa problema alguno. 96
  • 49. 49 97 No se observa autocorrelación o falta de independencia Posible outlier 97 98 Analizar la relación entre la presión de un gas en base a la temperatura del mismo. Ejercicio 98
  • 50. 50 99 Se inicia con un modelo vacío, excepto por β0, y empieza a agregar variables de una en una, tomando la variable que tenga la mayor correlación con "y". Esta variable se incluye si su F es mayor que cierto valor preseleccionado (F a entrar). La segunda variable seleccionada es la que tenga mayor correlación parcial con "y". A cada paso que se agrega una variable, todas las que ya se habían incluido anteriormente son reevaluadas por medio de pruebas F parciales para ver si vale la pena que sigan estando en el modelo a la luz de la incorporación de otras variables. Así también se tienen un valor F a retirar. V. Métodos de Selección de Variables 1. Regresión por pasos (stepwise regression) 99 100 Desarrolla modelos de regresión de las mejores combinaciones de las variables y calcula las siguientes medidas de desempeño: R2, R2adj, Cp (Mallows) p 2 n MCE SCE Cp + - = § p = número de parámetros del subconjunto particular. § SCE del modelo basado en el subconjunto particular. § MCE del modelo completo (todas las variables). 2. Regresión de mejores subconjuntos (best subsets) 100
  • 51. 51 101 Aplicar los dos métodos anteriores a los siguientes datos (no son los mismos que en el ejemplo de regresión múltiple de Dureza vs. Temp y Tempza). Ejemplo 101 102 102
  • 52. 52 103 El procedimiento de regresión por pasos recomienda incluir a las variables Temperatura y Temperatura de la pieza. 103 104 El procedimiento de regresión de mejores subconjuntos pasos recomienda incluir a las variables Temperatura y Temperatura de la pieza. 104
  • 53. 53 105 Aplicar los dos métodos de selección de variables a la siguiente información. Ejercicio 105