2. Ing. William león Velásquez 2
Ecuación de regresión
Estimación de parámetros por mínimos
cuadrados
Intervalos de predicción
Errores y residuales en estadística
Independencia de los errores
4. El método de mínimos cuadrados es la técnica utilizada
para encontrar la ecuación de regresión minimizando la
suma de los cuadrados de las desviaciones verticales
alrededor de la línea.
La forma general de la ecuación de regresión es:
Y′ = a + bX
Ing. William león Velásquez
4
MÉTODO DE MÍNIMOS
CUADRADOS
5. Y′ = a + bX
donde:
− Y′ se lee Y prima, es el valor de la predicción de la
variable Y dado un valor X .
− a es el valor de Y cuando X = 0, es decir, es el valor de Y
cuando la línea de regresión cruza el eje de las Y.
− b es la pendiente de la línea, o la variación promedio
en Y por cada variación de una unidad en X.
− X es cualquier valor seleccionado de la variable
independiente X .
Ing. William león Velásquez
5
MÉTODO DE MÍNIMOS
CUADRADOS
6. • Los valores de a y b en la ecuación de regresión
son conocidos como coeficientes de regresión.
• Las fórmulas para calcularlos son:
b =
n(ΣXY) – (ΣX)(ΣY)
n(ΣX²) – (ΣX)²
a =
ΣY
– b
ΣX
n n
MÉTODO DE MÍNIMOS
CUADRADOS
Ing. William león Velásquez
6
𝒃 =
𝐗 𝐢 − 𝐗 𝐘𝐢 − 𝐘𝐧
𝐢=𝟏
𝐗 𝐢 − 𝐗𝐧
𝐢=𝟏
𝟐
𝒂 = 𝐘 − 𝐛 𝐗
7. EJEMPLO 1
Ing. William león Velásquez 7
En una curva de calibración, la
densidad óptica varía
dependiendo de la
concentración de biomasa,
como se muestra en la tabla.
X Y
Concentración Densidad óptica
(mM) (%Trasmitancia)
1 4
2 9
4 18
5 20
8 35
10 41
12 47
15 60
8. Ing. William león Velásquez 8
Para el análisis de una situación de relación entre dos
variables se debe:
1. Identificar la variable independendiente y la variable
dependiente:
En este caso la variable dependiente es la densidad
óptica ( Y ) y la variable independiente es
concentración (X ).
2. Determinar si existe una relación de dependencia
razonable.
En la situación presentada puede observarse que en
la realidad estas dos características (concentración
de biomasa y densidad óptica) presentan una
relación lógica.
Se ha encontrado que la densidad óptica depende de
la concentración de biomasa.
ESTIMACIÓN DE PARÁMETROS
POR MÍNIMOS CUADRADOS
9. Ing. William león Velásquez 9
Para determinar de manera
inicial la relación lineal
entre las dos variables y la
correlación entre ellas
Se debe calcular el
coeficiente de correlación o
se debe elaborar un
diagrama de dispersión,
como el que aparece en la
figura
Gráfico de dispersión para los
valores observados y pronosticados
• De acuerdo al gráfico de dispersión se puede asumir
que existe correlación y una relación lineal, por lo tanto
se requiere la línea recta que mejor se ajuste a los
datos experimentales
ESTIMACIÓN DE PARÁMETROS
POR MÍNIMOS CUADRADOS
10. 3. Determinar el modelo estadístico: Como la densidad óptica
parece aumentar a medida que aumenta la concentración
entonces se debe sugerir un modelo lineal dado por:
𝑦𝑖 = 𝛽𝑜 + 𝛽1 𝑥𝑖 + 𝜀𝑖𝑗 𝑖 = 1,2, … .8
Donde:
yi es el valor observado en este caso la densidad óptica para un valor de
concentración X,
βo corresponde al intercepto de Y con la línea de regresión y
β1 representa el valor medio de la densidad óptica para un valor
determinado de concentración llamada pendiente de la línea de
regresión o coeficiente de regresión,
Xi es el valor de la concentración, que se asume, es medida sin error y
εij es la variable aleatoria del error
Ing. William león Velásquez 10
ESTIMACIÓN DE PARÁMETROS
POR MÍNIMOS CUADRADOS
11. Ing. William león Velásquez 11
Para poder utilizar este modelo , se asume que
las variables error cumplen los siguientes
supuestos:
Son normales con media cero
Son independientes
Tienen igual varianza σ2 .
Estos supuesto deben cumplirse para que el
análisis de los datos sea válido.
ESTIMACIÓN DE PARÁMETROS
POR MÍNIMOS CUADRADOS
12. Ing. William león Velásquez 12
4. Determinar la ecuación de regresión o modelo ajustado
El modelo predicho o ecuación de regresión ajustada es
una expresión como la siguiente
Para obtenerla se debe encontrar los valores estimados
de los parámetros: b0 y b1
Éstos se obtienen aplicando el método de mínimos
cuadrados.
.
ESTIMACIÓN DE PARÁMETROS
POR MÍNIMOS CUADRADOS
𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
14. Ing. William león Velásquez 14
4. Determinar la ecuación de regresión o modelo ajustado:
.
𝑌 = 1.193 + 3.938 X
EJEMPLO 1
𝑏1 =
680.75
172.875
b1=3.938
b0=193𝑏0 =29.25 -3.938(7.125)
𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
𝑏1 =
𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌𝑛
𝑖=1
𝑋𝑖 − 𝑋𝑛
𝑖=1
2
𝑏 𝑜 = 𝑌 − 𝑏1 𝑋
15. EJEMPLO 2
El director de recursos humanos de
Ventas S.A. está entrevistando y
seleccionando nuevos vendedores.
El ha diseñado una prueba que le
ayudará a realizar la mejor selección
posible para la fuerza de ventas.
Con el fin de probar la validez de la
prueba para predecir las ventas
semanales, él eligió vendedores
experimentados y aplicó la prueba a
cada uno.
Ing. William león Velásquez
15
16. Calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Vendedor Calificación Ventas
semanales
José Luis 4 5,000
Rufino 7 12,000
Frida 3 4,000
Diego 6 8,000
María 10 11,000
Ing. William león Velásquez
16
La calificación de cada vendedor fue entonces
pareada con sus ventas semanales.
EJEMPLO 2
17. Se prepara una tabla para poder calcular los
coeficientes de la ecuación de regresión.
Calificaciones y ventas semanales de 5 vendedores de
Ventas S.A.
Vendedor Calificación ( X ) Ventas ( Y ) X2 XY Y2
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
Maria 10 11 100 110 121
total 30 40 210 274 370
EJEMPLO 2
Ing. William león Velásquez
17
18. b =
n(ΣXY) – (ΣX)(ΣY)
=
5 ( 274 ) – ( 30 )( 40 )
=1.133
n(ΣX²) – (ΣX)² 5 ( 210 ) – ( 30 )²
a =
ΣY
─ b
ΣX
=
40
- 1.133
30
=1.202
n n 5 5
Y′ = a + bX Y′ = 1.202 + 1.133 X ( ecuación de regresión)
Ing. William león Velásquez
18
EJEMPLO 2
Reemplazando los valores encontrados
en las formulas
19. Para predecir las ventas semanales de un
aspirante a vendedor que obtuvo una calificación
de 6 en la prueba se aplica la ecuación de
regresión:
Y′ = 1.202 + 1.133 ( 6 ) = 8 mil.
Ing. William león Velásquez
19
EJEMPLO 2
20. Línea de regresión
Para determinar los puntos de la línea de
regresión se sustituyen los valores de la variable
independiente en la ecuación de regresión:
calificación ( X ) solución
predicción de
ventas ( Y′ )
3 Y′ = 1.202 + 1.133 ( 3 ) 4.601
4 Y′ = 1.202 + 1.133 ( 4 ) 5.734
6 Y′ = 1.202 + 1.133 ( 6 ) 8.000
7 Y′ = 1.202 + 1.133 ( 7 ) 9.133
10 Y′ = 1.202 + 1.133 ( 10 ) 12.532
Ing. William león Velásquez
20
EJEMPLO 2
21. Ing. William león Velásquez
21
En el diagrama de dispersión no todos los puntos
coinciden con la línea de regresión.
EJEMPLO 2
Si todos los puntos
estuvieran sobre la línea
no habría error al predecir
la variable dependiente Y
basándose en la variable
independiente X.
22. La predicción perfecta es prácticamente imposible,
por lo tanto es necesaria una medida que indique que
tan precisa es una predicción de Y basada en X.
Esta medida es llamada el error estándar de
estimación.
El error estándar de estimación, simbolizado Syx,
tiene el mismo concepto de la desviación estándar.
La desviación estándar mide la dispersión alrededor
de la media
El error estándar de estimación mide la dispersión
alrededor de la línea de regresión.
EL ERROR ESTÁNDAR DE
ESTIMACIÓN
Ing. William león Velásquez
22
23. El error estándar de estimación se calcula con la siguiente
fórmula.
Ing. William león Velásquez
23
EL ERROR ESTÁNDAR DE
ESTIMACIÓN
𝑆 𝑦𝑥 =
𝑆𝐸𝐸
𝑛 − 2
𝑆 𝑦𝑥 =
𝑌 − 𝑌
2
𝑛 − 2
𝑆 𝑦𝑥 =
𝑌2 − 𝑎 𝑌 − 𝑏 𝑋𝑌
𝑛 − 2
24. Calculo del error estándar de estimación
La cantidad de 1.955 es en realidad 1955
porque las ventas están en miles de dólares.
Ing. William león Velásquez
24
EJEMPLO 2
𝑆 𝑦𝑥 =
𝑌2 − 𝑎 𝑌 − 𝑏( 𝑋𝑌)
𝑛 − 2
𝑆 𝑦𝑥
Reemplazando los datos en la formula se tiene
𝑆 𝑦𝑥 = 1.955
=
370 − 1.202 40 − 1.133(274)
5 − 2
25. Razones para construir una regresión lineal.
Predecir los valores de respuesta de la variable dependiente
Y’ a un valor de la variable independiente X.
Hay dos tipos de intervalos de predicción:
1. El intervalo de predicción del valor medio de Y para un
valor dado de X.
2. El intervalo de predicción del valor individual de Y para un
valor dado de X
INTERVALOS DE PREDICCIÓN
Ing. William león Velásquez
25
26. El intervalo de confianza del valor medio de Y ( μY )
Para determinar el intervalo de confianza del
valor medio de Y, que se simboliza μy para un
valor dado de X, la fórmula es:
Ing. William león Velásquez
26
INTERVALOS DE CONFIANZA
𝜇 𝑦 = 𝑌′
± 𝑡 𝑆 𝑦𝑥
1
𝑛
+
(𝑋 − 𝑋)2
𝑋2 −
( 𝑋)2
𝑛
27. Ing. William león Velásquez
27
INTERVALOS DE CONFIANZA
𝜇 𝑦 = 𝑌′
± 𝑡 𝑆 𝑦𝑥
1
𝑛
+
(𝑋 − 𝑋)2
𝑋2 −
( 𝑋)2
𝑛
Donde:
Y’ es la predicción del valor de Y para un valor dado de X
X es el valor dado de X
𝑋 es la media de los valores de X
n es el número de observaciones
Sxy es el error estándar de estimación
t es el valor de t, para α / 2, y Φ = n - 2
28. Calcular el intervalo de confianza para el valor
medio de Y del 95 %, para un valor dado de X = 6,
en el ejemplo de las ventas y las calificaciones de
los cinco vendedores de Ventas S.A.
Ing. William león Velásquez
28
EJEMPLO 2
𝜇 𝑦 = 𝑌′ ± 𝑡 𝑆 𝑦𝑥
1
𝑛
+
(𝑋 − 𝑋)2
𝑋2 −
( 𝑋)2
𝑛
29. μy = 8 ± 2.782
P (5.217 ≤ μy ≤ 10.782) = 0.95
Para un grupo de aspirantes que obtuvieron calificaciones
exactamente de 6, hay una probabilidad del 95% de que
sus ventas semanales promedio se localizarán en un
intervalo entre $ 5,217 y $ 10,782.
Ing. William león Velásquez
29
EJEMPLO 2
𝜇 𝑦 = 8 ± (3.18245)(1.955)
1
5
+
(6 − 6)2
210 −
(30)2
5
Este intervalo es muy grande, para hacerlo mas pequeño
se puede reducir el nivel de confianza de 0.95 a 0.90, o
mejor, incrementar el tamaño de la muestra.
30. Intervalo de predicción para el valor individual
de Y
Para determinar el intervalo de predicción del valor
individual de Y, que se simboliza μy para un valor
dado de X, la fórmula es:
Ing. William león Velásquez
30
INTERVALOS DE PREDICCIÓN
𝜇 𝑦 = 𝑌′
± 𝑡 𝑆 𝑦𝑥 1 +
1
𝑛
+
(𝑋 − 𝑋)2
𝑋2 −
( 𝑋)2
𝑛
31. Calcular el intervalo de predicción para el valor
individual de Y del 95 %, para un valor dado de X = 7,
en el ejemplo de las ventas y las calificaciones de los
cinco vendedores de Ventas S.A.
Ing. William león Velásquez
31
EJEMPLO 2
𝜇 𝑦 = 𝑌′ ± 𝑡 𝑆 𝑦𝑥 1 +
1
𝑛
+
(𝑋 − 𝑋)2
𝑋2 −
( 𝑋)2
𝑛
32. Se concluye que hay una probabilidad de 0.95
de que las ventas semanales de alguien que
obtuvo un 7 de calificación serán entre $
2,225 y $ 16,041.
Ing. William león Velásquez
32
EJEMPLO 2
𝜇 𝑦 = 9.133 ± (3.18245)(1.955) 1 +
1
5
+
(7 − 6)2
210 −
(30)2
5
Yo =9.133 ± 6.908
P ( 2.225 ≤ Yo ≤ 16.041 ) = .95
• Este intervalo es muy grande, para hacerlo mas pequeño se
puede reducir el nivel de confianza de 0.95 a 0.90, o mejor,
incrementar el tamaño de la muestra.
33. En el intervalo de confianza para el valor
medio de Y, se esta interesado en
predecir las ventas promedio de todos los
vendedores que obtienen una
determinada calificación.
En el intervalo de predicción para un
valor individual de Y, nos interesa
estimar un intervalo de las ventas de un
particular vendedor que obtuvo cierta
calificación.
Ing. William león Velásquez
33
RESUMEN:
Es importante distinguir entre los dos tipos de intervalos
de predicción.
INTERVALOS DE PREDICCIÓN
34. EJEMPLO 3
Una empresa que se
dedica a la venta de
pizas a domicilio desea
determinar si existe una
relación entre los gastos
de publicidad y las
ventas semanales
La tabla muestra la
información de las
ultimas ocho semanas
Ing. William león Velásquez 34
Gastos en
Publicidad 0 100 250 350 450 500 600 700
ventas
semanales 120 350 500 550 550 650 800 1100
35. EJEMPLO 3
El primer paso para la determinación del modelo es
verificar el tipo de relación existente entre las dos variables
de estudios
Examinar el grafico de dispersion
Ing. William león Velásquez 35
0
200
400
600
800
1000
1200
0 200 400 600 800
Vntassemanales
Gastos de publicidad
Se observa un patrón creciente
entre las variables, es decir que
ha medida que aumenta los
gastos en publicidad aumentas las
ventas semanales de pizas
Por lo tanto el modelo
poblacional que se propone es un
modelo lineal:
Ventas = βo + β1 * gastos de publicidad + ε
36. EJEMPLO 3
Estimación de los parámetros:
Ing. William león Velásquez 36
221
^
ii
iiii
XXn
YXYXn
150572.1
3277500
3771000
8702500)1497500(8
)4620(2950)2175000(8
ventas
semanales
Gastos en
Publicidad
y x X Y X2
120 0 0 0
350 100 35000 10000
500 250 125000 62500
550 350 192500 122500
550 450 247500 202500
650 500 325000 250000
800 600 480000 360000
1100 700 770000 490000
∑ 4620 2950 2175000 1497500
media 577.5 368.75
YY 10 = 577.5 – 1.150572(368.75) = 153.226538
La ecuación de regresión estimada es = Ventas= 153.2265 + 1.15057 * gastos de publicidad
𝛽1
37. EJEMPLO 3
Estimación de los parámetros:
Interpretación:
El promedio de las ventas semanales de pizzas son
de 153 unidades cuando no hay gastos en
publicidad.
Cuando los gastos en publicidad aumentan en $ 1,
las ventas aumentan en promedio 1.15 pizzas
Ing. William león Velásquez 37
La ecuación de regresión estimada es
Ventas= 153.2265 + 1.15057 * gastos de publicidad
38. VARIANZA DE LOS ESTIMADORES
𝑉 𝛽0 =
𝜎2
𝑒
𝑛
+𝑋2 𝜎 𝑒
2
𝑋 𝑖− 𝑋 2𝑛
𝑖=1
Ing. William león Velásquez 38
𝑉 𝛽1 =
𝜎 𝑒
2
𝑋 𝑖−𝑋 2𝑛
𝑖=1
Desv estándar 𝛽0 = 𝑉 𝛽0
Desv estándar 𝛽1 = 𝑉 𝛽1
Varianza de los estimadores β0 β1
39. EJEMPLO 3
Ing. William león Velásquez 39
Varianza de los estimadores β0 β1
ventas
semanales
Gastos en
Publicidad 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖
Y X 𝑌 ei e2
i X2
120 0 153.2265 -33.2265 1104.0003 0
350 100 268.2835 81.7165 6677.58637 10000
500 250 440.869 59.131 3496.47516 62500
550 350 555.926 -5.926 35.117476 122500
550 450 670.983 -120.983 14636.8863 202500
650 500 728.5115 -78.5115 6164.05563 250000
800 600 843.5685 -43.5685 1898.21419 360000
1100 700 958.6255 141.3745 19986.7493 490000
∑ 53999.0847 1497500
La ecuación de regresión estimada es
Ventas = 𝒀= 153.2265 + 1.15057 * gastos de publicidad
42. INTERVALO DE CONFIANZA
PARA LOS PARÁMETROS
Ing. William león Velásquez 42
𝛽0 𝜖 𝛽0 ∓ 𝑡 1− 𝛼
2,𝑛−2 𝑆 𝛽0
𝛽1 𝜖 𝛽1 ∓ 𝑡 1− 𝛼
2,𝑛−2 𝑆 𝛽1
Intervalo de confianza para el intercepto
Intervalo de confianza para la pendiente
43. EJEMPLO 3
Ing. William león Velásquez 43
𝛽0 𝜖 𝛽0 ∓ 𝑡 1− 𝛼
2,𝑛−2 𝑆 𝛽0
𝛽1 𝜖 1.150572 ± 𝑡 0.975,6 0.148215
𝛽0 𝜖 153.226538 ± 𝑡 0.975,6 64.125331
𝛽1 𝜖 𝛽1 ∓ 𝑡 1− 𝛼
2,𝑛−2 𝑆 𝛽1
𝛽0 𝜖 −3.682376, 310.135452
𝛽1 𝜖 0.7879.3, 1.51324
Intervalo de confianza para el intercepto
Intervalo de confianza para la pendiente
44. EJEMPLO 4
Una gran empresa desea realizar cambios en su política
de empleos , para ello se desea predecir el ausentismo
laboral Y (en horas al año) a partir del salario X (en euros
semanales).
X 150 200 175 160 210 895
Y 300 406 442 330 422 1900
X Y XY x2
150 300 45000 22500
200 406 81200 40000
175 442 77350 30625
160 330 52800 25600
210 422 88620 44100
Sumas 895 1900 344970 162825
Calculando para obtener las sumatorias
45. EJEMPLO 4
Para calcular el valor de b (pendiente)
Con los resultados de la tabla y se reemplaza en
la fórmula:
𝑏 =
𝑛 𝑋𝑖 𝑌𝑖 − 𝑋𝑖 𝑌𝑖
𝑛 𝑋𝑖
2
− 𝑋𝑖
2
𝑏 =
5(344,970)−(895)(1900)
5 162,825 −(895)2 =1.86
n= 5
X Y XY x2
⅀ 895 1900 344970 162825
Y’i =a + bXi
46. EJEMPLO 4
Para calcular el coeficiente a (Intercepto)
𝑎 = 𝑌 − 𝑏𝑋
𝑎 =
1900
5
− 1.86
895
5
a= 380-(1.86)179
a= 47.06
Luego:
Y’i =47.06 + 1.86Xi
b= 1.86
n= 5
X Y XY x2
⅀ 895 1900 344970 162825
𝑎 =
⅀𝑦
𝑛
− b
⅀𝑥
𝑛
Con los resultados de la tabla, se reemplaza en la fórmula:
47. EJEMPLO
Calculando el Y estimado y el error
X Y y' E
150 300 326.06 -26.06
200 406 419.06 -13.06
175 442 372.56 69.44
160 330 344.66 -14.66
210 422 437.66 -15.66
Sumas 895 1900 0
𝐸 = 0
Reemplazando los valores de X en al ecuación
Y’i =47.06 + 1.86Xi
48. EJEMPLO
Grafico de dispersión de las dos variables
0
50
100
150
200
250
300
350
400
450
500
0 50 100 150 200 250
y'
y'
49. Contraste sobre β
Objetivo: Comprobar si hay relación lineal, y de que tipo es
esta, entre X e Y.
1. Hipótesis Bilateral:
H0: β = 0 (no hay relación lineal, son linealmente independientes)
H1: β ≠ 0 (hay relación lineal)
Unilateral derecho:
H0: β =0 (no hay relación lineal)
H1: β > 0 (hay relación lineal positiva)
Unilateral izquierdo:
H0: β = 0 (no hay relación lineal)
H1: β < 0 (hay relación lineal negativa)
2. Supuestos
Independencia
Normalidad
Homocedasticidad
50. Contraste sobre β
3. Estadístico de contraste
− Cuya distribución es tn-2
4. Zona crítica
− Bilatéral: t ≤ α/2tn-2, y t ≥ 1-α/2tn-2,
− Unilateral derecho: t ≥ 1-α tn-2,
− Unilateral izquierdo: t ≤ αtn-2,
𝑡 =
𝐵 𝑋𝑖 − 𝑋 2
𝑌𝑖 − 𝑌′
𝑖
2
𝑛 − 2
51. Probar si al aumentar el salario (X) aumenta el
ausentismo (Y) con α=0,01.
1. Hipótesis
H0: β = 0
H1: β > 0
2. Supuestos: normalidad, independencia,
homocedasticidad.
3. Estadístico de contraste
EJEMPLO
𝑡 =
𝐵 𝑋𝑖 − 𝑋 2
𝑌𝑖 − 𝑌′
𝑖
2
𝑛 − 2
𝑡 =
1.86 2620
6131.75
3
= 2.1
52. EJEMPLO
4. Zona crítica
Unilateral derecho: 0,99t3 = 4,541
5. Decisión
No se rechaza la hipótesis nula H0
Por lo tanto no hay suficiente respaldo en
sustentar que si al aumentar el salario (X)
aumenta el ausentismo (Y)
53. Ejemplo 5
con Prueba de significación al modelo
La gerente de un banco desea saber si puede considerarse
que el ahorro de las familias (variable y) depende de sus
ingresos (variable x).
En la tabla siguiente se muestran los resultados que se
obtienen para una muestra de 10 familias.
En miles de pesos mensuales
Familia Ingresos (x) Ahorro (y)
1 11 0.5
2 14 1.1
3 12 0.9
4 9 0.6
5 13 1.2
6 13 0.9
7 15 1.5
8 17 1.3
9 15 1.1
10 13 0.7
54. Ejemplo 5
con Prueba de significación al modelo
Completando la tabla de datos con las operaciones necesarias
para encontrar los promedios y sumas de cuadrados se llego a
la tabla
Familia Ingresos (x) Ahorro (y)
1 11 0.5 4.84 1.056
2 14 1.1 0.64 0.096
3 12 0.9 1.44 0.096
4 9 0.6 17.64 1.596
5 13 1.2 0.04 -0.044
6 13 0.9 0.04 0.016
7 15 1.5 3.24 0.936
8 17 1.3 14.44 1.216
9 15 1.1 3.24 0.216
10 13 0.7 0.04 0.056
Sumas 132 9.8 45.6 5.24
Medias 13.2 0.98
𝑥 − 𝑥 2 𝑥 − 𝑥 𝑦 − 𝑦
55. Ejemplo 5
con Prueba de significación al modelo
Con estos datos se construye la ecuación de regresión:
𝑏 =
𝑥 − 𝑥 𝑦 − 𝑦
𝑥 − 𝑥 2
𝑏 =
𝑆𝐶 𝑥𝑦
𝑆𝐶 𝑥𝑥
=
5.24
45.6
= 0.1149
a = 𝑦 − 𝑏𝑥 =
9.8
10
− 0.1149
132
10
= 0.98 − 0.1149(13.2)
a=-0.5367
Se obtiene la siguiente ecuación de regresión:
𝑦 = −0.5367 + 0.1149 𝑥
56. Ejemplo 5
con Prueba de significación al modelo
Se utilizo una relación entre las sumas de cuadrados de las desviaciones de
regresión, que arranca a partir de las desviaciones de cualquier punto de
datos y valores estimados provenientes de la ecuación de regresión;
resumidos como
𝑦 − 𝑦 = 𝑦 − 𝑦 + (𝑦 − 𝑦)
Desviación total = desviación no explicada + desviación explicada.
Cuyas sumas de cuadrados son:
𝑦𝑖 − 𝑦 2
= 𝑦𝑖 − 𝑦𝑖
2
+ 𝑦𝑖 − 𝑦 2
SCT = SCE + SCR
57. Ejemplo 5
con Prueba de significación al modelo
En resumen:
suma de cuadrados total (SCT) = suma de cuadrados del error
(SCE) + suma de cuadrados de regresión (SCR).
Esta equivalencia de sumas de cuadrados permite,
Verificar que los cálculos se han realizado en forma apropiada
—si al revisar esos cálculos no se cumple esta igualdad
entonces se sabe que algo no se hizo bien— y
Calcular mediante el ANOVA, otros parámetros importantes
para las inferencias estadísticas relacionadas con el análisis de
regresión.
59. Ejemplo 5
con Prueba de significación al modelo
Con los datos de la tabla anterior se realiza una prueba al
modelo a través de la tabla ANOVA
Fuente de
la variación SC GL MC F
Debido a la
regresión 0.6020 1 0.60201166 15.3447349
Debido al
error 0.3139 8 0.039232458
Total 0.9159 9
SCT SCR SCE
0.9160 9.7998 0.6020 0.3139
Entonces el F d la prueba es 15.34
60. Ing William León Velásquez 60
1.- Hipótesis para probar
𝐻𝑜: 𝛽𝑖 =0
−Todos los coeficientes son ceros
−El modelo no es apropiado
𝐻𝑎: 𝛽𝑖 ≠0
−Al menos uno de los coeficientes es diferente
de cero
−El modelo es apropiado
Ejemplo 5
con Prueba de significación al modelo
61. Ing William León Velásquez 61
2.- Estadístico de prueba
De la tabla ANOVA tenemos:
Entonces Fo es 15.34
Ejemplo 5
con Prueba de significación al modelo
𝐹𝑜 =
𝐶𝑀𝑅
𝐶𝑀𝐸
MC F
0.60201166 15.3447349
0.039232458
62. Ing William León Velásquez 62
3.- La región critica estará dada por
RC = 𝐹1−𝛼,1,𝑛−2 , ∞
Con un alfa=0.05,
Gl Regresión=1 (por ser lineal simple es decir dos
variables)
Gl Error: n-k = 8 (k=2)
Entonces Fα es 5.318
Ejemplo 5
con Prueba de significación al modelo
63. Ing William León Velásquez 63
4.- Conclusión
Fo es 15.34
Fα es 5.318
Como Fo es mayor que Fα se rechaza la Ho
− Existe suficiente evidencia para afirmar con un nivel de
significancia del 5% que el coeficientes del modelo es
diferente de cero por lo tanto el modelo es apropiado
Ejemplo 5
con Prueba de significación al modelo
64. Coeficiente de determinación es la proporción de la variación
total en la variable dependiente Y que es explicada por la
variación en la variable independiente X.
El coeficiente de determinación es la cantidad de variación en y
que está explicada por la recta de regresión.
Y se calcula:
EL COEFICIENTE DE DETERMINACIÓN
Ing. William león Velásquez
64
𝐫 𝟐
=
𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚
𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥
x100
𝐫 𝟐 =
0.6020
0.9159
∗ 𝟏𝟎𝟎 = 𝟔𝟓. 𝟕𝟐%
El porcentaje de la variable total que es explicado por el modelo es de 65.72%
65. Ejemplo 5
Con ayuda de estas sumas de cuadrados se calcula la desviación
estándar de regresión:
Con esta desviación estándar de regresión se calcula el error
estándar (la desviación estándar de la distribución muestral) de
la pendiente de la recta de regresión de la población β1:
𝑆 =
𝑦𝑖 − 𝑦𝑖
2
𝑛 − 2
𝑆 =
𝑆𝐶𝐸
𝑛 − 2
𝑆 =
0.3139
10−2
= 0.0392375 = 0.1981
𝜎𝛽1
=
𝜎
𝑆𝐶 𝑥𝑥
𝑆𝐶 𝑥𝑥 = 𝑥 − 𝑥 2
𝑆𝐶 𝑥𝑥 = 45.6
66. Ejemplo 5
Se estimo utilizando el valor muestral s:
𝜎𝛽1
=
𝜎
𝑆𝐶 𝑥𝑥
=
0.1981
45.6
=
0.1981
6.7528
= 0.02934
el error estándar de la pendiente de la recta de
regresión de la población β1: es 0.02934
68. 06/05/2016 68
Un error estadístico es la
diferencia entre los datos en la
muestra y la diferencia con la
media de la población
Un residual es la diferencia
entre los datos de la muestra y
la diferencia de la media de la
muestra.
ERRORES Y RESIDUALES
EN ESTADÍSTICA
69. El residual esta dado por:
Los cuales contienen dentro de ellos
información sobre el porque el modelo
no se ajusta a los datos.
Por ello es necesario realizar un análisis
de los residuales para obtener cualquier
peculiaridad que el ajuste de regresión
pueda tener.
06/05/2016 69
ANÁLISIS DE LOS
RESIDUALES
𝜀𝑖 = 𝑌𝑖 − 𝑌𝑖
70. Si se propone un modelo para el
ajuste de los datos se debe
establecer unos supuestos sobre la
variable error:
Independencia de los
errores
Los errores se distribuyen
normal con media cero
Los errores son
independientes
Los errores tienen
varianza constante
06/05/2016 70
ANÁLISIS DE LOS
RESIDUALES
71. Cuando se ajusta el modelo se
espera que los residuales exhiban el
cumplimiento de los anteriores
supuestos sobre la variable error.
Después de examinar los residuales
sólo se podrá decir que los
supuestos parecen ser incumplidos
o los supuestos parecen no ser
incumplidos.
06/05/2016 71
ANÁLISIS DE LOS
RESIDUALES
72. Es decir:
No significa que los
supuestos se cumplan;
Si no que sobre la base de
los datos se ha visto que
no hay razón para decir
que los supuestos no se
cumplen.
06/05/2016 72
ANÁLISIS DE LOS
RESIDUALES
73. RESIDUALES EN LA REGRESIÓN
Definición
◦ Es la diferencia entre el punto Observado
y el predicho por el modelo de la
regresión
𝑌 − 𝑌
74. Interpretaciones (formas de verlo)
Es aquello que no es
explicado por el modelo de
regresión.
Son considerados el error de
observación es por eso que
se llama el error en el
ANOVA.
RESIDUALES EN LA REGRESIÓN
75. ANÁLISIS RESIDUAL EN LA REGRESIÓN
SIMPLE
Gráficas de residuos
Se elaboran gráficas de residuos
contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el
cual los datos han sido
observados (para series de
tiempo)
77. PROPIEDADES DE LOS
RESIDUALES
Σ Ri = 0
Ri ~ N (0,σ2)
Pero si esto último no se da
entonces los residuales
manifiestan situaciones
particulares en la que NO se
cumplen algunos de los
supuestos
78. FORMA DE ANÁLISIS
El análisis de residuales
se puede llevar a cabo
gráficamente o en forma
analítica.
Distribución Normal
Igualdad de las
varianzas
Independencia de las
observaciones.
79. Usualmente se asume que
y que todos los errores son
independientes uno del otro, pero sus
estimados, los residuales no pueden
ser independientes.
Los gráficos utilizados son: el
histograma, el gráfico de probabilidad
normal entre otros.
.
NORMALIDAD DE LOS RESIDUALES
06/05/2016 79
𝜀𝑖~ 𝑁 0 , 𝜎2
80. HISTOGRAMA DE FRECUENCIAS
RELATIVAS.
Se realiza un histograma con los
datos y se observa si la forma de la
gráfica es simétrica.
.
06/05/2016 80
NORMALIDAD DE LOS RESIDUALES
81. GRAFICO DE PROBABILIDAD NORMAL
Si los puntos parecen ajustarse a una
línea recta, puede decirse que parece
indicar que los datos provienen de una
distribución normal, pero tenga en
cuenta que en algunos casos, aunque
los puntos se ajusten a una línea recta
puede que los datos no provengan de
una distribución normal; por ello se
recomienda utilizar métodos objetivos.
06/05/2016 81
NORMALIDAD DE LOS RESIDUALES
82. ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
Ing. William león Velásquez 82
Del ejemplo 2
En una curva de calibración, la
densidad óptica varía
dependiendo de la concentración
de biomasa, como se muestra en
la tabla.
X Y
Concentración Densidad óptica
(mM) (%Trasmitancia)
1 4
2 9
4 18
5 20
8 35
10 41
12 47
15 60
83. Gráfico de probabilidad normal para los residuos
de la densidad óptica
06/05/2016 83
Del ejemplo 2
84. El supuesto de independencia
de las variables aleatorias error
εij , se puede chequear
gráficamente por medio de un
diagrama de dispersión entre
los residuales (eje X) y el
orden en que se tomaron las
observaciones (si se tiene)
(eje Y).
06/05/2016 84
INDEPENDENCIA DE
LOS ERRORES
86. Densidad óptica: corresponde al número de la
observación de la variable
Pronóstico Densidad Óptica: corresponde al
valor pronosticado por la ecuación de regresión
para la variable .
Residual: corresponde a la diferencia obtenida
entre el valor verdadero y el pronosticado.
Residuos estándares: corresponde a
06/05/2016 86
Del ejemplo 2
𝑅𝑒𝑠. 𝐸𝑠𝑡. =
𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 − 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
87. Para los datos del ejemplo, el
gráfico de la derecha se
muestra lo siguiente.
No se observa un patrón
característico, por lo tanto,
parece indicar que los
residuos se encuentran
independientes o
aleatoriamente distribuidos.
06/05/2016 87
INDEPENDENCIA DE
LOS ERRORES
Gráfico de residuales vs orden para la densidad óptica