SlideShare una empresa de Scribd logo
1 de 91
Tema
17 REGRESIÓN
Y CORRELACIÓN
SIMPLE
OBJETIVOS
1. Utilizar diagramas de dispersión para visualizar la
relación entre dos variables.
2. Identificar relaciones simples entre variables
3. Utilizar la ecuación de regresión para predecir valores
futuros.
4. Aplicar el análisis de correlación para describir el
grado hasta el cuál dos variables están relacionadas
linealmente entre si.
Al finalizar el Tema 17, el participante será capaz de:
6. Realizar el diagnostico de la regresión
7. Medición de la autocorrelación
8. Realizar la estimación por intervalos
9. Realizar el análisis de varianza de la regresión
simple
1. El diagrama de dispersión
2. Las ecuaciones lineales simples
3. La regresión lineal simple
4. El error estándar de la estimación
5. El análisis de correlación
6. El diagnóstico de la regresión: al análisis residual
7. La estadística de Durbin-Watson
8. La estimación por intervalos
9. Análisis de varianza de la regresión simple.
CONTENIDO
17.1 El diagrama de dispersión
Es un gráfico que permite detectar la
existencia de una relación entre dos
variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relación que se da entre
las variables.
•
•
•
•
•
•
•
•
•
•
• •
• •
• •
•
•
•
•
•
• •
•
•
•
•
•
•
•
•
•
•
•
• •
•
•
•
• •
•
•
•
•
•
•
•
•
•
•
•
•
•
•
• •
•
• •
•
• •
•
•
•
•
•
•
•
•
•
(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
(d) Curvilinea inversa (e) Lineal inversa
con más dispersión
(d) Ninguna relación
Y
X
Y
X
Y
X
Y
X
Y
X
Y
X
Relaciones posibles
entre X y Y vistos
en diagramas de
dispersión
Aplicación
El gerente de personal de la empresa
agroindustrial «Naranjillo» estudia la relación entre
los gastos y los salarios de su personal obrero.
Una muestra aleatoria de 10 obreros reveló los
siguientes datos en dólares por semana:
Empleado 1 2 3 4 5 6 7 8 9 10
Gastos 25 20 32 37 40 40 45 30 55 60
Salarios 28 25 35 40 45 50 50 35 70 80
Presente la información en un diagrama de dispersión
Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya
relación desea estudiar y organice la información
en una tabla.
Empleado 1 2 3 4 5 6 7 8 9 10
Gastos (y) 25 20 32 37 40 40 45 30 55 60
Salarios (x) 28 25 35 40 45 50 50 35 70 80
2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera que ambas
longitudes sean aproximadamente iguales, facilitando
la lectura del diagrama.
15
25
35
45
55
65
20 30 40 50 60 70 80 90
3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo punto
muy cerca del primero.
15
20
25
30
35
40
45
50
55
60
65
20 30 40 50 60 70 80 90
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la variable
y unidades de cada eje, entre otros.
15
20
25
30
35
40
45
50
55
60
65
20 30 40 50 60 70 80 90
Gastos
($)
Salarios ($)
Relación entre Gastos y Salarios
17.2 Las ecuaciones lineales simples
Si dos variables, como X e Y, están
relacionadas, se puede expresar como una
relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:
a) Calcular el valor de Y para cualquier valor
dado de X
b) Conocer el cambio en Y, cuando X varía en 1
Por ejemplo: Y = 3 + 1.5X
Valor dado de X Valor calculado de Y Cambio de Y
1 4.5 -
2 6 1.5
3 7.5 1.5
4 9 1.5
5 10.5 1.5
El aumento en Y, cuando X varía en una unidad,
está dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le
llama variable dependiente, y a X se le llama
variable independiente.
Y = b0 + b1 X
Variable
Dependiente
Variable
Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables están directamente relacionadas. Se
observa el signo +
X
o
o
o
o
o
o
o
o
o
Y
Ejemplo:
Y = 30 + 5X
Cuando cambios en X, provoca variaciones en Y
en sentido inverso (X aumenta, Y disminuye o
viceversa), las variables están inversamente
relacionadas. Se observa en la ecuación el signo
-.
o
o
o
o
o
o
o
o
X
Y
Ejemplo:
Y = 20 - 3X
La ecuación es de primer grado si la
variable independiente está elevada al
exponente 1. Su gráfica genera una línea
recta (por lo que también se le llama
ecuación lineal)
Ejemplo: Y = 30 + 4 X
C) Grado de la ecuación:
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor
del exponente. Su gráfica no es una línea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado
Y = 3 + 7X + 5 X3 : ecuación de tercer grado
D) Ecuaciones simples y múltiples:
 Simples: Muestra la relación entre dos variables
Y = 30 + 2X
Y = 10 - 3X2
 Múltiple: Muestra la relación entre tres o más
variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W
D) Gráfica de una ecuación de primer grado:
Ejemplo: Y = 3 + 1,5X
Los cinco pares de valores se diagraman de la
forma siguiente.
12
11
10
9
8
7
6
5
4
3
2
1
1 2 3 4 5
Y
.
X
.
. . .
(1,4.5)
(4,9)
(3,7.5)
(2,6)
(5,10.5)
X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
E) Forma general:
La ecuación simple de primer grado tiene la
siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Ejemplo:
Y = 3 + 3.5X
.
b0 = 3
Y
X
17.3 Regresión lineal simple
Es una técnica estadística que permite
determinar la mejor ecuación que represente la
relación entre dos variables relacionadas.
Para poder establecer la relación cuantitativa
entre X e Y es necesario disponer de pares de
observaciones. Cada par ha sido registrado a la
misma unidad elemental.
A) Suposiciones de regresión y correlación
a) Normalidad: los valores de Y estarán distribuidos
normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la
línea de regresión sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal.
La ecuación general = b0 + b1X se llama
ecuación de regresión y permite estimar o
predecir los valores de Y.
Es el procedimiento matemático utilizado para
determinar los valores numéricos de los
coeficientes de regresión: b0 y b1

Y
B) El método de Mínimos Cuadrados
Yi - Y = error

 
Min Y - Y
i

2

El método consiste en determinar una
ecuación que la suma de los errores al
cuadrado sea mínima.
X
Y
Error= 2
2 4 6 8 10 12 14
10
8
6
4
2 •
•
Error= -6
•
Línea de
estimación
.
.
Ŷ
El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente
forma:
Para aplicar las fórmulas,
tenemos que confeccionar
un cuadro como el
siguiente:

 





2
1
0
1
0
X
b
X
b
XY
X
b
+
nb
Y
 Y
 X XY
2
X

n Salarios Gastos Xi2 Xi*Yi
1 28 25 784 700
2 25 20 625 500
3 35 32 1225 1120
4 40 37 1600 1480
5 45 40 2025 1800
6 50 40 2500 2000
7 50 45 2500 2250
8 35 30 1225 1050
9 70 55 4900 3850
10 80 60 6400 4800
458 384 23784 19550
Sustituyendo los valores , n = 10,
y ,en las ecuaciones
normales, obtenemos el siguiente sistema de
ecuaciones.
384 = 10b0 + 458b1
19550 = 458b0 + 23784b1
Resolviendo el sistema tenemos: b0 = 6.381
b1= 0.699 ,por lo tanto,
|
384
Y
 458
X 

19550
XY
 23784
2
X 

X
699
.
0
6.381
Ŷ 

c) Interpretación
b0 = 6.381 : Es probable que un empleado de la
empresa reciba un salario de $6.381.
b1= 0.7 : Este valor indica que para un aumento de un $
en los salarios semanales corresponde un
gasto promedio de 0.7 $ en los gastos.
D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u
observado de la variable Y (peso del niño), mientras
que el valor estimado ( ), es el nivel estimado de la
variable (peso esperado), obtenido utilizando la
ecuación de regresión.
i
Ŷ
X
Y
Valor
estimado
Valor
observado

Y
i
Y
.
.
xo
x y Y
28 25 51.607
25 20 46.879
35 32 62.639
40 37 70.519
45 40 78.399
50 40 86.279
50 45 86.279
35 30 62.639
70 55 117.799
80 60 133.559
17.4 Error estándar de estimación (Syx)
Mide la disparidad ¨promedio¨ entre los valores
observados y estimados de la variable Y. Se
calcula por la siguiente relación
2
2
n
Ŷ
-
Y )
(
=
yx
S


14
x y Ŷ (Yi – Ŷi ) (Yi – Ŷi )2
28 25 25.953 -0.953 0.908209
25 20 23.856 -3.856 14.86874
35 32 30.846 1.154 1.331716
40 37 34.341 2.659 7.070281
45 40 37.836 2.164 4.682896
50 40 41.331 -1.331 1.771561
50 45 41.331 3.669 13.46156
35 30 30.846 -0.846 0.715716
70 55 55.311 -0.311 0.096721
80 60 62.301 -2.301 5.294601
458 384 383.952 0.048 50.202
El Syx es un indicador del grado de precisión con que
la ecuación de regresión describe la relación entre
las dos variables: cuanto más pequeño, los valores
observado y estimado de Y son razonablemente
cercanos y, la ecuación de regresión es una buena
descripción esa la relación.
Reemplazando en la formula
875
.
2402
8
19223
2
0
1
19223
=
yx
S 


019
,
49
=
Syx
17.5 El análisis de correlación
El análisis de correlación es la técnica
estadística que permite describir el grado hasta
el cual una variable está linealmente
relacionada con otra.
Hay dos medidas que se usan para describir la
correlación
 El coeficiente de determinación
 El coeficiente de correlación
A) El coeficiente de determinación
Al construir un modelo de regresión, se define
que “el valor Y depende de X”.
Y = f (X)
Si la relación es lineal: Y = b0 + b1X
Pero en la práctica Y depende también de
“otros factores” diferentes a X:
Y = b0 + b1X + 
Parte de los cambios en Y pueden explicarse
por X, a otro se llama variación explicada.
Pero hay cambios en Y que no pueden
explicarse por X, a lo que se llama variación
no explicada.
VARIACION VARIACION VARIACION
TOTAL = EXPLICADA + NO EXPLICADA
Variación
Total
Variación
no explicada
Variación
Explicada
 

Y - Y
 
Y - Y
i
 
Y - Y
i

Y
X
i
Y
y
El coeficiente de determinación se puede
calcular del modo siguiente:
Se elevan al cuadrado, para evitar que
obteniéndose un número positivo.

variacion explicada
variacion total
r2
 
 


2
2
Y
-
i
Y
Y
-
Ŷ
=
r2
 
Y - Y 
 0
1er Paso: Cálculo de la venta media por vendedor
son ( )
Y =
Y
n
i
n
i

1
Y =
Y Y Y Y Y
5
1 2 3 4 5
   
Y
Y =
5
9 5 7 14 10 45
5
   

Y = unidades
9
2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media:  

2
Y
-
i
Y
Y Y  2
Y
Y
 
 
  Y
Y
y ȳ (y - ȳ) (y- ȳ)2
25 38.4 -13.4 179.56
20 38.4 -18.4 338.56
32 38.4 -6.4 40.96
37 38.4 -1.4 1.96
40 38.4 1.6 2.56
40 38.4 1.6 2.56
45 38.4 6.6 43.56
30 38.4 -8.4 70.56
55 38.4 16.6 275.56
60 38.4 21.6 466.56
384 384 0 1422.4
3er Paso: Se calcula la variación explicada, es
decir, la sumatoria de las desviaciones cuadráticas
entre las ventas esperadas y la venta media de la
muestra:  

Y- Y
2

 
 
2
Y
Ŷ
Ŷ Y  
  Y
Ŷ
Ŷi ȳ (Ŷi - ȳi)
(Ŷi - ȳi)2
25.95 38.4 -12.45 154.927809
23.86 38.4 -14.54 211.527936
30.85 38.4 -7.55 57.062916
34.34 38.4 -4.06 16.475481
37.84 38.4 -0.56 0.318096
41.33 38.4 2.93 8.590761
41.33 38.4 2.93 8.590761
30.85 38.4 -7.55 57.062916
55.31 38.4 16.91 285.981921
62.30 38.4 23.90 571.257801
383.95 384 -0.05 1371.7964
4to Paso: Se compara la variación explicada y
la variación total.

variacion explicada
variacion total
r2
 
 


2
2
Y
-
Y
Y
-
Ŷ
=
i
r2
9644
,
0
4
,
1422
796
,
1371
= 
r2
5to Paso: Interpretación: 96,44% de las
variaciones en el incremento de salarios,
pueden explicarse por los gastos de los
empleados.
Valores posibles de r2
Si r2 = 1 : Correlación perfecta, es decir, toda
variación de Y puede explicarse por X
Si r2 = 0 : no existe correlación entre X e Y. La
variación explicada es 0. La variable X
no explica nada de los cambios en Y
Resumen
1
r
0 2


Cuanto más cerca a uno, las variables tendrán
mayor correlación.
B) El coeficiente de correlación
Es la raíz cuadrada del coeficiente de
determinación.
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.
r = r2
Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de
correlación de Pearson
-1 0 0,5 0,9 1
-0,9 -0,5
Perfecta
Negativa
Perfecta
Positiva
Fuerte
Negativa
Débil
Negativa
Débil
Positiva
Moderada
Positiva
Fuerte
Positiva
Moderada
Negativa
No existe
correlación
r2= 0,9644
Ejemplo:
0,9644
=
r
r = 0,982
el signo es positivo ya que X e Y están
relacionados directamente como lo indica el
signo del coeficiente b1 en la ecuación de
regresión X
699
,
0
6,381
Ŷ 

Interpretación: El incremento de gastos(Y) y los
salarios (X) por empleados se encuentran
directamente asociados.
17.6 Diagnóstico de la regresión: análisis
residual
El análisis residual permite evaluar lo adecuado
del modelo de regresión que ha sido ajustado a
los datos. También sirve para detectar si los
supuestos se cumplen.
A. Evaluación de lo adecuado de modelo ajustado
Los valores del error residual o estimado (i) se
define como la diferencia entre los valores
observados (Yi) y los estimados ( ) de la variable
dependiente para los valores dados de Xi
i
Ŷ
i
Ŷ
i = Yi -
Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).
Ejemplo:
El gráfico muestra un
adecuado ajuste entre
el incremento de
gastos y los salarios.
No se observa una
tendencia. 0
0.2
0.4
0.6
0.8
1
1.2
0 5 10 15 20 25 30
Residuos
Variable X 1
Variable X 1 Gráfico de los
residuales
El análisis del gráfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
así, podríamos probar con modelos no lineales como
el cuadrático, logaritmo o exponencial.
El análisis de residuos se complementa con el
cálculo de los residuos estandarizados (SRi), que
resultan de la división del residuo dividido por su
error estándar.
i
YX
i
i
h
1
S
SR



En donde  





 n
1
i
2
2
i
2
i
i
X
n
X
X
X
n
1
h
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variación estandarizada alrededor
de la línea de regresión.
Análisis de los residuales
Observación Pronóstico para Y Residuos Residuos estándares
1 25.95597663 -0.955976635 -0.404770782
2 23.85866933 -3.858669326 -1.633802064
3 30.84969369 1.150306311 0.487052055
4 34.34520587 2.65479413 1.124068367
5 37.84071805 2.159281949 0.914263184
6 41.33623023 -1.336230232 -0.565774242
7 41.33623023 3.663769768 1.551279496
En el gráfico siguiente, los residuos estandarizados
fueron graficados en función de la variable
independiente (cantidad del complemento nutricional).
Se puede observar de que existe una dispersión
amplia en la gráfica de residuos, no existe un patrón
evidente o una relación entre los residuos
estandarizados y Xi . Los residuos parecen estar
equitativamente distribuidos por arriba y por debajo
de 0, para diferentes valores de X. Podemos concluir
que el modelo ajustado parece ser adecuado.
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
0 2 4 6 8 10 12
Residuos estándares
B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
c. Independencia: Los datos recolectados
17.7 Medición de la autocorrelación: Durbin-Watson
Una de las suposiciones del modelo de regresión
básico es la independencia de los residuos. Esta
suposición es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la
correlación de cada residuo y el residuo del
periodo inmediato anterior al periodo de interés.
El estadístico D (Durbin-Watson)
En la que representa el residuo en el
periodo i.
 






 n
1
i
2
i
n
2
i
2
1
i
i
D



i

Interpretación de D:
Cuando residuos sucesivos están correlacionados
positivamente, el valor de D se aproximará a cero.
Si los resultados no están correlacionados, el valor D
estará cercano a 2.
Si se presentase una autocorrelación negativa, lo
cual rara vez sucede, de valor D tomará un valor
mayor a 2 e, incluso podría aproximarse a su valor
máximo que es 4.
Los resultados de SPSS nos proporciona el
valor de D de Durbin-Watson
Según este resultado permite afirmar que los
residuos no están correlacionados.
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Durbin-
Watson
1 ,982a ,965 ,960 2,505 1,949
a. Variables predictoras: (Constante), X
b. Variable dependiente: Y
17.8 Estimación por intervalos
A.Intervalo de confianza para 1
b1 N
Lo que se va hacer es estimar
se estima mediante la siguiente formula:








x
2
1
SC
, 


t
SC
S
b
S
b
x
y x
1
1
b
1
1
1



 

x
2
SC

 desconocido
conocido
2


 
2
n
SC
b
n
Y
Y
S
x
2
1
n
1
i
2
2
2
y x












 

-t0 t0

























1
t
SC
S
b
t
Pr
)
t
t
t
Pr(
0
x
yx
1
1
0
0
0

 














 1
SC
S
t
b
SC
S
t
b
Pr
x
yx
0
1
1
x
yx
0
1
B. Intervalo de confianza para 0



















x
2
2
0
0
SC
x
n
1
,
b 


2
n
x
2
yx
0
0
b
0
0
t
SC
x
n
1
S
b
S
b
0





 

 
2
n
SC
b
n
Y
Y
S
x
2
2
2
2
y x
0












 
donde:
-t0 t0



















1
t
S
b
t
Pr
)
t
t
t
Pr(
0
b
0
0
0
0
0
0
  
 




 1
S
t
b
S
t
b
Pr 0
0 b
0
0
0
b
0
0
t0 con (n-2) grados de libertad y 
Y/X
C. Intervalo de confianza para 0
 















 


x
2
0
2
X
/
y
SC
X
X
n
1
,
N
Ŷ 0 


Para un nivel dado de confianza, una variación
aumentada alrededor de la línea de regresión,
medida a través del error estándar de la
estimación, tiene como resultado un intervalo
más amplio.
  
 




 1
S
t
ŷ
S
t
ŷ
Pr ŷ
0
X
/
y
ŷ
0 0
 







 


x
2
0
2
y x
ŷ
SC
x
X
n
1
S
S
donde:
Sin embargo, como se esperaría, un tamaño de
muestra aumentado reduce el ancho del
intervalo.
D. Intervalo de confianza para un valor
individual
 















 



x
2
0
2
X
/
y
SC
X
X
n
1
1
,
N
Ŷ 0 


Además de obtener una estimación de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendría para un valor
individual.
  
 




 1
S
t
ŷ
S
t
ŷ
Pr ŷ
0
X
/
Y
ŷ
0 0
 







 



x
2
0
2
y x
ŷ
SC
x
X
n
1
1
S
S
donde:
El intervalo de predicción está estimando
un valor individual, no un parámetro.
SCtotal = SCerror + SCregresión
(SCresidual)
17.9 Análisis de varianza de la
regresión simple
El análisis de varianza es una técnica que
permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.
El cuadro de Análisis de Varianza
Fuentes de
variabilidad
Suma de
Cuadrados GL
Cuadrado
Medio
F
calculado E(CMe)
Debido a la
Regresión
Error
Experimental
Total
X
2
SC
b
 
x
2
1
2
2
SC
b
n
Y
Y 

 
total
SC
1
2
n 
1
n 
x
2
1SC
b
2
yx
S
2
yx
x
2
1
S
SC
b
x
2
1
2
SC

 
2


A.La ecuación de regresión e interprete los
coeficientes de regresión.
B.El intervalo de confianza para 1y para un valor
individual si X=3,8.
C.El cuadro de ANOVA para la regresión lineal
D.El valor de cuando X = 5,1
E.La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
ŷ
Asumiendo que existe una regresión lineal,
determine:
Solución
Primero se realizan los cálculos necesarios:
A. Cálculo de los coeficientes de regresión:
19550
16168
23784
384
458
10
2
2











i
i
i
i
i
i
Y
X
Y
X
Y
X
n
 
  
 
381
.
6
)
8
.
45
)(
699
.
0
(
4
.
38
699
.
0
10
458
23784
10
384
458
19550
ˆ
0
2
2
2
1
1
0
1
0














 
 

b
n
X
X
n
Y
X
Y
X
b
X
b
Y
b
X
b
b
Y
i
i
i
i
i
i
La ecuación de regresión será:
Interpretación:
b0: Es probable que un empleado de la empresa
reciba un salario de $6.381.
b1: Este valor indica que para un aumento de un $
en los salarios semanales corresponde un gasto
promedio de $0.699 en los gastos.
X
Y 699
,
0
381
,
6
ˆ 

B. Intervalo de confianza para 1
      10
,
0
1
699
.
0
699
,
0
Pr 8
10
,
0
1
8
10
,
0 















x
yx
x
yx
SC
S
t
SC
S
t 
90
,
0
987
,
52
86
,
1
57
,
1
987
,
52
86
,
1
699
.
0
Pr 1 









 yx
yx S
S

     
212
,
13
56
.
174
8
890
.
25
4
.
1422
8
987
.
52
699
,
0
10
384
16168
2
2
2







yx
yx
S
S
  90
,
0
9483
.
0
2352
,
0
Pr
90
,
0
987
.
52
212
,
13
86
,
1
699
,
0
987
.
52
212
,
13
86
,
1
699
,
0
Pr
1
1




























Interpretación: Hay 0,90 de confianza que el
intervalo que se ha construido, pertenezca al
grupo de intervalos que contienen al verdadero
parámetro 1.
Intervalo de confianza para un valor individual
Si X = 3,8 entonces 037
.
9
ˆ 
Y
  





 1
S
t
Ŷ
Y
S
t
Ŷ
Pr Ŷ
0
ind
Ŷ
0
  





 1
)
86
,
1
(
037
,
19
)
86
,
1
(
037
,
9
Pr ˆ
ˆ Y
ind
Y
S
Y
S
  690
.
14
987
,
52
8
.
45
80
,
3
10
1
1
505
,
2
2
ˆ 




Y
S
Interpretación Si se tiene muchos salarios iguales a
$3.8 , existe un 95% de confianza de que el
verdadero valor de los gastos se encuentre entre
estos intervalos.
   
 
  90
,
0
360
,
36
286
,
18
Pr
90
,
0
690
,
14
86
,
1
037
.
9
690
,
14
86
,
1
037
.
9
Pr










ind
ind
Y
Y
C. Análisis de Varianza
Interpretación: Se rechaza la hipótesis nula
planteada debido a que los salarios de los
empleados si explican significativamente los cambios
en los gastos de la empresa.
ANOVAa
Modelo
Suma de
cuadrados
gl
Media
cuadrática
F Sig.
1
Regresión 1372,198 1 1372,198 218,669 ,000b
Residual 50,202 8 6,275
Total 1422,400 9
a. Variable dependiente: Y
b. Variables predictoras: (Constante), X
D. Si X = 5,51
232
,
10
ˆ
)
51
,
5
(
699
,
0
381
,
6
ˆ



Y
Y
E. Prueba de Hipótesis acerca de
1
1. Hp: 1= 0
Ha: 1 0
2.  = 0,10
3.
error
regresión
c
CMe
CMe
F 
F1-/2 F/2
Supuestos
- La muestra seleccionada al azar
- La población se distribuye al azar
- Los valores de X fijas y de Y variables (o
aleatorias)
- Asunciones de la regresión lineal simple
4. Criterios de decisión
0,0041 5,32
Si se rechaza la hipótesis planteada
 
0041
,
0
F
32
,
5 c 

5. Cálculos
6. Conclusiones
La variable salario es apropiada para explicar
el comportamiento del “aumento de gastos»
en la empresa agroindustrial «Naranjillo».
Además, la ecuación de regresión puede ser
usada con fines de predicción hasta cierto
límite.
669
,
218
275
,
6
198
,
1372


c
F
F. ¿ Para X = 6, que promedio de Y vamos a
obtener?
   
  
 




 1
86
,
1
575
,
10
86
,
1
575
,
10
Pr ˆ
ˆ 0 Y
X
Y
Y
S
S
  719
,
13
987
,
52
8
.
45
6
10
1
505
,
2
2
ˆ 



Y
S
   
 
  90
,
0
092
,
36
942
,
14
Pr
90
,
0
719
,
13
86
,
1
575
,
10
719
,
13
86
,
1
575
,
10
Pr
0
0










X
Y
X
Y


Interpretación Este intervalo de confianza nos indica
que si los salarios fueron de $6, existe un 95% de
confianza que los valores encontrados del intervalo
encierre al verdadero precio promedio.
17.10 Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.982194642
Coeficiente de determinación R^2 0.964706315
R^2 ajustado 0.960294604
Error típico 2.505038376
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F Valor crítico de F
Regresión 1
1372.1982
62 1372.198262
218.669
4426 4.30399E-07
Residuos 8
50.201738
14 6.275217267
Total 9 1422.4
Coeficientes Error típico Estadístico t Probabilidad
Inferior
95%
Superior
95%
Inferior
95.0%
Superior
95.0%
Intercepción 6.3811 2.3056 2.7676 0.0244 1.0643 11.6979 1.0643 11.6979
Variable X 1 0.6991 0.0473 14.7875 0.0000 0.5901 0.8081 0.5901 0.8081
Ejemplo:
El gerente de ventas de una cadena de tiendas,
desea determinar la relación lineal simple entre
la el numero de pedidos y el número de ventas
durante un mes. Se obtuvo la siguiente
información:
Tienda 1 2 3 4 5
# de ventas 3 1 2 5 4
# de pedidos 9 5 7 14 10
El analista de la empresa «Coca-Cola», tiene el
trabajo de utilizar los datos proporcionados en la
tabla para saber si los cambios en los precios son
efectivos para promover las ventas. Estos datos se
tomaron en los mercados de prueba seleccionados
en toda la región para el precio de cada botella y
las respectivas ventas realizadas. Las ventas están
dadas en miles de soles.
Caso 1
Mercado 1 2 3 4 5
Precio en soles 2.1 3.52 2.1 2.55 3.5 2 3.5 2.99 2.99 2.25
Ventas de Coca-Cola en
miles de soles
35 25 21 19 23 31 24 31 20 19
Caso 2
Los contadores con frecuencia estiman los
gastos generales basándose en el nivel de
producción. En la tabla que sigue se da la
información recabada sobre gastos generales y
las unidades producidas en 10 plantas y se
desea estimar una ecuación de regresión para
estimar gastos generales futuros.
Determine la ecuación de regresión lineal y
explique el valor de los coeficientes de regresión.
Calcule e interprete el coeficiente de correlación y
el coeficiente de determinación.
Plantas 1 2 3 4 5 6 7 8 9 10
Gastos generales($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades producidas 15 45 55 75 30 40 45 20 18 10
Hoja de Comprobación
1. El análisis de regresión se usa para describir que tan bien
una ecuación de estimación describe la relación que está
estudiando
2. Dado que la ecuación para una línea es Y = 26 - 24X,
podemos decir que la relación Y con X es directa y lineal
3. Un valor r2 cercano a cero indica una fuerte correlación
entre X y Y
4. Los análisis de regresión y correlación se usan para
determinar relaciones de causa y efecto
5. El coeficiente de correlación de muestra, r, no es nada más que
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo
6. El error estándar de la estimación mide la variabilidad de los
valores observados alrededor de la ecuación de regresión.
7. La línea de regresión se deriva de una muestra y no de toda la
población
2
r
8. Podemos interpretar el coeficiente de determinación de muestra
como la cantidad de la variación en Y que es explicada por la línea
de regresión
9. Las líneas trazadas a cada lado de la línea de regresión a 1, 2 y 3
veces el valor del error estándar de la estimación se denominan líneas
de confianza
10.La ecuación de estimación es válida sólo sobre el mismo intervalo
que el dado por los datos originales de muestra sobre los cuales se
desarrolló
11.En al ecuación Y = a + bX para la variable dependiente Y y la
variable independiente X, la intersección Y es b.
12.Si una línea se ajusta a un conjunto de puntos mediante el método
de mínimos cuadrados, los errores individuales positivos y
negativos desde la línea suman cero.
13. Si Se = 0 para una ecuación de estimación, debe estimar
perfectamente la variable dependiente en los puntos observados
14.Supongamos que la pendiente de una ecuación de estimación es
positiva. Entonces el valor de r debe ser la raiz cuadrada positiva
de r2
15.Si r = 0.8, entonces la ecuación de regresión explica 80% de la
variación total en la variable dependiente
16.El coeficiente de correlación es el porcentaje de la variación total
de la variable dependiente que es explicada por la regresión
17.El error estándar de la estimación es medido perpendicularmente
desde la línea de regresión más que sobre el eje X
18.Al cuadrar los errores individuales, el método de mínimos
cuadrados magnidica todas las desviaciones desde la línea de
regresión estimada
19. Una ecuación de regresión no puede ser válida al ampliarse fuera del
intervalo de muestra de la variable independiente
20. Un valor r2 implica que no existe una relación de causa-efecto
significativa entre X y Y
21. Una valor pequeño de r2 implica que no existe una relación de causa-
efecto significativa entre X y Y

Más contenido relacionado

La actualidad más candente

Coeficientes de Correlación
Coeficientes de CorrelaciónCoeficientes de Correlación
Coeficientes de CorrelaciónGetsemany Cona
 
Método numérico regla de simpson
Método numérico   regla de simpsonMétodo numérico   regla de simpson
Método numérico regla de simpsonNayeli Castillo
 
5. TRIPLE PRODUCTO ESCALAR
5. TRIPLE PRODUCTO ESCALAR5. TRIPLE PRODUCTO ESCALAR
5. TRIPLE PRODUCTO ESCALARedvinogo
 
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptxS16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptxYeferQuion
 
Formas funcionales de los modelos de regresión
Formas funcionales de los modelos de regresiónFormas funcionales de los modelos de regresión
Formas funcionales de los modelos de regresiónchrisrgt1999
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidadfranbf66
 
Ejercicios econometria i
Ejercicios econometria iEjercicios econometria i
Ejercicios econometria iUNACH
 
Matematicas Longitud de arco
Matematicas Longitud de arcoMatematicas Longitud de arco
Matematicas Longitud de arcoNerii Martinez
 

La actualidad más candente (20)

Regresión correlacion 23-04
Regresión  correlacion 23-04Regresión  correlacion 23-04
Regresión correlacion 23-04
 
18. Regresión Lineal
18. Regresión Lineal18. Regresión Lineal
18. Regresión Lineal
 
La Distribucion Normal
La Distribucion NormalLa Distribucion Normal
La Distribucion Normal
 
Taller de algebra lineal final
Taller de algebra lineal finalTaller de algebra lineal final
Taller de algebra lineal final
 
Presentación regreción lineal
Presentación regreción linealPresentación regreción lineal
Presentación regreción lineal
 
Coeficientes de Correlación
Coeficientes de CorrelaciónCoeficientes de Correlación
Coeficientes de Correlación
 
Divergencia y rotacional
Divergencia y rotacionalDivergencia y rotacional
Divergencia y rotacional
 
Método numérico regla de simpson
Método numérico   regla de simpsonMétodo numérico   regla de simpson
Método numérico regla de simpson
 
5. TRIPLE PRODUCTO ESCALAR
5. TRIPLE PRODUCTO ESCALAR5. TRIPLE PRODUCTO ESCALAR
5. TRIPLE PRODUCTO ESCALAR
 
15 probabilidad
15 probabilidad15 probabilidad
15 probabilidad
 
Medidas de Dispersión
Medidas de DispersiónMedidas de Dispersión
Medidas de Dispersión
 
Los modelos econométricos y el realismo económico
Los modelos econométricos y el realismo económicoLos modelos econométricos y el realismo económico
Los modelos econométricos y el realismo económico
 
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptxS16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
 
Formas funcionales de los modelos de regresión
Formas funcionales de los modelos de regresiónFormas funcionales de los modelos de regresión
Formas funcionales de los modelos de regresión
 
5. regresión lineal multiple
5.  regresión lineal multiple5.  regresión lineal multiple
5. regresión lineal multiple
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidad
 
Distribución f
Distribución fDistribución f
Distribución f
 
Ejercicios econometria i
Ejercicios econometria iEjercicios econometria i
Ejercicios econometria i
 
Matematicas Longitud de arco
Matematicas Longitud de arcoMatematicas Longitud de arco
Matematicas Longitud de arco
 
Tablas de contingencias
Tablas de contingenciasTablas de contingencias
Tablas de contingencias
 

Similar a 17.Regresión y correlación simple.ppt

Proporcionalidad factor variable
Proporcionalidad factor variableProporcionalidad factor variable
Proporcionalidad factor variableemilop1
 
analisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesanalisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesAngelCastillo858247
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxEleazar86
 
Tema 9.pdf
Tema 9.pdfTema 9.pdf
Tema 9.pdfRenanPM1
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptxPEALOZACASTILLOCINTI
 
Coeficiente de determinación
Coeficiente de determinaciónCoeficiente de determinación
Coeficiente de determinaciónSteve Rodriguez
 
Funcion lineal ultima
Funcion lineal ultimaFuncion lineal ultima
Funcion lineal ultimaJuliana Isola
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basicavestaoriginal
 
Modelo de regresion lineal simple
Modelo de regresion lineal simpleModelo de regresion lineal simple
Modelo de regresion lineal simpleAnaMariaSfer
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacionABJ1990
 

Similar a 17.Regresión y correlación simple.ppt (20)

aylin 2.pdf
aylin 2.pdfaylin 2.pdf
aylin 2.pdf
 
Proporcionalidad factor variable
Proporcionalidad factor variableProporcionalidad factor variable
Proporcionalidad factor variable
 
analisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesanalisis de regresion y correlacion de variables
analisis de regresion y correlacion de variables
 
gráficas lineales
gráficas linealesgráficas lineales
gráficas lineales
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptx
 
2. reg.lin.multiple
2. reg.lin.multiple2. reg.lin.multiple
2. reg.lin.multiple
 
Regresión lineal
Regresión linealRegresión lineal
Regresión lineal
 
Tema 9.pdf
Tema 9.pdfTema 9.pdf
Tema 9.pdf
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
graficas
graficasgraficas
graficas
 
Coeficiente de determinación
Coeficiente de determinaciónCoeficiente de determinación
Coeficiente de determinación
 
Funcion lineal ultima
Funcion lineal ultimaFuncion lineal ultima
Funcion lineal ultima
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basica
 
Modelo de regresion lineal simple
Modelo de regresion lineal simpleModelo de regresion lineal simple
Modelo de regresion lineal simple
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 
Regrecion y correlacion
Regrecion y correlacionRegrecion y correlacion
Regrecion y correlacion
 

Último

Cadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesCadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesal21510263
 
PRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potenciaPRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potenciazacariasd49
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
produccion de cerdos. 2024 abril 20..pptx
produccion de cerdos. 2024 abril 20..pptxproduccion de cerdos. 2024 abril 20..pptx
produccion de cerdos. 2024 abril 20..pptxEtse9
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfAnonymous0pBRsQXfnx
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IILauraFernandaValdovi
 
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfPPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfZamiertCruzSuyo
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 
Fisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfFisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfJessLeonelVargasJimn
 
Fijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEFijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEANDECE
 
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptxAMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptxLuisvila35
 
SOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadSOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadANDECE
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)ssuser6958b11
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfAntonioGonzalezIzqui
 
CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdf
CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdfCENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdf
CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdfpaola110264
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdfFlorenciopeaortiz
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfReneBellido1
 
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfCONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfErikNivor
 

Último (20)

Cadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesCadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operaciones
 
PRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potenciaPRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potencia
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
produccion de cerdos. 2024 abril 20..pptx
produccion de cerdos. 2024 abril 20..pptxproduccion de cerdos. 2024 abril 20..pptx
produccion de cerdos. 2024 abril 20..pptx
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdf
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
Tiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo IITiempos Predeterminados MOST para Estudio del Trabajo II
Tiempos Predeterminados MOST para Estudio del Trabajo II
 
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfPPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 
Fisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfFisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdf
 
Fijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEFijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSE
 
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptxAMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
 
SOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadSOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidad
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NIST
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
 
CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdf
CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdfCENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdf
CENTROIDES Y MOMENTOS DE INERCIA DE AREAS PLANAS.pdf
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdf
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
 
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfCONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
 

17.Regresión y correlación simple.ppt

  • 2. OBJETIVOS 1. Utilizar diagramas de dispersión para visualizar la relación entre dos variables. 2. Identificar relaciones simples entre variables 3. Utilizar la ecuación de regresión para predecir valores futuros. 4. Aplicar el análisis de correlación para describir el grado hasta el cuál dos variables están relacionadas linealmente entre si. Al finalizar el Tema 17, el participante será capaz de:
  • 3. 6. Realizar el diagnostico de la regresión 7. Medición de la autocorrelación 8. Realizar la estimación por intervalos 9. Realizar el análisis de varianza de la regresión simple
  • 4. 1. El diagrama de dispersión 2. Las ecuaciones lineales simples 3. La regresión lineal simple 4. El error estándar de la estimación 5. El análisis de correlación 6. El diagnóstico de la regresión: al análisis residual 7. La estadística de Durbin-Watson 8. La estimación por intervalos 9. Análisis de varianza de la regresión simple. CONTENIDO
  • 5. 17.1 El diagrama de dispersión Es un gráfico que permite detectar la existencia de una relación entre dos variables. Visualmente se puede buscar patrones que indiquen el tipo de relación que se da entre las variables.
  • 6. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • (a) Lineal directa (b) Lineal inversa (c) Curvilínea directa (d) Curvilinea inversa (e) Lineal inversa con más dispersión (d) Ninguna relación Y X Y X Y X Y X Y X Y X Relaciones posibles entre X y Y vistos en diagramas de dispersión
  • 7. Aplicación El gerente de personal de la empresa agroindustrial «Naranjillo» estudia la relación entre los gastos y los salarios de su personal obrero. Una muestra aleatoria de 10 obreros reveló los siguientes datos en dólares por semana: Empleado 1 2 3 4 5 6 7 8 9 10 Gastos 25 20 32 37 40 40 45 30 55 60 Salarios 28 25 35 40 45 50 50 35 70 80 Presente la información en un diagrama de dispersión
  • 8. Procedimiento 1er Paso: Reúna pares de datos (X,Y), cuya relación desea estudiar y organice la información en una tabla. Empleado 1 2 3 4 5 6 7 8 9 10 Gastos (y) 25 20 32 37 40 40 45 30 55 60 Salarios (x) 28 25 35 40 45 50 50 35 70 80
  • 9. 2do Paso: Encuentre los valores mínimos y máximos para X e Y. Elija las escalas que se usarán en los ejes horizontal y vertical, de manera que ambas longitudes sean aproximadamente iguales, facilitando la lectura del diagrama. 15 25 35 45 55 65 20 30 40 50 60 70 80 90
  • 10. 3er Paso: Registre los datos en el gráfico. Cuando se obtengan los mismos valores en diferentes observaciones, muestre estos puntos haciendo círculos concéntricos (o), o registre el segundo punto muy cerca del primero. 15 20 25 30 35 40 45 50 55 60 65 20 30 40 50 60 70 80 90
  • 11. 4to Paso: Agregue toda la información que puede ser de utilidad para entender el diagrama, tal como: título del diagrama, período de tiempo, número de pares de datos, nombre de la variable y unidades de cada eje, entre otros. 15 20 25 30 35 40 45 50 55 60 65 20 30 40 50 60 70 80 90 Gastos ($) Salarios ($) Relación entre Gastos y Salarios
  • 12. 17.2 Las ecuaciones lineales simples Si dos variables, como X e Y, están relacionadas, se puede expresar como una relación, por ejemplo: Y = 3 + 1,5X Al conocer la ecuación se puede: a) Calcular el valor de Y para cualquier valor dado de X b) Conocer el cambio en Y, cuando X varía en 1
  • 13. Por ejemplo: Y = 3 + 1.5X Valor dado de X Valor calculado de Y Cambio de Y 1 4.5 - 2 6 1.5 3 7.5 1.5 4 9 1.5 5 10.5 1.5
  • 14. El aumento en Y, cuando X varía en una unidad, está dado por el coeficiente de X. Ejemplo: En Y = 10 + 2X cuando X aumenta en 1, Y aumenta en 2 En Y = 5 - 0,8X cuando X aumenta en 1, Y disminuye en 0,8
  • 15. A) Tipos de Variables En una ecuación como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente. Y = b0 + b1 X Variable Dependiente Variable Independiente
  • 16. B) Tipo de Relaciones Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables están directamente relacionadas. Se observa el signo + X o o o o o o o o o Y Ejemplo: Y = 30 + 5X
  • 17. Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables están inversamente relacionadas. Se observa en la ecuación el signo -. o o o o o o o o X Y Ejemplo: Y = 20 - 3X
  • 18. La ecuación es de primer grado si la variable independiente está elevada al exponente 1. Su gráfica genera una línea recta (por lo que también se le llama ecuación lineal) Ejemplo: Y = 30 + 4 X C) Grado de la ecuación:
  • 19. Si la variable independiente está elevada a un exponente diferente a 1, la ecuación toma el valor del exponente. Su gráfica no es una línea recta. Ejemplo: Y = 10 + 3 X + 4 X2 : ecuación de segundo grado Y = 3 + 7X + 5 X3 : ecuación de tercer grado
  • 20. D) Ecuaciones simples y múltiples:  Simples: Muestra la relación entre dos variables Y = 30 + 2X Y = 10 - 3X2  Múltiple: Muestra la relación entre tres o más variables Y = 3X + 8 Z Y = 5 + 2X2 + 4W
  • 21. D) Gráfica de una ecuación de primer grado: Ejemplo: Y = 3 + 1,5X Los cinco pares de valores se diagraman de la forma siguiente. 12 11 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 Y . X . . . . (1,4.5) (4,9) (3,7.5) (2,6) (5,10.5) X 1 2 3 4 5 Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
  • 22. E) Forma general: La ecuación simple de primer grado tiene la siguiente forma general Y = b0 + b1 X Donde: b1: pendiente, o sea, el cambio en Y cuando X = 1. b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En la gráfica es la intersección con el eje Y Ejemplo: Y = 3 + 3.5X . b0 = 3 Y X
  • 23. 17.3 Regresión lineal simple Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas. Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental.
  • 24. A) Suposiciones de regresión y correlación a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X. b) Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X. c) Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X. d) Linealidad: la relación entre las variables es lineal.
  • 25. La ecuación general = b0 + b1X se llama ecuación de regresión y permite estimar o predecir los valores de Y. Es el procedimiento matemático utilizado para determinar los valores numéricos de los coeficientes de regresión: b0 y b1  Y B) El método de Mínimos Cuadrados
  • 26. Yi - Y = error    Min Y - Y i  2  El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima. X Y Error= 2 2 4 6 8 10 12 14 10 8 6 4 2 • • Error= -6 • Línea de estimación . . Ŷ
  • 27. El método utiliza un sistema de ecuación llamado ecuaciones normales, que tienen la siguiente forma: Para aplicar las fórmulas, tenemos que confeccionar un cuadro como el siguiente:         2 1 0 1 0 X b X b XY X b + nb Y  Y  X XY 2 X  n Salarios Gastos Xi2 Xi*Yi 1 28 25 784 700 2 25 20 625 500 3 35 32 1225 1120 4 40 37 1600 1480 5 45 40 2025 1800 6 50 40 2500 2000 7 50 45 2500 2250 8 35 30 1225 1050 9 70 55 4900 3850 10 80 60 6400 4800 458 384 23784 19550
  • 28. Sustituyendo los valores , n = 10, y ,en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones. 384 = 10b0 + 458b1 19550 = 458b0 + 23784b1 Resolviendo el sistema tenemos: b0 = 6.381 b1= 0.699 ,por lo tanto, | 384 Y  458 X   19550 XY  23784 2 X   X 699 . 0 6.381 Ŷ  
  • 29. c) Interpretación b0 = 6.381 : Es probable que un empleado de la empresa reciba un salario de $6.381. b1= 0.7 : Este valor indica que para un aumento de un $ en los salarios semanales corresponde un gasto promedio de 0.7 $ en los gastos.
  • 30. D) Valor observado y valor estimado de Y El valor observado (Yi) se refiere al nivel efectivo u observado de la variable Y (peso del niño), mientras que el valor estimado ( ), es el nivel estimado de la variable (peso esperado), obtenido utilizando la ecuación de regresión. i Ŷ X Y Valor estimado Valor observado  Y i Y . . xo x y Y 28 25 51.607 25 20 46.879 35 32 62.639 40 37 70.519 45 40 78.399 50 40 86.279 50 45 86.279 35 30 62.639 70 55 117.799 80 60 133.559
  • 31. 17.4 Error estándar de estimación (Syx) Mide la disparidad ¨promedio¨ entre los valores observados y estimados de la variable Y. Se calcula por la siguiente relación 2 2 n Ŷ - Y ) ( = yx S   14
  • 32. x y Ŷ (Yi – Ŷi ) (Yi – Ŷi )2 28 25 25.953 -0.953 0.908209 25 20 23.856 -3.856 14.86874 35 32 30.846 1.154 1.331716 40 37 34.341 2.659 7.070281 45 40 37.836 2.164 4.682896 50 40 41.331 -1.331 1.771561 50 45 41.331 3.669 13.46156 35 30 30.846 -0.846 0.715716 70 55 55.311 -0.311 0.096721 80 60 62.301 -2.301 5.294601 458 384 383.952 0.048 50.202
  • 33. El Syx es un indicador del grado de precisión con que la ecuación de regresión describe la relación entre las dos variables: cuanto más pequeño, los valores observado y estimado de Y son razonablemente cercanos y, la ecuación de regresión es una buena descripción esa la relación. Reemplazando en la formula 875 . 2402 8 19223 2 0 1 19223 = yx S    019 , 49 = Syx
  • 34. 17.5 El análisis de correlación El análisis de correlación es la técnica estadística que permite describir el grado hasta el cual una variable está linealmente relacionada con otra. Hay dos medidas que se usan para describir la correlación  El coeficiente de determinación  El coeficiente de correlación
  • 35. A) El coeficiente de determinación Al construir un modelo de regresión, se define que “el valor Y depende de X”. Y = f (X) Si la relación es lineal: Y = b0 + b1X Pero en la práctica Y depende también de “otros factores” diferentes a X: Y = b0 + b1X +  Parte de los cambios en Y pueden explicarse por X, a otro se llama variación explicada. Pero hay cambios en Y que no pueden explicarse por X, a lo que se llama variación no explicada.
  • 36. VARIACION VARIACION VARIACION TOTAL = EXPLICADA + NO EXPLICADA Variación Total Variación no explicada Variación Explicada    Y - Y   Y - Y i   Y - Y i  Y X i Y y
  • 37. El coeficiente de determinación se puede calcular del modo siguiente: Se elevan al cuadrado, para evitar que obteniéndose un número positivo.  variacion explicada variacion total r2       2 2 Y - i Y Y - Ŷ = r2   Y - Y   0
  • 38. 1er Paso: Cálculo de la venta media por vendedor son ( ) Y = Y n i n i  1 Y = Y Y Y Y Y 5 1 2 3 4 5     Y Y = 5 9 5 7 14 10 45 5      Y = unidades 9
  • 39. 2do Paso: Se calcula la variación total, es decir, la sumatoria de las desviaciones de las ventas observadas (Yi) con respecto a la media:    2 Y - i Y Y Y  2 Y Y       Y Y y ȳ (y - ȳ) (y- ȳ)2 25 38.4 -13.4 179.56 20 38.4 -18.4 338.56 32 38.4 -6.4 40.96 37 38.4 -1.4 1.96 40 38.4 1.6 2.56 40 38.4 1.6 2.56 45 38.4 6.6 43.56 30 38.4 -8.4 70.56 55 38.4 16.6 275.56 60 38.4 21.6 466.56 384 384 0 1422.4
  • 40. 3er Paso: Se calcula la variación explicada, es decir, la sumatoria de las desviaciones cuadráticas entre las ventas esperadas y la venta media de la muestra:    Y- Y 2      2 Y Ŷ Ŷ Y     Y Ŷ Ŷi ȳ (Ŷi - ȳi) (Ŷi - ȳi)2 25.95 38.4 -12.45 154.927809 23.86 38.4 -14.54 211.527936 30.85 38.4 -7.55 57.062916 34.34 38.4 -4.06 16.475481 37.84 38.4 -0.56 0.318096 41.33 38.4 2.93 8.590761 41.33 38.4 2.93 8.590761 30.85 38.4 -7.55 57.062916 55.31 38.4 16.91 285.981921 62.30 38.4 23.90 571.257801 383.95 384 -0.05 1371.7964
  • 41. 4to Paso: Se compara la variación explicada y la variación total.  variacion explicada variacion total r2       2 2 Y - Y Y - Ŷ = i r2 9644 , 0 4 , 1422 796 , 1371 =  r2 5to Paso: Interpretación: 96,44% de las variaciones en el incremento de salarios, pueden explicarse por los gastos de los empleados.
  • 42. Valores posibles de r2 Si r2 = 1 : Correlación perfecta, es decir, toda variación de Y puede explicarse por X Si r2 = 0 : no existe correlación entre X e Y. La variación explicada es 0. La variable X no explica nada de los cambios en Y Resumen 1 r 0 2   Cuanto más cerca a uno, las variables tendrán mayor correlación.
  • 43. B) El coeficiente de correlación Es la raíz cuadrada del coeficiente de determinación. Sus valores oscilan entre -1 y 1 Cuando r es positivo, indica que X e Y están directamente relacionados. r = r2
  • 44. Cuando r es negativo, indica que X e Y están inversamente relacionados. El coeficiente r tiene el mismo signo que el coeficiente b1 en la ecuación de regresión
  • 45. Interpretación del coeficiente de correlación de Pearson -1 0 0,5 0,9 1 -0,9 -0,5 Perfecta Negativa Perfecta Positiva Fuerte Negativa Débil Negativa Débil Positiva Moderada Positiva Fuerte Positiva Moderada Negativa No existe correlación
  • 46. r2= 0,9644 Ejemplo: 0,9644 = r r = 0,982 el signo es positivo ya que X e Y están relacionados directamente como lo indica el signo del coeficiente b1 en la ecuación de regresión X 699 , 0 6,381 Ŷ  
  • 47. Interpretación: El incremento de gastos(Y) y los salarios (X) por empleados se encuentran directamente asociados.
  • 48. 17.6 Diagnóstico de la regresión: análisis residual El análisis residual permite evaluar lo adecuado del modelo de regresión que ha sido ajustado a los datos. También sirve para detectar si los supuestos se cumplen. A. Evaluación de lo adecuado de modelo ajustado Los valores del error residual o estimado (i) se define como la diferencia entre los valores observados (Yi) y los estimados ( ) de la variable dependiente para los valores dados de Xi i Ŷ i Ŷ i = Yi -
  • 49. Podemos evaluar lo adecuado del modelo de regresión ajustado mediante el gráfico de los residuos (eje vertical) con respecto a los correspondientes valores de Xi de la variable independiente (eje horizontal). Ejemplo: El gráfico muestra un adecuado ajuste entre el incremento de gastos y los salarios. No se observa una tendencia. 0 0.2 0.4 0.6 0.8 1 1.2 0 5 10 15 20 25 30 Residuos Variable X 1 Variable X 1 Gráfico de los residuales
  • 50. El análisis del gráfico nos brinda el criterio para adoptar el modelo lineal o dejarlo de lado. Si fuese así, podríamos probar con modelos no lineales como el cuadrático, logaritmo o exponencial. El análisis de residuos se complementa con el cálculo de los residuos estandarizados (SRi), que resultan de la división del residuo dividido por su error estándar. i YX i i h 1 S SR    En donde         n 1 i 2 2 i 2 i i X n X X X n 1 h
  • 51. Los valores estandarizados nos permiten tomar en cuenta la magnitud de los residuos en unidades que reflejen la variación estandarizada alrededor de la línea de regresión. Análisis de los residuales Observación Pronóstico para Y Residuos Residuos estándares 1 25.95597663 -0.955976635 -0.404770782 2 23.85866933 -3.858669326 -1.633802064 3 30.84969369 1.150306311 0.487052055 4 34.34520587 2.65479413 1.124068367 5 37.84071805 2.159281949 0.914263184 6 41.33623023 -1.336230232 -0.565774242 7 41.33623023 3.663769768 1.551279496
  • 52. En el gráfico siguiente, los residuos estandarizados fueron graficados en función de la variable independiente (cantidad del complemento nutricional). Se puede observar de que existe una dispersión amplia en la gráfica de residuos, no existe un patrón evidente o una relación entre los residuos estandarizados y Xi . Los residuos parecen estar equitativamente distribuidos por arriba y por debajo de 0, para diferentes valores de X. Podemos concluir que el modelo ajustado parece ser adecuado.
  • 53. -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 0 2 4 6 8 10 12 Residuos estándares
  • 54. B. Evaluación de las suposiciones a. Homoscedasticidad b. Normalidad c. Independencia: Los datos recolectados
  • 55. 17.7 Medición de la autocorrelación: Durbin-Watson Una de las suposiciones del modelo de regresión básico es la independencia de los residuos. Esta suposición es violada con frecuencia cuando los datos son recopilados en periodos secuenciales, debido a que un residuo en cualquier punto del tiempo puede tender a ser parecido a los residuos que se encuentran en puntos de tiempo adyacentes. El estadístico D de Durbin-Watson mide la correlación de cada residuo y el residuo del periodo inmediato anterior al periodo de interés.
  • 56. El estadístico D (Durbin-Watson) En la que representa el residuo en el periodo i.          n 1 i 2 i n 2 i 2 1 i i D    i 
  • 57. Interpretación de D: Cuando residuos sucesivos están correlacionados positivamente, el valor de D se aproximará a cero. Si los resultados no están correlacionados, el valor D estará cercano a 2. Si se presentase una autocorrelación negativa, lo cual rara vez sucede, de valor D tomará un valor mayor a 2 e, incluso podría aproximarse a su valor máximo que es 4.
  • 58. Los resultados de SPSS nos proporciona el valor de D de Durbin-Watson Según este resultado permite afirmar que los residuos no están correlacionados. Resumen del modelob Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin- Watson 1 ,982a ,965 ,960 2,505 1,949 a. Variables predictoras: (Constante), X b. Variable dependiente: Y
  • 59. 17.8 Estimación por intervalos A.Intervalo de confianza para 1 b1 N Lo que se va hacer es estimar se estima mediante la siguiente formula:         x 2 1 SC ,    t SC S b S b x y x 1 1 b 1 1 1       x 2 SC   desconocido conocido 2     2 n SC b n Y Y S x 2 1 n 1 i 2 2 2 y x               
  • 61. B. Intervalo de confianza para 0                    x 2 2 0 0 SC x n 1 , b    2 n x 2 yx 0 0 b 0 0 t SC x n 1 S b S b 0           2 n SC b n Y Y S x 2 2 2 2 y x 0               donde:
  • 62. -t0 t0                    1 t S b t Pr ) t t t Pr( 0 b 0 0 0 0 0 0           1 S t b S t b Pr 0 0 b 0 0 0 b 0 0 t0 con (n-2) grados de libertad y 
  • 63. Y/X C. Intervalo de confianza para 0                      x 2 0 2 X / y SC X X n 1 , N Ŷ 0    Para un nivel dado de confianza, una variación aumentada alrededor de la línea de regresión, medida a través del error estándar de la estimación, tiene como resultado un intervalo más amplio.
  • 64.           1 S t ŷ S t ŷ Pr ŷ 0 X / y ŷ 0 0              x 2 0 2 y x ŷ SC x X n 1 S S donde: Sin embargo, como se esperaría, un tamaño de muestra aumentado reduce el ancho del intervalo.
  • 65. D. Intervalo de confianza para un valor individual                       x 2 0 2 X / y SC X X n 1 1 , N Ŷ 0    Además de obtener una estimación de intervalo de confianza para el valor promedio, a menudo es importante tener la capacidad de predecir la respuesta que se obtendría para un valor individual.
  • 66.           1 S t ŷ S t ŷ Pr ŷ 0 X / Y ŷ 0 0               x 2 0 2 y x ŷ SC x X n 1 1 S S donde: El intervalo de predicción está estimando un valor individual, no un parámetro.
  • 67. SCtotal = SCerror + SCregresión (SCresidual) 17.9 Análisis de varianza de la regresión simple El análisis de varianza es una técnica que permite localizar las fuentes de variabilidad que ayuden a explicar el comportamiento de la variable dependiente.
  • 68. El cuadro de Análisis de Varianza Fuentes de variabilidad Suma de Cuadrados GL Cuadrado Medio F calculado E(CMe) Debido a la Regresión Error Experimental Total X 2 SC b   x 2 1 2 2 SC b n Y Y     total SC 1 2 n  1 n  x 2 1SC b 2 yx S 2 yx x 2 1 S SC b x 2 1 2 SC    2  
  • 69. A.La ecuación de regresión e interprete los coeficientes de regresión. B.El intervalo de confianza para 1y para un valor individual si X=3,8. C.El cuadro de ANOVA para la regresión lineal D.El valor de cuando X = 5,1 E.La prueba de hipótesis respectiva a partir del ANOVA e interprete el resultado. F.Estime el aumento de peso que puede darse se consumen 6 Kg. del complemento nutricional mediante un intervalo e interprete el resultado. ŷ Asumiendo que existe una regresión lineal, determine:
  • 70. Solución Primero se realizan los cálculos necesarios: A. Cálculo de los coeficientes de regresión: 19550 16168 23784 384 458 10 2 2            i i i i i i Y X Y X Y X n        381 . 6 ) 8 . 45 )( 699 . 0 ( 4 . 38 699 . 0 10 458 23784 10 384 458 19550 ˆ 0 2 2 2 1 1 0 1 0                    b n X X n Y X Y X b X b Y b X b b Y i i i i i i
  • 71. La ecuación de regresión será: Interpretación: b0: Es probable que un empleado de la empresa reciba un salario de $6.381. b1: Este valor indica que para un aumento de un $ en los salarios semanales corresponde un gasto promedio de $0.699 en los gastos. X Y 699 , 0 381 , 6 ˆ  
  • 72. B. Intervalo de confianza para 1       10 , 0 1 699 . 0 699 , 0 Pr 8 10 , 0 1 8 10 , 0                 x yx x yx SC S t SC S t  90 , 0 987 , 52 86 , 1 57 , 1 987 , 52 86 , 1 699 . 0 Pr 1            yx yx S S        212 , 13 56 . 174 8 890 . 25 4 . 1422 8 987 . 52 699 , 0 10 384 16168 2 2 2        yx yx S S
  • 73.   90 , 0 9483 . 0 2352 , 0 Pr 90 , 0 987 . 52 212 , 13 86 , 1 699 , 0 987 . 52 212 , 13 86 , 1 699 , 0 Pr 1 1                             Interpretación: Hay 0,90 de confianza que el intervalo que se ha construido, pertenezca al grupo de intervalos que contienen al verdadero parámetro 1. Intervalo de confianza para un valor individual Si X = 3,8 entonces 037 . 9 ˆ  Y          1 S t Ŷ Y S t Ŷ Pr Ŷ 0 ind Ŷ 0
  • 74.          1 ) 86 , 1 ( 037 , 19 ) 86 , 1 ( 037 , 9 Pr ˆ ˆ Y ind Y S Y S   690 . 14 987 , 52 8 . 45 80 , 3 10 1 1 505 , 2 2 ˆ      Y S Interpretación Si se tiene muchos salarios iguales a $3.8 , existe un 95% de confianza de que el verdadero valor de los gastos se encuentre entre estos intervalos.         90 , 0 360 , 36 286 , 18 Pr 90 , 0 690 , 14 86 , 1 037 . 9 690 , 14 86 , 1 037 . 9 Pr           ind ind Y Y
  • 75. C. Análisis de Varianza Interpretación: Se rechaza la hipótesis nula planteada debido a que los salarios de los empleados si explican significativamente los cambios en los gastos de la empresa. ANOVAa Modelo Suma de cuadrados gl Media cuadrática F Sig. 1 Regresión 1372,198 1 1372,198 218,669 ,000b Residual 50,202 8 6,275 Total 1422,400 9 a. Variable dependiente: Y b. Variables predictoras: (Constante), X
  • 76. D. Si X = 5,51 232 , 10 ˆ ) 51 , 5 ( 699 , 0 381 , 6 ˆ    Y Y E. Prueba de Hipótesis acerca de 1 1. Hp: 1= 0 Ha: 1 0 2.  = 0,10 3. error regresión c CMe CMe F 
  • 77. F1-/2 F/2 Supuestos - La muestra seleccionada al azar - La población se distribuye al azar - Los valores de X fijas y de Y variables (o aleatorias) - Asunciones de la regresión lineal simple 4. Criterios de decisión 0,0041 5,32 Si se rechaza la hipótesis planteada   0041 , 0 F 32 , 5 c  
  • 78. 5. Cálculos 6. Conclusiones La variable salario es apropiada para explicar el comportamiento del “aumento de gastos» en la empresa agroindustrial «Naranjillo». Además, la ecuación de regresión puede ser usada con fines de predicción hasta cierto límite. 669 , 218 275 , 6 198 , 1372   c F
  • 79. F. ¿ Para X = 6, que promedio de Y vamos a obtener?               1 86 , 1 575 , 10 86 , 1 575 , 10 Pr ˆ ˆ 0 Y X Y Y S S   719 , 13 987 , 52 8 . 45 6 10 1 505 , 2 2 ˆ     Y S         90 , 0 092 , 36 942 , 14 Pr 90 , 0 719 , 13 86 , 1 575 , 10 719 , 13 86 , 1 575 , 10 Pr 0 0           X Y X Y   Interpretación Este intervalo de confianza nos indica que si los salarios fueron de $6, existe un 95% de confianza que los valores encontrados del intervalo encierre al verdadero precio promedio.
  • 80. 17.10 Resultados con Excel Estadísticas de la regresión Coeficiente de correlación múltiple 0.982194642 Coeficiente de determinación R^2 0.964706315 R^2 ajustado 0.960294604 Error típico 2.505038376 Observaciones 10 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F Regresión 1 1372.1982 62 1372.198262 218.669 4426 4.30399E-07 Residuos 8 50.201738 14 6.275217267 Total 9 1422.4 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0% Intercepción 6.3811 2.3056 2.7676 0.0244 1.0643 11.6979 1.0643 11.6979 Variable X 1 0.6991 0.0473 14.7875 0.0000 0.5901 0.8081 0.5901 0.8081
  • 81. Ejemplo: El gerente de ventas de una cadena de tiendas, desea determinar la relación lineal simple entre la el numero de pedidos y el número de ventas durante un mes. Se obtuvo la siguiente información: Tienda 1 2 3 4 5 # de ventas 3 1 2 5 4 # de pedidos 9 5 7 14 10
  • 82. El analista de la empresa «Coca-Cola», tiene el trabajo de utilizar los datos proporcionados en la tabla para saber si los cambios en los precios son efectivos para promover las ventas. Estos datos se tomaron en los mercados de prueba seleccionados en toda la región para el precio de cada botella y las respectivas ventas realizadas. Las ventas están dadas en miles de soles. Caso 1
  • 83. Mercado 1 2 3 4 5 Precio en soles 2.1 3.52 2.1 2.55 3.5 2 3.5 2.99 2.99 2.25 Ventas de Coca-Cola en miles de soles 35 25 21 19 23 31 24 31 20 19
  • 84. Caso 2 Los contadores con frecuencia estiman los gastos generales basándose en el nivel de producción. En la tabla que sigue se da la información recabada sobre gastos generales y las unidades producidas en 10 plantas y se desea estimar una ecuación de regresión para estimar gastos generales futuros.
  • 85. Determine la ecuación de regresión lineal y explique el valor de los coeficientes de regresión. Calcule e interprete el coeficiente de correlación y el coeficiente de determinación. Plantas 1 2 3 4 5 6 7 8 9 10 Gastos generales($) 300 1000 1100 1200 600 800 900 500 400 200 Unidades producidas 15 45 55 75 30 40 45 20 18 10
  • 86. Hoja de Comprobación 1. El análisis de regresión se usa para describir que tan bien una ecuación de estimación describe la relación que está estudiando 2. Dado que la ecuación para una línea es Y = 26 - 24X, podemos decir que la relación Y con X es directa y lineal 3. Un valor r2 cercano a cero indica una fuerte correlación entre X y Y
  • 87. 4. Los análisis de regresión y correlación se usan para determinar relaciones de causa y efecto 5. El coeficiente de correlación de muestra, r, no es nada más que y no podemos interpretar su significado directamente como un porcentaje del mismo tipo 6. El error estándar de la estimación mide la variabilidad de los valores observados alrededor de la ecuación de regresión. 7. La línea de regresión se deriva de una muestra y no de toda la población 2 r
  • 88. 8. Podemos interpretar el coeficiente de determinación de muestra como la cantidad de la variación en Y que es explicada por la línea de regresión 9. Las líneas trazadas a cada lado de la línea de regresión a 1, 2 y 3 veces el valor del error estándar de la estimación se denominan líneas de confianza 10.La ecuación de estimación es válida sólo sobre el mismo intervalo que el dado por los datos originales de muestra sobre los cuales se desarrolló 11.En al ecuación Y = a + bX para la variable dependiente Y y la variable independiente X, la intersección Y es b.
  • 89. 12.Si una línea se ajusta a un conjunto de puntos mediante el método de mínimos cuadrados, los errores individuales positivos y negativos desde la línea suman cero. 13. Si Se = 0 para una ecuación de estimación, debe estimar perfectamente la variable dependiente en los puntos observados 14.Supongamos que la pendiente de una ecuación de estimación es positiva. Entonces el valor de r debe ser la raiz cuadrada positiva de r2
  • 90. 15.Si r = 0.8, entonces la ecuación de regresión explica 80% de la variación total en la variable dependiente 16.El coeficiente de correlación es el porcentaje de la variación total de la variable dependiente que es explicada por la regresión 17.El error estándar de la estimación es medido perpendicularmente desde la línea de regresión más que sobre el eje X 18.Al cuadrar los errores individuales, el método de mínimos cuadrados magnidica todas las desviaciones desde la línea de regresión estimada
  • 91. 19. Una ecuación de regresión no puede ser válida al ampliarse fuera del intervalo de muestra de la variable independiente 20. Un valor r2 implica que no existe una relación de causa-efecto significativa entre X y Y 21. Una valor pequeño de r2 implica que no existe una relación de causa- efecto significativa entre X y Y