9- REGRESIÓN (1).pdf

Regresión
Clase #10
Msc. Adela Aurora Pérez C.

Fuente: Machine Learning & AI Foundations

El gerente de marketing de un supermercado desea predecir
el tiempo que demoran las cajeras en atender a un cliente.
El tiempo de atención puede ser
explicado por el número de productos
comprados.
¿Qué variable puede explicar el
tiempo de atención?
• La edad de la cajera
• Número de productos comprados
• Años de experiencia
Se definen las variables:
Y = Tiempo de atención
X = Número de productos comprados
REGRESIÓN LINEAL

El análisis de regresión se usa comúnmente para
modelar la relación entre una sola variable
dependiente Y (dependiente de los predictores) y uno
o más predictores.
Cuando tenemos un predictor, llamamos a esto
“regresión lineal "simple":
La regresión lineal es una herramienta de análisis
predictivo.
http://www.unc.edu/~nielsen/soci709/m1/m1005.gif
Introducción
Cuando se aplica a un conjunto de datos dado, la
herramienta nos dice dos cosas:
❖ ¿Qué tan bien explican los predictores la variable
dependiente?
❖ ¿Con qué magnitud afecta cada una de las
variables predictoras a la variable dependiente?

En el modelo:
Yi=β0+β1Xi+ϵi,
La variable Y designa a la variable dependiente o endógena, mientras que X designa a la
variable explicativa exógena o independiente. La variable ϵ se ha introducido para
recoger todos aquellos factores distintos de X que afectan a Y, se denomina error o
perturbación aleatoria.
Regresión Lineal Simple
β0 y β1 son los parámetros del modelo que son desconocidos, β1 mide el
incremento que se producirá en la variable Y (en las unidades en que esté
medida Y) al incrementarse en una unidad a variable X (en las unidades en que
esté medida X). β0 es el valor que predice el modelo Y cuando X toma el valor
de cero.

Regresión Lineal Simple
Modelo estadístico
En el modelo de regresión simple se trata de analizar el comportamiento de una variable a la que
denominaremos dependiente como función lineal de una variable explicativa. Se puede escribir de
dos formas como se muestra a continuación.
1. En esta forma la variable respuesta y se expresa como una suma de β0+β1xi y un error
aleatorio ϵi el cual tiene distribución N(0, 𝜎2). El modelo en esta forma se puede expresar como sigue.
Yi=β0+β1Xi+ϵi,
ϵi∼N(0, 𝜎2
)
2. En esta forma la variable respuesta y tiene distribución normal con media que cambia en función
de la variable x pero con varianza constante. El modelo en esta forma se puede expresar como sigue.
Yi∼N(μi, 𝜎2
),
μi=β0+β1Xi,
𝜎2
=constante

La ecuación de regresión lineal más simple es esta:
Regresión
La gráfica de la ecuación de regresión se denomina recta de regresión
(o recta del mejor ajuste o recta de mínimos cuadrados)

❖ La muestra de datos apareados (x,y) es una muestra aleatoria de datos
cuantitativos.
❖ El examen visual del diagrama de dispersión indica que los puntos se
aproximan al patrón de una línea recta.
❖ Se debe eliminar cualquier valor extremo, si se sabe que es un error. Es
importante tomar en cuenta los efectos de cualquier valor extremo que no
sea un error conocido
Requisitos

Y = β0 + β1X 𝑌 = 𝑏0 + 𝑏1x
β0
Β1
𝑏0
𝒃𝟏
Intercepto y de la ecuación de regresión
Pendiente de la ecuación de regresión
Ecuación de la recta de regresión
Al predecir un valor de y con base en algún valor dado de x:
❖ Si el sistema NO tiene una correlación lineal, el mejor valor predicho de y,
es ത
𝑦
❖ Si existe una correlación lineal, el mejor valor predicho de y se calcula
sustituyendo el valor de x en la ecuación de regresión
Notación de la ecuación de regresión

Intervalo de predicción para un “y” individual
𝑥0 representa el valor dado de x, 𝑡𝛼/2 tiene n-2 grados de libertad
El error estándar del estimado, denotado por 𝑆𝑒, es una medida de las
diferencias (o distancias) entre los valores muestrales observados de y y los
valores predichos ො
𝑦 que se obtienen por medio de la ecuación de regresión.

Diagrama de dispersión de los datos de los datos de
ingreso y ahorro (Diaz 11va edic,)
P1(5,0) y P2 (17,1.3)

Intervalo de confianza del valor medio de Y
Con tα/2 con n-2 grados de libertad
𝒀′ ± E
Y’: predicción del valor y para un valor dado de x
X: Valor dado de x
ത
𝑋 : media de los valores de x
n: número de observaciones
𝑆𝑒: error estándar de la estimación
t: valor t para ∝/2 y r= n-2

Prueba de Hipótesis para la regresión
1
:
Ho k
 =
1 1
1 1
1 1
:
:
:
H k
H k
H k






Valores críticos: Obtenidos de las tablas con n-2 grados de libertad
Estadístico de prueba: 1
2
2
2
e
b k
t
S
x nx
−
=
−


La calificación de cada vendedor
Calificación Calificación Ventas
semanales
José Luis 4 5 000
Rufino 7 12 000
Frida 3 4 000
Diego 6 8 000
María 10 11 000
Vendedor
Calificación
X
Ventas
semanales
Y
X^2 XY Y^2
𝒃𝒐=
σ 𝑌
𝑛
-
𝑏 σ 𝑋
𝑛
=
𝒃𝟏=
𝑛 σ(𝑋𝑌)−(σ 𝑋) σ 𝑌
𝑛(σ 𝑋2) −(σ 𝑋)
2 =

Vendedor
Calificación
X
Ventas
semanales
Y
X^2 XY Y^2
José Luis 4 5 16
20 25
Rufino 7 12 49
84 144
Frida 3 4 9 12 16
Diego 6 8 36
48 64
María 10 11 100 110 121
total 30 40 210 274 370
Datos necesarios para calcular los coeficientes de la
ecuación de regresión

𝒃𝟏=
𝑛(σ 𝑋2) −(σ 𝑋)
2 =
5 274 −(30)(40)
5 210 −302 =1.133
𝒃𝒐=
σ 𝑌
𝑛
-
𝑏 σ 𝑋
𝑛
=
40
5
- 1.133
30
5
=1.202
𝒀 = 𝒃𝟎 + 𝒃𝟏x Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑x
Ecuación de regresión:
Y’: predicción del valor y para un valor dado de x

𝑌 = 𝑏0 + 𝑏1x
Para predecir las ventas semanales de un vendedor
que tiene 6 de calificación:
Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑 𝟔 = 𝟖
Es decir, 𝟖 𝟎𝟎𝟎 𝒔𝒐𝒍𝒆𝒔

Para establecer los puntos de la línea de regresión, se sustituyen los
valores de la variable independiente en la ecuación de regresión
Calificación Solución Ventas semanales
4 Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑 𝟒 = 5 730
7 Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑 𝟕 = 9 133
3 Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑 𝟑 = 4 600
6 Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑 𝟔 = 8 000
10 1Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑 𝟏𝟎 = 12 532

(4; 5 730)
Si todos los puntos
estuvieran sobre la
línea no habría error,
al predecir la variable
dependiente Y,
basándose en X
y = 1.1333x + 1.2
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12
ventas
semanales
calificaciones
Título del gráfico

Error estándar de estimación
𝑆𝑒 =
370 − 1.202 40 − 1.133(274)
5 − 2
total 30 40 210 274 370
Y’= 𝟏. 𝟐𝟎𝟐 + 𝟏. 𝟏𝟑𝟑x
𝑆𝑒=1.955
𝑺𝒆=1 955

En el intervalo de confianza para un valor medio de Y:
interesa predecir las ventas promedio de todos los vendedores que
obtienen una determinada calificación
En el intervalo de predicción para un valor individual de Y:
interesa estimar un intervalo de ventas de un vendedor particular
que obtuvo cierta calificación

Intervalo de confianza para el valor medio Y
del 95%, para un valor dado de X=6

Intervalo de confianza para un valor individual Y del 95%,
para un valor dado de X=6
Para un grupo de aspirantes que obtuvieron calificaciones
exactamente de 6, hay una probabilidad del 95% de que sus
ventas semanales promedio se localizará en un intervalo
entre S/.5 217 y S/.10 782

Intervalo de predicción para un “y” individual
𝑥0 representa el valor dado de x, 𝑡𝛼/2 tiene n-2 grados de libertad
Para un valor dado de x=7, con un nivel de confianza de 95%
Y’-E < Y < 𝒀′ + 𝑬 Y’±𝑬
Y=9 133 ± 𝟔 𝟗𝟎𝟖 2 225 < Y < 𝟏𝟔 𝟎𝟒𝟏

Intervalo de predicción para un valor individual
de Y
Se concluye que hay una probabilidad de 0.95 de que las
ventas semanales de alguien que obtuvo una calificación
de 7 será entre S/.2 225 y S/. 16 041.

Calcule la ecuación de regresión para los datos de ingreso y ahorro
Ejemplo
𝒃𝟏=
𝑛(σ 𝑋2) −(σ 𝑋)
2 =
𝒃𝒐=
σ 𝑌
𝑛
-
𝑏 σ 𝑋
𝑛
=
Número
de dato
Ingreso
X
Ahorro
Y
X^2 XY Y^2

PRÁCTICA DE AULA
En una planta ensambladora de aparatos
electrodomésticos se tomó una muestra de
20
trabajadores. En la siguiente tabla se
muestran las semanas de experiencia con
que cuenta cada empleado y el número de
artículos que fueron rechazados, en una
semana, por algún defecto en el armado.
Suponiendo que se sabe que existe
correlación entre las variables:
a. Determine ecuación de regresión.
b. Calcule un intervalo al 95% de confianza si
la variable independiente tiene un valor de
18.

9- REGRESIÓN (1).pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a 9- REGRESIÓN (1).pdf

Similar a 9- REGRESIÓN (1).pdf (20)

Último

Último (20)

9- REGRESIÓN (1).pdf