RETROALIMENTACIÓN-CORRELACIÓN Y REGRESIÓN.pdf

CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE-
Retroalimentación
ESTADÍSTICA APLICADA

Correlación Lineal Simple
Probamos además si las variables siguen una distribución normal (la hipótesis nula) mediante
la función Shapiro-Wilks.
En este caso como el p-valor es < .05 rechazamos
la normalidad en ambas variables. Lo ideal
entonces sería utilizar la correlación de Spearman
en lugar de la de Pearson. Por motivos didácticos
comenzaremos con la prueba de hipótesis para la
correlación de Pearson, luego realizaremos la de
Spearman.

Problema: Calcula el coeficiente de correlación de Pearson y/o de combinando
las variables del archivo stackloss de dos en dos.
▪ Air.Flow vs Water.Temp
▪ Air.Flow vs Acid.Conc.
▪ Water.Temp vs Acid.Conc
Presentar:
Gráfico (Conclusión)
Pruebas de normalidad (hipótesis y conclusión)
Prueba de correlación (hipótesis y conclusión)
Todos los pasos trabajados.
Utilizamos la función cor.test() donde indicamos las dos variables que queremos analizar
Solución:

Aquí podemos decir que la
correlación lineal entre la
producción de la fábrica y su
ineficiencia es
estadísticamente significativa,
positiva y alta t(19)=10.208,
p<0.001, r=0.92
Verifica ahora con:

El gerente de marketing de un supermercado desea predecir el tiempo
que demoran las cajeras en atender a un cliente.
El tiempo de atención puede ser
explicado por el número de productos
comprados.
¿Qué variable puede explicar el tiempo de
atención?
• La edad de la cajera
• Número de productos comprados
• Años de experiencia
Se definen las variables:
Y = Tiempo de atención
X = Número de productos comprados
REGRESIÓN LINEAL

Ecuación de regresión estimada
෠
𝑌 = 𝑏0 + 𝑏1𝑋
𝒃𝟎: Intercepto con el eje. Es el valor de Y que se obtiene cuando
x = 0.
𝒃𝟏: Pendiente de la recta. Mide el cambio que se producirá en
la variable dependiente Y, cuando la variable
independiente X varía en una unidad.
La relación entre X e Y puede ser:
Directa: 𝒃𝟏 > 𝟎 (pendiente positiva)
Inversa: 𝒃𝟏 < 𝟎 (pendiente negativa)

Regresión Lineal Simple
Procedimiento general
1. Describir las variables a analizar, calcular su correlación y graficar.
Al describir las variables debemos identificar posibles valores
ausentes y valores atípicos. Además, al graficar las variables y
calcular su correlación podremos determinar si existe o no una
relación (lineal) entre ellas.
2. Estimar el modelo, evaluar su validez (bondad de ajuste) e
interpretarlo
3. Evaluar la utilidad (diagnóstico y generalización) del modelo.

Coeficiente de determinación:
Indica el porcentaje (proporción) de la variabilidad de Y que es
explicada por la ecuación de regresión ajustada.
Coeficiente de no determinación:
Porcentaje (proporción) de la variabilidad de Y que no es explicada
por el modelo
SCT
SCR
r =
2
1
0 2

 r
SCT
SCR
r −
=
− 1
)
1
( 2
2
r
)
1
( 2
r
−
Medida de Bondad de Ajuste

Formulación de hipótesis:
0 1
1 1
: 0
: 0
H
H


=

Estadístico de prueba:
1
1
~ ( 2)
c
b
t t n
S


= −
•Prueba de Hipótesis para la regresión
Decisión estadística:
𝑆𝑒 𝑅𝑒𝑐ℎ𝑎𝑧𝑎 𝐻𝑜: 𝑡𝑐 < −𝑡𝛼
2
,𝑛−2
ó 𝑡𝑐 > 𝑡𝛼
2
,𝑛−2
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻𝑜: −𝑡𝛼
2,𝑛−2
≤ 𝑡𝑐 ≤ 𝑡𝛼
2,𝑛−2

Intervalos de predicción y variación
Un intervalo de predicción es un rango de valores utilizados para estimar una variable (como un
valor predicho de y en una ecuación de regresión).
Un intervalo de confianza es un rango de valores utilizados para estimar un parámetro poblacional.
Donde Se es el error
estándar de estimación:

Intervalo de confianza para el valor medio predicho
Cuando se utiliza un valor específico x0 para predecir la media de todos los
valores de y, el intervalo de confianza es el siguiente:
Donde:

Intervalo de confianza en la respuesta media
Al estimar la respuesta media, la incertidumbre sólo proviene de la incertidumbre en
nuestras estimaciones de la pendiente e intercepto.
"Con un 95% de confianza, estimamos que la respuesta media está entre ..."
Intervalo de predicción para una nueva respuesta
Al predecir una nueva respuesta, la incertidumbre también proviene de la variación
sobre la media.
"Un intervalo de predicción del 95% para la respuesta es ..."

Intervalo de Confianza para β1 y βo

Aplicación en R
Datos marketing
Utilizaremos los datos marketing del paquete datarium sobre el número de ventas de un producto
en relación con el presupuesto invertido en publicidad en Youtube, Facebook y en el periódico.
Comenzaremos por analizar la relación entre las ventas (sales) y el presupuesto en euros en
publicidad en Youtube (youtube).
Mediante el modelo de regresión lineal simple vamos a responder a las siguientes preguntas:
➢ ¿Existe una relación entre el presupuesto publicitario invertido en youtube y las ventas de nuestro
producto?
➢ ¿Cómo es la relación? Es decir, por cada dólar gastado en publicidad en youtube, ¿en qué
cantidad aumentarán las ventas?
➢ ¿Con qué precisión podemos predecir esta cantidad de aumento?

Para acceder al encabezado de los datos
utilizamos la función head() y mediante la función
dim() podemos observar la dimensión de la base
de datos (el número de filas -casos u
observaciones- y el número de columnas -
variables- que tenemos).

Describimos los datos con la función summary:
No tenemos valores ausentes que aparecerían marcados con NA en el resumen de los datos, ni
valores atípicos (outliers) que se apartarían mucho del comportamiento general de los datos
aumentando el rango de la variable.

Para realizar el diagrama de dispersión de las ventas (sales) y el presupuesto en Youtube (youtube),
utilizamos la función ggplot() del paquete ggplot2. Mediante el argumento estético aes() indicamos la
variable respuesta y = sales, y la variable explicativa x = youtube. Podemos seleccionar method = ”lm” en la
función geom_smooth() para representar el modelo lineal (línea azul). Esta función, por defecto, permite
visualizar el error estándar del modelo (su incertidumbre) mediante un intervalo de confianza del 95%
(banda gris). Puedes usar se = FALSE si no deseas mostrar el intervalo de confianza de las predicciones.
También puedes usar level = 0.99 si deseas obtener un intervalo de confianza del 99% en lugar del 95%.

Función lm()
Función summary()

La salida muestra 4 componentes:
• Call. Muestra la llamada a la función utilizada para calcular el modelo de regresión. Nos recuerda el
modelo que hemos ajustado.
• Residuals. Proporciona una vista rápida de la distribución de los residuos, que por definición tienen
una media cero. Por lo tanto, la mediana no debe estar lejos de cero, y el mínimo y el máximo deben
ser aproximadamente iguales en valor absoluto.
• Coefficients. Muestra los valores de los coeficientes β y su significación estadística. Las variables
predictoras, que están significativamente asociadas a la variable respuesta, están marcadas con
asteriscos en el margen derecho de la tabla.
• Residual standard error (RSE), R-squared (R2 ) y la prueba F, son métricas que se utilizan para
verificar qué tan bien se ajusta el modelo a nuestros datos.

Error Estándar Residual (RSE)
El Error Estándar Residual (Residual standard error, RSE o sigma) representa la variación promedio de
los puntos alrededor de la línea de regresión ajustada. Nos da una medida absoluta (en las unidades
de la variable de respuesta) de la falta de ajuste del modelo a los datos o del error de predicción. Es
decir, indica qué tan incorrecto es el modelo de regresión en promedio. Cuanto más bajo sea el RSE
(más cercano a 0), mejor se ajusta el modelo a nuestros datos (i.e. las observaciones están más cerca
de la línea ajustada).
Aquí RSE = 3.91, lo que significa que los valores de
ventas predichos por el modelo se alejan 3.91 unidades
del verdadero valor.

Coeficiente de determinación 𝑹𝟐
El coeficiente de determinación 𝑹𝟐 es una medida relativa de qué tan bien se ajusta el modelo a los
datos. Representa el porcentaje de información en los datos que puede ser explicado por el modelo.
Dicho de otro modo, es la cantidad de variación en la variable respuesta que es explicada por el
modelo en relación con la variación total. Varía de 0 a 1, y se puede expresar como un porcentaje si
lo multiplicamos por 100. En general, cuanto mayor sea el 𝑹𝟐
, mejor se ajustará el modelo a
nuestros datos.
Obtenemos un 𝑹𝟐 = 61.2%.

Coeficientes β y modelo final
Tabla de coeficientes
Recuerda que el modelo de nuestro ejemplo es:
sales = β0 + β1 ∗ youtube
Para obtener el modelo final debemos reemplazar los valores β
estimados en la ecuación lineal:
sales = 8.44 + 0.048 ∗ youtube
• El intercepto β0 vale 8.44. Este
valor corresponde a las unidades
de ventas prevista cuando no
invertimos en publicidad de
youtube. Esto significa que, para
un presupuesto publicitario de
youtube igual a cero, podemos
esperar una venta de 8440
dólares.
• La pendiente β1 de la variable
youtube vale 0.048. Esto significa
que, para un presupuesto de
publicidad de youtube igual a 1000
dólares, podemos esperar un
aumento de 48 unidades en las
ventas (0.048 ∗ 1000) = 48. Es
decir, con 1000 dólares invertidos
en publicidad en youtube ganamos
48000 dólares más en ventas.

Intervalos de confianza (IC) de los coeficientes
El error estándar (SE) mide la variabilidad o precisión de los coeficientes β. Mientras más alto menos
preciso será su estimación. El error estándar nos permite calcular el intervalos de confianza para el
coeficiente de regresión, que evalúa la fiabilidad de la estimación de dicho coeficiente. Mientras más
amplio sea el intervalo de confianza, menos precisa será su estimación.
Aquí obtenemos que hay aproximadamente un 95% de probabilidad de que el intervalo [0.042,
0.053] contenga el valor verdadero de la pendiente.

Predicciones e Intervalos
Para indicarle a la función los valores de la variable explicativa para los cuales queremos estimar la
variable respuesta, debemos crear un data frame que contenga los nuevos valores que queremos
evaluar. Imaginemos que queremos predecir el número de ventas que tendremos si invertimos 10, 100
o 300 mil dólares en publicidad en youtube. Entonces escribimos:
Utilizamos la función predict() para predecir la respuesta según estos nuevos valores:

Predicciones e Intervalos
Para los intervalos tenemos dos opciones:
• El intervalo de confianza, que refleja la incertidumbre en torno a las predicciones medias.
• El intervalo de predicción, que nos da la incertidumbre alrededor de un solo valor de predicción.
Un intervalo de predicción refleja la incertidumbre en torno a un solo valor, mientras que un intervalo
de confianza refleja la incertidumbre en torno a los valores de predicción promedio. Por lo tanto, un
intervalo de predicción será generalmente mucho más amplio que un intervalo de confianza para el
mismo valor.

Pasos para el análisis de correlación y regresión
- Gráfico de dispersión
- Coeficiente de correlación
- Prueba de hipótesis para la correlación
- Cálculo del modelo
- Cálculo del error estándar
- Cálculo del intervalo de predicción
- Cálculo del intervalo de confianza
- Prueba de hipótesis para la pendiente
- Intervalos de confianza para el intercepto y para la pendiente
Usando la data stackloss, realiza el análisis completo de correlación y regresión lineal simple para
pronosticar a) La temperatura del agua cuando la pérdida de pila es 30 y b) El flujo de aire cuando
la concentración de ácido es de 90.

Referencias Bibliográficas
• Aldas, J. y Uriel, E. (2017). Análisis multivariante aplicado con R.
Madrid: Paraninfo.
• Montgomery y Runger. (2012). Probabilidad y estadística aplicada a la
ingeniería. México: Limusa.
• Jhonson,R. (2012). Probabilidad y estadística para ingenieros. México:
Pearson.
• Triola,M. (2018). Estadística. México: Pearson
• Teetor,P (2011). R Cookbook. EEUU: O’really Media

RETROALIMENTACIÓN-CORRELACIÓN Y REGRESIÓN.pdf

RETROALIMENTACIÓN-CORRELACIÓN Y REGRESIÓN.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a RETROALIMENTACIÓN-CORRELACIÓN Y REGRESIÓN.pdf

Similar a RETROALIMENTACIÓN-CORRELACIÓN Y REGRESIÓN.pdf (20)

Último

Último (20)

RETROALIMENTACIÓN-CORRELACIÓN Y REGRESIÓN.pdf