Este documento resume conceptos estadísticos clave como diagramas de dispersión, correlación, regresión lineal simple y sus parámetros. Explica que los diagramas de dispersión visualizan la relación entre dos variables cuantitativas y que la correlación mide qué tan estrechamente relacionadas están. También define el modelo de regresión lineal simple, el cual estima los parámetros de la recta de ajuste que mejor se ajusta a los datos para predecir valores de una variable en base a la otra. Finalmente, da un ejemplo numérico para calcular el
Este tutorial permite conocer con detalle, usando la hoja de cálculo Excel 2007, la construcción de un diagrama de dispersión y el ajuste de una recta. Además, se realiza un ejercicio econométrico de estimación del modelo de regresión lineal simple para saber si los coeficientes estimados son estadísticamente significativos y evaluar la bondad del ajuste.
Este tutorial permite conocer con detalle, usando la hoja de cálculo Excel 2007, la construcción de un diagrama de dispersión y el ajuste de una recta. Además, se realiza un ejercicio econométrico de estimación del modelo de regresión lineal simple para saber si los coeficientes estimados son estadísticamente significativos y evaluar la bondad del ajuste.
1. Tipos de regresiones: Simple o lineal y múltiple
Regresión Lineal simple
La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades. (Limeres, 2012)
La regresión proporciona la línea que "mejor" se ajusta a los datos. Esta línea se puede utilizar después para:
Examinar cómo cambia la variable de respuesta a medida que cambia la variable predictora.
Predecir el valor de una variable de respuesta (Y) para cualquier variable predictora (X).
El modelo de regresión lineal simple supone que,
Donde:
• yi representa el valor de la variable respuesta para la observación i-´esima.
• xi representa el valor de la variable explicativa para la observación i-´esima.
• ui representa el error para la observación i-´esima que se asume normal,
Donde
β0 y β1 son los coeficientes de regresión:
• β0: intercepto
• β1: pendiente
Los parámetros que hay que estimar son: β0, β1 y σ.
REGRESION LINEAL MULTIPLE
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores (X1, X2, X3…). Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última. Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:
β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son cero.
βi: es el efecto promedio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.
ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
Es importante tener en cuenta que la magnitud de cada coeficiente parcial de regresión depende de las unidades en las que se mida la variable predictora a la que corresponde, por lo que su magnitud no está asociada con la importancia de cada predictor. Para poder determinar qué impacto tienen en el modelo cada una de las variables, se emplean los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo. (Rodrigo, 2016)
1. Tipos de regresiones: Simple o lineal y múltiple
Regresión Lineal simple
La regresión lineal simple examina la relación lineal entre dos variables continuas: una respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que la asociada únicamente a las probabilidades. (Limeres, 2012)
La regresión proporciona la línea que "mejor" se ajusta a los datos. Esta línea se puede utilizar después para:
Examinar cómo cambia la variable de respuesta a medida que cambia la variable predictora.
Predecir el valor de una variable de respuesta (Y) para cualquier variable predictora (X).
El modelo de regresión lineal simple supone que,
Donde:
• yi representa el valor de la variable respuesta para la observación i-´esima.
• xi representa el valor de la variable explicativa para la observación i-´esima.
• ui representa el error para la observación i-´esima que se asume normal,
Donde
β0 y β1 son los coeficientes de regresión:
• β0: intercepto
• β1: pendiente
Los parámetros que hay que estimar son: β0, β1 y σ.
REGRESION LINEAL MULTIPLE
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores (X1, X2, X3…). Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última. Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:
β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son cero.
βi: es el efecto promedio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.
ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
Es importante tener en cuenta que la magnitud de cada coeficiente parcial de regresión depende de las unidades en las que se mida la variable predictora a la que corresponde, por lo que su magnitud no está asociada con la importancia de cada predictor. Para poder determinar qué impacto tienen en el modelo cada una de las variables, se emplean los coeficientes parciales estandarizados, que se obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar) las variables predictoras previo ajuste del modelo. (Rodrigo, 2016)
3. DESARROLLO DEL TEMA
1. ¿Qué es un diagrama de dispersión y para qué sirve?
Es un tipo de diagrama que utiliza coordenadas cartesianas para mostrar la
representación gráfica del grado de relación entre dos variables cuantitativas. Se usan
para determinar si hay alguna relación entre las variables, en caso de que la haya, esta
relación se llama correlación.
Estos diagramas se utilizan para visualizar la relación general de los datos como grupo.
2. Defina el concepto de correlación entre 2 muestras. ¿cuáles son sus propiedades?
La correlación estudia cuan estrecha es la asociación entre variables y el coeficiente es el
calculado para variables continuas, si tenemos dos variables, X e Y, la correlación entre
ellas se nombre r(X,Y) y está dada por:
r = (xi-x) (yi-y ) Donde xie yison los valores de X e Y para el
(xi-x)2
(yi-y)2
individuo i
a) El coeficiente de correlacion no varía al hacerlo la escala de medición. Es decir, si
expresamos la altura en metros o en centímetros el coeficiente de correlacion no varía.
b) El signo del coeficiente de correlacion es el mismo que el de la covariaza.
- Si la covarianza es positiva, la correlacion es directa.
- Si la covarianza es negativa, la correlacion es inversa.
- Si la covarianza es nula, no existe correlación
c) El coeficiente de correlacion lineal es un número real comprendido entre menos -1 y 1.
- −1 ≤ r ≤ 1
d) Si el coeficiente de correlacion lineal toma valores cercanos a -1 la correlacion es fuerte e
inversa, y será tanto más fuerte cuanto más se aproxime “r” a -1.
e) Si el coeficiente de correlacion lineal toma valores cercanos a 1, la correlacion es fuerte y
directa, y será tanto mas fuerte cuanto mas se aproxime “r” a 1.
f) Si el coeficiente de correlacion lineal toma valores cercanos a 0, la correlacion es débil.
g) Si r= 1 o -1, los puntos de la nube están sobre la recta creciente o decreciente. Entre
ambas variables hay dependencia funcional.
3. Ilustre la situación cuando el coeficiente de correlación es 1, -1 y 0.
4. 4. ¿En qué consiste el Modelo de Regresión Lineal Simple?
El modelo de regresión lineal simple supone que:
yi = β0 + β1xi + ui
Donde:
yi: representa el valor de la variable respuesta para la observación i-´esima.
Xi: Representa el valor de la variable explicativa para la observación i-´esima.
Ui: Representa el error para la observación i-ésima que se asume normal,
ui∼ N(0, σ)
β0 y β1 son los coeficientes de regresión:
β0: intercepto
β1: pendiente
Los parámetros que hay que estimar son: β0, β1 y σ.
El objetivo es obtener estimaciones βˆ0 y βˆ1 de β0 y β1 para calcular la recta de regresión:
yˆ = βˆ0 + βˆ1X
Que se ajuste lo mejor posible a los datos.
Ejemplo: Supongamos que la recta de regresión del ejemplo anterior es:
Costo = −15,65 + 1,29 Volumen
5. Se estima que una empresa que produce 25 mil unidades tendrá un costo:
Costo = −15,65 + 1,29 × 25 = 16,6 mil euros
La diferencia entre cada valor yi de la variable respuesta y su estimación Yi se llama residuo:
ei = yi − yˆi
Ejemplo (cont.): Indudablemente, una empresa determinada que haya producido exactamente 25
mil unidades no va a tener un gasto de exactamente 16,6 mil euros. La diferencia entre el costo
estimado y el real es el residuo. Si por ejemplo el costo real de la empresa es de 18 mil euros, el
residuo es:
ei = 18 − 16,6 = 1,4mil euros
Para poder crear un modelo de regresión lineal simple, es necesario que se cumpla con los
siguientes supuestos:
La relación entre las variables es lineal.
Los errores en la medición de las variables explicativas son independientes entre sí.
Los errores tienen varianza constante.
Los errores tienen una esperanza matemática igual a cero (los errores de una
misma magnitud y distinto signo son equiprobables).
El error total es la suma de todos los errores.
6. Mediante un ejemplo, calcule el coeficiente de correlación y obtenga el modelo de
regresión lineal simple estimando sus parámetros.
6. CONCLUSIÓN
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o
dependencia entre distintas variables. En este trabajo pudimos investigar acerca del
7. efecto que una o varias variables pueden causar sobre otra, o incluso predecir en mayor o
menor grado valores en una variable a partir de otra.
Pudimos investigar también el método de regresión lineal simple, que tiene lugar cuando
la dependencia es de tipo lineal.
También pudimos aprender acerca del diagrama de dispersión que se utiliza para mostrar
los valores de dos variables para un grupo de datos, a través de un conjunto de puntos, el
cual cada uno con el valor de una variable determina la posición en el eje horizontal y el
valor de la otra variable en el eje vertical.
Aprendimos también sobre las correlaciones , que es quien determina la relación o
dependencia que existe entre las dos variables que intervienen en una distribución
bidimensional.
Todo esto nos sirvió para conocer y aprender cada vez más acerca de la Estadística.