Tema 4 Correlación y regresión.pdf

Tema 4
Correlación y
regresión
Estadística general II
XS277

Lecturas
Tema Lind
17a edición (lectura
obligatoria)
Sweeney
12a. ed
(lectura obligatoria
Webster
(lectura
complementaria)
Díaz
(lectura
complementaria)
Gómez
4ª y 5ª edición
(lectura complementaria)
4 380-412 545-283 322-380 584-629

Los análisis univariables en muchas situaciones son
insuficientes para explicar apropiadamente el fenómeno
estudiado.
Pueden intervenir diversos factores, por lo que, el análisis
simultáneo de las variables produce una mejor explicación.
Los análisis de correlación y regresión han demostrado con
frecuencia su utilidad en la toma de decisiones, para una gran
variedad de negocios y asuntos económicos.
Existen ciertas limitaciones en su aplicación e interpretación,
dado que no es posible determinar relaciones de causa – efecto.

Definiciones
Correlación lineal simple: Mide la asociación lineal entre dos
variables. Determinar si existe asociación entre las variables
estudiadas.
Regresión: Establece una relación lineal entre dos variables para
poder pronosticar.
Son apropiados cuando las variables tienen escalas de razón o
intervalo.
Análisis de correlación y regresión lineal simples: relaciones son
de naturaleza lineal, sólo se integran dos variables.

Describir:
• ¿Qué tan fuerte es la relación entre la calificación y las horas de
estudio?
• ¿Qué dirección tiene la relación entre la calificación y las horas de
estudio?
Decidir:
• ¿Existe una relación estadísticamente significativa entre la
calificación y las horas de estudio?
Predecir:
• Dada una cantidad particular de horas de estudio, ¿qué calificación
esperamos?
Correlación y regresión lineal simple

4.2 La correlación lineal simple.
Diagrama de dispersión.

Correlación lineal simple
Pretende descubrir si existe asociación lineal entre dos
variables.
Estudiantes por horas de estudio y notas obtenidas en Estadística
Estudiante
Horas de
estudio
Nota
Allan 2 4
Marcelo 4 7
Roxana 6 8
Adrian 4 6
Andrea 2 5
Karen 3 4
Randall 6 7
Silvia 5 7

Diagrama de dispersión
Representación en un sistema de coordenadas rectangulares
los pares de datos.
0
2
4
6
8
10
0 2 4 6 8
Nota
Horas de estudio
Horas de estudio y notas obtenidas
Eje de las
ordenadas
Eje de las
abscisas

Coeficiente de correlación lineal (Pearson)
Mide la asociación lineal entre dos
variables.
Indica si la relación: ¿Es fuerte o
débil la relación, o es directa o
inversa?
Importante: nivel de medición
intervalo o razón
Ejemplos:
¿Existe alguna relación entre la cantidad
que una empresa gasta por mes en
publicidad y sus ventas mensuales?
¿El número de metros cuadrados en una
casa está relacionado con su costo de
calefacción en enero?
En un estudio de eficiencia de
combustible, ¿existe una relación entre
las millas por galón y el peso del auto?
¿Hay alguna relación entre el número de
horas que estudian lxs alumnxs para un
examen y la calificación que obtienen?

Coeficiente de correlación lineal (Pearson)
Establecer si existe asociación lineal entre dos variables.
¿Existe asociación entre peso y estatura?
Estatura Peso
160 84
162 95
164 140
166 155
168 119
170 175
172 145
174 197
176 150
0
50
100
150
200
250
155 160 165 170 175 180
Peso
Estatura

4.3 La medición de la correlación
lineal. Cálculo del coeficiente de
correlación lineal simple (r)

Coeficiente de correlación lineal (coeficiente
de correlación de Pearson)
Mide la fuerza de asociación entre las variables.
𝑟 =
𝑛 σ 𝑥𝑦−σ 𝑦 σ 𝑥
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
𝑑𝑜𝑛𝑑𝑒 − 1 ≤ 𝑟 ≤ 1
En caso de que los datos se refieran a una población, el
coeficiente de correlación lineal se denota con la letra 𝜌.

Ejemplo
Estudiante
Horas de
estudio
Nota xy x2 y2
Allan 2 4 8 4 16
Marcelo 4 7 28 16 49
Roxana 6 8 48 36 64
Adrian 4 6 24 16 36
Andrea 2 5 10 4 25
Karen 3 4 12 9 16
Randall 6 7 42 36 49
Silvia 5 7 35 25 49
Sumatoria 32 48 207 146 304
𝑟 =
𝑛 σ 𝑥𝑦 − σ 𝑦 σ 𝑥
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
=
8 ∗ 207 − (32 ∗ 48)
8 ∗ 146 − 322 8 ∗ 304 − 482
𝑟 = 0,8839

En Excel:
Análisis de Datos->Coeficiente de correlación
Ejemplo en Excel
Estudiante
Horas de
estudio
Nota
Allan 2 4
Marcelo 4 7
Roxana 6 8
Adrian 4 6
Andrea 2 5
Karen 3 4
Randall 6 7
Silvia 5 7
Sumatoria 32 48
En Excel:
=COEF.DE.CORREL(C4:C11;D4:D11)
Horas de
estudio Nota
Horas de estudio 1
Nota 0,88388348 1

4.4 Interpretación, uso y limitación
de r. Correlación y causalidad.
Verificación de hipótesis.

Interpretación
Signo: indica el sentido de la asociación
• + (directa)
• - (inversa)
Valor: indica la intensidad de la asociación
• 0 ˂ r ≤ 0,3 o -0,3 ≤ r ˂ 0 (asociación muy baja)
• 0,3 ≤ r ˂ 0,5 o -0,5 ≤ r ˂ -0,3 (asociación baja)
• 0,5 ≤ r ˂ 0,7 o -0,7 ≤ r ˂ -0 ,5 (asociación moderada)
• 0,7 ≤ r ˂ 0,9 o -0,9 ≤ r ˂ -0,7 (asociación alta)
• 0,9 ≤ r ˂ 1 o -1˂ r ≤ -0,9 (asociación muy alta)
En el ejemplo anterior: r=0,8839. Se puede concluir que existe una asociación
alta y directa entre las horas de estudio y las notas obtenidas.

Caso ideal: r cercana a 1 o -1
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Y
X
-12
-10
-8
-6
-4
-2
0
0 2 4 6 8 10 12
Y
X
Fuerte correlación
lineal positiva
(r cerca de 1)
Fuerte correlación
lineal negativa
(r cerca de -1)
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8
Y
X
Ninguna
correlación lineal
aparente
(r cerca de 0)
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14
Y
X
Correlación
curvilínea
(r cerca de 0)

Correlación y causalidad
𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ≠ 𝐶𝑎𝑢𝑠𝑎𝑙𝑖𝑑𝑎𝑑
Una asociación por intensa
que sea, no puede establecer
una asociación causal.

Pruebade hipótesis de coeficiente de correlación
Para analizar la intensidad de la asociación de las variables, lo apropiado
sería realizar una verificación de hipótesis del coeficiente de correlación
lineal poblacional (𝜌).
𝐻0: 𝜌 = 0 𝐻1: 𝜌 > 0
𝑇𝑐 =
𝑟 − 𝜌
𝑠𝑟
r: coeficiente de correlación de la muestra
𝜌: coeficiente de correlación poblacional
𝑠𝑟: desviación estándar de r
n: pares de datos del conjunto
Desviación estándar de r:
𝑠𝑟 =
1 − 𝑟2
𝑛 − 2
Comparamos con 𝑇𝑡 con n-2 grados de libertad.

Ejemplo
𝐻0: 𝜌 = 0 𝐻1: 𝜌 > 0
Desviación estándar de r:
𝑠𝑟 =
1 − 𝑟2
𝑛 − 2
=
1 − 0,88392
8 − 2
= 0,19
𝑇𝑐 =
𝑟 − 𝜌
𝑠𝑟
=
0,8839 − 0
0,19
= 4,63
Con 𝛼 = 5%
𝑔𝑙 = 𝑛 − 2 = 8 − 2 = 6
𝑇𝑡 = 1,9432
𝑇𝑐 > 𝑇𝑡 → 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0
Por tanto, el coeficiente de correlación poblacional es mayor que 0, lo que
implica que las horas de estudio y las notas se encuentran asociadas.
En Excel:
=INV.T(0,05;6)

Coeficiente de correlación parcial
Podría interesar la correlación entre dos variables eliminando el
efecto de una tercera variable que las influye.
Coeficiente de correlación parcial: determina la asociación
entre las variables X y Y eliminando el efecto de la variable Z.
𝑟𝑥𝑦𝑧 =
𝑟𝑥𝑦 − 𝑟𝑥𝑧 ∗ 𝑟𝑦𝑧
1 − 𝑟𝑥𝑧
2
∗ 1 − 𝑟𝑦𝑧
2

Ejemplo
A medida de que aumenta la cantidad de televisores en el
hogar, disminuye la cantidad de niños. Esto no quiere decir que
la cantidad de televisores evitan los hijos en los hogares. Se
podría afirmar que la cantidad de televisores está asociada al
ingreso del hogar. Las familias de ingresos mayores tienen
menos hijos.
𝑥 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒𝑠
𝑦 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑖𝑗𝑜𝑠
𝑧 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜
𝑟𝑥𝑦 = 0,2 𝑟𝑦𝑧 = 0,7 𝑟𝑥𝑧 = 0,8
La correlación de 0,2 es baja; sin embargo, es probable que
dicha asociación esté influenciada por el ingreso familiar, por
tanto sería útil realizar el recálculo de esta correlación
eliminando el efecto del ingreso familiar.

Ejemplo
𝑥 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒𝑠
𝑦 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑖𝑗𝑜𝑠
𝑧 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜
𝑟𝑥𝑦 = 0,2 𝑟𝑦𝑧 = 0,7 𝑟𝑥𝑧 = 0,8
𝑟𝑥𝑦𝑧 =
𝑟𝑥𝑦 − 𝑟𝑥𝑧 ∗ 𝑟𝑦𝑧
1 − 𝑟𝑥𝑧
2
∗ 1 − 𝑟𝑦𝑧
2
=
0,2 − (0,7 ∗ 0,8)
1 − 0,72 ∗ 1 − 0,82
= −0,84
La correlación entre la cantidad de televisores y el número de
hijos es de -0,84, pero eliminando el efecto del ingreso, ósea un
valor más alineado a la creencia popular.

➢ Una relación funcional entre dos variables se expresa mediante una fórmula matemática.
Si X denota la variable independiente y Y la variable dependiente, una relación funcional es
de la forma: Y = f(X)
➢ Una relación estadística no es perfecta. En general, las observaciones no se encuentran
directamente sobre la curva de la relación.
➢ El coeficiente de correlación mide solo la asociación lineal. Dos variables pueden tener una
relación curvilínea fuerte, a pesar de que su correlación lineal sea pequeña. Por tanto
cuando analicemos las relaciones entre dos variables debemos representarlas
gráficamente y posteriormente calcular el coeficiente de correlación.
Consideraciones varias
50
60
70
80
90
100
Evaluación
final
año
50 60 70 80 90 100
Evaluación medio año
Y = 1,96 + 0,97 X
0
5
10
15
20
25
Nivel
esteroides
0 5 10 15 20 25
Edad
Y= -47,26 + 7,95X -0.23X2

➢En la relación entre nivel de esteroides y edad se puede asumir que aunque la magnitud del
nivel de esteroides es una función de la edad, la edad no es determinada por el nivel de
esteroides.
➢La edad no es el único determinante biológico para el nivel de esteroides pero se puede
considerar como un factor determinante.
➢Las variables independientes se llaman “predictores” o “regresores” y las dependientes
“respuestas”.
➢El término “dependiente” no implica una relación de causa-efecto entre las dos variables.
Correlación y causalidad

4.5 Relación entre dos variables.
Regresión lineal

Modelo estadístico que permite predecir el valor que asume una
variable dependiente (y), a partir del valor conocido de otra
independiente (x).
𝑋 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑌 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
El modelo supone una asociación lineal entre las variables.
Ecuación de regresión: ecuación lineal que expresa la relación
lineal entre dos variables.

Cuando se desea establecer una regresión lineal entre las
variables en estudio, se debe indicar que se trata de establecer
una línea recta y para ello basta tener dos puntos en el
diagrama.
𝑦 = 𝑎 + 𝑏𝑥
y: pronóstico
a: intersección (corte del eje vertical)
b: pendiente de la recta
x: variable independiente

La ecuación de regresión está dada por:
𝑦 = 𝑎 + 𝑏𝑥
Donde:
𝑦: es la variable dependiente
𝑎: es el valor que toma la variable dependiente “y” cuando la variable
independiente “x” vale cero, también se denomina intercepto o punto
de corte de la recta con el eje y
𝑏: es el incremento negativo o positivo en la variable dependiente “y”
cada vez que la variable independiente “x” se incrementa en una
unidad. También indica la inclinación de la recta respecto al eje X.
𝑥: es la variable independiente

Regresión lineal simple
𝑦 = 𝑎 + 𝑏 𝑥
Variable independiente
Variable dependiente
Pendiente
Intersección
Constantes
𝑏 =
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑛 σ 𝑥2 − σ 𝑥 2
𝑎 =
σ 𝑦
𝑛
− 𝑏
σ 𝑥
𝑛
𝑦 = 𝑏𝑥 + 𝑎

Regresión linealsimple
La variable de respuesta se puede explicar
por un solo predictor.
Toda observación puede ser expresada como
una combinación lineal de la variable
independiente más un error aleatorio.
Se están estimando dos parámetros
simultáneamente (a y b) que implican la
estimación de una línea.
El modelo permite estimar el valor esperado
de Y, llamado ො
𝑦 , para un valor específico de
X. Para esto utiliza los valores estimados de
los coeficientes a y b.

4.6 Criterio de cuadrados mínimos.
Ecuaciones normales. Ajuste de la
línea de regresión

4.7 Interpretación y uso de la recta
de regresión. El coeficiente de
regresión lineal

Procedimiento de los mínimos cuadrados
Procedimiento matemático que emplea datos para ubicar una línea
con la finalidad de minimizar la suma de los cuadrados de las
distancias verticales entre los valores observados y predichos.
Propósito: determinar la recta que mejor se ajusta a los datos
muestrales.
Método de mínimos cuadrados: asegura que la suma de las
diferencias entre los valores estimados y los observados sea mínima.
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Y
X
¿Cuál línea es la mejor?

Permite realizar una estimación confiable ya que garantiza que la suma
de los errores o desvíos al cuadrado sea mínima
SU IMPORTANCIA FUNDAMENTAL RADICA EN QUE NINGUNA OTRA
RECTA DARÍA LA SUMA MENOR DE LAS DESVIACIONESELEVADAS AL
CUADRADO.

Procedimiento de los mínimos cuadrados
𝑏 =
𝑛 σ 𝑋𝑖 𝑌𝑖 − σ 𝑋𝑖 σ 𝑌𝑖
𝑛 σ 𝑋𝑖
2
− σ 𝑋𝑖
2
𝑎 = ത
𝑦 − 𝑏 ҧ
𝑥
1. Encontrar una ecuación para describir la forma de relación entre
las variables
2. Estimar una variable a partir de otra variable; la variable que se
estima es la dependiente y la variable a partir del cual se estima es
la independiente.
Coeficiente de regresión
Intercepto

Ejemplo
Pendiente de la recta o coeficiente de regresión:
𝑏 =
𝑛 σ 𝑋𝑖 𝑌𝑖 − σ 𝑋𝑖 σ 𝑌𝑖
𝑛 σ 𝑋𝑖
2
− σ 𝑋𝑖
2
=
8 ∗ 207 − 32 ∗ 48
8 ∗ 146 − 322
= 0,8333
Por cada hora de estudio adicional se espera que la nota se
incremente en 0,8333 puntos.
Intersección:
𝑎 = ത
𝑦 − 𝑏 ҧ
𝑥 =
48
8
− 0,8333 ∗
32
8
= 2,6667
Ecuación de regresión:
෠
𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖

Ecuación de regresión:
෠
𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖
Es posible estimar notas para cada cantidad de horas en
particular.
Nota de alguien que estudia siete horas:
෠
𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖 = 2,6667 + 0,8333 ∗ 7 = 8,5
Si el estudiante invierte 7 horas se espera que obtenga una
nota de 8,5.

y = 0,8333x + 2,6667
R² = 0,7812
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7
Nota
Horas de estudio
Nota
En Excel
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,88388348
Coeficiente de determinación R^2 0,78125
R^2 ajustado 0,74479167
Error típico 0,76376262
Observaciones 8
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Superior
95%
Intercepción 2,6667 0,7690 3,4675 0,0133 0,7849 4,5485
Horas de estudio 0,8333 0,1800 4,6291 0,0036 0,3928 1,2738
Coeficiente de correlación = -0,88 → Existe una asociación lineal alta e inversa entre las
horas de estudio y la nota de los estudiantes.
Coeficiente de regresión = 0,83→ Por cada hora de estudio adicional se espera un
aumento en la nota de 0,83 puntos
Coeficiente de determinación (Bondad de ajuste) = 0,78 → El 78,12% de la variabilidad
de las notas de los estudiantes se explica por su relación lineal con las horas de estudio

4.8 Lossupuestosbásicos del modelo de regresión
lineal. Errorestándardeestimación. Intervalos de
predicciónparala media y para unaobservación.
Verificación dehipótesis parael coeficiente de
regresión. Limitaciones dela regresión lineal.
Varianciaexplicada y no explicada.Coeficiente de
determinaciónR2 (Bondad de ajuste)

Supuestos
El valor de a y b varían dependiendo de la muestra seleccionada
y por ello es importante saber los supuestos del modelo:
•Cada valor de x tiene una población de y.
•Las poblaciones de y siguen una distribución normal.
•Las medias de las y están sobre la línea de regresión.
•Las variancias de esas poblaciones son iguales.

Evaluacióndelossupuestosdelmodeloderegresiónlineal
Existe una relación
lineal
Normalidad
Homocedasticidad:
la variación de los
residuos es normal
Las variaciones
independientes no
deben estar
correlacionadas
Los residuos son
independientes

1. Relación lineal
Se requiere que existan relaciones lineales.
Esta suposición se puede evaluar con diagramas de
dispersión y gráficas de residuos.
Estos diagramas ayudan a visualizar las relaciones y
proporcionan una información inicial respecto de la
dirección (positiva o negativa), la linealidad y la fuerza de
la relación.
• Diagramas de dispersión de la variable dependiente
con cada variable independiente.
• Gráfica de residuos. Ayudan a evaluar la linealidad de
la ecuación de regresión múltiple.

2. Normalidad
Se requiere que los datos sean normales.

3. Homocedasticidad
La variación entre los residuos es la misma tanto en valores grandes como
pequeños de yˆ. Es decir, que respecto a la ecuación de regresión la variación es
igual para todos los valores de las variables independientes. (y - yˆ )
La variación respecto a los valores de predicción a lo largo del tiempo. (gráfica de
residuos)
Se requiere que haya homocedasticidad.

4. Multicolinealidad
La multicolinealidad existe cuando las variables independientes están correlacionadas. Se
requiere que no exista multicolinealidad.
La multicolinealidad no afecta la capacidad de una ecuación de regresión múltiple para
predecir la variable dependiente; no obstante, cuando se tenga interés en evaluar la
relación entre cada variable independiente y la variable dependiente, la multicolinealidad
puede presentar resultados inesperados.
Coeficiente de determinación de variable independiente seleccionada como variable
dependiente
VIF>10 es insatisfactorio: variable independiente analizada se relaciona con el resto de
variables independientes
Factor de inflación de la varianza VIF =
1
1−𝑅𝑗
2

5. Independencia
1. Los residuos sucesivos deben ser independientes:
1. Residuos no tienen un patrón
2. No están muy correlacionados
3. No hay corridas largas de residuos positivos o negativos
2. Se requiere que los residuos sean independientes
3. Cuando los residuos sucesivos están correlacionados se le llama autocorrelación

Es conveniente conocer el grado de confiabilidad del modelo.
Para lo cual se puede utilizar tres estadísticos:
Error estándar de estimación
Verificación de hipótesis del coeficiente
de regresión
Coeficiente de determinación

Error estándar de estimación
Existen diferencias entre los valores reales y los estimados, por
ende existe variabilidad. Esta variabilidad se puede medir
mediante el error estándar de estimación (desviación estándar
de pares de observaciones).
𝑆𝑒 =
σ 𝑌𝑖
2
− 𝑎 σ 𝑌𝑖 − 𝑏 σ 𝑋𝑖 ∗ 𝑌𝑖
𝑛 − 2
Permite evaluar el modelo de regresión, se logra identificar la
dispersión de los datos reales respecto a la línea de mejor
ajuste.

Verificación dehipótesis del coeficiente deregresión
El modelo de regresión se ajusta con datos muestrales, por lo que
surge la duda sobre el comportamiento en la población.
𝐻0: 𝛽1 = 0 𝐻1: 𝛽1 ≠ 0
Para verificar la hipótesis:
𝑇𝑐 =
𝑏 − 𝛽1
𝑠𝑏
𝑠𝑏 =
𝑠𝑒
𝑆𝐶𝑥
𝑆𝐶𝑥 =
σ 𝑥2
− σ 𝑥 2
𝑛
Comparo con 𝑇𝑡 de n-2 grados de libertad.

También se conoce con el nombre de bondad de ajuste.
𝜌2 =
σ ෠
𝑌𝑖− ത
𝑦 2
σ 𝑦𝑖− ത
𝑦 2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑑𝑒 𝑦
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑦
= 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2
Donde:
σ 𝑦𝑖 − ത
𝑦 2
= σ ෠
𝑌𝑖 − ത
𝑦
2
+ σ 𝑦𝑖 − ෠
𝑌𝑖
2
Indica el nivel de asociación entre las
variables dependiente e independiente
en un modelo de regresión
Variación total:
Suma de los reales
menos la media
Variación explicada:
Suma de los reales menos
los estimados al cuadrado
Variación no explicada:
Suma de los estimados menos la
media al cuadrado

También se conoce con el nombre de bondad de ajuste.
𝜌2 =
σ ෠
𝑌𝑖− ത
𝑦 2
σ 𝑦𝑖− ത
𝑦 2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑑𝑒 𝑦
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑦
= 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2
Donde:
σ 𝑦𝑖 − ത
𝑦 2 = σ ෠
𝑌𝑖 − ത
𝑦
2
+ σ 𝑦𝑖 − ෠
𝑌𝑖
2
𝜌2 es una proporción: porcentaje de la variabilidad de y que es
explicada por el modelo de regresión.
0 ≤ 𝜌2
≤ 1 0 ≤ 𝑟2
≤ 1
En la medida que se acerque a 1 indica que el modelo predice
en forma más precisa.

Intervalos de predicción de regresión
Para un valor
particular de
y (predicción)
• 𝐿𝑖 = ො
𝑦 ± 𝑇𝛼
2
𝑠𝑒 1 +
1
𝑛
+
𝑥0− ത
𝑋 2
𝑆𝐶𝑥
• 𝑇𝛼
2
valor de la tabla t-student con n-2 gl.
Para la media
de los valores
de y
(intervalo de
confianza)
• 𝐿𝑖 = ො
𝑦 ± 𝑇𝛼
2
𝑠𝑒
1
𝑛
+
𝑥0− ത
𝑋 2
𝑆𝐶𝑥
• 𝑇𝛼
2
Para el
coeficiente
de regresión
• 𝐿𝑖 = 𝑏 ± 𝑇𝛼
2
𝑠𝑏 𝑑𝑜𝑛𝑑𝑒 𝑠𝑏 =
𝑠𝑒
𝑆𝐶𝑥
• 𝑇𝛼
2

Limitaciones del modelo
Correlación no significa causalidad y una asociación por intensa
que sea, no puede establecer asociación causal.
Tener cuidado cuando dos variables no relacionadas parecen
tener alguna relación. Aunque el coeficiente de regresión sea
positivo podría no tener sentido la relación.
Tener cuidado con predicciones muy alejadas del intervalo de
valores reales de la variable independiente.
Cuando se tiene valores de r2 cercanos a cero significa que no
se tiene una relación lineal, pero es posible establecer otra
relación.

Interpretación
Se presenta los resultados en excel de un estudio con diez mujeres para
correlacionar la edad con el nivel de estradiol en la sangre (pg/mL)
(producto de fármacos para combatir el cáncer):
Coeficiente de correlación = -0,97 → Existe una asociación lineal muy alta e
inversa entre la edad y el nivel de estradiol en la sangre de las mujeres
Coeficiente de regresión = -4,29 → Por cada año de edad adicional en las
mujeres se espera una disminución del nivel de estradiol en la sangre de
4,29 pg/mL
Coeficiente de determinación (Bondad de ajuste) = 0,9427 → El 94,27% de
la variabilidad del nivel de estradiol en la sangre de las mujeres se explica
por su relación lineal con la edad de las mismas
Estadísticas de la regresión
Coeficiente de correlación -0,97094
Error típico 17,34575
Observaciones 10
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 279,23030 15,67039 17,81897 0,0000001
Edad -4,29585 0,37437 -11,47490 0,0000030

1) Coeficiente de determinación
(bondad de ajuste)
100% Modelo perfecto
2) Error estándar de estimación
Cuanto se desvía en promedio cada par de la línea de regresión
Buen modelo : Se (pequeño)
3) Verificación de hipótesis para el coeficiente de regresión
Ho: B = 0 H1: B ≠ 0
Buen modelo debe rechazarse Ho
Resumiendo: Formasde validar la ecuaciónde
regresión

4.9 Regresión no lineal y múltiple.
Correlación múltiple y parcial

Regresión Múltiple ynolineal
Se utiliza cuando interesa incorporar más de una variable
independiente explicativa en el modelo.
Donde:
ො
𝑦 es el valor estimado para la variable dependiente
𝑏𝑖 (coeficientes parciales) son los valores estimados para los
coeficientes de poblacionales de regresión βi y se interpretan
igual que en la regresión lineal simple.
ො
𝑦 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 + ε
Variable
dependiente
Variables independientes
Término de
error aleatorio

Para la regresión múltiple, el valor de los 𝑏𝑖 es la cantidad en que
cambia 𝑦𝑖 cuando 𝑥𝑖 cambia en una unidad, asumiendo que las
demás variables independientes se mantienen constantes.
En el modelo de regresión múltiple se tiene dos supuestos
adicionales:
1.El número de observaciones “n” debe exceder el número de
variables independientes en el modelo de regresión múltiple
“k” en por lo menos 2. El número de grados de libertad sería
n-(k+1).
2.Ninguna de las variables independientes incluidas en modelo
debe estar relacionada linealmente (multicolinealidad)
Regresión Múltiple

Multicolinealidad
La multicolinealidad causa errores en los coeficientes
individuales, aunque el efecto combinado no altere
drásticamente el modelo de predicción diseñado para predecir
el valor de 𝑦, con base en los 𝑥𝑖 combinados.
Entre más variables independientes se incluyan en el modelo, la
probabilidad de multicolinealidad será mayor
De presentarse este problema, lo más sencillo es eliminar la
variable, pero esto podría hacer que se incurra en un sesgo de
especificación.

Coeficiente de determinación ajustado (R²) ajustado
Cada variable independiente que se agrega a la ecuación de regresión lineal hace
que el coeficiente de determinación crezca.
El coeficiente de determinación múltiple es el porcentaje de variación de la
variable dependiente 𝑦 explicada por el conjunto de variables independientes
𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑘,
Para balancear el número de variables se utiliza el coeficiente de determinación
ajustado.
CME
CMT
𝑅2
= 1 −
𝐶𝑀𝐸
𝐶𝑀𝑇

Prueba global: prueba del modelo de regresión múltiple
Es posible demostrar la capacidad de las variables independientes X1, X2, . . . , Xk para
explicar el comportamiento de la variable dependiente Y.
La pregunta a contestar: cuál de las variables están significativamente relacionadas
con la variable dependiente?
Se investiga si es posible que todas las variables independientes tengan coeficientes de
regresión cero.
Al menos uno (no necesariamente todos) de los coeficientes de regresión son distintos de
cero, y por ende son útiles para realizar predicciones.
Donde k es la cantidad de
variables independientes

Evaluación de los coeficientes de regresión individuales
¿Por qué es importante saber si algunas de los coeficientes son iguales a cero?
Si un coeficiente puede ser igual a cero, esta variable independiente no tiene
valor para explicar alguna variación del valor dependiente.
Si hay coeficientes con respecto a los cuales Ho no se puede rechazar, quizá
sea prudente eliminarlos de la ecuación de regresión.

En muchas situaciones la variable de interés o dependiente se
explica con su relación con varias variables.
Ejemplo: Un banco desea estimar el ingreso de altos ejecutivos
con base en el valor de la casa de habitación, los años de
educación, la edad y el monto de la hipoteca de la casa.
*en colones
**en años

෠
𝑌𝑖 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 +𝑏3𝑥3 +𝑏4𝑥4
෠
𝑌𝑖: ingreso
𝑥1: hipoteca
𝑥2: educación
𝑥3: edad
𝑥4: valor de la casa
Se trata de predecir el ingreso del cliente a partir del valor de la
casa de habitación, los años de educación, la edad y el monto
de la hipoteca de la casa.

෠
𝑌𝑖 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 +𝑏3𝑥3 +𝑏4𝑥4
෠
𝑌𝑖 = 1334149,66 + 0,00263769𝑥1 + 30400,63𝑥2
− 1979,62746𝑥3 −9,5042𝐸 − 5𝑥4
Con base en esta ecuación se puede estimar el ingreso para
una persona de 50 años de edad, 14 años de estudio, una casa
hipotecada de 90 millones de colones y un valor de 190
millones de colones. (sustituyendo)

Tema 4 Correlación y regresión.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Tema 4 Correlación y regresión.pdf

Similar a Tema 4 Correlación y regresión.pdf (20)

Último

Último (20)

Tema 4 Correlación y regresión.pdf