SlideShare una empresa de Scribd logo
1 de 68
Descargar para leer sin conexión
Tema 4
Correlación y
regresión
Estadística general II
XS277
Lecturas
Tema Lind
17a edición (lectura
obligatoria)
Sweeney
12a. ed
(lectura obligatoria
Webster
(lectura
complementaria)
Díaz
(lectura
complementaria)
Gómez
4ª y 5ª edición
(lectura complementaria)
4 380-412 545-283 322-380 584-629
4.1 Introducción
Los análisis univariables en muchas situaciones son
insuficientes para explicar apropiadamente el fenómeno
estudiado.
Pueden intervenir diversos factores, por lo que, el análisis
simultáneo de las variables produce una mejor explicación.
Los análisis de correlación y regresión han demostrado con
frecuencia su utilidad en la toma de decisiones, para una gran
variedad de negocios y asuntos económicos.
Existen ciertas limitaciones en su aplicación e interpretación,
dado que no es posible determinar relaciones de causa – efecto.
Definiciones
Correlación lineal simple: Mide la asociación lineal entre dos
variables. Determinar si existe asociación entre las variables
estudiadas.
Regresión: Establece una relación lineal entre dos variables para
poder pronosticar.
Son apropiados cuando las variables tienen escalas de razón o
intervalo.
Análisis de correlación y regresión lineal simples: relaciones son
de naturaleza lineal, sólo se integran dos variables.
Describir:
• ¿Qué tan fuerte es la relación entre la calificación y las horas de
estudio?
• ¿Qué dirección tiene la relación entre la calificación y las horas de
estudio?
Decidir:
• ¿Existe una relación estadísticamente significativa entre la
calificación y las horas de estudio?
Predecir:
• Dada una cantidad particular de horas de estudio, ¿qué calificación
esperamos?
Correlación y regresión lineal simple
4.2 La correlación lineal simple.
Diagrama de dispersión.
Correlación lineal simple
Pretende descubrir si existe asociación lineal entre dos
variables.
Estudiantes por horas de estudio y notas obtenidas en Estadística
Estudiante
Horas de
estudio
Nota
Allan 2 4
Marcelo 4 7
Roxana 6 8
Adrian 4 6
Andrea 2 5
Karen 3 4
Randall 6 7
Silvia 5 7
Diagrama de dispersión
Representación en un sistema de coordenadas rectangulares
los pares de datos.
0
2
4
6
8
10
0 2 4 6 8
Nota
Horas de estudio
Horas de estudio y notas obtenidas
Eje de las
ordenadas
Eje de las
abscisas
Coeficiente de correlación lineal (Pearson)
Mide la asociación lineal entre dos
variables.
Indica si la relación: ¿Es fuerte o
débil la relación, o es directa o
inversa?
Importante: nivel de medición
intervalo o razón
Ejemplos:
¿Existe alguna relación entre la cantidad
que una empresa gasta por mes en
publicidad y sus ventas mensuales?
¿El número de metros cuadrados en una
casa está relacionado con su costo de
calefacción en enero?
En un estudio de eficiencia de
combustible, ¿existe una relación entre
las millas por galón y el peso del auto?
¿Hay alguna relación entre el número de
horas que estudian lxs alumnxs para un
examen y la calificación que obtienen?
Coeficiente de correlación lineal (Pearson)
Establecer si existe asociación lineal entre dos variables.
¿Existe asociación entre peso y estatura?
Estatura Peso
160 84
162 95
164 140
166 155
168 119
170 175
172 145
174 197
176 150
0
50
100
150
200
250
155 160 165 170 175 180
Peso
Estatura
4.3 La medición de la correlación
lineal. Cálculo del coeficiente de
correlación lineal simple (r)
Coeficiente de correlación lineal (coeficiente
de correlación de Pearson)
Mide la fuerza de asociación entre las variables.
𝑟 =
𝑛 σ 𝑥𝑦−σ 𝑦 σ 𝑥
𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2
𝑑𝑜𝑛𝑑𝑒 − 1 ≤ 𝑟 ≤ 1
En caso de que los datos se refieran a una población, el
coeficiente de correlación lineal se denota con la letra 𝜌.
Ejemplo
Estudiante
Horas de
estudio
Nota xy x2 y2
Allan 2 4 8 4 16
Marcelo 4 7 28 16 49
Roxana 6 8 48 36 64
Adrian 4 6 24 16 36
Andrea 2 5 10 4 25
Karen 3 4 12 9 16
Randall 6 7 42 36 49
Silvia 5 7 35 25 49
Sumatoria 32 48 207 146 304
𝑟 =
𝑛 σ 𝑥𝑦 − σ 𝑦 σ 𝑥
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
=
8 ∗ 207 − (32 ∗ 48)
8 ∗ 146 − 322 8 ∗ 304 − 482
𝑟 = 0,8839
En Excel:
Análisis de Datos->Coeficiente de correlación
Ejemplo en Excel
Estudiante
Horas de
estudio
Nota
Allan 2 4
Marcelo 4 7
Roxana 6 8
Adrian 4 6
Andrea 2 5
Karen 3 4
Randall 6 7
Silvia 5 7
Sumatoria 32 48
En Excel:
=COEF.DE.CORREL(C4:C11;D4:D11)
Horas de
estudio Nota
Horas de estudio 1
Nota 0,88388348 1
4.4 Interpretación, uso y limitación
de r. Correlación y causalidad.
Verificación de hipótesis.
Interpretación
Signo: indica el sentido de la asociación
• + (directa)
• - (inversa)
Valor: indica la intensidad de la asociación
• 0 ˂ r ≤ 0,3 o -0,3 ≤ r ˂ 0 (asociación muy baja)
• 0,3 ≤ r ˂ 0,5 o -0,5 ≤ r ˂ -0,3 (asociación baja)
• 0,5 ≤ r ˂ 0,7 o -0,7 ≤ r ˂ -0 ,5 (asociación moderada)
• 0,7 ≤ r ˂ 0,9 o -0,9 ≤ r ˂ -0,7 (asociación alta)
• 0,9 ≤ r ˂ 1 o -1˂ r ≤ -0,9 (asociación muy alta)
En el ejemplo anterior: r=0,8839. Se puede concluir que existe una asociación
alta y directa entre las horas de estudio y las notas obtenidas.
Caso ideal: r cercana a 1 o -1
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Y
X
-12
-10
-8
-6
-4
-2
0
0 2 4 6 8 10 12
Y
X
Fuerte correlación
lineal positiva
(r cerca de 1)
Fuerte correlación
lineal negativa
(r cerca de -1)
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8
Y
X
Ninguna
correlación lineal
aparente
(r cerca de 0)
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14
Y
X
Correlación
curvilínea
(r cerca de 0)
Correlación y causalidad
𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ≠ 𝐶𝑎𝑢𝑠𝑎𝑙𝑖𝑑𝑎𝑑
Una asociación por intensa
que sea, no puede establecer
una asociación causal.
Pruebade hipótesis de coeficiente de correlación
Para analizar la intensidad de la asociación de las variables, lo apropiado
sería realizar una verificación de hipótesis del coeficiente de correlación
lineal poblacional (𝜌).
𝐻0: 𝜌 = 0 𝐻1: 𝜌 > 0
𝑇𝑐 =
𝑟 − 𝜌
𝑠𝑟
r: coeficiente de correlación de la muestra
𝜌: coeficiente de correlación poblacional
𝑠𝑟: desviación estándar de r
n: pares de datos del conjunto
Desviación estándar de r:
𝑠𝑟 =
1 − 𝑟2
𝑛 − 2
Comparamos con 𝑇𝑡 con n-2 grados de libertad.
Ejemplo
𝐻0: 𝜌 = 0 𝐻1: 𝜌 > 0
Desviación estándar de r:
𝑠𝑟 =
1 − 𝑟2
𝑛 − 2
=
1 − 0,88392
8 − 2
= 0,19
𝑇𝑐 =
𝑟 − 𝜌
𝑠𝑟
=
0,8839 − 0
0,19
= 4,63
Con 𝛼 = 5%
𝑔𝑙 = 𝑛 − 2 = 8 − 2 = 6
𝑇𝑡 = 1,9432
𝑇𝑐 > 𝑇𝑡 → 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0
Por tanto, el coeficiente de correlación poblacional es mayor que 0, lo que
implica que las horas de estudio y las notas se encuentran asociadas.
En Excel:
=INV.T(0,05;6)
Coeficiente de correlación parcial
Podría interesar la correlación entre dos variables eliminando el
efecto de una tercera variable que las influye.
Coeficiente de correlación parcial: determina la asociación
entre las variables X y Y eliminando el efecto de la variable Z.
𝑟𝑥𝑦𝑧 =
𝑟𝑥𝑦 − 𝑟𝑥𝑧 ∗ 𝑟𝑦𝑧
1 − 𝑟𝑥𝑧
2
∗ 1 − 𝑟𝑦𝑧
2
Ejemplo
A medida de que aumenta la cantidad de televisores en el
hogar, disminuye la cantidad de niños. Esto no quiere decir que
la cantidad de televisores evitan los hijos en los hogares. Se
podría afirmar que la cantidad de televisores está asociada al
ingreso del hogar. Las familias de ingresos mayores tienen
menos hijos.
𝑥 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒𝑠
𝑦 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑖𝑗𝑜𝑠
𝑧 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜
𝑟𝑥𝑦 = 0,2 𝑟𝑦𝑧 = 0,7 𝑟𝑥𝑧 = 0,8
La correlación de 0,2 es baja; sin embargo, es probable que
dicha asociación esté influenciada por el ingreso familiar, por
tanto sería útil realizar el recálculo de esta correlación
eliminando el efecto del ingreso familiar.
Ejemplo
𝑥 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒𝑠
𝑦 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑖𝑗𝑜𝑠
𝑧 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜
𝑟𝑥𝑦 = 0,2 𝑟𝑦𝑧 = 0,7 𝑟𝑥𝑧 = 0,8
𝑟𝑥𝑦𝑧 =
𝑟𝑥𝑦 − 𝑟𝑥𝑧 ∗ 𝑟𝑦𝑧
1 − 𝑟𝑥𝑧
2
∗ 1 − 𝑟𝑦𝑧
2
=
0,2 − (0,7 ∗ 0,8)
1 − 0,72 ∗ 1 − 0,82
= −0,84
La correlación entre la cantidad de televisores y el número de
hijos es de -0,84, pero eliminando el efecto del ingreso, ósea un
valor más alineado a la creencia popular.
➢ Una relación funcional entre dos variables se expresa mediante una fórmula matemática.
Si X denota la variable independiente y Y la variable dependiente, una relación funcional es
de la forma: Y = f(X)
➢ Una relación estadística no es perfecta. En general, las observaciones no se encuentran
directamente sobre la curva de la relación.
➢ El coeficiente de correlación mide solo la asociación lineal. Dos variables pueden tener una
relación curvilínea fuerte, a pesar de que su correlación lineal sea pequeña. Por tanto
cuando analicemos las relaciones entre dos variables debemos representarlas
gráficamente y posteriormente calcular el coeficiente de correlación.
Consideraciones varias
50
60
70
80
90
100
Evaluación
final
año
50 60 70 80 90 100
Evaluación medio año
Y = 1,96 + 0,97 X
0
5
10
15
20
25
Nivel
esteroides
0 5 10 15 20 25
Edad
Y= -47,26 + 7,95X -0.23X2
➢En la relación entre nivel de esteroides y edad se puede asumir que aunque la magnitud del
nivel de esteroides es una función de la edad, la edad no es determinada por el nivel de
esteroides.
➢La edad no es el único determinante biológico para el nivel de esteroides pero se puede
considerar como un factor determinante.
➢Las variables independientes se llaman “predictores” o “regresores” y las dependientes
“respuestas”.
➢El término “dependiente” no implica una relación de causa-efecto entre las dos variables.
Correlación y causalidad
4.5 Relación entre dos variables.
Regresión lineal
Modelo estadístico que permite predecir el valor que asume una
variable dependiente (y), a partir del valor conocido de otra
independiente (x).
𝑋 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑌 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
El modelo supone una asociación lineal entre las variables.
Ecuación de regresión: ecuación lineal que expresa la relación
lineal entre dos variables.
Cuando se desea establecer una regresión lineal entre las
variables en estudio, se debe indicar que se trata de establecer
una línea recta y para ello basta tener dos puntos en el
diagrama.
𝑦 = 𝑎 + 𝑏𝑥
y: pronóstico
a: intersección (corte del eje vertical)
b: pendiente de la recta
x: variable independiente
La ecuación de regresión está dada por:
𝑦 = 𝑎 + 𝑏𝑥
Donde:
𝑦: es la variable dependiente
𝑎: es el valor que toma la variable dependiente “y” cuando la variable
independiente “x” vale cero, también se denomina intercepto o punto
de corte de la recta con el eje y
𝑏: es el incremento negativo o positivo en la variable dependiente “y”
cada vez que la variable independiente “x” se incrementa en una
unidad. También indica la inclinación de la recta respecto al eje X.
𝑥: es la variable independiente
Regresión lineal simple
𝑦 = 𝑎 + 𝑏 𝑥
Variable independiente
Variable dependiente
Pendiente
Intersección
Constantes
𝑏 =
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑛 σ 𝑥2 − σ 𝑥 2
𝑎 =
σ 𝑦
𝑛
− 𝑏
σ 𝑥
𝑛
𝑦 = 𝑏𝑥 + 𝑎
Regresión linealsimple
La variable de respuesta se puede explicar
por un solo predictor.
Toda observación puede ser expresada como
una combinación lineal de la variable
independiente más un error aleatorio.
Se están estimando dos parámetros
simultáneamente (a y b) que implican la
estimación de una línea.
El modelo permite estimar el valor esperado
de Y, llamado ො
𝑦 , para un valor específico de
X. Para esto utiliza los valores estimados de
los coeficientes a y b.
4.6 Criterio de cuadrados mínimos.
Ecuaciones normales. Ajuste de la
línea de regresión
4.7 Interpretación y uso de la recta
de regresión. El coeficiente de
regresión lineal
Procedimiento de los mínimos cuadrados
Procedimiento matemático que emplea datos para ubicar una línea
con la finalidad de minimizar la suma de los cuadrados de las
distancias verticales entre los valores observados y predichos.
Propósito: determinar la recta que mejor se ajusta a los datos
muestrales.
Método de mínimos cuadrados: asegura que la suma de las
diferencias entre los valores estimados y los observados sea mínima.
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Y
X
¿Cuál línea es la mejor?
Permite realizar una estimación confiable ya que garantiza que la suma
de los errores o desvíos al cuadrado sea mínima
SU IMPORTANCIA FUNDAMENTAL RADICA EN QUE NINGUNA OTRA
RECTA DARÍA LA SUMA MENOR DE LAS DESVIACIONESELEVADAS AL
CUADRADO.
Procedimiento de los mínimos cuadrados
𝑏 =
𝑛 σ 𝑋𝑖 𝑌𝑖 − σ 𝑋𝑖 σ 𝑌𝑖
𝑛 σ 𝑋𝑖
2
− σ 𝑋𝑖
2
𝑎 = ത
𝑦 − 𝑏 ҧ
𝑥
1. Encontrar una ecuación para describir la forma de relación entre
las variables
2. Estimar una variable a partir de otra variable; la variable que se
estima es la dependiente y la variable a partir del cual se estima es
la independiente.
Coeficiente de regresión
Intercepto
Ejemplo
Pendiente de la recta o coeficiente de regresión:
𝑏 =
𝑛 σ 𝑋𝑖 𝑌𝑖 − σ 𝑋𝑖 σ 𝑌𝑖
𝑛 σ 𝑋𝑖
2
− σ 𝑋𝑖
2
=
8 ∗ 207 − 32 ∗ 48
8 ∗ 146 − 322
= 0,8333
Por cada hora de estudio adicional se espera que la nota se
incremente en 0,8333 puntos.
Intersección:
𝑎 = ത
𝑦 − 𝑏 ҧ
𝑥 =
48
8
− 0,8333 ∗
32
8
= 2,6667
Ecuación de regresión:
෠
𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖
Ecuación de regresión:
෠
𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖
Es posible estimar notas para cada cantidad de horas en
particular.
Nota de alguien que estudia siete horas:
෠
𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖 = 2,6667 + 0,8333 ∗ 7 = 8,5
Si el estudiante invierte 7 horas se espera que obtenga una
nota de 8,5.
y = 0,8333x + 2,6667
R² = 0,7812
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7
Nota
Horas de estudio
Nota
En Excel
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,88388348
Coeficiente de determinación R^2 0,78125
R^2 ajustado 0,74479167
Error típico 0,76376262
Observaciones 8
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Superior
95%
Intercepción 2,6667 0,7690 3,4675 0,0133 0,7849 4,5485
Horas de estudio 0,8333 0,1800 4,6291 0,0036 0,3928 1,2738
Coeficiente de correlación = -0,88 → Existe una asociación lineal alta e inversa entre las
horas de estudio y la nota de los estudiantes.
Coeficiente de regresión = 0,83→ Por cada hora de estudio adicional se espera un
aumento en la nota de 0,83 puntos
Coeficiente de determinación (Bondad de ajuste) = 0,78 → El 78,12% de la variabilidad
de las notas de los estudiantes se explica por su relación lineal con las horas de estudio
4.8 Lossupuestosbásicos del modelo de regresión
lineal. Errorestándardeestimación. Intervalos de
predicciónparala media y para unaobservación.
Verificación dehipótesis parael coeficiente de
regresión. Limitaciones dela regresión lineal.
Varianciaexplicada y no explicada.Coeficiente de
determinaciónR2 (Bondad de ajuste)
Supuestos
El valor de a y b varían dependiendo de la muestra seleccionada
y por ello es importante saber los supuestos del modelo:
•Cada valor de x tiene una población de y.
•Las poblaciones de y siguen una distribución normal.
•Las medias de las y están sobre la línea de regresión.
•Las variancias de esas poblaciones son iguales.
Evaluacióndelossupuestosdelmodeloderegresiónlineal
Existe una relación
lineal
Normalidad
Homocedasticidad:
la variación de los
residuos es normal
Las variaciones
independientes no
deben estar
correlacionadas
Los residuos son
independientes
1. Relación lineal
Se requiere que existan relaciones lineales.
Esta suposición se puede evaluar con diagramas de
dispersión y gráficas de residuos.
Estos diagramas ayudan a visualizar las relaciones y
proporcionan una información inicial respecto de la
dirección (positiva o negativa), la linealidad y la fuerza de
la relación.
• Diagramas de dispersión de la variable dependiente
con cada variable independiente.
• Gráfica de residuos. Ayudan a evaluar la linealidad de
la ecuación de regresión múltiple.
2. Normalidad
Se requiere que los datos sean normales.
3. Homocedasticidad
La variación entre los residuos es la misma tanto en valores grandes como
pequeños de yˆ. Es decir, que respecto a la ecuación de regresión la variación es
igual para todos los valores de las variables independientes. (y - yˆ )
La variación respecto a los valores de predicción a lo largo del tiempo. (gráfica de
residuos)
Se requiere que haya homocedasticidad.
4. Multicolinealidad
La multicolinealidad existe cuando las variables independientes están correlacionadas. Se
requiere que no exista multicolinealidad.
La multicolinealidad no afecta la capacidad de una ecuación de regresión múltiple para
predecir la variable dependiente; no obstante, cuando se tenga interés en evaluar la
relación entre cada variable independiente y la variable dependiente, la multicolinealidad
puede presentar resultados inesperados.
Coeficiente de determinación de variable independiente seleccionada como variable
dependiente
VIF>10 es insatisfactorio: variable independiente analizada se relaciona con el resto de
variables independientes
Factor de inflación de la varianza VIF =
1
1−𝑅𝑗
2
5. Independencia
1. Los residuos sucesivos deben ser independientes:
1. Residuos no tienen un patrón
2. No están muy correlacionados
3. No hay corridas largas de residuos positivos o negativos
2. Se requiere que los residuos sean independientes
3. Cuando los residuos sucesivos están correlacionados se le llama autocorrelación
Es conveniente conocer el grado de confiabilidad del modelo.
Para lo cual se puede utilizar tres estadísticos:
Error estándar de estimación
Verificación de hipótesis del coeficiente
de regresión
Coeficiente de determinación
Error estándar de estimación
Existen diferencias entre los valores reales y los estimados, por
ende existe variabilidad. Esta variabilidad se puede medir
mediante el error estándar de estimación (desviación estándar
de pares de observaciones).
𝑆𝑒 =
σ 𝑌𝑖
2
− 𝑎 σ 𝑌𝑖 − 𝑏 σ 𝑋𝑖 ∗ 𝑌𝑖
𝑛 − 2
Permite evaluar el modelo de regresión, se logra identificar la
dispersión de los datos reales respecto a la línea de mejor
ajuste.
Verificación dehipótesis del coeficiente deregresión
El modelo de regresión se ajusta con datos muestrales, por lo que
surge la duda sobre el comportamiento en la población.
𝐻0: 𝛽1 = 0 𝐻1: 𝛽1 ≠ 0
Para verificar la hipótesis:
𝑇𝑐 =
𝑏 − 𝛽1
𝑠𝑏
𝑠𝑏 =
𝑠𝑒
𝑆𝐶𝑥
𝑆𝐶𝑥 =
σ 𝑥2
− σ 𝑥 2
𝑛
Comparo con 𝑇𝑡 de n-2 grados de libertad.
Coeficiente de determinación
También se conoce con el nombre de bondad de ajuste.
𝜌2 =
σ ෠
𝑌𝑖− ത
𝑦 2
σ 𝑦𝑖− ത
𝑦 2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑑𝑒 𝑦
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑦
= 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2
Donde:
σ 𝑦𝑖 − ത
𝑦 2
= σ ෠
𝑌𝑖 − ത
𝑦
2
+ σ 𝑦𝑖 − ෠
𝑌𝑖
2
Indica el nivel de asociación entre las
variables dependiente e independiente
en un modelo de regresión
Variación total:
Suma de los reales
menos la media
Variación explicada:
Suma de los reales menos
los estimados al cuadrado
Variación no explicada:
Suma de los estimados menos la
media al cuadrado
Coeficiente de determinación
También se conoce con el nombre de bondad de ajuste.
𝜌2 =
σ ෠
𝑌𝑖− ത
𝑦 2
σ 𝑦𝑖− ത
𝑦 2 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑑𝑒 𝑦
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑦
= 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2
Donde:
σ 𝑦𝑖 − ത
𝑦 2 = σ ෠
𝑌𝑖 − ത
𝑦
2
+ σ 𝑦𝑖 − ෠
𝑌𝑖
2
𝜌2 es una proporción: porcentaje de la variabilidad de y que es
explicada por el modelo de regresión.
0 ≤ 𝜌2
≤ 1 0 ≤ 𝑟2
≤ 1
En la medida que se acerque a 1 indica que el modelo predice
en forma más precisa.
Intervalos de predicción de regresión
Para un valor
particular de
y (predicción)
• 𝐿𝑖 = ො
𝑦 ± 𝑇𝛼
2
𝑠𝑒 1 +
1
𝑛
+
𝑥0− ത
𝑋 2
𝑆𝐶𝑥
• 𝑇𝛼
2
valor de la tabla t-student con n-2 gl.
Para la media
de los valores
de y
(intervalo de
confianza)
• 𝐿𝑖 = ො
𝑦 ± 𝑇𝛼
2
𝑠𝑒
1
𝑛
+
𝑥0− ത
𝑋 2
𝑆𝐶𝑥
• 𝑇𝛼
2
valor de la tabla t-student con n-2 gl.
Para el
coeficiente
de regresión
• 𝐿𝑖 = 𝑏 ± 𝑇𝛼
2
𝑠𝑏 𝑑𝑜𝑛𝑑𝑒 𝑠𝑏 =
𝑠𝑒
𝑆𝐶𝑥
• 𝑇𝛼
2
valor de la tabla t-student con n-2 gl.
Limitaciones del modelo
Correlación no significa causalidad y una asociación por intensa
que sea, no puede establecer asociación causal.
Tener cuidado cuando dos variables no relacionadas parecen
tener alguna relación. Aunque el coeficiente de regresión sea
positivo podría no tener sentido la relación.
Tener cuidado con predicciones muy alejadas del intervalo de
valores reales de la variable independiente.
Cuando se tiene valores de r2 cercanos a cero significa que no
se tiene una relación lineal, pero es posible establecer otra
relación.
Interpretación
Se presenta los resultados en excel de un estudio con diez mujeres para
correlacionar la edad con el nivel de estradiol en la sangre (pg/mL)
(producto de fármacos para combatir el cáncer):
Coeficiente de correlación = -0,97 → Existe una asociación lineal muy alta e
inversa entre la edad y el nivel de estradiol en la sangre de las mujeres
Coeficiente de regresión = -4,29 → Por cada año de edad adicional en las
mujeres se espera una disminución del nivel de estradiol en la sangre de
4,29 pg/mL
Coeficiente de determinación (Bondad de ajuste) = 0,9427 → El 94,27% de
la variabilidad del nivel de estradiol en la sangre de las mujeres se explica
por su relación lineal con la edad de las mismas
Estadísticas de la regresión
Coeficiente de correlación -0,97094
Error típico 17,34575
Observaciones 10
Coeficientes Error típico Estadístico t Probabilidad
Intercepción 279,23030 15,67039 17,81897 0,0000001
Edad -4,29585 0,37437 -11,47490 0,0000030
1) Coeficiente de determinación
(bondad de ajuste)
100% Modelo perfecto
2) Error estándar de estimación
Cuanto se desvía en promedio cada par de la línea de regresión
Buen modelo : Se (pequeño)
3) Verificación de hipótesis para el coeficiente de regresión
Ho: B = 0 H1: B ≠ 0
Buen modelo debe rechazarse Ho
Resumiendo: Formasde validar la ecuaciónde
regresión
4.9 Regresión no lineal y múltiple.
Correlación múltiple y parcial
Regresión Múltiple ynolineal
Se utiliza cuando interesa incorporar más de una variable
independiente explicativa en el modelo.
Donde:
ො
𝑦 es el valor estimado para la variable dependiente
𝑏𝑖 (coeficientes parciales) son los valores estimados para los
coeficientes de poblacionales de regresión βi y se interpretan
igual que en la regresión lineal simple.
ො
𝑦 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 + ε
Variable
dependiente
Variables independientes
Término de
error aleatorio
Para la regresión múltiple, el valor de los 𝑏𝑖 es la cantidad en que
cambia 𝑦𝑖 cuando 𝑥𝑖 cambia en una unidad, asumiendo que las
demás variables independientes se mantienen constantes.
En el modelo de regresión múltiple se tiene dos supuestos
adicionales:
1.El número de observaciones “n” debe exceder el número de
variables independientes en el modelo de regresión múltiple
“k” en por lo menos 2. El número de grados de libertad sería
n-(k+1).
2.Ninguna de las variables independientes incluidas en modelo
debe estar relacionada linealmente (multicolinealidad)
Regresión Múltiple
Multicolinealidad
La multicolinealidad causa errores en los coeficientes
individuales, aunque el efecto combinado no altere
drásticamente el modelo de predicción diseñado para predecir
el valor de 𝑦, con base en los 𝑥𝑖 combinados.
Entre más variables independientes se incluyan en el modelo, la
probabilidad de multicolinealidad será mayor
De presentarse este problema, lo más sencillo es eliminar la
variable, pero esto podría hacer que se incurra en un sesgo de
especificación.
Coeficiente de determinación ajustado (R²) ajustado
Cada variable independiente que se agrega a la ecuación de regresión lineal hace
que el coeficiente de determinación crezca.
El coeficiente de determinación múltiple es el porcentaje de variación de la
variable dependiente 𝑦 explicada por el conjunto de variables independientes
𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑘,
Para balancear el número de variables se utiliza el coeficiente de determinación
ajustado.
CME
CMT
𝑅2
= 1 −
𝐶𝑀𝐸
𝐶𝑀𝑇
Prueba global: prueba del modelo de regresión múltiple
Es posible demostrar la capacidad de las variables independientes X1, X2, . . . , Xk para
explicar el comportamiento de la variable dependiente Y.
La pregunta a contestar: cuál de las variables están significativamente relacionadas
con la variable dependiente?
Se investiga si es posible que todas las variables independientes tengan coeficientes de
regresión cero.
Al menos uno (no necesariamente todos) de los coeficientes de regresión son distintos de
cero, y por ende son útiles para realizar predicciones.
Donde k es la cantidad de
variables independientes
Evaluación de los coeficientes de regresión individuales
¿Por qué es importante saber si algunas de los coeficientes son iguales a cero?
Si un coeficiente puede ser igual a cero, esta variable independiente no tiene
valor para explicar alguna variación del valor dependiente.
Si hay coeficientes con respecto a los cuales Ho no se puede rechazar, quizá
sea prudente eliminarlos de la ecuación de regresión.
En muchas situaciones la variable de interés o dependiente se
explica con su relación con varias variables.
Ejemplo: Un banco desea estimar el ingreso de altos ejecutivos
con base en el valor de la casa de habitación, los años de
educación, la edad y el monto de la hipoteca de la casa.
*en colones
**en años
෠
𝑌𝑖 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 +𝑏3𝑥3 +𝑏4𝑥4
෠
𝑌𝑖: ingreso
𝑥1: hipoteca
𝑥2: educación
𝑥3: edad
𝑥4: valor de la casa
Se trata de predecir el ingreso del cliente a partir del valor de la
casa de habitación, los años de educación, la edad y el monto
de la hipoteca de la casa.
෠
𝑌𝑖 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 +𝑏3𝑥3 +𝑏4𝑥4
෠
𝑌𝑖 = 1334149,66 + 0,00263769𝑥1 + 30400,63𝑥2
− 1979,62746𝑥3 −9,5042𝐸 − 5𝑥4
Con base en esta ecuación se puede estimar el ingreso para
una persona de 50 años de edad, 14 años de estudio, una casa
hipotecada de 90 millones de colones y un valor de 190
millones de colones. (sustituyendo)

Más contenido relacionado

Similar a Tema 4 Correlación y regresión.pdf

Correlacion de Pearson
Correlacion de PearsonCorrelacion de Pearson
Correlacion de PearsonValentina
 
ABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de PearsonABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de PearsonLuis Medina Gual
 
Correlación de pearson y sperman
Correlación de pearson y sperman Correlación de pearson y sperman
Correlación de pearson y sperman Miri Orsetti
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxEleazar86
 
correlación de Pearson y de Sperman
correlación de Pearson y de Spermancorrelación de Pearson y de Sperman
correlación de Pearson y de SpermanEdelmiraPernett
 
Coeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y SpearmanCoeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y SpearmanJCMENESESV
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptxPEALOZACASTILLOCINTI
 

Similar a Tema 4 Correlación y regresión.pdf (20)

correlación
correlación correlación
correlación
 
Correlacion de Pearson
Correlacion de PearsonCorrelacion de Pearson
Correlacion de Pearson
 
Correlación PEARSON
Correlación PEARSONCorrelación PEARSON
Correlación PEARSON
 
ABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de PearsonABC de la Correlación Bivariada de Pearson
ABC de la Correlación Bivariada de Pearson
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
 
Correlación de pearson y sperman
Correlación de pearson y sperman Correlación de pearson y sperman
Correlación de pearson y sperman
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptx
 
Pearson
PearsonPearson
Pearson
 
Regrecion lineal simple
Regrecion lineal simpleRegrecion lineal simple
Regrecion lineal simple
 
Spearman y Pearson
Spearman y PearsonSpearman y Pearson
Spearman y Pearson
 
estbas7pg104 (1).ppt
estbas7pg104 (1).pptestbas7pg104 (1).ppt
estbas7pg104 (1).ppt
 
estbas7pg104.ppt
estbas7pg104.pptestbas7pg104.ppt
estbas7pg104.ppt
 
correlación de Pearson y de Sperman
correlación de Pearson y de Spermancorrelación de Pearson y de Sperman
correlación de Pearson y de Sperman
 
Regresion lineal multiple
Regresion lineal multipleRegresion lineal multiple
Regresion lineal multiple
 
PRESENTACION 2 PH.pptx
PRESENTACION  2 PH.pptxPRESENTACION  2 PH.pptx
PRESENTACION 2 PH.pptx
 
Coeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y SpearmanCoeficiente de Correlación de Pearson y Spearman
Coeficiente de Correlación de Pearson y Spearman
 
Prueba de Hipótesis.pdf
Prueba de Hipótesis.pdfPrueba de Hipótesis.pdf
Prueba de Hipótesis.pdf
 
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
CORRELACION.pdf
CORRELACION.pdfCORRELACION.pdf
CORRELACION.pdf
 

Último

Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfJC Díaz Herrera
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfBiografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfANGELEFRENCUAUTLEOCE
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdfAnaBelindaArmellonHi
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 

Último (20)

Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfBiografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 

Tema 4 Correlación y regresión.pdf

  • 2. Lecturas Tema Lind 17a edición (lectura obligatoria) Sweeney 12a. ed (lectura obligatoria Webster (lectura complementaria) Díaz (lectura complementaria) Gómez 4ª y 5ª edición (lectura complementaria) 4 380-412 545-283 322-380 584-629
  • 4. Los análisis univariables en muchas situaciones son insuficientes para explicar apropiadamente el fenómeno estudiado. Pueden intervenir diversos factores, por lo que, el análisis simultáneo de las variables produce una mejor explicación. Los análisis de correlación y regresión han demostrado con frecuencia su utilidad en la toma de decisiones, para una gran variedad de negocios y asuntos económicos. Existen ciertas limitaciones en su aplicación e interpretación, dado que no es posible determinar relaciones de causa – efecto.
  • 5. Definiciones Correlación lineal simple: Mide la asociación lineal entre dos variables. Determinar si existe asociación entre las variables estudiadas. Regresión: Establece una relación lineal entre dos variables para poder pronosticar. Son apropiados cuando las variables tienen escalas de razón o intervalo. Análisis de correlación y regresión lineal simples: relaciones son de naturaleza lineal, sólo se integran dos variables.
  • 6. Describir: • ¿Qué tan fuerte es la relación entre la calificación y las horas de estudio? • ¿Qué dirección tiene la relación entre la calificación y las horas de estudio? Decidir: • ¿Existe una relación estadísticamente significativa entre la calificación y las horas de estudio? Predecir: • Dada una cantidad particular de horas de estudio, ¿qué calificación esperamos? Correlación y regresión lineal simple
  • 7. 4.2 La correlación lineal simple. Diagrama de dispersión.
  • 8. Correlación lineal simple Pretende descubrir si existe asociación lineal entre dos variables. Estudiantes por horas de estudio y notas obtenidas en Estadística Estudiante Horas de estudio Nota Allan 2 4 Marcelo 4 7 Roxana 6 8 Adrian 4 6 Andrea 2 5 Karen 3 4 Randall 6 7 Silvia 5 7
  • 9. Diagrama de dispersión Representación en un sistema de coordenadas rectangulares los pares de datos. 0 2 4 6 8 10 0 2 4 6 8 Nota Horas de estudio Horas de estudio y notas obtenidas Eje de las ordenadas Eje de las abscisas
  • 10. Coeficiente de correlación lineal (Pearson) Mide la asociación lineal entre dos variables. Indica si la relación: ¿Es fuerte o débil la relación, o es directa o inversa? Importante: nivel de medición intervalo o razón Ejemplos: ¿Existe alguna relación entre la cantidad que una empresa gasta por mes en publicidad y sus ventas mensuales? ¿El número de metros cuadrados en una casa está relacionado con su costo de calefacción en enero? En un estudio de eficiencia de combustible, ¿existe una relación entre las millas por galón y el peso del auto? ¿Hay alguna relación entre el número de horas que estudian lxs alumnxs para un examen y la calificación que obtienen?
  • 11. Coeficiente de correlación lineal (Pearson) Establecer si existe asociación lineal entre dos variables. ¿Existe asociación entre peso y estatura? Estatura Peso 160 84 162 95 164 140 166 155 168 119 170 175 172 145 174 197 176 150 0 50 100 150 200 250 155 160 165 170 175 180 Peso Estatura
  • 12. 4.3 La medición de la correlación lineal. Cálculo del coeficiente de correlación lineal simple (r)
  • 13. Coeficiente de correlación lineal (coeficiente de correlación de Pearson) Mide la fuerza de asociación entre las variables. 𝑟 = 𝑛 σ 𝑥𝑦−σ 𝑦 σ 𝑥 𝑛 σ 𝑥2− σ 𝑥 2 𝑛 σ 𝑦2− σ 𝑦 2 𝑑𝑜𝑛𝑑𝑒 − 1 ≤ 𝑟 ≤ 1 En caso de que los datos se refieran a una población, el coeficiente de correlación lineal se denota con la letra 𝜌.
  • 14. Ejemplo Estudiante Horas de estudio Nota xy x2 y2 Allan 2 4 8 4 16 Marcelo 4 7 28 16 49 Roxana 6 8 48 36 64 Adrian 4 6 24 16 36 Andrea 2 5 10 4 25 Karen 3 4 12 9 16 Randall 6 7 42 36 49 Silvia 5 7 35 25 49 Sumatoria 32 48 207 146 304 𝑟 = 𝑛 σ 𝑥𝑦 − σ 𝑦 σ 𝑥 𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2 = 8 ∗ 207 − (32 ∗ 48) 8 ∗ 146 − 322 8 ∗ 304 − 482 𝑟 = 0,8839
  • 15. En Excel: Análisis de Datos->Coeficiente de correlación Ejemplo en Excel Estudiante Horas de estudio Nota Allan 2 4 Marcelo 4 7 Roxana 6 8 Adrian 4 6 Andrea 2 5 Karen 3 4 Randall 6 7 Silvia 5 7 Sumatoria 32 48 En Excel: =COEF.DE.CORREL(C4:C11;D4:D11) Horas de estudio Nota Horas de estudio 1 Nota 0,88388348 1
  • 16. 4.4 Interpretación, uso y limitación de r. Correlación y causalidad. Verificación de hipótesis.
  • 17. Interpretación Signo: indica el sentido de la asociación • + (directa) • - (inversa) Valor: indica la intensidad de la asociación • 0 ˂ r ≤ 0,3 o -0,3 ≤ r ˂ 0 (asociación muy baja) • 0,3 ≤ r ˂ 0,5 o -0,5 ≤ r ˂ -0,3 (asociación baja) • 0,5 ≤ r ˂ 0,7 o -0,7 ≤ r ˂ -0 ,5 (asociación moderada) • 0,7 ≤ r ˂ 0,9 o -0,9 ≤ r ˂ -0,7 (asociación alta) • 0,9 ≤ r ˂ 1 o -1˂ r ≤ -0,9 (asociación muy alta) En el ejemplo anterior: r=0,8839. Se puede concluir que existe una asociación alta y directa entre las horas de estudio y las notas obtenidas.
  • 18. Caso ideal: r cercana a 1 o -1 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Y X -12 -10 -8 -6 -4 -2 0 0 2 4 6 8 10 12 Y X Fuerte correlación lineal positiva (r cerca de 1) Fuerte correlación lineal negativa (r cerca de -1) 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 Y X Ninguna correlación lineal aparente (r cerca de 0) 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 12 14 Y X Correlación curvilínea (r cerca de 0)
  • 19. Correlación y causalidad 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 ≠ 𝐶𝑎𝑢𝑠𝑎𝑙𝑖𝑑𝑎𝑑 Una asociación por intensa que sea, no puede establecer una asociación causal.
  • 20. Pruebade hipótesis de coeficiente de correlación Para analizar la intensidad de la asociación de las variables, lo apropiado sería realizar una verificación de hipótesis del coeficiente de correlación lineal poblacional (𝜌). 𝐻0: 𝜌 = 0 𝐻1: 𝜌 > 0 𝑇𝑐 = 𝑟 − 𝜌 𝑠𝑟 r: coeficiente de correlación de la muestra 𝜌: coeficiente de correlación poblacional 𝑠𝑟: desviación estándar de r n: pares de datos del conjunto Desviación estándar de r: 𝑠𝑟 = 1 − 𝑟2 𝑛 − 2 Comparamos con 𝑇𝑡 con n-2 grados de libertad.
  • 21. Ejemplo 𝐻0: 𝜌 = 0 𝐻1: 𝜌 > 0 Desviación estándar de r: 𝑠𝑟 = 1 − 𝑟2 𝑛 − 2 = 1 − 0,88392 8 − 2 = 0,19 𝑇𝑐 = 𝑟 − 𝜌 𝑠𝑟 = 0,8839 − 0 0,19 = 4,63 Con 𝛼 = 5% 𝑔𝑙 = 𝑛 − 2 = 8 − 2 = 6 𝑇𝑡 = 1,9432 𝑇𝑐 > 𝑇𝑡 → 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝐻0 Por tanto, el coeficiente de correlación poblacional es mayor que 0, lo que implica que las horas de estudio y las notas se encuentran asociadas. En Excel: =INV.T(0,05;6)
  • 22. Coeficiente de correlación parcial Podría interesar la correlación entre dos variables eliminando el efecto de una tercera variable que las influye. Coeficiente de correlación parcial: determina la asociación entre las variables X y Y eliminando el efecto de la variable Z. 𝑟𝑥𝑦𝑧 = 𝑟𝑥𝑦 − 𝑟𝑥𝑧 ∗ 𝑟𝑦𝑧 1 − 𝑟𝑥𝑧 2 ∗ 1 − 𝑟𝑦𝑧 2
  • 23. Ejemplo A medida de que aumenta la cantidad de televisores en el hogar, disminuye la cantidad de niños. Esto no quiere decir que la cantidad de televisores evitan los hijos en los hogares. Se podría afirmar que la cantidad de televisores está asociada al ingreso del hogar. Las familias de ingresos mayores tienen menos hijos. 𝑥 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒𝑠 𝑦 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑖𝑗𝑜𝑠 𝑧 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑟𝑥𝑦 = 0,2 𝑟𝑦𝑧 = 0,7 𝑟𝑥𝑧 = 0,8 La correlación de 0,2 es baja; sin embargo, es probable que dicha asociación esté influenciada por el ingreso familiar, por tanto sería útil realizar el recálculo de esta correlación eliminando el efecto del ingreso familiar.
  • 24. Ejemplo 𝑥 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒𝑠 𝑦 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 ℎ𝑖𝑗𝑜𝑠 𝑧 = 𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑟𝑥𝑦 = 0,2 𝑟𝑦𝑧 = 0,7 𝑟𝑥𝑧 = 0,8 𝑟𝑥𝑦𝑧 = 𝑟𝑥𝑦 − 𝑟𝑥𝑧 ∗ 𝑟𝑦𝑧 1 − 𝑟𝑥𝑧 2 ∗ 1 − 𝑟𝑦𝑧 2 = 0,2 − (0,7 ∗ 0,8) 1 − 0,72 ∗ 1 − 0,82 = −0,84 La correlación entre la cantidad de televisores y el número de hijos es de -0,84, pero eliminando el efecto del ingreso, ósea un valor más alineado a la creencia popular.
  • 25. ➢ Una relación funcional entre dos variables se expresa mediante una fórmula matemática. Si X denota la variable independiente y Y la variable dependiente, una relación funcional es de la forma: Y = f(X) ➢ Una relación estadística no es perfecta. En general, las observaciones no se encuentran directamente sobre la curva de la relación. ➢ El coeficiente de correlación mide solo la asociación lineal. Dos variables pueden tener una relación curvilínea fuerte, a pesar de que su correlación lineal sea pequeña. Por tanto cuando analicemos las relaciones entre dos variables debemos representarlas gráficamente y posteriormente calcular el coeficiente de correlación. Consideraciones varias 50 60 70 80 90 100 Evaluación final año 50 60 70 80 90 100 Evaluación medio año Y = 1,96 + 0,97 X 0 5 10 15 20 25 Nivel esteroides 0 5 10 15 20 25 Edad Y= -47,26 + 7,95X -0.23X2
  • 26. ➢En la relación entre nivel de esteroides y edad se puede asumir que aunque la magnitud del nivel de esteroides es una función de la edad, la edad no es determinada por el nivel de esteroides. ➢La edad no es el único determinante biológico para el nivel de esteroides pero se puede considerar como un factor determinante. ➢Las variables independientes se llaman “predictores” o “regresores” y las dependientes “respuestas”. ➢El término “dependiente” no implica una relación de causa-efecto entre las dos variables. Correlación y causalidad
  • 27. 4.5 Relación entre dos variables. Regresión lineal
  • 28. Modelo estadístico que permite predecir el valor que asume una variable dependiente (y), a partir del valor conocido de otra independiente (x). 𝑋 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑌 = 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 El modelo supone una asociación lineal entre las variables. Ecuación de regresión: ecuación lineal que expresa la relación lineal entre dos variables.
  • 29. Cuando se desea establecer una regresión lineal entre las variables en estudio, se debe indicar que se trata de establecer una línea recta y para ello basta tener dos puntos en el diagrama. 𝑦 = 𝑎 + 𝑏𝑥 y: pronóstico a: intersección (corte del eje vertical) b: pendiente de la recta x: variable independiente
  • 30. La ecuación de regresión está dada por: 𝑦 = 𝑎 + 𝑏𝑥 Donde: 𝑦: es la variable dependiente 𝑎: es el valor que toma la variable dependiente “y” cuando la variable independiente “x” vale cero, también se denomina intercepto o punto de corte de la recta con el eje y 𝑏: es el incremento negativo o positivo en la variable dependiente “y” cada vez que la variable independiente “x” se incrementa en una unidad. También indica la inclinación de la recta respecto al eje X. 𝑥: es la variable independiente
  • 31. Regresión lineal simple 𝑦 = 𝑎 + 𝑏 𝑥 Variable independiente Variable dependiente Pendiente Intersección Constantes 𝑏 = 𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦 𝑛 σ 𝑥2 − σ 𝑥 2 𝑎 = σ 𝑦 𝑛 − 𝑏 σ 𝑥 𝑛 𝑦 = 𝑏𝑥 + 𝑎
  • 32. Regresión linealsimple La variable de respuesta se puede explicar por un solo predictor. Toda observación puede ser expresada como una combinación lineal de la variable independiente más un error aleatorio. Se están estimando dos parámetros simultáneamente (a y b) que implican la estimación de una línea. El modelo permite estimar el valor esperado de Y, llamado ො 𝑦 , para un valor específico de X. Para esto utiliza los valores estimados de los coeficientes a y b.
  • 33. 4.6 Criterio de cuadrados mínimos. Ecuaciones normales. Ajuste de la línea de regresión
  • 34. 4.7 Interpretación y uso de la recta de regresión. El coeficiente de regresión lineal
  • 35. Procedimiento de los mínimos cuadrados Procedimiento matemático que emplea datos para ubicar una línea con la finalidad de minimizar la suma de los cuadrados de las distancias verticales entre los valores observados y predichos. Propósito: determinar la recta que mejor se ajusta a los datos muestrales. Método de mínimos cuadrados: asegura que la suma de las diferencias entre los valores estimados y los observados sea mínima. 0 2 4 6 8 10 12 0 2 4 6 8 10 12 Y X ¿Cuál línea es la mejor?
  • 36. Permite realizar una estimación confiable ya que garantiza que la suma de los errores o desvíos al cuadrado sea mínima SU IMPORTANCIA FUNDAMENTAL RADICA EN QUE NINGUNA OTRA RECTA DARÍA LA SUMA MENOR DE LAS DESVIACIONESELEVADAS AL CUADRADO.
  • 37. Procedimiento de los mínimos cuadrados 𝑏 = 𝑛 σ 𝑋𝑖 𝑌𝑖 − σ 𝑋𝑖 σ 𝑌𝑖 𝑛 σ 𝑋𝑖 2 − σ 𝑋𝑖 2 𝑎 = ത 𝑦 − 𝑏 ҧ 𝑥 1. Encontrar una ecuación para describir la forma de relación entre las variables 2. Estimar una variable a partir de otra variable; la variable que se estima es la dependiente y la variable a partir del cual se estima es la independiente. Coeficiente de regresión Intercepto
  • 38. Ejemplo Pendiente de la recta o coeficiente de regresión: 𝑏 = 𝑛 σ 𝑋𝑖 𝑌𝑖 − σ 𝑋𝑖 σ 𝑌𝑖 𝑛 σ 𝑋𝑖 2 − σ 𝑋𝑖 2 = 8 ∗ 207 − 32 ∗ 48 8 ∗ 146 − 322 = 0,8333 Por cada hora de estudio adicional se espera que la nota se incremente en 0,8333 puntos. Intersección: 𝑎 = ത 𝑦 − 𝑏 ҧ 𝑥 = 48 8 − 0,8333 ∗ 32 8 = 2,6667 Ecuación de regresión: ෠ 𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖
  • 39. Ecuación de regresión: ෠ 𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖 Es posible estimar notas para cada cantidad de horas en particular. Nota de alguien que estudia siete horas: ෠ 𝑌𝑖 = 𝑎 + 𝑏𝑥 = 2,6667 + 0,8333𝑥𝑖 = 2,6667 + 0,8333 ∗ 7 = 8,5 Si el estudiante invierte 7 horas se espera que obtenga una nota de 8,5.
  • 40. y = 0,8333x + 2,6667 R² = 0,7812 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 Nota Horas de estudio Nota En Excel Resumen Estadísticas de la regresión Coeficiente de correlación múltiple 0,88388348 Coeficiente de determinación R^2 0,78125 R^2 ajustado 0,74479167 Error típico 0,76376262 Observaciones 8 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 2,6667 0,7690 3,4675 0,0133 0,7849 4,5485 Horas de estudio 0,8333 0,1800 4,6291 0,0036 0,3928 1,2738 Coeficiente de correlación = -0,88 → Existe una asociación lineal alta e inversa entre las horas de estudio y la nota de los estudiantes. Coeficiente de regresión = 0,83→ Por cada hora de estudio adicional se espera un aumento en la nota de 0,83 puntos Coeficiente de determinación (Bondad de ajuste) = 0,78 → El 78,12% de la variabilidad de las notas de los estudiantes se explica por su relación lineal con las horas de estudio
  • 41. 4.8 Lossupuestosbásicos del modelo de regresión lineal. Errorestándardeestimación. Intervalos de predicciónparala media y para unaobservación. Verificación dehipótesis parael coeficiente de regresión. Limitaciones dela regresión lineal. Varianciaexplicada y no explicada.Coeficiente de determinaciónR2 (Bondad de ajuste)
  • 42. Supuestos El valor de a y b varían dependiendo de la muestra seleccionada y por ello es importante saber los supuestos del modelo: •Cada valor de x tiene una población de y. •Las poblaciones de y siguen una distribución normal. •Las medias de las y están sobre la línea de regresión. •Las variancias de esas poblaciones son iguales.
  • 43. Evaluacióndelossupuestosdelmodeloderegresiónlineal Existe una relación lineal Normalidad Homocedasticidad: la variación de los residuos es normal Las variaciones independientes no deben estar correlacionadas Los residuos son independientes
  • 44. 1. Relación lineal Se requiere que existan relaciones lineales. Esta suposición se puede evaluar con diagramas de dispersión y gráficas de residuos. Estos diagramas ayudan a visualizar las relaciones y proporcionan una información inicial respecto de la dirección (positiva o negativa), la linealidad y la fuerza de la relación. • Diagramas de dispersión de la variable dependiente con cada variable independiente. • Gráfica de residuos. Ayudan a evaluar la linealidad de la ecuación de regresión múltiple.
  • 45. 2. Normalidad Se requiere que los datos sean normales.
  • 46. 3. Homocedasticidad La variación entre los residuos es la misma tanto en valores grandes como pequeños de yˆ. Es decir, que respecto a la ecuación de regresión la variación es igual para todos los valores de las variables independientes. (y - yˆ ) La variación respecto a los valores de predicción a lo largo del tiempo. (gráfica de residuos) Se requiere que haya homocedasticidad.
  • 47. 4. Multicolinealidad La multicolinealidad existe cuando las variables independientes están correlacionadas. Se requiere que no exista multicolinealidad. La multicolinealidad no afecta la capacidad de una ecuación de regresión múltiple para predecir la variable dependiente; no obstante, cuando se tenga interés en evaluar la relación entre cada variable independiente y la variable dependiente, la multicolinealidad puede presentar resultados inesperados. Coeficiente de determinación de variable independiente seleccionada como variable dependiente VIF>10 es insatisfactorio: variable independiente analizada se relaciona con el resto de variables independientes Factor de inflación de la varianza VIF = 1 1−𝑅𝑗 2
  • 48. 5. Independencia 1. Los residuos sucesivos deben ser independientes: 1. Residuos no tienen un patrón 2. No están muy correlacionados 3. No hay corridas largas de residuos positivos o negativos 2. Se requiere que los residuos sean independientes 3. Cuando los residuos sucesivos están correlacionados se le llama autocorrelación
  • 49. Es conveniente conocer el grado de confiabilidad del modelo. Para lo cual se puede utilizar tres estadísticos: Error estándar de estimación Verificación de hipótesis del coeficiente de regresión Coeficiente de determinación
  • 50. Error estándar de estimación Existen diferencias entre los valores reales y los estimados, por ende existe variabilidad. Esta variabilidad se puede medir mediante el error estándar de estimación (desviación estándar de pares de observaciones). 𝑆𝑒 = σ 𝑌𝑖 2 − 𝑎 σ 𝑌𝑖 − 𝑏 σ 𝑋𝑖 ∗ 𝑌𝑖 𝑛 − 2 Permite evaluar el modelo de regresión, se logra identificar la dispersión de los datos reales respecto a la línea de mejor ajuste.
  • 51. Verificación dehipótesis del coeficiente deregresión El modelo de regresión se ajusta con datos muestrales, por lo que surge la duda sobre el comportamiento en la población. 𝐻0: 𝛽1 = 0 𝐻1: 𝛽1 ≠ 0 Para verificar la hipótesis: 𝑇𝑐 = 𝑏 − 𝛽1 𝑠𝑏 𝑠𝑏 = 𝑠𝑒 𝑆𝐶𝑥 𝑆𝐶𝑥 = σ 𝑥2 − σ 𝑥 2 𝑛 Comparo con 𝑇𝑡 de n-2 grados de libertad.
  • 52. Coeficiente de determinación También se conoce con el nombre de bondad de ajuste. 𝜌2 = σ ෠ 𝑌𝑖− ത 𝑦 2 σ 𝑦𝑖− ത 𝑦 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑑𝑒 𝑦 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑦 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2 Donde: σ 𝑦𝑖 − ത 𝑦 2 = σ ෠ 𝑌𝑖 − ത 𝑦 2 + σ 𝑦𝑖 − ෠ 𝑌𝑖 2 Indica el nivel de asociación entre las variables dependiente e independiente en un modelo de regresión Variación total: Suma de los reales menos la media Variación explicada: Suma de los reales menos los estimados al cuadrado Variación no explicada: Suma de los estimados menos la media al cuadrado
  • 53. Coeficiente de determinación También se conoce con el nombre de bondad de ajuste. 𝜌2 = σ ෠ 𝑌𝑖− ത 𝑦 2 σ 𝑦𝑖− ത 𝑦 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑑𝑒 𝑦 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑦 = 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 2 Donde: σ 𝑦𝑖 − ത 𝑦 2 = σ ෠ 𝑌𝑖 − ത 𝑦 2 + σ 𝑦𝑖 − ෠ 𝑌𝑖 2 𝜌2 es una proporción: porcentaje de la variabilidad de y que es explicada por el modelo de regresión. 0 ≤ 𝜌2 ≤ 1 0 ≤ 𝑟2 ≤ 1 En la medida que se acerque a 1 indica que el modelo predice en forma más precisa.
  • 54. Intervalos de predicción de regresión Para un valor particular de y (predicción) • 𝐿𝑖 = ො 𝑦 ± 𝑇𝛼 2 𝑠𝑒 1 + 1 𝑛 + 𝑥0− ത 𝑋 2 𝑆𝐶𝑥 • 𝑇𝛼 2 valor de la tabla t-student con n-2 gl. Para la media de los valores de y (intervalo de confianza) • 𝐿𝑖 = ො 𝑦 ± 𝑇𝛼 2 𝑠𝑒 1 𝑛 + 𝑥0− ത 𝑋 2 𝑆𝐶𝑥 • 𝑇𝛼 2 valor de la tabla t-student con n-2 gl. Para el coeficiente de regresión • 𝐿𝑖 = 𝑏 ± 𝑇𝛼 2 𝑠𝑏 𝑑𝑜𝑛𝑑𝑒 𝑠𝑏 = 𝑠𝑒 𝑆𝐶𝑥 • 𝑇𝛼 2 valor de la tabla t-student con n-2 gl.
  • 55. Limitaciones del modelo Correlación no significa causalidad y una asociación por intensa que sea, no puede establecer asociación causal. Tener cuidado cuando dos variables no relacionadas parecen tener alguna relación. Aunque el coeficiente de regresión sea positivo podría no tener sentido la relación. Tener cuidado con predicciones muy alejadas del intervalo de valores reales de la variable independiente. Cuando se tiene valores de r2 cercanos a cero significa que no se tiene una relación lineal, pero es posible establecer otra relación.
  • 56. Interpretación Se presenta los resultados en excel de un estudio con diez mujeres para correlacionar la edad con el nivel de estradiol en la sangre (pg/mL) (producto de fármacos para combatir el cáncer): Coeficiente de correlación = -0,97 → Existe una asociación lineal muy alta e inversa entre la edad y el nivel de estradiol en la sangre de las mujeres Coeficiente de regresión = -4,29 → Por cada año de edad adicional en las mujeres se espera una disminución del nivel de estradiol en la sangre de 4,29 pg/mL Coeficiente de determinación (Bondad de ajuste) = 0,9427 → El 94,27% de la variabilidad del nivel de estradiol en la sangre de las mujeres se explica por su relación lineal con la edad de las mismas Estadísticas de la regresión Coeficiente de correlación -0,97094 Error típico 17,34575 Observaciones 10 Coeficientes Error típico Estadístico t Probabilidad Intercepción 279,23030 15,67039 17,81897 0,0000001 Edad -4,29585 0,37437 -11,47490 0,0000030
  • 57. 1) Coeficiente de determinación (bondad de ajuste) 100% Modelo perfecto 2) Error estándar de estimación Cuanto se desvía en promedio cada par de la línea de regresión Buen modelo : Se (pequeño) 3) Verificación de hipótesis para el coeficiente de regresión Ho: B = 0 H1: B ≠ 0 Buen modelo debe rechazarse Ho Resumiendo: Formasde validar la ecuaciónde regresión
  • 58. 4.9 Regresión no lineal y múltiple. Correlación múltiple y parcial
  • 59. Regresión Múltiple ynolineal Se utiliza cuando interesa incorporar más de una variable independiente explicativa en el modelo. Donde: ො 𝑦 es el valor estimado para la variable dependiente 𝑏𝑖 (coeficientes parciales) son los valores estimados para los coeficientes de poblacionales de regresión βi y se interpretan igual que en la regresión lineal simple. ො 𝑦 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 + ε Variable dependiente Variables independientes Término de error aleatorio
  • 60. Para la regresión múltiple, el valor de los 𝑏𝑖 es la cantidad en que cambia 𝑦𝑖 cuando 𝑥𝑖 cambia en una unidad, asumiendo que las demás variables independientes se mantienen constantes. En el modelo de regresión múltiple se tiene dos supuestos adicionales: 1.El número de observaciones “n” debe exceder el número de variables independientes en el modelo de regresión múltiple “k” en por lo menos 2. El número de grados de libertad sería n-(k+1). 2.Ninguna de las variables independientes incluidas en modelo debe estar relacionada linealmente (multicolinealidad) Regresión Múltiple
  • 61. Multicolinealidad La multicolinealidad causa errores en los coeficientes individuales, aunque el efecto combinado no altere drásticamente el modelo de predicción diseñado para predecir el valor de 𝑦, con base en los 𝑥𝑖 combinados. Entre más variables independientes se incluyan en el modelo, la probabilidad de multicolinealidad será mayor De presentarse este problema, lo más sencillo es eliminar la variable, pero esto podría hacer que se incurra en un sesgo de especificación.
  • 62. Coeficiente de determinación ajustado (R²) ajustado Cada variable independiente que se agrega a la ecuación de regresión lineal hace que el coeficiente de determinación crezca. El coeficiente de determinación múltiple es el porcentaje de variación de la variable dependiente 𝑦 explicada por el conjunto de variables independientes 𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑘, Para balancear el número de variables se utiliza el coeficiente de determinación ajustado. CME CMT 𝑅2 = 1 − 𝐶𝑀𝐸 𝐶𝑀𝑇
  • 63. Prueba global: prueba del modelo de regresión múltiple Es posible demostrar la capacidad de las variables independientes X1, X2, . . . , Xk para explicar el comportamiento de la variable dependiente Y. La pregunta a contestar: cuál de las variables están significativamente relacionadas con la variable dependiente? Se investiga si es posible que todas las variables independientes tengan coeficientes de regresión cero. Al menos uno (no necesariamente todos) de los coeficientes de regresión son distintos de cero, y por ende son útiles para realizar predicciones. Donde k es la cantidad de variables independientes
  • 64. Evaluación de los coeficientes de regresión individuales ¿Por qué es importante saber si algunas de los coeficientes son iguales a cero? Si un coeficiente puede ser igual a cero, esta variable independiente no tiene valor para explicar alguna variación del valor dependiente. Si hay coeficientes con respecto a los cuales Ho no se puede rechazar, quizá sea prudente eliminarlos de la ecuación de regresión.
  • 65. En muchas situaciones la variable de interés o dependiente se explica con su relación con varias variables. Ejemplo: Un banco desea estimar el ingreso de altos ejecutivos con base en el valor de la casa de habitación, los años de educación, la edad y el monto de la hipoteca de la casa. *en colones **en años
  • 66. ෠ 𝑌𝑖 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 +𝑏3𝑥3 +𝑏4𝑥4 ෠ 𝑌𝑖: ingreso 𝑥1: hipoteca 𝑥2: educación 𝑥3: edad 𝑥4: valor de la casa Se trata de predecir el ingreso del cliente a partir del valor de la casa de habitación, los años de educación, la edad y el monto de la hipoteca de la casa.
  • 67.
  • 68. ෠ 𝑌𝑖 = 𝑎 + 𝑏1𝑥1 + 𝑏2𝑥2 +𝑏3𝑥3 +𝑏4𝑥4 ෠ 𝑌𝑖 = 1334149,66 + 0,00263769𝑥1 + 30400,63𝑥2 − 1979,62746𝑥3 −9,5042𝐸 − 5𝑥4 Con base en esta ecuación se puede estimar el ingreso para una persona de 50 años de edad, 14 años de estudio, una casa hipotecada de 90 millones de colones y un valor de 190 millones de colones. (sustituyendo)