Este documento presenta un análisis de regresión múltiple. Explica que la regresión múltiple permite utilizar más de una variable independiente para predecir una variable dependiente. Describe cómo se estiman los parámetros del modelo de regresión múltiple usando el método de mínimos cuadrados. También presenta un ejemplo para ilustrar cómo se desarrolla un modelo de regresión múltiple.
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
UNIDAD 4.- PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
4.1 Bondad de ajuste.
4.1.1 Análisis Ji-Cuadrada.
4.1.2 Prueba de independencia.
4.1.3 Prueba de la bondad del ajuste.
4.1.4 Tablas de contingencia.
4.2 Pruebas no paramétricas.
4.2.1 Escala de medición.
4.2.2 Métodos estadísticos contra no paramétricos.
4.2.3 Prueba de Kolmogorov – Smirnov.
4.2.4 Prueba de Anderson – Darling.
4.2.5 Prueba de Ryan – Joiner.
4.2.6 Prueba de Shappiro – Wilk.
Pruebas de bondad de ajuste y pruebas no parametricasAlez Escandón
UNIDAD 4.- PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS
4.1 Bondad de ajuste.
4.1.1 Análisis Ji-Cuadrada.
4.1.2 Prueba de independencia.
4.1.3 Prueba de la bondad del ajuste.
4.1.4 Tablas de contingencia.
4.2 Pruebas no paramétricas.
4.2.1 Escala de medición.
4.2.2 Métodos estadísticos contra no paramétricos.
4.2.3 Prueba de Kolmogorov – Smirnov.
4.2.4 Prueba de Anderson – Darling.
4.2.5 Prueba de Ryan – Joiner.
4.2.6 Prueba de Shappiro – Wilk.
Descripción de los estadísticos de prueba para diferentes casos de hipótesis en una y dos poblaciones. Para casos de varianzas conocidas y casos de varianzas desconocidas. Para casos de muestra dependientes y muestras independientes.
Descripción de los estadísticos de prueba para diferentes casos de hipótesis en una y dos poblaciones. Para casos de varianzas conocidas y casos de varianzas desconocidas. Para casos de muestra dependientes y muestras independientes.
SEMIOLOGIA DE HEMORRAGIAS DIGESTIVAS.pptxOsiris Urbano
Evaluación de principales hallazgos de la Historia Clínica utiles en la orientación diagnóstica de Hemorragia Digestiva en el abordaje inicial del paciente.
ROMPECABEZAS DE ECUACIONES DE PRIMER GRADO OLIMPIADA DE PARÍS 2024. Por JAVIE...JAVIER SOLIS NOYOLA
El Mtro. JAVIER SOLIS NOYOLA crea y desarrolla el “ROMPECABEZAS DE ECUACIONES DE 1ER. GRADO OLIMPIADA DE PARÍS 2024”. Esta actividad de aprendizaje propone retos de cálculo algebraico mediante ecuaciones de 1er. grado, y viso-espacialidad, lo cual dará la oportunidad de formar un rompecabezas. La intención didáctica de esta actividad de aprendizaje es, promover los pensamientos lógicos (convergente) y creativo (divergente o lateral), mediante modelos mentales de: atención, memoria, imaginación, percepción (Geométrica y conceptual), perspicacia, inferencia, viso-espacialidad. Esta actividad de aprendizaje es de enfoques lúdico y transversal, ya que integra diversas áreas del conocimiento, entre ellas: matemático, artístico, lenguaje, historia, y las neurociencias.
Ponencia en I SEMINARIO SOBRE LA APLICABILIDAD DE LA INTELIGENCIA ARTIFICIAL EN LA EDUCACIÓN SUPERIOR UNIVERSITARIA. 3 de junio de 2024. Facultad de Estudios Sociales y Trabajo, Universidad de Málaga.
3. INTRODUCCIÓN
El procedimiento de Regresión Lineal permite
utilizar más de una variable independiente y
permite llevar a cabo análisis de regresión
múltiple
• En el análisis de regresión
múltiple la ecuación ya no
define una recta en el plano,
sino un hiperplano en un
espacio multidimensional
4. En el caso de una variable dependiente y dos
independientes…
Se necesita tres ejes para poder representar el
diagrama de dispersión
INTRODUCCIÓN
5. Si en lugar de dos variables independientes
utilizáramos tres sería necesario un espacio de
cuatro dimensiones para poder construir el
diagrama de dispersión
POR
TANTO
Con más de dos variables independientes, la
representación gráfica de las relaciones
presentes en un modelo de regresión resulta
poco intuitiva, muy complicada y nada útil
INTRODUCCIÓN
6. Es más fácil y práctico partir de la ecuación del
modelo de regresión lineal:
Y = β0 + β1*X1 + β2*X2 +……..+ βk*Xk + ε
La variable dependiente Y se interpreta como una
combinación lineal de un conjunto de K variables
independientes, cada una de las cuales va acompañada
de un coeficiente β, que indica el peso relativo de esa
variable en la ecuación
La ecuación incluye un componente aleatorio (los residuos
ε) que recoge todo lo que las variables independientes no
son capaces de explicar
INTRODUCCIÓN
7. DATOS PARA REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
Los datos para regresión lineal simple consisten en pares
de observaciones (xi, yi) de dos variables cuantitativas.
Ahora se tiene múltiples variables explicativas, por lo que
la notación será más elaborada.
1 x11 x12 ... x1p y1
2 x21 x22 ... x2p y2
:
N xn1 xn2 ... xnp yn
• Se llamará xij el valor de la j-
ésima variable del i-ésimo
sujeto o unidad (i=1,2,...,n ;
j=1,2,...,p).
• Los datos se pueden
organizar de la siguiente
forma en una base:
• Donde n es el número de casos o tamaño muestral y p
es el número de variables explicatorias.
• Esta es una forma de organizar la base de datos, no
importa el orden de las variables.
8. MODELO DE REGRESIÓN LINEAL
MÚLTIPLE:
Ing. William león Velásquez
El modelo estadístico de regresión lineal múltiple es:
para i= 1, 2, ...,n
La respuesta media es una función lineal de las variables
explicatorias:
Las desviaciones son independientes y normalmente distribuidas
con media 0 y desviación estándar :
Los parámetros del modelo son: µ y , los coeficiente de regresión
y la estimación de la variabilidad, es decir son en total (p + 2)
parámetros.
iippiii xxxy 22110
ppy xxx 22110
),0(~ 2
Ni
9. MODELO DE REGRESIÓN LINEAL
MÚLTIPLE:
Ing. William león Velásquez
Si se supone que la respuesta media está
relacionada con los parámetros a través de la
ecuación:
Esto quiere decir:
Que se puede estimar la media de la variable
respuesta a través de la estimación de los
parámetros de regresión.
Si esta ecuación se ajusta a la realidad entonces
tenemos una forma de describir cómo la media
de la variable respuesta y varía con las variables
explicatorias .
ppy xxx 22110
pxxx ,,, 21
10. ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE.
Ing. William león Velásquez
En regresión lineal simple se usa el método
de mínimos cuadrados para obtener
estimadores del intercepto y de la pendiente.
En regresión lineal múltiple el principio es el
mismo, pero se necesita estimar más
parámetros.
Se llamará a los estimadores
de los parámetros
pbbb ,,, 10
p ,,, 10
11. ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
La respuesta estimada por el modelo para la i-ésima
observación es:
El i-ésimo residuo es la diferencia entre la respuesta
observada y la predicha:
residuo =
El i-ésimo residuo =
ippiii xbxbxbby 22110ˆ
estimadoˆobservado yy
iii yye ˆ
ippiiii xbxbxbbye 22110
12. ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
El método mínimos cuadrados elige los valores de los
estimadores óptimos, es decir, que hacen la suma de
cuadrados de los residuos menor posible.
Es decir, los parámetros estimados minimizan la
diferencia entre la respuesta observada y la respuesta
estimada, lo que equivale a minimizar:
• La fórmula de los estimadores de mínimos cuadrados
para regresión múltiple se complica porque se necesita
notación matricial, sin embargo lo importante es que se
entienda el concepto y se deja a los software hacer
los cálculos.
(𝑦𝑖 − 𝑦𝑖 )2
13. ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
El parámetro σ2 mide la variabilidad de la respuesta
alrededor de la ecuación de regresión en la población.
Como en regresión lineal simple estimamos σ2 como
el promedio de los residuos al cuadrado:
1
ˆ
2
22
pn
e
s i
xy =
(𝑦 𝑖 − 𝑦 𝑖 )2
𝑛−𝑝−1
14. ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
La cantidad (n-p-1) son los grados de libertad
asociados con la estimación de la variabilidad: S2
y/x
S2
y/x es entonces el estimador de la variabilidad de
la respuesta y, tomando en cuenta las variables
explicatorias xj.
Lo distinguimos de que es
la variabilidad de y sin tomar en cuenta las variables
explicativas xj.
𝑆2
𝑦=
(𝑦 𝑖 − 𝑦 𝑖 )2
𝑛−𝑝−1
15. Ing. William león Velásquez
Se ha realizado un estudio a seis obreros
para poder estimar la eficiencia de cada uno
de ellos.
Para ello se ha medido su Ratio de
Puntualidad X1, y su ratio de Habilidad
manual X2
Luego a los mismos trabajadores se le ha
sometido diferentes pruebas para obtener
su nivel de eficiencia.
Los datos obtenidos se muestran a
continuación.
EJEMPLO 1
Eficiencia Y 66.0 43.0 36.0 23.0 22.0 14.0 12.0 7.6
Puntualidad X1 38 41 34 35 31 34 29 32
Habilidad X2 47.5 21.3 36.5 18.0 29.5 14.2 21.0 10.0
• Encuentre un modelo que le permita estimar la eficiencia, si se
conoce de antemano su puntualidad y su habilidad
16. Ing. William león Velásquez
El gráfico para los datos del ejemplo esta dado en la
siguiente figura.
Sólo los modelos de regresión múltiple con dos variables
independientes pueden ser graficados.
EJEMPLO 1
17. Ing. William león Velásquez
MÉTODOS DE MÍNIMOS CUADRADOS
El método de mínimos cuadrados es utilizado para
estimar los parámetros en el modelo de regresión lineal
múltiple
DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
18. Ing. William león Velásquez
Suponga que se tienen n >k observaciones.
Se asume que E(ε) =0 y V(ε) =σ2 y que los errores
son no correlacionados.
El método de mínimos cuadrados minimiza la suma
de cuadrados
con respecto a cada uno de los parámetros del
modelo β0 β1 …..βk
DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
19. DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
Luego las ecuaciones normales son:
20. Ing. William león Velásquez
En esta notación el modelo se expresa como
con
Y= X β + ε
DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
21. Ing. William león Velásquez
donde
Y es el vector de observaciones
X es una matriz de n x p niveles de la variable
regresora
β es un vector p x 1 de coeficientes de regresión
ε es el vector aleatorio error de orden p x 1 .
Es importante recordar que p=k+1 ecuaciones.
Para obtener la solución es conveniente utilizar
notación matricial.
Y= X β + ε
DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
22. Ing. William león Velásquez
La suma de cuadrados del error es dada por
y de manera análoga a la presentada en la
notación matricial para regresión simple se
obtiene que las ecuaciones normales son
DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
23. Ing. William león Velásquez
la cual es similar a las obtenidas anteriormente
Para solucionar las ecuaciones normales se requiere que
exista la inversa de la matriz .
Esta existe siempre que las variables regresoras sean
linealmente independientes. Así, la solución de mínimos
cuadrados de vector parámetrico β es
DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
24. Ing. William león Velásquez
Para los datos del ejemplo:
EJEMPLO 1
Eficiencia Y 66.0 43.0 36.0 23.0 22.0 14.0 12.0 7.6
Puntualidad X1 38 41 34 35 31 34 29 32
Habilidad X2 47.5 21.3 36.5 18.0 29.5 14.2 21.0 10.0
el vector Y y la matriz X son respectivamente
27. Ing. William león Velásquez
El estimador de mínimos cuadrados de β es
EJEMPLO 1
28. Ing. William león Velásquez
Luego el modelo ajustado por mínimos cuadrados es
EJEMPLO 1
29. Ing. William león Velásquez
El director de recursos humanos de Ventas S.A. está
entrevistando y seleccionando nuevos vendedores.
El ha diseñado una prueba que le ayudará a realizar la
mejor selección posible para la fuerza de ventas.
EJEMPLO 2
• Con el fin de probar la validez de
la prueba para predecir las
ventas semanales, él eligió
vendedores experimentados y
aplicó la prueba a cada uno.
• La calificación de cada vendedor
fue entonces pareada con sus
ventas semanales.
30. Tabla de datos
Ing. William león Velásquez
Calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Vendedor Calificación
Ventas
semanales
Calificación
histórica
Carlos 4 5,000 2
Manuel 7 12,000 5
María 3 4,000 1
Roberto 6 8,000 4
Carmen 10 11,000 6
EJEMPLO 2
31. Ing. William león Velásquez
La ecuación de regresión simple que tiene una sola variable
independiente tiene la forma general de y' = a + bx.
En el caso de la regresión múltiple la ecuación tiene varias
variables independientes:
y' = b0 + b1x1 + b2x2 + ... + bkxk
ANÁLISIS DE REGRESIÓN MÚLTIPLE
donde:
X1, X2, ... Xk son las variables independientes.
b0 es el punto donde la línea de regresión cruza el
eje de las Y.
b1, b2, ... bk son los coeficientes de regresión.
32. Ing. William león Velásquez
Para encontrar las valores de los coeficientes de la
ecuación de regresión ( b0, b1, b2, ... bk ) se utiliza el método
de mínimos cuadrados que consiste en resolver el siguiente
sistema de ecuaciones simultaneas.
ANÁLISIS DE REGRESIÓN MÚLTIPLE
33. Σy = b0n + b1Σx1 + b2Σx2 + ... + bkΣxk
Σx1y = b0Σx1 + b1Σx1x1 + b2Σx1x2 + ... + bkΣx1xk
Σx2x = b0Σx2 + b1Σx2x1 + b2Σx2x2 + ... + bkΣx2xk
... ... ... ...
Σxky = b0Σxk + b1Σxkx1 + b2Σxk x2 + ... + bkΣxkxk
Ing. William león Velásquez
ANÁLISIS DE REGRESIÓN MÚLTIPLE
Las ventas semanales se representan con y,
La calificación de la prueba con x1, y
Las calificaciones histórica con x2.
34. Calificaciones y ventas semanales de 5 vendedores de
Ventas S.A.
Vendedor Y X1 X2 X1
2 X2
2 X1Y X2Y X1X2
Carlos 5 4 2 16 4 20 10 8
Manuel 12 7 5 49 25 84 60 35
María 4 3 1 9 1 12 4 3
Roberto 8 6 4 36 16 48 32 24
Carmen 11 10 6 100 36 110 66 60
Σ 40 30 18 210 82 274 172 130
Ing. William león Velásquez
Con estos datos completamos la siguiente tabla:
EJEMPLO 2
35. Ing. William león Velásquez
Sustituir las sumatorias en las fórmulas de las
ecuaciones:
• El sistema de ecuaciones de la siguiente forma:
40 = b05 + b130 + b2 18
274 = b030 + b1210 + b2 130
172 = b018 + b1130 + b2 82
EJEMPLO 2
36. Ing. William león Velásquez
En base al sistema de ecuaciones, se procede a
resolverlo con el método de nuestra preferencia.
ESTIMACIÓN DE LOS COEFICIENTES DE
REGRESIÓN
MÉTODO DE GAUSS-JORDAN
El método de Gauss-Jordan consiste
en convertir la matriz de
coeficientes en una matriz
identidad, donde todos los
elementos son nulos salvo los de la
diagonal principal que son 1.
37. Ing. William león Velásquez
En la columna de los términos independientes
quedarán los valores de los coeficientes de la
ecuación de regresión.
Estimación de los coeficientes de
regresión. Método de Gauss-Jordan
38. Ing. William león Velásquez
1. Expresamos el sistema de ecuaciones como una matriz
aumentada:
Estimación de los coeficientes
de regresión
Método de Gauss-Jordan
EJEMPLO 2
40 = b05 + b130 + b2 18
274 = b030 + b1210 + b2 130
172 = b018 + b1130 + b2 82
39. Ing. William león Velásquez
2. Para convertir el elemento (1,1) en 1, se divide el primer
renglón entre 5.
Para convertir el elemento (2,1) en cero, se multiplica el
renglón 1 por (-30) y se suma al renglón 2.
Para convertir el elemento (3,1) en cero, se multiplica el
renglón 1 por (-18) y se suma al renglón 3.
Estimación de los coeficientes
de regresión
Método de Gauss-Jordan
EJEMPLO 2
40. Ing. William león Velásquez
3. Para convertir el elemento (2,2) en 1, se divide el segundo
renglón entre 30.
Para convertir el elemento (1,2) en cero, se multiplica el
renglón 2 por (-6) y se suma al renglón 1.
Para convertir el elemento (3,2) en cero, se multiplica el
renglón 2 por (-22) y se suma al renglón 3.
Estimación de los
coeficientes de regresión
Método de Gauss-Jordan
EJEMPLO 2
41. Ing. William león Velásquez
4. Para convertir el elemento (3,3) en 1, se divide el tercer
renglón entre 32/30.
Para convertir el elemento (1,3) en cero, se multiplica el
renglón 3 por (4/5) y se suma al renglón 1.
Para convertir el elemento (2,3) en cero, se multiplica el
renglón 3 por (-22/30) y se suma al renglón 2.
Estimación de los
coeficientes de regresión
Método de Gauss-Jordan
EJEMPLO 2
42. Ing. William león Velásquez
Los valores que están en la columna de la derecha
corresponden a los valores de los coeficientes de la
ecuación de regresión, de tal forma que:
b0 = 560/160 = 3.5
b1 = -936/960 = -0.975
b2 = 92/32 = 2.875
La ecuación de regresión queda:
y' = 3.5 - 0.975x1 + 2.875x2
Estimación de los
coeficientes de regresión
Método de Gauss-Jordan
EJEMPLO 2
43. y' = 3.5 - .975X1 + 2.875X2
Vendedor y x1 x2 y' y - y' ( y - y’ )2 y - 𝑌 ( y - 𝑌)2
Carlos 5 4 2 5.35 -.35 .1225 - 3 9
Manuel 12 7 5 11.05 .95 .9025 4 16
María 4 3 1 3.45 .55 .3025 - 4 16
Roberto 8 6 4 9.15 -1.15 1.3225 0 0
Carmen 11 10 6 11 0 0 3 9
Σ 2.65 50
Ing. William león Velásquez
Del ejemplo de los cinco vendedores de Ventas S.A.
Calcular la varianza residual
Calcular la Varianza total del modelo
Calcular la varianza explicada
Varianzas del modeloEJEMPLO 2
44. Ing. William león Velásquez
En el ejemplo de los cinco vendedores de Ventas S.A.
Calcular la varianza residual del modelo
𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
De la tabla anterior se obtiene que la varianza residual es 2.65
EJEMPLO 2 Varianzas del modelo
45. Ing. William león Velásquez
En el ejemplo de los cinco vendedores de Ventas S.A.
Calcular la varianza total del modelo
De la tabla anterior se obtiene que la varianza total es 50
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2
EJEMPLO 2 Varianzas del modelo
46. Ing. William león Velásquez
En el ejemplo de los cinco vendedores de Ventas S.A.
Calcular la varianza explicada del modelo
De la relación anterior se tiene:
SC Mod = 50 - 2.65 = 47.35
Por lo tanto la varianza explicada del modelo es 47.35
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
SCT = SCMod + SCRes
Entonces SCMod = SCT - CCRes
𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
= -
EJEMPLO 2 Varianzas del modelo
47. Ing. William león Velásquez
Los mismos tres coeficientes utilizados en el análisis de
correlación simple para describir la relación entre la
variable dependiente una variable independiente son
usados en el análisis de correlación múltiple.
Estos coeficientes son
El coeficiente de correlación múltiple,
El coeficiente de determinación múltiple, y
El coeficiente de no determinación múltiple
ANÁLISIS DE CORRELACIÓN MÚLTIPLE
48. Ing. William león Velásquez
El coeficiente de correlación múltiple es una medida
de la fuerza de la asociación entre la variable
dependiente y dos o mas variables independientes.
El coeficiente de correlación múltiple solo puede
tener valores entre 0 y + 1.00 inclusive y se
representa con la letra R.
Un coeficiente cercano a + 1.00 indica una muy
fuerte correlación entre la variable dependiente y las
variables independientes.
Un coeficiente cercano a 0 revela una débil
correlación.
ANÁLISIS DE CORRELACIÓN MÚLTIPLE
49. Ing. William león Velásquez
El coeficiente de correlación múltiple se calcula de la
siguiente manera:
ANÁLISIS DE CORRELACIÓN MÚLTIPLE
𝑟 = 1 −
𝑦 − 𝑦 2
𝑦 − 𝑦 2 𝑟 = 1 −
𝑉𝑟𝑒𝑠
𝑉𝑇𝑜𝑡
50. y' = 3.5 - .975X1 + 2.875X2
Vendedor y x1 x2 y' y - y' ( y - y’ )2 y - 𝑌 ( y - 𝑌)2
Carlos 5 4 2 5.35 -.35 .1225 - 3 9
Manuel 12 7 5 11.05 .95 .9025 4 16
María 4 3 1 3.45 .55 .3025 - 4 16
Roberto 8 6 4 9.15 -1.15 1.3225 0 0
Carmen 11 10 6 11 0 0 3 9
Σ 2.65 50
Ing. William león Velásquez
En el ejemplo de los cinco vendedores de Ventas S.A.
Calcular el coeficiente de correlación múltiple
Análisis de correlación
múltipleEJEMPLO 2
51. Ing. William león Velásquez
Se calcula el coeficiente de correlación múltiple.
Interpretación
Podemos concluir que hay una fuerte correlación entre
las ventas y las dos variables independientes, las
calificaciones de la prueba y las calificaciones
archivadas.
Análisis de correlación
múltiple.
𝑟 = 1 −
𝑦 − 𝑦 2
𝑦 − 𝑦 2 𝑟 = 1 −
2.65
50
= 0.973
EJEMPLO 2
𝑟 = 1 −
𝑉𝑟𝑒𝑠
𝑉𝑇𝑜𝑡
52. COEFICIENTE DE DETERMINACIÓN
(r2)
Ing. William león Velásquez
En regresión lineal simple se vio que el cuadrado
del coeficiente de correlación era
y se podía interpretar como la proporción de la
variabilidad de y que podía ser explicada por x.
Un coeficiente similar se calcula en regresión
múltiple:
Total
Reg2
SC
SC
r
2
2
2
)ˆ(
Total
Mod
yy
yy
SC
SC
R
i
53. COEFICIENTE DE DETERMINACIÓN
(r2)
Ing. William león Velásquez
Donde R2 es la proporción de la variabilidad de la
variable respuesta y que es explicada por las
variables explicatorias en la regresión lineal múltiple.
A menudo se multiplica R2 por 100 y se expresa como
porcentaje. La raíz cuadrada de R2 es el coeficiente
de correlación múltiple, es la correlación entre las
observaciones yi y los valores predichos .
2
2
2
)ˆ(
Total
Mod
yy
yy
SC
SC
R
i
iyˆ
54. Ing. William león Velásquez
Es la proporción de la variación total en la variable
dependiente ( Y ) que es explicada por la serie de variables
independientes.
El coeficiente de determinación múltiple es una medida mas
significativa y precisa para medir la asociación la variable
dependiente y las variables independientes.
Se simboliza con r². Lógicamente, el coeficiente de no
determinación múltiple mide la proporción de la variación en
la variable dependiente que no es explicada por las
variables independientes.
COEFICIENTE DE DETERMINACION
MÚLTIPLE
55. Ing. William león Velásquez
En el ejemplo de los cinco vendedores de Ventas S.A.
Calcular el coeficiente de determinación múltiple.
Coeficiente de
determinación múltiple
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2 𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
= +
𝑆𝐶𝑅𝑒𝑠
𝑦𝑖 − 𝑦𝑖
2
𝑆𝐶𝑇𝑜𝑡
𝑦 − 𝑦 2
EJEMPLO 2
2.65 50
𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
= 𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2
- 𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
= 50 - 2.65 = 47.35
56. Ing. William león Velásquez
Primero se calcula el coeficiente de correlación
Interpretación:
Un 94.7% de la variación de las ventas semanales se
explican por la variación de las calificaciones de la
prueba y la variación de las calificaciones archivadas.
Coeficiente de
determinación múltiple.
𝑟2 =
𝑦 − 𝑦 2
𝑦 − 𝑦 2
𝑟2 =
47.35
50
= 0.947
EJEMPLO 2
𝑟2
=
𝑆𝐶 𝑀𝑜𝑑
𝑆𝐶 𝑇𝑜𝑡
57. COEFICIENTE DE DETERMINACIÓN
(R2) AJUSTADO
Ing. William león Velásquez
Cuando se evalúa un modelo de regresión lineal
múltiple nos interesa decidir si una variable dada
mejora la capacidad para predecir la respuesta
comparando el R2 de un modelo que contiene la
variable, con el R2 del modelo sin la variable.
El modelo con mejor R2 debería ser el mejor
modelo.
Pero se debe ser cuidadoso cuando se compara los
coeficientes de determinación de dos modelos
diferentes.
La inclusión de una variable adicional en el
modelo nunca provoca la reducción de R2.
58. COEFICIENTE DE
DETERMINACIÓN (R2) AJUSTADO
Ing. William león Velásquez
Para manejar este problema, se puede utilizar el
r2 ajustado, que ajusta por el número de
variables que hay en el modelo.
El r2 ajustado es:
𝑟2
𝑎 = 1 −
𝑛 − 1
𝑛 − 𝑝 − 1
(1 − 𝑟2
)
𝑟2
𝑎 = 1 −
5−1
5−3
(1 − 0947)=0.894
n= 5
p= 2
r2= 0.947
59. La tabla ANOVA es similar a la de regresión simple.
Los grados de libertad del modelo son ahora p en
vez de 1, lo que refleja que ahora tenemos p
variables explicatorias en vez de sólo una.
Las sumas de cuadrados representan las fuentes
de variación.
Recuerde que la suma de cuadrados total es igual a
la suma de los cuadrados del modelo de regresión
más la suma de los cuadrados del residuo:
SCT = SCMod + SCRes
TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE
Ing. William león Velásquez
60. TABLA DE ANOVA PARA
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
La tabla de análisis de varianza para la
regresión múltiple es la siguiente:
Fuente de
variación
GL
Grados de
libertad
SC
Suma de
Cuadrados
CM
Cuadrados
Medios
Modelo p
Residuo
n-p-1
Total
n-1
𝑆𝐶𝑀𝑜𝑑 = 𝑦 − 𝑦 2
𝑆𝐶𝑅𝑒𝑠 = 𝑦𝑖 − 𝑦𝑖
2
𝑆𝐶𝑇𝑜𝑡 = 𝑦𝑖 − 𝑦 2
𝑆𝐶𝑀𝑜𝑑
𝑝
𝑆𝐶𝑀𝑜𝑑
𝑛 − 𝑝 − 1
61. TABLA DE ANOVA PARA
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
Con los datos de la tabla
EJEMPLO 2
Fuente d var SC GL CM F
Modelo 47.3500 2 23.675 17.8679245
Residuo 2.6500 2 1.325
Total 50 4
62. TABLA DE ANOVA PARA
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
Recuerde que en regresión lineal simple la prueba
F de la tabla ANOVA es equivalente a la prueba
bilateral para la hipótesis de que la pendiente es
cero.
Ahora, la prueba F de regresión múltiple prueba la
hipótesis de que todos los coeficientes de
regresión (con excepción del intercepto) son cero,
hipótesis que no es de mucho interés.
En el problema de regresión múltiple interesan
más las hipótesis individuales para cada
parámetro asociado a cada variable explicitaría.
63. TABLA DE ANOVA PARA
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
El estimador de la varianza σ2 de nuestro
modelo está dado por la media cuadrática
residual
𝑀𝐶𝑅 𝑒𝑠 =
𝑆𝐶𝑅 𝑒𝑠
(𝑛 − 𝑝 − 1)
𝑀𝐶𝑅 𝑒𝑠 =
2.65
(5−2−1)
=1.325
64. TABLA DE ANOVA PARA
REGRESIÓN MÚLTIPLE
Ing. William león Velásquez
Estadístico F
La razón entre el cuadrado medio del modelo
y el residuo
𝐹 =
𝑀𝐶𝑀 𝑜𝑑
𝑀𝐶𝑅 𝑒𝑠
𝐹 =
23.675
1.325
=17.867
permite estimar si la relación entre las variables
explicatorias y la respuesta es significativa.
65. INFERENCIA AL MODELO DE
REGRESION
Ing. William león Velásquez
1.- Formulación de las Hipótesis:
ceroesnounmenosal:
0:
1
210
j
p
H
H
La hipótesis nula dice que ninguna de las variables
explicatorias son predictores de la variable
respuesta.
La hipótesis alternativa dice que al menos una de
las variables explicatorias está linealmente
relacionada con la respuesta
66. INFERENCIA AL MODELO DE
REGRESION
Ing. William león Velásquez
2.- Calculo del estadístico de la prueba. Se obtiene de
la tabla ANOVA
Con los datos del ejemplo 2 se tiene
CM F
23.675 17.8679245
1.325
67. INFERENCIA AL MODELO DE
REGRESION
Ing. William león Velásquez
3.- Calculo del valor critico
El estadístico F tiene distribución F de Fisher con
(p, n-p-1) grados de libertad.
Los grados de libertad están asociados a los
grados de libertad del modelo y del residuo en la
tabla ANOVA.
Para los datos del ejemplo 2
F2,2,0.95 =19
68. INFERENCIA AL MODELO DE
REGRESION
Ing. William león Velásquez
4.- Conclusión:
Como el F de la prueba (17.86) es menor que el F
critico (19) no se rechaza la Ho
No existe suficiente evidencia a un nivel de
significancia del 5% que al menos uno de los
coeficiente es diferente de cero
69. EJEMPLO 3
Ing. William león Velásquez
Como parte de un estudio para investigar la
relación entre la tensión nerviosa (estrés) y otras
variables (tamaño de la empresa, número de años
en la posición actual, salario anual en miles de
dólares, edad en años),
• Se reunieron los
siguientes datos a partir
de una muestra aleatoria
simple de quince
ejecutivos de una
empresa.
70. Ing William León Velásquez 70
COMO SE INTERPRETA LOS
RESULTADOS
a) Escriba la recta de regresión múltiple estimada a
partir de estos datos. Interprete los coeficientes de
regresión.
b) ¿Cuál es el valor del coeficiente de determinación
que usaría para describir la bondad de ajuste del
modelo? Interprételo en términos del problema de
regresión
c) Examine los tests t de los coeficientes de regresión.
¿Le parece que es este un modelo adecuado para
describir el estrés o propone otro?
d) Qué supuestos se deben cumplir para la utilización de
este modelo.
e) Dé un estimador de la desviación estándar
poblacional. ¿A qué se refiere esta medida de
variabilidad?
71. Ing. William león Velásquez
COMO SE INTERPRETA LOS
RESULTADOS
Solución 1 (a):
La recta de regresión es:
Estrés= −126,505+0,176Tamaño−1,563Años+1,575Salario+1,629Edad
Interpretación de los coeficientes de regresión:
Intercepto=-126,505 Si el tamaño de la empresa, el número
de años, el salario y la edad fueran cero, es decir, si todas las
variables explicativas fueran cero, el puntaje de estrés del
ejecutivo sería menos 126,505
EJEMPLO 3
72. Ing. William león Velásquez
COMO SE INTERPRETA LOS
RESULTADOS
Pendiente de Tamaño: Por cada unidad que aumenta el
tamaño de la empresa, el estrés del ejecutivo aumenta en
0,176 unidades.
Pendiente de Años: Por cada año en posición actual, el estrés
del ejecutivo disminuye en 1,563 puntos.
Pendiente de Salario: Por cada mil dólares que aumenta el
salario, el estrés del ejecutivo aumenta en 1,575 puntos.
Pendiente de la edad: por cada año de edad, el estrés del
ejecutivo aumenta en 1,629 puntos.
EJEMPLO 3
73. Ing. William león Velásquez
COMO SE INTERPRETA LOS
RESULTADOS
Solución 1 (b):
El coeficiente de determinación que se usa en regresión
lineal múltiple es el R2 ajustado, que en este caso es de
0,779.
Este coeficiente nos indica que las variables usadas en el
modelo explican en un 77,9% la variabilidad total del estrés.
EJEMPLO 3
74. Ing. William león Velásquez
COMO SE INTERPRETA
LOS RESULTADOS
Solución 1 (c):
La prueba t de los coeficientes de regresión sirven para probar la
hipótesis:
Ho:βj = 0
H1: βj ≠ 0 En este problema tenemos 4 pruebas de esta forma
(j=1,2,3,4).
EJEMPLO 3
75. Ing. William león Velásquez
COMO SE INTERPRETA
LOS RESULTADOS
Al examinar los valores p correspondientes a cada uno de
las pruebas nos damos cuenta que casi todas las pendientes
son significativas (distintas de cero), salvo la de la variable
Años en posición actual, cuyo valor p es 0,455, por lo tanto
no se rechaza la hipótesis nula, y concluimos que la
pendiente es igual a cero.
Por lo tanto este no sería un modelo adecuado para
describir el estrés de los ejecutivos, deberíamos ajustar otro
modelo sin la variable "Años en posición actual".
EJEMPLO 3
76. Ing. William león Velásquez
COMO SE INTERPRETA
LOS RESULTADOS
Solución 1 (d):
Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relación entre la variable respuesta y
las explicativas debe ser lineal
2) Nocolinealidad: las variables explicativas no deben
estar correlacionadas entre sí
3) Normalidad de los residuos
4) Homocedasticidad de los residuos (varianza
constante).
EJEMPLO 3
77. Ing. William león Velásquez
COMO SE INTERPRETA LOS
RESULTADOS
Solución 1 (e):
El estimador de la desviación estándar poblacional es
24,031 o la raíz de la media cuadrática residual: raíz de
577,493= 24,03
Este es un estimador de la variabilidad del estrés
considerando las variables explicativas del modelo, y lo
podemos contrastar con el estimador de la variabilidad del
estrés de 51,164 que es la desviación estándar del estrés
sin tomar en cuenta estas variables.
EJEMPLO 3
78. Ing. William león Velásquez
COMO SE INTERPRETA
LOS RESULTADOS
Este es un estimador de la variabilidad del estrés
considerando las variables explicativas del modelo, y lo
podemos contrastar con el estimador de la variabilidad
del estrés de 51,164 que es la desviación estándar del
estrés sin tomar en cuenta estas variables.
EJEMPLO 3
79. Ing. William león Velásquez
El propietario de la cadena de cines CINE
PLANET desea estimar el ingreso semanal
neto en función de los gastos de
publicidad.
Los datos históricos de una muestra de 8
semanas son los siguientes:
EJEMPLO 4
Ingresos Brutos
semanales (en miles
de dólares)
Y
96 90 95 92 95 94 94 94
Anuncios en TV (en
miles de dólares)
x1
5 2 4 2.5 3 3.5 2.5 3
Anuncios en periódicos
(en miles de dólares) x2
1.5 2 1.5 2.5 3.3 2.3 4.2 2.5
81. Determinando la
ecuación de regresión
22110
ˆ xbxbby
Ing. William león Velásquez
El modelo es:
yXXX 1
)(
Entonces primero resolvemos las matrices para
encontrar los parámetros:
0,24910,1313-1,0353
0,13130,2239-1,0389
-1,0353-1,03895,9989
2
1
0
3010.1
2902.2
2301.83
1856
2401
750
b
b
b
1
)(
XX yX
EJEMPLO 4:
82. Finalmente la ecuación es:
Ing. William león Velásquez
21
3010.12902.22301.83ˆ XXy
EJEMPLO 4:
83. Interpretación
• Interpretemos los parámetros estimados de las variables
independientes:
− Para b1: Cuando los gastos de anunciar en televisión
varían una unidad y los gastos de anunciar en
periódicos se mantienen constantes, los ingresos
brutos semanales se incrementarán en 2.2902 miles
de dólares.
− Para b2: Cuando los gastos de anunciar en televisión
se mantienen constantes y los gastos de anunciar en
periódicos varían una unidad, los ingresos brutos
semanales se incrementarán en 1.3010 miles de
dólares
Ing. William león Velásquez
EJEMPLO 4:
84. • Para lo cual usaremos la fórmula abreviada
para dos variables independientes la cual se
deriva de la forma general presentada en las
fórmulas a utilizar. La fórmula es la siguiente:
Ing. William león Velásquez
Hallando el error
estándar de estimación
3
22110
2
. 21
n
yXbyXbyby
S XXy
EJEMPLO 4:
85. 64.021. XXyS
Ing. William león Velásquez
Hallando el error
estándar de estimación
Reemplazando los valores previamente encontrados
y tomando el denominador al valor 3 por ser el
número de parámetros q intervienen en la ecuación:
Interpretación: La distancia promedio de los valores
observados alrededor de la ecuación de regresión es de 0.64.
Es decir la dispersión de los valores observados es 0.64.
EJEMPLO 4:
86. Hallando el Coeficiente
de Determinación
919.0
959.0
2
r
r
Ing. William león Velásquez
Elevamos al cuadrado el coeficiente de correlación
y encontraremos el coeficiente de determinación:
Interpretación: Aproximadamente el 91.9% de los
cambios producidos en los ingresos brutos
semanales son explicados por los cambios
producidos en los gastos de publicidad (en
televisión y periódicos)
919.0
959.0
2
r
r
EJEMPLO 4:
87. Coeficiente de
determinación corregido
Ing. William león Velásquez
R2
Y.12...p= -----------SCE
Coeficiente de
Determinación
Múltiple
SCTO
R2
Corr.= 1- ((1- R2
Y.12.. k ) ----------n-1
n-k-1
Representa la porción
de la variación en Y
que se puede explicar
por Xi
Necesario cuando se
comparan 2 o +
modelos de regresión
que predicen Y, pero
con diferente Nº de Xi
EJEMPLO 4:
88. ANOVA
0:1 iunmenosloPorH
Ing. William león Velásquez
0...: 3210 kH
En este caso p = 0.002 < 0.05, por lo que se rechaza Ho,
lo que ratifica la relación entre las variables.
EJEMPLO 4:
89. Ing. William león Velásquez
La Facultad de una Universidad
quiere entender los factores de
aprendizaje de los alumnos que
cursan la asignatura de Gestión de
Proyectos.
Para lo cual se escoge al azar una
muestra de 7 alumnos y ellos
registran notas promedios en las
asignaturas de Contabilidad
Básica, Doctrina Contable y
Macroeconomía como se
muestran en el siguiente cuadro.
EJEMPLO 5
90. Ing. William león Velásquez
Alumno
Gestión de
Proyectos
Contabilidad
Básica
Doctrina
Contable
Macroeconomía
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
Determinar la dependencia que exista de aprendizaje reflejada en las
notas de la asignatura de Gestión de Proyectos, conociendo las notas
de las asignaturas Contabilidad Básica, Doctrina Contable II y
Macroeconomía, con un nivel de significancia del 5%
EJEMPLO 5
91. Calculamos los coeficientes de regresión
utilizando las fórmulas de las ecuaciones o
mediante un programa
Ing. William león Velásquez
EJEMPLO 5
92. Por lo tanto podemos construir la ecuación de
regresión que buscamos:
Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3
En el análisis de regresión múltiple la constante es
el valor de la ecuación de regresión de la variable
dependiente Y dado que todas las variables
independientes sean iguales a cero.
Ing. William león Velásquez
EJEMPLO 5
93. En los resultados del programas se llama error
típico y para explicar la relación del aprendizaje de
Métodos Cuantitativos que se viene desarrollando
es de 0.529
Ing. William león Velásquez
EJEMPLO 5
94. Calculando el coeficiente de Determinación en
el ejemplo (con variable independiente).
Ing. William león Velásquez
12.018 = 0.934
12.857
r = ……; Interprete
𝑟2
=
𝑆𝐶𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
𝑆𝐶 𝑇𝑜𝑡𝑎𝑙
EJEMPLO 5
95. Trabajando con el ejemplo del curso de Gestión de
Proyectos, veremos que aplicando SPSS, nos
saldría como resultado:
¿A que conclusión podemos llegar al 3% de error?
Ing. William león Velásquez
EJEMPLO 5