SlideShare una empresa de Scribd logo
1 de 72
Descargar para leer sin conexión
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Regresión y Correlación lineal múltiple es el décimo fascículo, de una serie de
guías de estudio en las que se desarrollan los temas de los programas de las
asignaturas del área de Probabilidad y Estadística, así como temas selectos
que complementan el aprendizaje de de esta disciplina. Tienen la
característica de que el estudiante adquiera sólo aquella que trate el tema
que necesite reforzar o el que sea de su propio interés.
Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que
se debe abordar el estudio de los métodos estadísticos, despertando la
inquietud por aprender y resolver los problemas y casos planteados.
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con
la sección llamada Aprendiendo.com. En esta última sección se le proporciona
al estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes
de aprendizaje que le permitan encontrarse con el conocimiento,
“manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Nuestro reconocimiento a la Dirección General de Asuntos del Personal
Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo
a Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha
apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de
Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia”
clave PE302709.
Los Autores
PRESENTACIÓN
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
REGRESIÓN Y CORRELACIÓN LINEAL MULTIPLE
A) REGRESION LINEAL MULTIPLE
Ahora considere una variable dependiente (Y) y varias variables independientes (X1, X2,
etc.). Entonces la regresión múltiple, mide el comportamiento o actitud de la variable Y
con respecto a todas las variables X.
La relación entre las variables puede ser lineal o no lineal.
Considere solamente la regresión lineal múltiple de Y sobre X1 y X2 (pues se puede
generalizar fácilmente por inducción), que es una relación E (Y) = α + β1 X1+ β2 X2.
Ajustando las observaciones (ternas ordenadas con representación gráfica de puntos
en un espacio tridimensional) a un plano de regresión, con ecuación:
Ŷ= a + b1X1 + b2 X2
Donde:
𝑌� = Valor estimado de Y para valores dados de X1 y X2,
a = Intersección al origen del plano en el eje Y,
b1 = Coeficiente de regresión parcial (pendiente) de Y sobre X1, con X2 constante,
b2 =Coeficiente de regresión parcial (pendiente) de Y sobre X2, con X1 constante.
Para calcular estos parámetros muestrales, efectúe las siguientes operaciones a los
valores muestrales observados:
𝑿 𝟏 𝑿 𝟐 𝒀 𝑿 𝟏
𝟐 𝑿 𝟏 𝑿 𝟐 𝑿 𝟏 𝑌 𝑿 𝟐
𝟐 𝑿 𝟐 𝑌 𝒀 𝟐
𝑿 𝟏𝟏 𝑋21 𝑌1 𝑋11
2
𝑋11 𝑋21 𝑋11 𝑌1 𝑋21
2
𝑋21 𝑌1 𝑌1
2
𝑿 𝟏𝟐 𝑋22 𝑌2 𝑋12
2
𝑋12 𝑋22 𝑋12 𝑌2 𝑋22
2
𝑋22 𝑌2 𝑌2
2
… … … … … … … … …
𝑿 𝟏𝒏 𝑋2𝑛 𝑌𝑛 𝑋1𝑛
2
𝑋1𝑛 𝑋2𝑛 𝑋1𝑛 𝑌𝑛 𝑋2𝑛
2
𝑋2𝑛 𝑌𝑛 𝑌𝑛
2
Σ𝑿 𝟏 Σ𝑋2 Σ𝑌 Σ𝑋1
2
Σ𝑋1 𝑋2 Σ𝑋1 𝑌 Σ𝑋2
2
Σ𝑋2 𝑌 Σ𝑌2
𝑿�1 𝑋�2 𝑌� n 𝑋�1
2
n 𝑋�1 𝑋�2 n 𝑋�1 𝑌� n 𝑋�2
2
n 𝑋�2 𝑌� n𝑌�2
Σ𝑥1
2
Σ𝑥1 𝑥2 Σ𝑥1 𝑦 Σ𝑥2
2
Σ𝑥2y Σ𝑦2
Donde el último renglón se obtiene de restar los dos anteriores; por ejemplo, en la
cuarta columna se tiene:
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Σ𝑥1
2
= Σ𝑋1
2
- n 𝑋�1, y se calcula finalmente:
D= (Σ𝑥1
2
) (Σ𝑥2
2
) – (Σ𝑥1 𝑥2) 2
(denominador)
b1=
(Σ𝑥2
2) (Σ𝑥1 𝑦) – (Σ𝑥1 𝑥2) (Σ𝑥2y)
𝐷
b2=
(Σ𝑥1
2) (Σ𝑥2y) – (Σ𝑥1 𝑥2) (Σ𝑥1 𝑦)
𝐷
a = 𝑌� – b1 𝑋�1 – b2 𝑋�2
La barra de ajuste de los puntos al plano se mide con el error estándar de regresión
lineal múltiple de Y sobre X1 y X2
𝑠 𝑌•𝑋1 𝑋2
= �Σ(Y−Y�)2
𝑛−3
=
�
𝛴 𝑦2 − 𝑏1 𝛴𝑥1 𝑦−𝑏2 𝛴𝑥2 𝑦
𝑛−3
A continuación, basándose en los resultados muestrales, se puede hacer la inferencia
estadística para los parámetros poblacionales de las siguientes formas:
1) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X1 con X2
constante en la población (β1). Se plantean las hipótesis
H0: β1= 0 (u otro valor)
H1: β1 ≠ 0 (u otro valor, con pruebas unilaterales también)
y se compara
tc = (b1 – 0) / 𝑠 𝑏1
(u otro valor) con tt
donde:
𝑠 𝑏1 = 𝑠 𝑌 •𝑋1 𝑋2
�𝛴 𝑥2
2
/𝐷 es la variación natural del estimador b1
2) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X2 con X1
constante en la población (β2). Se plantean las hipótesis
H0: β2 = 0 (u otro valor)
H1: β2 = 0 (u otro valor, con pruebas unilaterales también)
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
y se compara
tc= (b2 – 0) / 𝑠 𝑏2
( 0 u otro valor) con tt
donde:
𝑠 𝑏2
= 𝑠 𝑌•𝑋1 𝑋2
�𝛴𝑥1
2
/𝐷 es la variación natural del estimador b2
Si se desea en cualquier caso o si en los casos 1) y 2), la prueba resulta significativa,
se puede encontrar los intervalos de confianza respectivos.
3) Intervalo de confianza para estimar β1
β1 = b1 ± t0 𝑠 𝑏1
4) Intervalo de confianza para estimar β2
β1 = b2 ± t0 𝑠 𝑏2
otro valor que se puede estimar es el valor individual Y, para valores de X1 y X2 dados.
5) Intervalo de confianza para estimar Y:
Y= 𝑌� ± t0 sY
Donde sŷ= sY•X1•X2 es aproximadamente la variación natural del estimador Y.
B) CORRELACION LINEAL MULTIPLE
El coeficiente de correlación lineal múltiple 𝑟𝑌•𝑋1 𝑋2
es una medida del grado de
relación mutua entre la variable Y y las variables X1 y X2 en la muestra.
El cuadrado del coeficiente de correlación lineal múltiple 𝑟𝑌• 𝑋1 𝑋2
2
es el % de la
variación de Y, explicado por la regresión lineal múltiple con X1 y X2.
Dicho coeficiente se calcula de la siguiente forma:
𝑟𝑌•𝑋1 𝑋2
= �
𝑟 𝑌• 𝑋1
2 + 𝑟 𝑌• 𝑋2
2 − 2 𝑟 𝑌• 𝑋1 𝑟 𝑌• 𝑋2 𝑟 𝑋1• 𝑋2
1− 𝑟 𝑋
2
1• 𝑋2
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Donde:
𝑟𝑌• 𝑋1
= Σ 𝑥1y / �𝛴𝑥1
2
• 𝛴𝑦2 Es el coeficiente de correlación lineal simple
entre Y y X1.
𝑟𝑌• 𝑋2
= ∑ 𝑥2 𝑦 / �𝛴𝑥2
2
• 𝛴𝑦2 Es el coeficiente de correlación lineal simple
entre Y y X2.
𝑟𝑋1 •𝑋2
= ∑ 𝑥1 𝑥2/ �𝛴𝑥1
2
• 𝛴𝑥2
2
Es el coeficiente de correlación lineal simple
entre X1 y X2.
Y sus cuadrados 𝑟𝑌 •𝑋1
2
, 𝑟𝑌 •𝑋2
2
y 𝑟𝑋
2
1 •𝑋2
son los coeficientes de determinación,
que explican el % de variación de la primer variable, debido a la regresión lineal simple
con la segunda variable.
Otra forma (más simple) de calcular el coeficiente de correlación lineal múltiple es
utilizando los coeficientes de regresión parcial muestrales b1 y b2 con la siguiente
fórmula:
𝑟𝑌•𝑋1 𝑋2 = �
𝛴 (𝑌�−𝑌�)2
𝛴 (𝑌−𝑌�)2
= �
𝑏1 𝛴 𝑥1 𝑦+ 𝑏2 𝛴𝑥2 𝑦
𝛴𝑦2
También se puede calcular el coeficiente de correlación lineal múltiple como el
coeficiente de correlación lineal simple, que mide la relación entre
Y y ŷ = a + b1X1+b2X2 es decir:
𝑟𝑌•𝑋1 𝑋2
= 𝑟 𝑌•𝑌� = ∑ 𝑦𝑦� �𝛴𝑦2 • 𝛴ŷ2 = �𝛴ŷ2/𝛴𝑦2
Ejemplo 1.
A continuación se anotan los resultados de una muestra de probetas de acero
templadas en frío que tienen X1= contenido de cobre en % y X2 = temperatura de
aleación en miles de ℉, a las que se les midió la dureza = Y.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
X1 0.02 0.02 0.02 0.02 0.10 0.10 0.10 0.10 0.18 0.18 0.18 0.18
X2 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3
Y 78.9 65.1 55.2 56.4 80.9 69.7 57.4 55.4 85.3 71.8 60.7 58.9
a) Encuentre la ecuación del plano de regresión de Y sobre X1 y X2 para la muestra
dada.
b) ¿Cuál será la dureza, estimada puntualmente de una probeta que tenga 0.13% de
cobre y 0.9 miles de ℉ de temperatura de aleación?
c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2.
d) Si se mantiene la temperatura de aleación constante, ¿será cierto que a la dureza no
le afecta el contenido de cobre con 5% de significación? A partir de la muestra dada.
e) Si se conserva el contenido de cobre constante, la dureza disminuye 55º cada que
aumentamos 1000 ℉ la temperatura de aleación; este coeficiente, ¿habrá disminuido
con 1% de significación en base a la muestra?
f) Encontrar el intervalo de 99% de confianza para estimar el coeficiente de regresión
parcial de dureza sobre contenido de cobre, con temperatura de aleación constante.
g) Encontrar el intervalo de 90% de confianza para estimar el coeficiente de regresión
parcial de dureza sobre temperatura de aleación con el contenido de cobre constante.
h) Calcular el intervalo de 95% de confianza para estimar la dureza de una probeta que
tiene 0.20% de cobre y 1.5 miles de ℉ de temperatura de aleación.
Solución:
X1 X2 Y 𝑿 𝟏
𝟐 X1X2 X1 Y 𝑿 𝟐
𝟐 X2Y Y2
0.02
0.02
0.02
0.02
1.0
1.1
1.2
1.3
78.9
65.1
55.2
56.4
0.0004
0.0004
0.0004
0.0004
0.020
0.022
0.024
0.026
1.578
1.302
1.104
1.128
1.00
1.21
1.44
1.69
78.90
71.61
66.24
73.32
6225.21
4238.01
3047.04
3180.96
0.10
0.10
0.10
0.10
1.0
1.1
1.2
1.3
80.9
69.7
57.4
55.4
0.0100
0.0100
0.0100
0.0100
0.100
0.110
0.120
0.130
8.090
6.970
5.740
5.540
1.00
1.21
1.44
1.69
80.90
76.67
68.88
72.02
6544.81
4858.09
3294.76
3069.16
0.18
0.18
0.18
0.18
1.0
1.1
1.2
1.3
85.3
71.8
60.7
58.9
0.0324
0.0324
0.0324
0.0324
0.180
0.198
0.216
0.234
15.354
12.924
10.926
10.602
1.00
1.21
1.44
1.69
85.30
78.98
72.84
76.57
7276.09
5155.24
3684.49
3469.21
1.20 13.8 795.7 0.1712 1.38 81.258 16.02 902.23 54043.07
0.1 1.15 66.3083 0.12 1.38 79.57 15.87 915.055 52761.5403
n=12 0.0512 0 1.688 0.15 -12.825 1281.5292
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
a) Después de la tabla anterior, se calculan los valores:
D = (0.0512) (0.15) – (0)2
= 0.00768
b1 =
(0.15)(1.688) − (0)( −12.825)
0.00768
=
0.2532
0.00768
= 32.96875
b2 =
(0.0512)(−12.825)− (0)(1.688)
0.00768
=
−0.65664
0.00768
= -85.5
a = 66.3083 – (32.96875) (0.1) – (-85.5) (1.15) = 161.3365
y finalmente:
Y = 161.3365+32.96875 X1 -85.5 X2 Es la ecuación del plano de regresión de
Y sobre X1 y X2.
b) Si
X1 = 0.13 y X2 = 0.9
Entonces:
Ŷ = 161.3365+32.96875 (0.13) – 85.5 (0.9) = 88.6724 grados de dureza
c)
𝑠 𝑌•𝑋1 𝑋2
= �
(1281.5292)− (32.96875)(1.688)− (−85.5) (−12.825)
12−3
= �
129.3404
9
= 3.7909
d)
H0: β1 = 0 R. de D.: si tc está entre ± tt aceptar H0
H1: β1 ≠ 0 b1 = 32.96785
𝑠 𝑏1
= 3.7909 �
0.15
0.00768
= 16.7537
tc =
32.96875− 0
16.7537
= 1.968 con 9 g.l. y α = 0.05 ± tt = ± 2.262
Como 1.968 está entre ± 2.262, acepte H0, es decir que el coeficiente de regresión
parcial de Y sobre X1 con X2 constante es cero, por lo tanto, el contenido de cobre no
le afecta a la dureza, con 5% de significación.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
e)
β2 = -55 H0: β2 = -55 R. de D. si tc ± es mayor que –tt, aceptar H0
H1: β2 < -55
b2 = -85.5
𝑠 𝑏2
= 3.7909 �
0.0512
0.00768
= 9.7881 tC=
−85.5−(−55)
9.7881
= -3.116
Con 9 g.l. y α = 0.01 -tt = -2.821
como - 3.116 es menor que – 2.821, rechace H0, es decir que β2 si ha disminuido con
1% de significación.
f)
Y = 0.99 9 g.l. t0 = 3.250
b1= 32.96875 𝑠 𝑏1
= 16.7537
β1 = 32.96875 ± (3.250) (16.7537) = 32.96875 ± 54.4495
– 21.4808 < β1 < 87.4183 grados de dureza por cada unidad de % cobre
g)
Y = 0.90 9 g.l. t0= 1.833
b2 = -85.5 𝑠 𝑏2
= 9.7881
β2 = -85.5 ± (1.833) (9.7881) = -85.5 ± 17.9417
– 103.4417< β2 < -67.5583 grados de dureza por cada 1000 ℉
h)
Y= 0.95 9 g.l. t0= 2.262
X1= 0.20 X2 = 1.5
Ŷ = 161.3365+32.96875 (0.20) – 85.5 (1.5) = 39.6802
𝑠 𝑌� = 3.7909
Y = 39.6802 ± (2.262) (3.7909) = 39.6802 ± 8.5751
31.1051 < Y < 48.2553 grados de dureza.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
EJEMPLO 2
Para los datos del ejemplo 1 calcule:
a) Los 3 coeficientes de correlación lineal simple.
b) El coeficiente de correlación lineal múltiple de Y= dureza, sobre X1 = contenido de
cobre y X2 = temperatura de aleación (𝑟𝑦 •𝑋1 𝑋2
) utilizando los coeficientes de correlación
lineal simple.
c) 𝑟𝑌 •𝑋1 𝑋2
utilizando los coeficientes de regresión parcial.
d) Los valores estimados de dureza (𝑌�) para los valores dados de contenido de cobre
(X1) y temperatura de aleación (X2) y grafíquelos contra los valores reales de dureza (Y)
para observar la correlación (diagrama de dispersión).
e) 𝑟𝑌 •𝑋1 𝑋2
utilizando la correlación lineal simple entre Y y 𝑌�.
f) El % de variación no explicada de la dureza sobre el contenido de cobre y la
temperatura de aleación.
SOLUCIÓN:
a)
𝑟𝑌 •𝑋1
=
1.688
�(0.0512)(1281.5292)
= 0.2084 baja correlación lineal entre dureza y
contenido de cobre
𝑟𝑌•𝑋2
=
−12.825
�(0.15)(1281.5192)
= -0.9250 alta correlación lineal entre dureza y
temperatura de aleación (en sentido negativo).
𝑟𝑋1•𝑋2
=
0
�(0.0512)(0.15)
= 0 nula correlación lineal entre contenido de cobre
y temperatura de aleación.
b)
𝑟𝑌 •𝑋1 𝑋2
=�
(0.2084)2+ (−0.92502)−2(0.2084)(−0.9250)(0)
1−(0)2
= �
0.8991
1
=0.9482
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Alta correlación lineal de la dureza sobre el contenido de cobre y la temperatura de
aleación.
c)
𝑟𝑌∗𝑋1 𝑋2
= �
(32.96875)(1.688)+(−85.5)(−12.825)
1281.5292
= �
1152.18875
1281.5292
= 0.9482
d)
𝑌� = 161.3365 + 32.96875 𝑋1 − 85.5 𝑋2
X1 X2 𝒀� Y
0.02 1.0 76.50 78.9
0.02 1.1 67.95 65.1
0.02 1.2 59.40 55.2
0.02 1.3 50.85 56.4
0.10 1.0 79.13 80.9
0.10 1.1 70.58 69.7
0.10 1.2 62.03 57.4
0.10 1.3 53.48 55.4
0.18 1.0 81.77 85.3
0.18 1.1 73.22 71.8
0.18 1.2 64.67 60.7
0.18 1.3 56.12 58.9
FIGURA 1.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
e)
𝑌 𝑌� 𝑌2
𝑌 ∙ 𝑌� 𝑌�2
78.9 76.50 6225.21 6035.52 5851.61
65.1 67.95 4238.01 4423.27 4616.64
55.2 59.40 3047.04 3278.65 3527.87
56.4 50.85 3180.96 2867.70 2585.30
80.9 79.13 6544.81 6401.89 6262.08
69.7 70.58 4858.09 4919.66 4982.01
57.4 62.03 3294.76 3560.71 3848.13
55.4 53.48 3069.16 2962.98 2860.47
85.3 81.77 7276.09 6975.05 6686.47
71.8 73.22 5155.24 5257.26 5361.29
60.7 64.67 3684.49 3925.52 4182.32
58.9 56.12 3469.21 3305.52 3149.55
795.7 795.7 54043.07 53913.73 53913.73
66.31 66.31 52761.54 52761.54 52761.54
n = 12 1281.53 1152.19 1152.19
𝑟𝑌∗𝑋1 𝑋2
= 𝑟𝑌𝑌 =
1152.19
�(1281.53)(1152.19)
=
1152.19
1215.14
= 0.9482
f)
𝑟𝑌∗𝑋1 𝑋2
= 0.9482
𝑟𝑌∗𝑋1 𝑋2
2
= 0.8991 aproximadamente 90% de la variación es explicada
1 − 𝑟𝑌∗𝑋1 𝑋2
2
= 1 − 0.8991 = 0.1009
Es decir, aproximadamente existe un 10% de variación en la dureza , que no se explica
debido al contenido de cobre y a la temperatura de aleación; este 10% de variación se
podría explicar estudiando otras variables que afectan a la dureza, tales como,
contenido de: carbón, manganeso, cromo, etc.
EJEMPLO 3
Cuando se realiza el envasado del sulfato de amonio es de gran importancia que fluya
libremente, con objeto de que las máquinas automáticas que llenan y pesan los
envases puedan funcionar correctamente. Sin embargo, a veces, los cristales se
adhieren a las paredes del conducto de alimentación. Las adherencias pueden deberse
en parte a la humedad, pero pueden también depender del % de impurezas. Para
Investigar las causas de las adherencias se realizó un ensayo que correspondía
aproximadamente a las condiciones de envasado y en el que se dejó fluir cierta
cantidad de sulfato de amonio por un pequeño conducto circular, determinándose la
velocidad de flujo.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
En la siguiente tabla se dan las velocidades de flujo y otros datos de las muestras
examinadas.
Y velocidad de flujo (gr/seg)
X1 humedad inicial en unidades de 0.01%
X2 % de impurezas en unidades de 0.01%
X1 21 20 16 18 16 18 12 12 13 13
X2 0 0 0 0 0 1 1 0 0 0
Y 5 4.81 4.46 4.81 4.46 3.85 3.21 3.25 4.55 4.85
a) Encuentre la ecuación del plano de regresión de Y sobre X1 y X2 para la muestra
dada.
b) Cual será la velocidad de flujo, estimada puntualmente para sulfato de amonio con
11 unidades de humedad inicial y 0.01% de impurezas.
c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2.
d) Si se mantiene el % de impurezas constante, pruebe si a la velocidad de flujo no le
afecta el % de humedad con 5% de significación.
e) Si se mantiene el % de humedad constante, pruebe si a la velocidad de flujo no le
afecta el % de impurezas con 5% de significación.
f) Encontrar el intervalo de confianza al 95% para estimar al coeficiente de regresión
parcial de la velocidad de flujo sobre el % de humedad con % de impurezas constante.
g) Encontrar el intervalo de confianza al 95% para estimar el coeficiente de regresión
parcial de la velocidad de flujo sobre el % de impurezas con % de humedad constante.
h) calcular el intervalo del 95% de confianza para estimar la velocidad de flujo del
sulfato de amonio que tenga 15 unidades de humedad y 1 unidad de impurezas.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
SOLUCIÓN:
X1 X2 Y 𝑿 𝟏
𝟐
𝑿 𝟐
𝟐 X1X2 X1Y X2Y Y2
21 0 5 441 0 0 105 0 25
20 0 4.81 400 0 0 96.2 0 23.1361
16 0 4.46 256 0 0 71.36 0 19.8916
18 0 4.81 324 0 0 86.58 0 23.1361
16 0 4.46 256 0 0 71.36 0 19.8916
18 1 3.85 324 1 18 69.30 3.85 14.8225
12 1 3.21 144 1 12 38.52 3.21 10.3041
12 0 3.25 144 0 0 39.0 0 10.5625
13 0 4.55 169 0 0 59.15 0 20.7025
13 0 4.85 169 0 0 63.05 0 23.5225
159 2 43.25 2627 2 30 699.52 7.06 190.9695
15.9 0.2 4.325 2528.1 1.4 31.8 687.675 8.65 187.0562
98.9 1.6 -1.8 11.845 -1.59 3.91325
a)
D = 98.9 (1.6) – (-1.8)2
= 155
𝑏1 =
(1.6)(11.845)− (−1.8)(−1.59)
155
= 0.1038
𝑏2 =
98.9 (−1.59) − (−1.8)(11.845)
155
= −0.8769
a = 4.325 – 0.1038 (15.9) – (-0.8769) (0.2) = 2.8499
tenemos entonces:
𝑌� = 2.8499 6 + 0.1038 𝑋1 − 0.8769 𝑋2
b)
Si X1 = 15 y X2 = 1
Y = 2.8499 + 0.1038 (15) – 0.8769 (1) = 3.52994
c)
𝑆 𝑌∗𝑋1 𝑋2
= �
3.91325 − 0.1038(11.845) − (−0.8769)(−1.59)
7
𝑆 𝑌∗𝑋1 𝑋2
= 0.42918
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
d)
H0: β1 = 0 Regla de decisión: si tc está entre ± tt aceptar H0:
b1 = 0.1038
𝑆 𝑏1
= 0.42918�16/155 = 0.04360
𝑡 𝑐 =
0.1038
0.04380
= 2.38
ttablas con α = 5% y 7 g.l. = 2.365
como tc = 2.38 no se encuentra entre ± tt =2.365 se rechaza H0 es decir, sí existe
relación entre la velocidad de flujo y el % de humedad con % de impurezas constante.
e)
H0: β2 = 0 regla de decisión si tc está entre ± tt aceptar H0:
H1: β2 ≠ 0
b2 = -0.87696
𝑆 𝑏2
= 0.42918�98.9/155 = 0.34282
𝑡 𝑐 =
−0.87696
0.34282
= 2.55
tt con α = 5% y 7 g.l. = 2.365, por tanto se rechaza H0, es decir si existe relación entre
la velocidad de flujo y él % de impurezas con el % de humedad constante.
f)
Y = 95% 7 g.l. t0 = 2.365
b1 = 0.1038 𝑠 𝑏1
= 0.04360
β1 = b1 ± t0 𝑠 𝑏1
β1 = 0.1038 ± 2.365 = (0.04360)
0.000686<β1<0.206914 aumento de velocidad de flujo por cada unidad
de % de humedad.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
g)
Y= 95% 7 g.l. t0 = 2.365
B2 = -0.87696 𝑠 𝑏2
= 0.34282
β2 = -0.87696 ± 2.365 (0.34282)
-1.68772 < β2 < -0.06619 disminución de velocidad de flujo por cada
unidad de % de impurezas.
h)
Y = 0.95 7 g.l. t0 = 2.365
X1 = 15 X2 = 1
𝑌� = 2.8499 + 0.1038 (15) – 0.87696 (1) = 3.52994
𝑆 𝑌� ≅ 𝑠 𝑌•𝑋1 𝑋2
= 0.42918
Y = 3.52994 ± 2.365 (0.42918)
2.5149 < Y < 4.5449 gr/seg de velocidad de flujo
EJEMPLO 4
Para los datos del ejemplo 3 calcule:
a) Los 3 coeficientes de correlación lineal simple.
b) El coeficiente de correlación lineal múltiple de Y velocidad de flujo sobre X1 = % de
humedad y X2 = % de impurezas. Utilizando los coeficientes de correlación lineal
simple.
c) 𝑟𝑌•𝑋1 𝑋2
= utilizando los coeficientes de regresión parcial.
e) El % de variación no explicado de la velocidad de flujo sobre él % de humedad y él
% de impurezas del sulfato de amonio.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
SOLUCIÓN
a)
𝑟𝑌•𝑋1
=
11.845
�98.9 (3.91325)
= 0.6020 𝑟𝑌 •𝑋1
2
= 0.3624
Aproximadamente el 36.24% de las
variaciones de la velocidad de flujo se
explican debido a las variaciones en el %
de humedad.
𝑟𝑌•𝑋2
=
−1.59
�1.6 (
3.9
325
)
= -0.6354 𝑟𝑌 •𝑋2
2
= 0.4037
Aproximadamente el 40% de las
variaciones en la velocidad de flujo se
explican debido a las variaciones en el %
de impurezas.
𝑟𝑋1 𝑋2
=
−1.8
�98.9 (1.6)
= −0.1430 𝑟𝑋
2
1𝑋2
= 0.0204
Baja correlación entre % de humedad y
% de impurezas.
b)
𝑟𝑌 •𝑋1 𝑋2
=
�(602)2+ (−0.6354)2− 2 (0.602)(−0.635)(−0.1430)
1− (−0.1430)2
= 0.8188
c)
𝑟𝑌 •𝑋1 𝑋2
= �
0.1038 (11.845)+ (−0.87696) (−1.59)
3.91325
= 0.8188
d)
𝑟𝑌 •𝑋1 𝑋2
= 0.8188 𝑟𝑌 •𝑋1
2
𝑋2
= (0.8188)2
= 0.6704
1- 𝑟𝑌 •𝑋1 𝑋2
2
= 1 -0.6704 = 0.3296
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Es decir el 67% de las variaciones en la velocidad de flujo se explican debido al % de
humedad y al % de impurezas, y aproximadamente el 33% no es explicado, debido a
estos factores; este 33% se podría explicar estudiando otras variables que podrían
afectar a la velocidad de flujo de las cuales unas muy importantes serían la forma de la
partícula y el tamaño de la partícula.
EJEMPLO 5
Mastitis es el nombre genérico que se utiliza para referir a las infecciones de la
glándula mamaria, las cuales son de mucha importancia para el ganado lechero.
Cuando se encuentran presentes microorganismos patógenos en la leche y sin
embargo, el animal no presenta síntomas clínicos se conoce vagamente como “mastitis
subclínica”.
En un estudio sobre mastitis subclínica efectuado en 19 hatos lecheros localizados en
el altiplano mexicano se midieron tres variables:
X1 = el estado del equipo de ordeño.
X2 = la higiene en la sala de ordeño.
Y = el porcentaje del hato libre de mastitis subclínica.
Las primeras dos variables se calificaron en una escala del 1 al 10 en base a un
promedio de calificaciones parciales, obtenidas sobre aspectos de higiene y
mediciones efectuadas al equipo de ordeño.
La calificación de Y para cada hato fue determinada en base a exámenes
bacteriológicos de la leche de una muestra de vacas del hato.
En seguida se muestra la tabla de los resultados:
HATO # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X1 8.7 6.0 7.0 8.0 7.7 6.0 6.3 8.0 5.0 5.7 7.7 7.0 5.3 4.7 6.3 8.0 7.0 8.7 5.3
X2 8.0 7.3 5.3 4.0 4.0 5.0 4.0 8.0 6.0 7.3 5.7 4.7 6.0 5.7 7.0 4.0 4.7 8.0 6.7
Y 77 60 72 45 44 46 49 79 60 60 56 30 56 38 47 43 18 81 53
a) Encuentre la ecuación de regresión múltiple del % libre de mastitis subclínica (Y) en
base al equipo (X1) e higiene (X2).
b) Estime cual será el % promedio de animales libres de mastitis subclínica en establos
que tengan una calificación de 7.0 en equipo y 8.5 de higiene.
c) Calcular el error estándar de la regresión lineal múltiple 𝑠 𝑌•𝑋1 𝑋2
.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
d) ¿Es significativo el efecto del estado del equipo (X1) sobre Y cuando la calificación
de la higiene (X2) se mantiene constante?
e) ¿Es significativo el efecto de la higiene (X2) sobre Y cuando la calificación del equipo
(X1) se mantiene constante?
f) Estime el coeficiente del efecto de higiene β2 con 95% de confianza.
g) Calcular un intervalo de confianza de 90% para estimar el porcentaje de vacas libres
de mastitis subclínica en un hato con calificación de 6 en equipo y 5 en higiene.
SOLUCION:
Como primer paso se forma la siguiente tabla:
X1 X2 Y 𝑿 𝟏
𝟐 X1X2 X1Y 𝑿 𝟐
𝟐 X2Y Y2
8.7
6.0
7.0
8.0
7.7
8.0
7.3
5.3
4.0
4.0
77
60
72
45
44
75.69
36.00
49.00
64.00
59.29
69.60
43.80
37.10
32.00
30.80
669.9
360.0
504.0
360.0
338.8
64.00
53.29
28.09
16.00
16.00
616.0
438.0
381.6
180.0
176.0
5929
3600
5184
2025
1936
6.0
6.3
8.0
5.0
5.7
5.0
4.0
8.0
6.0
7.3
46
49
79
60
60
36.00
36.69
64.00
25.00
32.49
30.00
25.20
64.00
30.00
41.61
276.0
308.7
632.0
300.0
342.0
25.00
16.00
64.00
36.00
53.29
230.0
196.0
632.0
360.0
438.0
2116
2401
6241
3600
3600
7.7
7.0
5.3
4.7
6.3
5.7
4.7
6.0
5.7
7.0
56
30
56
38
47
59.29
49.00
28.09
22.09
36.69
43.89
32.90
31.80
26.79
44.10
431.2
210.0
296.8
178.6
296.1
32.49
22.09
36.00
32.49
49.00
319.2
141.0
336.0
216.6
329.0
3136
900
3136
1440
2209
8.0
7.0
8.7
5.3
4.0
4.7
8.0
6.7
43
18
81
53
64.00
49.00
75.69
28.09
32.00
32.90
69.60
35.51
344.0
126.0
704.7
280.9
16.00
22.09
64.00
44.89
172.0
84.6
648.0
355.1
1849
324
6561
2809
128.4 114.4 1014 896.10 753.60 6959.7 690.72 6249.1 59000
6.76 5.86 53.37 867.71 752.83 6852.5 653.16 5945.2 54116
n=19 28.39 0.77 107.2 37.56 303.9 4884
a) En base a la tabla anterior se calculan los valores:
D = (28.34) (37.56) – (0.77)2
= 1065.74
b1 =
(37.56)(107.2)− (0.77)(303.9)
1065.74
= 3.56
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
b2 =
(28.39)(303.9)− (0.77)(107.2)
1065.74
= 8.02
a= 53.37 – (3.56) (6.76) – (8.02) (5.86) = - 17.69
y se tiene finalmente:
𝑌� = -17.69 + 3.56 X1 + 8.02 X2
o en otros términos
% promedio estimado
libres de mastitis = -17.69 + 3.55 EQUIPO + 8.02 HIGIENE subclínica.
b) Si
X1 = 7.0 y X2 = 8.5
entonces:
𝑌� = -17.69 + 3.56 (7.0) + 8.02 (8.5) = 75.40% de animales libres de mastitis subclínica..
c)
𝑠 𝑌 •𝑋1 𝑋2
= �
4884−(3.56)( 107.2)− (8.02)(303.9)
19−3
= �
2065.09
16
= 11.36
d)
H0: β1 = 0 vs H1: β1 ≠ 0
ahora:
b1 = 3.56
𝑠 𝑏1
= 11.36 �
37.56
1065.74
= 2.13
tc=
(3.56−0)
2.13
= 1.67 con 16 g.l.
El valor tt = 2.12 con α = 5% para la prueba bilateral y se acepta H0. Sin embargo, si se
considera la prueba unilateral (si el efecto del equipo existe, debe de ser positivamente
correlacionado con Y),
H0: β1 < 0 vs H1: β1 > 0
entonces tt = 1.75 con α = 5% para esta prueba unilateral y se observa que se tiene una
evidencia de peso moderado a favor del efecto del estado del equipo sobre el % de
animales libres de mastitis subclínica (aunque no llega a ser significativo al nivel 5%).
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
e)
Por las razones mencionadas anteriormente se prueba:
H0: β2 < 0 vs H1: β > 0
y se calcula:
b2 = 8.02
𝑠 𝑏2
= 11.36 �
28.39
1065.74
= 1.85
tc =
(8.02−0)
1.85
= 4.33
lo cual es significativo al nivel α = 0.0005, reflejando una relación muy definida entre %
libre de mastitis subclínica e higiene.
f)
Nivel de confianza =95% g.l. = 16
entonces:
t = 2.12
y se tiene:
β2= 8.02 ± 2.12 (1.85) = 8.02 ± 3.92
4.10 < β2 < 11.94
% de animales adicionales libres de mastitis subclínica por cada punto adicional de
calificación de higiene.
g)
Nivel de confianza = 90% g.l. = 19
tt = 1.729
X1= 6.0
X2= 5.0
𝑌� = −17.69 + 3.56 (6.0) + 8.02 (5.0) = 43.77
𝑠 𝑌� = 11.36
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
entonces:
Y= 43.77 ± (1.729) (11.36) = 43.77 ± 19.64
24.13% < Y < 63.41%
libres de mastitis subclínica.
EJEMPLO 6
Para los datos del ejemplo 5 calcule:
a) Los tres coeficientes de correlación lineal simple.
b) El coeficiente de correlación lineal múltiple de Y sobre X1 = equipo y
X2 = higiene (𝑟𝑌∙𝑋1 𝑋2
).
c) 𝑟𝑌∙𝑋1 𝑋2
utilizando los coeficientes de regresión parcial de b1 y b2.
d) El % de variación no explicada de Y por equipo e higiene.
Solución:
a)
𝑟𝑌𝑋1
=
107.2
�(28.39)(4884)
= 0.29 correlación moderada entre Y y equipo.
𝑟𝑌𝑋2
=
303.9
�(37.56)(4884)
= 0.71 correlación altamente significativa entre Y e higiene.
𝑟𝑋1 𝑋2
=
0.77
�(28.39)(37.56)
= 0.02 casi nula correlación entre la calificación de equipo y la
calificación de higiene en esta muestra de hatos lecheros.
b)
𝑟𝑌∙𝑋1 𝑋2
= �
(0.29)2+(0.71)2−2(0.29)(0.71)(0.02)
(1−0.02)
= 0.77
c) 𝑟𝑌∙𝑋1 𝑋2
= �
(3.56)(107.2)+(8.02)(303.9)
(4884)
= 0.76
que son iguales excepto por errores de redondeo (el último es más preciso, ya que se
utilizaron más dígitos significativos).
d) El % de variación en el porcentaje de animales libres de mastitis en un hato que no está
explicado por el estado del equipo y la higiene en la sala de ordeño
= 1 − 𝑟𝑌∙𝑋1 𝑋2
2
= 1 − (0.76)2
= 1 − 0.58 = 42%
Este porcentaje puede deberse a factores no tomados en cuenta en la ecuación, tales
como sobre-ordeño, edad de las vacas, producción láctea y otros.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
EJEMPLO 7
En un experimento, se hizo pasar un gas a través de un cierto medidor de orificio (mide
velocidad de flujo). Para una relación de presión X1 (Pb/Pa : Pa es la presión antes del orificio y
Pb es la presión después del orificio) y una relación de diámetros X2 (dt/d0 : dt es el diámetro del
tubo y d0 es el diámetro del orificio), se obtuvieron los siguientes datos del factor de expansión.
Y del medidor de orificio (factor adimensional, el cual es útil para cuantificación de transporte y
medida de fluídos en la mecánica de fluidos).
a) Encontrar la ecuación del plano de regresión de Y sobre X1 y X2, para la muestra dada.
b) ¿Cuál será el factor de expansión, estimado puntualmente, para una relación de presión
X1 = 0.90 y una relación de diámetros X2 = 0.10?
c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2.
d) Si se mantiene constante la relación de diámetros (X2), ¿usted afirmaría que la relación
de presión (X1) no afecta al factor de expansión con un nivel del 5% de significancia?, a
partir de la muestra dada.
e) Si se conserva constante la relación de presión (X1), ¿usted afirmaría que la relación de
diámetros (X2) afecta al factor de expansión con un nivel del 5% de significancia?, a
partir de la muestra dada.
f) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión
parcial del factor de expansión (Y) sobre la relación de presión (X1), con una relación de
diámetros constante.
g) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión
parcial del factor de expansión (Y) sobre la relación de diámetro (X2), con una relación
de presión constante.
h) Calcular el intervalo de 95% de confianza para estimar el factor de expansión para el
caso de una relación de presión X1 = 0.75 y una relación de diámetros X2 = 0.70.
Solución:
𝑿 𝟏 𝑋2 𝑌
0.80 0.80 0.92
0.80 0.60 0.93
0.80 0.40 0.94
0.70 0.80 0.88
0.70 0.60 0.90
0.70 0.40 0.91
0.60 0.80 0.84
0.60 0.60 0.87
0.60 0.40 0.89
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
a) Con los datos anteriores se obtiene la siguiente tabla:
𝑿 𝟏 𝑿 𝟐 𝒀 𝑿 𝟏
𝟐 𝑿 𝟏 𝑿 𝟐 𝑿 𝟏 𝒀 𝑿 𝟐
𝟐 𝑿 𝟐 𝒀 𝒀 𝟐
0.80 0.80 0.92 0.64 0.64 0.736 0.64 0.736 0.8464
0.80 0.60 0.93 0.64 0.48 0.744 0.36 0.558 0.8649
0.80 0.40 0.93 0.64 0.32 0.744 0.16 0.372 0.8649
0.70 0.80 0.88 0.49 0.56 0.616 0.64 0.704 0.7744
0.70 0.60 0.90 0.49 0.42 0.630 0.36 0.540 0.8100
0.70 0.40 0.91 0.49 0.28 0.637 0.16 0.364 0.8281
0.60 0.80 0.84 0.36 0.48 0.504 0.64 0.672 0.7056
0.60 0.60 0.87 0.36 0.36 0.522 0.36 0.522 0.7569
0.60 0.40 0.88 0.36 0.24 0.528 0.16 0.352 0.7744
∑ 6.30 ∑ 5.40 ∑ 8.06 ∑ 4.47 ∑ 3.78 ∑ 5.661 ∑ 3.48 ∑ 4.820 ∑
7.2256
0.70 0.60 0.896 4.41 3.78 5.642 3.24 4.836 7.2182
n =9 0.06 0 0.019 0.24 -0.016 0.0074
D = (∑𝑥1
2
) (∑𝑥2
2
) – (∑x1X2)2
= (0.06) (0.24) – 02
= 0.0144
𝑏1 =
(∑ 𝑥2
2)(∑ 𝑥1 𝑦)−(∑ 𝑥1 𝑥2) (∑ 𝑥2 𝑦)
𝐷
=
(0.24)(0.019)−(0)(−0.016)
0.0144
= 0.3167
𝑏2 =
(∑ 𝑥1
2)(∑ 𝑥2 𝑦)−(∑ 𝑥1 𝑥2) (∑ 𝑥1 𝑦)
𝐷
=
(0.06)(−0.016)−(0)(0.019)
0.0144
= - 0.0667
𝑎 = 𝑌� − 𝑏1 𝑋�1 − 𝑏2 𝑋�2 = 0.8956 − (0.3167)(0.70) − (−0.0667)(0.60) = 0.7139
Por lo tanto, la ecuación del plano de regresión es:
𝑌� = 0.7139 + 0.3167𝑋1 − 0.0667𝑋2
b) Si X1= 0.90 y X2 = 0.10, entonces:
𝑌� = 0.7139 + (0.3167)(0.90) − (0.0667)(0.10) = 0.9923
c) 𝑆 𝑌∙𝑋1 𝑋2
= �
∑ 𝑦2−𝑏1 ∑ 𝑥1 𝑦−𝑏2 ∑ 𝑥2 𝑦
𝑛−3
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝑆 𝑌∙𝑋1 𝑋2
= �
(0.0074) − (0.3167)(0.019) − (0.0667)(−0.016)
9 − 3
= 0.0075
d)
H0: β1 = 0 H1: β1 ≠ 0
Regla de decisión: si tc está entre ± tt aceptar H0
b1 = 0.3167
𝑠 𝑏1
= 𝑠 𝑌•𝑋1 𝑋2
�
∑𝑋2
2
𝐷
= 0.0075 �
0.24
0.9048
= 0.03068
tc=
(0.3167−0)
0.03068
= 10.323
con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447
como 10.323 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de
regresión parcial de Y sobre X1, con X2 constante, es diferente de cero, por lo tanto, la
relación de presión afecta al factor de expansión.
e)
H0: β2 =0 H1: β2 ≠ 0
Regla de decisión: si tc está entre ± tt aceptar H0.
b2 = -0.0667
𝑠 𝑏2
= 𝑠 𝑌•𝑋1 𝑋2
= �∑𝑥2
2
𝐷
= 0.0075 �
.06
0.0144
= 0.0153
tc=
(−0.0667−0)
0.0153
= −4.359
con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447
como -4.359 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de
regresión parcial de Y sobre X2, con X1 constante, es diferente de cero, por lo tanto, la
relación de diámetros afecta al factor de expansión.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
f)
Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447
b1 = 0.3167 𝑠 𝑏1
= 0.03068
β1 = 0.3167 ± (2.447) (0.03068) = 0.3167 ± 0.0751
0.2416 < β1 < 0.3918
g)
Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447
b2 = -0.0667 𝑠 𝑏2
= 0.0153
β2 = -0.0667 ± (2.447) (0.0153) = -0.0667 ± 0.0374
-0.1041 < β2 < -0.0293
h)
Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447
X1 = 0.75 X2 = 0.70
𝑌�= 0.7139 + (0.3167) (0.75) – (0.0667) (0.70) = 0.9048
𝑠 𝑌�= 𝑠 𝑌�•𝑋1 𝑋2
= 0.0075
Y = 0.9048 ± (2.447) (0.0075) = 0.9048 ± 0.0184
0.8864 < Y < 0.9232
EJEMPLO 8
Para los datos del ejemplo 7 calcular:
a) Los 3 coeficientes de correlación lineal simple.
b) El coeficiente de correlación lineal múltiple de Y = factor de expansión, sobre X1 =
relación de presión y X2 = relación de diámetros (𝑟𝑌•𝑋1 𝑋2
), utilizando los coeficientes de
correlación lineal simple.
c) El coeficiente de correlación lineal múltiple (𝑟𝑌•𝑋1 𝑋2
), utilizando los coeficientes de
regresión parcial.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
d) Los valores estimados del factor de expansión (𝑌�) para los valores dados de la
relación de presión (X1) y la relación de diámetros (X2) y graficarlos contra los valores
dados del factor de expansión (Y) y observar la correlación mediante un diagrama de
dispersión.
e) El coeficiente de correlación lineal múltiple (𝑟𝑌•𝑋1 𝑋2
), como el coeficiente de
correlación lineal simple que mide la relación mutua entre Y y 𝑌�.
f) El porcentaje de variación explicada y variación no explicada del factor de expansión
(Y) sobre la relación de presión (X1) y la relación de diámetros (X2).
SOLUCION
a)
𝑟𝑌•𝑋1
=
∑𝑥•𝑦
��∑𝑥1
2�(∑𝑦2)
=
0.019
�(0.06)(0.0074)
= 0.900 alta correlación lineal entre el factor de
expansión y la relación de presión.
𝑟𝑌 •𝑋2
=
∑ 𝑥2 𝑦
��∑ 𝑥2
2�(∑ 𝑦2)
=
− 0.016
�( 0.24)(0.0074)
= −0.379 baja correlación lineal entre el factor
de expansión y la relación de diámetros.
𝑟𝑋1•𝑋2
=
∑𝑥1𝑥2
��∑𝑥1
2� (∑𝑥2
2)
=
0
�(0.06)(0.24)
= 0 no existe correlación lineal entre la
relación de presión y la relación de
diámetros, es decir, casi son
independientes.
b)
𝑟𝑌•𝑋1 𝑋2
=
( 𝑟 𝑌•𝑋1
2
+ 𝑟 𝑌
2
•𝑋2
−2 𝑟 𝑌•𝑋1 𝑟 𝑌•𝑋2 𝑟 𝑋1𝑋2
)
(1− 𝑟 𝑋
2
1𝑋2
)
= �
0.9002+ (−0.379)2− 2 (0.900)(−0.379)(0)
1−(0)2
= 0.9769
alta correlación lineal del factor de expansión sobre la relación de presión y la relación
de diámetros.
c)
𝑟𝑌•𝑋1 𝑋2
= �
𝑏1 ∑𝑥1 𝑦+ 𝑏2 ∑𝑥2 𝑦
∑𝑦2
= �
�� 0.
3167
�(0.019)+ (−0.0667)(−0.016)�
0−0074
= 0.9769
d)
𝑌� = 0.8956
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝑌� = 0.7138 + 0.3167 X1 – 0.0667 X2
X1 X2 Y 𝒀� Y-𝒀� (Y-𝒀�)2
𝒀� − 𝒀� (𝒀� − 𝒀� 𝟐
)
0.80
0.80
0.80
0.70
0.70
0.70
0.60
0.60
0.60
0.80
0.60
0.40
0.80
0.60
0.40
0.80
0.60
0.40
0.92
0.93
0.93
0.88
0.90
0.91
0.84
0.87
0.88
0.9139
0.9272
0.9406
0.8822
0.8956
0.9089
0.8506
0.8639
0.8772
.0244
.0344
.0344
-.0156
.0044
.0144
-.0556
-.0256
-.0156
.0006
.0012
.0012
.0002
.0000
.0002
.0031
.0007
.0002
.0183
.0317
.0450
-0.133
0
.0133
-.0450
-.0317
-.0183
.0003
.0010
.0020
.0002
0
.0002
.0020
.0010
.0003
SUMA 0 .0074 0 .0071
FIGURA 2.
e)
𝑟𝑌 •𝑋1 𝑋2
= 𝑟 𝑌•𝑌� = �
∑(𝑌�−𝑌�)2
∑(𝑌−𝑌�)2
= �
0.0071
0.0074
= 0.9769
f)
𝑟𝑌 •𝑋1 𝑋2
= 0.9769
𝑟𝑌 •𝑋1 𝑋2
2
= 0.9543 1 − 𝑟𝑌 •𝑋1 𝑋2
2
= 1 − 0.9543 = 0.0457
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
El porcentaje de variación explicada es de 95.43% y el porcentaje de variación no
explicada es de 4.57%, el cual puede se debido a transmisiones de calor a través de la
tubería, variaciones de densidad, temperatura, etc.
REGRESIÓN Y CORRELACIÓN LINEAL.
A) REGRESIÓN NO LINEAL.
Cuando la relación entre la variable dependiente o aleatoria (Y) con respecto a la
variable independiente o controlada (X), no tiene la forma de una línea recta, se aplica
la regresión no lineal que consta de 3 opciones generales que son:
1) TRANFORMACIÓN A LINEAL.
Cuando el problema original por antecedentes específicos o por observación de su
diagrama de dispersión se puede ajustar a una curva conocida, entonces es factible
efectuar la transformación (principalmente por logaritmos, por inverso, por raíz, etc.) de
una o las 2 variables, de tal manera que es posible obtener la ecuación de una recta
(𝑌�= a + b X); una vez obtenida ésta, se puede efectuar toda la inferencia en forma
similar a la utilizada en la Técnica X.
Si se realiza un nuevo diagrama de dispersión con la(s) variable(s) transformada(s), se
observará que los puntos se dispersan muy aproximadamente en una línea recta.
Es importante tener en cuenta la transformación, para la obtención de la ecuación
original y para efectuar la inferencia estadística respectiva.
Algunos ejemplos de curvas conocidas y su respectiva transformación a recta son los
siguientes:
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Z ZFunción Recíproca
z = 1/(A+BW)
Recuerde que la ecuación de una recta es:
Y = a + b X donde:
Función Potencia
z = A ∙ 𝑊 𝐵
1
𝐴
A>0
B>0
Z Z
W W
W W
Y = log. Z
a = log. A
b =B
X = log. W
Y = 1/z
a = A
b = B
X = W
Y = a+b X
Y = a+b X
W W
W
Z Z
Z Z
A>0
B>0
A>0
B>0
Función Exponencial
z = A ∙ 𝐵 𝑊
Función Logarítmica
𝑒 𝑧
= A ∙ 𝑊 𝐵
Y = log. Z
a = log. A
b = log. B
X = W
Y = a+b X
Y = Z
a = Ln A
b =B
X = Ln W
Y = a+b X
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
b =
∑ 𝑥𝑦
∑ 𝑥2
a = 𝑌� – b 𝑋�
Y además:
𝑠 𝑌 •X =
�∑ 𝑦2− 𝑏 (∑ 𝑥𝑦)
𝑛−2
; 𝑠 𝑏 =
𝑠 𝑌•𝑋
�∑ 𝑥2
𝑆 𝑌= 𝑆 𝑌 •X ∙ aproximadamente
2) REGRESIÓN POLINOMIAL.
Cuando la relación entre las variables es un polinomio de la forma:
Y = a + b X + c 𝑋2
+ d 𝑋3
+ … + m 𝑋 𝑘
La más común de las relaciones polinomiales es la regresión parabólica (polinomio de
2° grado), que con la función:
E (Y) = α + β X + γ 𝑋2
Mide el comportamiento esperado de la variable dependiente Y con respecto a la
variable independiente X en la forma de una parábola a la que se ajustan los puntos
(pares ordenados), es decir las observaciones de la muestra.
La ecuación de la parábola es:
𝑌� = a + b X + c 𝑋2
Donde:
𝑌� Es el valor de Y, estimado parabólicamente para un valor de X dado.
a Es la intersección de la parábola en el eje Y.
b Es el coeficiente de linealidad, y
c El coeficiente de curvatura de 2° grado.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Para calcular los parámetros muestrales, se efectúan las siguientes operaciones
a los valores muestrales observados:
X Y 𝑿 𝟐
𝑿 𝟑
𝑿 𝟒 XY X2
Y Y2
X1
X2
…
Xn
Y1
Y2
…
Yn
𝑋1
2
𝑋2
2
…
𝑋 𝑛
2
𝑋1
3
𝑋2
3
…
𝑋 𝑛
3
𝑋1
4
𝑋2
4
…
𝑋 𝑛
4
𝑋1 𝑌1
𝑋2 𝑌2
…
𝑋 𝑛 𝑌𝑛
𝑋1
2
𝑌1
𝑋2
2
𝑌2
…
𝑋 𝑛
2
𝑌𝑛
𝑌1
2
𝑌2
2
…
𝑌𝑛
2
∑X ∑Y ∑ 𝑋2
∑ 𝑋3
∑ 𝑋4
∑XY ∑X2
𝑌 ∑ 𝑌2
𝑿� 𝑌� 1
𝑛
(∑ 𝑋 )2 1
𝑛
(∑ 𝑋)(∑ 𝑋)2 1
𝑛
(∑ 𝑋2)2 1
𝑛
(∑ 𝑋)(∑ 𝑌)
1
𝑛
(∑ 𝑋2)(∑ 𝑌)
1
𝑛
(∑ 𝑌)2
∑ 𝑥2
∑ 𝑥3
∑ 𝑥4
∑xy ∑x2
𝑦 ∑ 𝑦2
De los tres últimos renglones, el primero es el de las sumatorias, el segundo de los
términos de corrección y el último de sumatorias corregidas, se obtiene restando los
dos anteriores: por ejemplo en la 7ª columna:
∑ 𝑥2
𝑦 = ∑ 𝑋2
𝑌 -
1
𝑛
(∑ 𝑋2
) (∑ 𝑌)
Y se calcula:
D = (∑ 𝑥2
) (∑ 𝑥4
) – (∑ 𝑥3
)2
(denominador)
b =
(∑𝑥𝑦)�∑ 𝑥4�− �∑ 𝑥2 𝑦��∑ 𝑥3�
𝐷
c =
�∑ 𝑥2 𝑦��∑ 𝑥2�− (∑𝑥𝑦) (∑ 𝑥3)
𝐷
a = 𝑌� – b 𝑋� - c (∑ 𝑋2
)/n
La falta de ajuste de los puntos a la parábola, se mide con el error estándar de
regresión parabólica:
𝑆 𝑌∙𝑋 = �
∑(𝑌− 𝑌�)2
𝑛−3
= �
∑ 𝑦2− 𝑏 (∑𝑥𝑦)− 𝑐 (∑ 𝑥2 𝑌)
𝑛−3
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
La inferencia estadística de la regresión parabólica para los parámetros poblacionales
se puede hacer principalmente de la siguiente manera:
a) Prueba de hipótesis para el coeficiente de linealidad poblacional (β). Se plantean
las hipótesis.
H0 : β = 0(u otro valor)
H1: β ≠ 0 (u otro valor con pruebas unilaterales también)
Y se compara
t c =
𝑏−0
𝑠 𝑏
(u otro valor con t t )
Donde:
𝑠 𝑏 = 𝑠 𝑌∙ X �∑ 𝑥4 /𝐷 Es la variación natural del estimador b.
b) Prueba de hipótesis para el coeficiente de curvatura de 2° grado poblacional (γ).
H 0 : γ = 0 (u otro valor)
H 1 : γ ≠ 0 (u otro valor con pruebas unilaterales también)
Y se compara:
t c =
𝑐−0
𝑠 𝑏
(u otro valor con t t )
Donde:
𝑠𝑐 = 𝑠 𝑌 •𝑋 �∑ 𝑥2 /𝐷 Es la variación natural del estimador c.
Si se desea en cualquier caso o si en los casos (a y b) anteriores, la prueba
resulta significativa, se puede encontrar los intervalos de confianza respectivos.
c) Intervalo de confianza para estimar β.
β = b ± t0 sb
d) Intervalo de confianza para estimar γ.
γ = c ± t 0 sc
e) Intervalo de confianza para estimar un valor individual Y, para un valor de X
dado.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Y = 𝑌� ± t 0 sY
Donde 𝑌� = a + b X + c X2
es el estimador y 𝑆 𝑌� = SY∙X es aproximadamente la
variación del estimador.
En toda la inferencia tt y t0 se obtienen de las tablas con n – 3 g.l. y los niveles
de significación y confianza dados respectivamente.
3) FUNCIONES ESPECIALES (NO LINEALES EN LOS PARAMETROS).
Es la opción cuando se trata de estimar la relación funcional con una ecuación
muestral especial, cuyos parámetros no son fáciles de calcular, pues dicho cálculo
es mediante un sistema de ecuaciones no lineales.
La solución no es imposible, pues se puede resolver el sistema de ecuaciones
por medio de métodos iterativos de computación, pero en esta técnica, no se tratará
esta opción.
Algunos ejemplos de funciones especiales son:
Y = a – b ∙ pX
P < 1
a > 0
b > 0
REGRESIÓN ASINTOTICA
Y
X
P < 1
a > 0
b > 0
CURVA DE CRECIMIENTO LOGISTICO
X
Y
Y = a/ (1+b ∙ pX
)
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
B) CORRELACIÓN NO LINEAL.
Si se quiere medir el grado de relación no lineal mutua entre dos variables, se calcula el
coeficiente de correlación no lineal muestral que es:
r = √𝑟2 = � 𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝐸𝑋𝑃𝐿𝐼𝐶𝐴𝐷𝐴
𝑉𝐴𝑅𝐼𝐴𝐶𝐼𝑂𝑁 𝑇𝑂𝑇𝐴𝐿
= �1 −
𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝑁𝑂 𝐸𝑋𝑃𝐿𝐼𝐶𝐴𝐷𝐴
𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝑇𝑂𝑇𝐴𝐿
En donde r2
es el coeficiente de determinación que indica el % de variación explicada
entre las variables. Es decir,
r = �
∑(𝑌�− 𝑌�)2
∑(𝑌− 𝑌�)2
= �1 −
∑(𝑌− 𝑌�)2
∑(𝑌− 𝑌�)2
Y Indica los valores observados.
𝑌� Los valores estimados correspondientes a Y.
𝑌� ∑ 𝑌/𝑛 el valor medio de los valores observados.
NOTA: el método anterior es general, pues los valores 𝑌� pueden estar estimados con
cualquier relación funcional, pero se puede simplificar mucho en los siguientes casos:
1) Si se efectúa una transformación de no lineal a lineal para la regresión (inciso
A.1), entonces el coeficiente de correlación no lineal para las 2 variables
originales se puede calcular como el coeficiente de correlación lineal entre las 2
variables ya transformadas, en forma análoga a la efectuada en la técnica X, en
donde:
r = ∑ 𝑥𝑦/�(∑ 𝑥2)(∑ 𝑦2)
2) Si la relación funcional no lineal es un polinomio de 2° grado (inciso A.2), la que
se estima con la ecuación de una parábola 𝑌� = a + b X + c X2
, entonces el
coeficiente de correlación parabólico se puede calcular como:
r = �
𝑏 (∑ 𝑥𝑦 )+𝑐(∑ 𝑥2 𝑦)
∑ 𝑦2
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
EJEMPLO 1
Se anota a continuación R = cantidad de rodamiento de cierto tipo de llanta
radial (en miles de millas) y los valores observados aleatoriamente de V = porcentaje
de vida útil que aún le queda, después de haber rodado R miles de millas, en una
muestra experimental.
R 1 2 5 10 20 30 40 50
V 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3
Por experiencias anteriores se tiene la seguridad de que él % de vida útil
decrece exponencialmente con una ecuación de la forma V = A ∙ BR
y se pide en base
a los datos observados:
a) Estimar los parámetros A y B encontrando la transformación de la curva
exponencial a una recta de la forma Y = a + b X.
b) Dibujar en papel adecuado (según las transformaciones) un diagrama de
dispersión y la recta encontrada.
c) ¿Cuál es la ecuación original?
d) Calcular el error estándar de regresión lineal Y sobre X, es decir, la medida de la
falta de ajuste de los puntos a la recta.
e) Si una llanta ha recorrido 18.5 miles de millas, ¿Cuál será su porcentaje de vida
útil que le resta, estimado puntualmente?
f) En función de los datos transformados, ¿se puede afirmar con 5% de
significación que el coeficiente de regresión es diferente de cero?
g) Si en el inciso anterior, el coeficiente resultó significativo, estimarlo con un
intervalo de 99% de confianza.
h) Si una llanta ha recorrido 35 miles de millas, ¿Cuál será el porcentaje de vida útil
que le queda, estimada con un intervalo de 95% de confianza?
Solución:
a) V = A • BR
Log V = log A + R log B
Y = a + X b
Y = log V a = log A
X = R b = log B
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Entonces se efectúan las transformaciones a los datos observados.
R V X Y X2
XY Y2
1
2
5
10
20
30
40
50
98.2
91.7
81.3
64.0
36.4
32.6
17.1
11.3
1
2
5
10
20
30
40
50
1.9921
1.9624
1.9101
1.8062
1.5611
1.5132
1.2330
1.0531
1
4
25
100
400
900
1600
2500
1.9921
3.9247
9.5505
18.0618
31.2220
45.3965
49.3198
52.6539
3.9685
3.8509
3.6484
3.2623
2.4370
2.2898
1.5203
1.1090
158 13.0311 5530 212.1214 22.0863
19.75 1.6289 3120.5 257.3651 21.2263
2409.5 -45.2437 0.8599
b =
−45.2437
2409.5
= - 0.0188
a = 1.6289 – (-0.0188) (19.75) = 1.9997
𝑌� = 1. 9997 – 0.0188 X
X = 0 𝑌� = 1.9997
R = 0 V = 99.9408
X = 50 𝑌� = 1.0609
R = 50 V = 11.5051
A = antilog a A = antilog 1.9997 = 99.9408
B = antilog b B = antilog (- 0.0188) = 0.9577
R = X V = antilog Y
b) Figura 1
c) V = 99.9408 x 0.9577R
d) sYX = �
0.8599−(−0−0188)(−45.2437)
8−2
= �
0.0104
6
= 0.0416
e) Si R = 18.5 X = 18.5
𝑌� = 1.9997 – 0.0188(18.5) = 1.6524
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
V = antilog 1.6524 = 44.91% de vida útil.
O también
V = 99.9408 (0.9577)18.5
= 44.91% de vida útil.
f) H0 : β = 0 ; H1 : β ≠ 0
b = -0.0188 sb = 0.0416/√2409.5 = 0.0008
Regla de decisión: si tc esta entre ± tt, aceptar H0.
tc = (-0.0188 – 0) / 0.0008 = - 22.182
Con α = 5% se obtiene ± tt = ± 2.447
Como – 22.182 no está entre ± 2.447 se rechaza H0, es decir que el coeficiente de
regresión Y sobre X poblacional no es cero.
FIGURA 1
g) Con 99% de confianza y 6 g. l. t0 = 3.707
b = -0.0188 sb = 0.0008
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
β = -0.0188 ± (3.707)(0.0008) = -0.0188 ± 0.0031
-0.0219 < β < -0.0156
h) Con 95% de confianza y 6 g. l. t0 = 2.447
Si R = 35 X = 35 ,
Entonces
𝑌� = 1.9997 – 0.0188 (35) = 1.3425
V = antilog 1.3425 = 22.00% de vida útil.
sY = sYX = 0.0416 aproximadamente
Y = 1.3425 ± (2.447) (0.0416) = 1.3425 ± 0.1017
1.2409 < Y < 1.4442 y al transformar queda
17.41 < V < 27.81% de vida útil.
Nótese que el intervalo de confianza no es simétrico alrededor del valor estimado de V
= 22%. Esto es debido, al efecto de aplicar la transformación inversa.
EJEMPLO 2
En la tabla siguiente se anota X = la cantidad de barniz anticorrosivo (en
gramos) y también Y = el tiempo de secado promedio (en horas) de una pintura
aplicada en placas de acero, de uso industrial.
X 0 1 2 3 4 5 6 7 8
Y 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0
a) Dibujar un diagrama de dispersión.
b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y
dibujarla en el diagrama.
c) ¿Qué tiempo tardara en secar una pintura que tenga 10gr de barniz, estimado
puntualmente?
d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra
dada.
e) Probar con el 1% de significación, si al tiempo de secado, le afecta la cantidad
de barniz en forma lineal y en forma no lineal.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura de 2°
grado (y) poblacionales, resultan significativos, estimarlos mediante intervalos de
95% de confianza.
g) Estimar con un intervalo de 90% de confianza, el tiempo que tarda en secar una
pintura que tiene 4.5 gr de barniz.
SOLUCIÓN:
a) Ver figura 2
b) La ecuación 𝑌� = a + b X + c X2
se obtiene con las siguientes operaciones de los
valores observados.
X Y X2
X3
X4
XY X2
Y Y2
𝑌�
0
1
2
3
4
5
6
7
8
12.0
10.5
10.0
8.0
7.0
8.0
7.5
8.5
9.0
0
1
4
9
16
25
36
49
64
0
1
8
27
64
125
216
343
512
0
1
16
81
256
625
1296
2401
4096
0
10.5
20.0
24.0
28.0
40.0
45.0
59.5
72.0
0
10.5
40.0
72.0
112.0
200.0
270.0
416.5
576.0
144.0
110.25
100.00
64.00
49.00
64.00
56.25
72.25
81.00
12.18
10.52
9.22
8.29
7.73
7.52
7.69
8.22
9.12
36
4
n=9
80.5
8.9444
204
144
60
1296
816
480
8772
4624
44148
299
322
-23
1697
1824.6667
-127.6667
740.75
720.0278
20.7222
FIGURA 2
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Y se calcula
D = (60)(4148) - (480)2
= 18480
b =
(−23)(4148) –(−127.6667)(480)
18480
=
−34124
18480
= −1.8465
c =
(−127.6667)(60)− (−23)(480)
18480
=
3380
18480
= 0.1829
a = 8.9444 – (-1.8465) (4) – (0.1829) (204)/9 = 12.1848
𝑌� = 12.1848 – 1.8465 X + 0.1829 X2
es la ecuación de la parábola de
regresión de Y sobre X.
La figura 2 representa también la parábola con los valores estimados 𝑌�.
c) Si X = 10 entonces:
𝑌� = 12.1848 – 1.8465 (10) + 0.1829 (10)2
= 12.0095 horas
d)
sY∙X =�
20.7222− (−1.8465)(−23)− (0.1829)(−127.6667)
9−3
= �
1.6022
6
= 0.5167 horas
e)
H0: β = 0 R. de D. si tc está entre ± tt aceptar H0
H1: β ≠ 0 b = -1.8465
Sb = 0.5167 �
4148
18480
= 0.2448
tc = (-1.8465) / 0.2448 = -7.542
con 6 g. l. y α = 0.01 ± tt = ± 3.707
Como -7.542 no está entre ± 3.707, se rechaza H0, es decir que el coeficiente de
linealidad poblacional no es cero por lo tanto, el tiempo de secado le afecta linealmente
a la cantidad de barniz.
H0: γ = 0 R. de D. si tc está entre ± tt aceptar H0
H1: γ ≠ 0 c =0.1829
Sc = 0.5157�60/18480 = 0.0294
tc = (0.1829 – 0) 10.0294 = 6.212
con 6 g. l. y 𝛼 = 0.01 ± 𝑡𝑡 = ± 3.707
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Como 6.212 no está entre ± 3.707 rechace H0, es decir que el coeficiente de curvatura
de 2° grado poblacional no es cero, por lo tanto, al tiempo de secado le afecta también
no linealmente la cantidad de barniz.
f) Como los dos coeficientes resultaron significativos entonces:
95% de confianza
6 g. l. to=2.447
b = -1.8465
sb = 0.2448
β = -1.8465 ± (2.447) (0.2448) = -1.8465 ± 0.5991
-2.4456 < β < -1.2475 horas de secado por cada gramo de barniz.
c = 0.1829
sc= 0.0294 γ = 0.1829 ± (2.447) (0.0294) = 0.1829 ± 0.0721
0 .1109 < γ < 0.2550
g) 90 % de confianza
6 g. l. t0 = 1.943
Si X = 4.5
sY = 0.5167
𝑌� = 12.1848 – 1.8465 (4.5) + 0.1829 (4.5)2
= 7.5792
aproximadamente
Y = 7.5792 ± (1.943) (0.5167) = 7.5792 ± 1.0040
6.5751 < Y < 8.5832 horas de secado.
EJEMPLO 3
Para los datos del ejemplo 2:
a) Calcular el coeficiente de correlación no lineal, por el método general, para la
muestra dada.
b) ¿Qué % de variación es explicada?
c) ¿Qué % de variación no es explicada?
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
d) Tomando en cuenta que a los valores observados se les ajustó una parábola,
calcular el coeficiente de correlación no lineal (parabólico) por el método
simplificado.
SOLUCIÓN:
a) n=9
Y =
80.5
9
= 8.9444 𝑌� = 12.1848 - 1.8465 x + 0.1829 X2
Y Ŷ Ŷ- 𝒀� (Ŷ-Ȳ�)2 Y-Ȳ (Y-Ȳ)2
12.0
10.5
10.0
8.0
7.0
8.0
7.5
8.5
9.0
80.5
12.1848
10.5212
9.2234
8.2913
7.7251
7.5247
7.6900
8.2212
9.1182
3.2404
1.5768
0.2789
-0.2789
-1.2193
-1.4198
-1.2544
-0.7232
-0.1737
0
10.5502
2.4862
0.0778
0.4265
1.4868
2.0157
1.5735
0.5231
0.0302
19.1201
3.0556
1.5556
1.0556
-0.9444
-1.9444
-0.9444
-1.4444
-0.4444
0.0556
0
9.3364
2.4198
1.1142
0.8920
3.7809
0.8920
2.0864
0.1975
0.0031
20.7222
Variación total = 20.7222
Variación explicada = 19.1201
Variación no explicada = 20.7222 - 19.1201 = 1.6022
a) r= �19.1201/20.7222 = √0.9227 = 0.9606
o también:
r = �1 − 1.6022/20.7222 = √1 − 0.0773 = 0.9606
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Altísima correlación no líneal entre el tiempo de secado promedio y la cantidad de
barniz.
b) r2
= 0.9227 Es decir, 92.27% de la variación en el tiempo de secado es
explicada por la caridad de barniz anticorrosivo en la pintura
aplicada a las placas de acero.
c) 1-r2
= 1 -0.9227 = 0.0773
7.73% de la variación en el tiempo de secado es no explicada, es
decir, que esta variación restante puede deberse a otros diferentes
factores (humedad o temperatura del medio ambiente,
concentración del barniz, pulido de la superficie, etc.).
d) Como el Ejemplo 2 se tiene:
Y = 12.1848 – 1.8465 X + 0.1829 X2
b = -1.8465
c = 0.1829
∑𝑥𝑦 = −23
∑𝑥2
𝑦 = −127.6667
∑𝑦2
= 20.7222
Entonces se puede calcular:
r = �
(−1.8465)(−23)+ (0.1829)(−127.6667)
20.7222
= �
19.1201
20.7222
= 0.9606
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
EJEMPLO 4
En un ejemplo anterior se observa, de la gráfica de contenido de carbono contra partes
por millón de oxigeno, que la relación funcional existente pudiera ser una parábola; por
lo cual se tomaron datos de X = contenido de carbono en puntos de carbono (1 punto
de carbono es igual a 0.01% de carbono) y Y = partes por millón de oxigeno en el
horno, inmediatamente antes de vaciar (recuerde que la temperatura de vaciado y la
velocidad de vaciado influyen en el contenido de oxigeno) a una temperatura de 1600°
C y son los siguientes:
X 9 12 15 22 25 34 38 70 77 80
Y 325 264 200 151 122 93 70 59 54 50
a) Dibujar un diagrama de dispersión.
b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y
dibujarla en un diagrama.
c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono.
d) Calcular el error estándar de la regresión parabólica de Y sobre X para la
muestra dada.
e) Probar con un nivel del 5% de significación, si el contenido de carbono afecta en
forma lineal y en forma no lineal al contenido de oxígeno en el acero líquido.
f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura (γ)
poblacionales, resultan significativos, estimarlos mediante intervalos de 95% de
confianza.
g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno
de un acero con 60 puntos de carbono.
Solución:
a) Ver figura 3
b) La ecuación 𝑌� = a + b X + c X2
se obtiene con las siguientes operaciones de los
valores observados.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
FIGURA 3
c)
X Y X2
X3
X4
XY X2
Y Y2
𝒀�
9
12
15
22
25
34
38
70
77
80
325
264
200
151
122
93
70
48
43
40
81
144
225
484
625
1156
1444
4900
5929
6400
729
1728
3375
10648
15625
39304
54872
343000
456533
512000
6561
20736
50625
234256
390625
1336336
2085136
24010000
35153041
40960000
2925
3168
3000
3322
3050
3162
2660
3360
3311
3200
26325
38016
45000
73084
76250
107508
101080
235200
254947
256000
105625
69696
40000
22801
14884
8649
4900
2304
1849
1600
291.83
259.32
228.78
165.32
141.45
81.83
61.12
23.19
45.20
57.96
∑382
38.2
135.6
135.6
21388
14592.4
1437814
817021.6
104247316
45744654.4
31158
51799.2
1213410
2900212.8
272308
183873.6
n=10 6795.6 620792.4 58502661.6 -20641.2 -1686802.8 88434.4
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Y se calcula
D = (6795.6) (58502661.6) – (620792.4)2
= 12177483271.2
b =
(−20641.2)(58502661.6)− (−1686802.8)(620792.4)
12177483271.2
= −13.173
c =
(−1686802.8)(6795.6)− (−20641.2)(620792.4)
12177483271.2
= 0.111
a = 135.6 – (-13.173) (38.2) – (0.111) (21388)/10= 401.50
La ecuación de la parábola de regresión de Y sobre X es :
𝑌� = 401.40- 13.173 X + 0.111 X2
La figura 3 representa también la parábola con los valores estimados 𝑌�.
c) Si X = 90 entonces:
𝑌� = 401.40 – 13.173 (90) + 0.111(90)2
= 114.93
d) sY∙X=�
(88434.4)− (−13.173)(−20641.2)− (0.111)(−1686802.8)
10−3
= 23.186
e) H0 : β = 0 H1 : β ≠ 0
Regla de decisión: si tc esta entre ± tt aceptar H0.
b = -13.173
sb = sY∙X �∑ 𝑥4/𝐷 = 23.186 �58502661.6/12177483271.2= 5.082
tc = (b-0)/ sb = -13.173/0.055 = -2.592
con 7 g. l. y α = 5% se obtiene tt = ± 2.365
Como -2.592 no está entre ± 2.365, se rechaza H0, es decir que el coeficiente de
linealidad poblacional no es cero, por lo tanto, el contenido de carbono afecta
linealmente al contenido de oxigeno libre en el acero líquido.
H0 : γ = 0 H1 : γ ≠ 0
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Rango de decisión: si t0 está entre ± tt aceptar H0
c = 0.111
sc= sY∙X= �∑ 𝑥2/𝐷 = 23.186 �6795.6/12177483271.2
= 0.0173
tc= (c-0)/sc = 0.111 / 0.0173 = 6.409
con 7 g. l. y α = 5% se obtienen tt = ± 2.365
Como 6.409 no esta entre ± 2.365, se rechaza H0, es decir, que el coeficiente de
cuadratura de segundo grado poblacional no es cero, por lo tanto, el contenido de
carbono afecta no-linealmente al contenido de oxigeno libre en el acero.
f) Como los dos coeficientes resultaron significativos, entonces se obtienen los
siguientes intervalos de confianza:
para 7 g. l. y α = 5%, t0=2.365
β = b ± 𝑡0 𝑆 𝑏
= - 13.173 ± (2.365) (5.082) = - 13.173 ± 12.019
-25.192 < β < -1.154
γ = c ± t0 sc
= 0.111 ± (2.365) (0.0173) = 0.111 ± 0.041
0.070 < γ < 0.152
g) Para X = 60 se obtiene
𝑌� = 401.40 – 13.173 (30) + 0.111(30)2
= 10.62
Para 7 g. l. y α = 5%, t0 = 2.365
Por lo tanto, el intervalo de confianza resultante es :
Y = 𝑌� ± t0 SY•X
= 10.62 ± (2.365) (23.186) = 10.62 ± 54.83
-44.21 < γ < 65.45 ppm oxígeno.
Como no es posible obtener una cantidad negativa de ppm de oxigeno, el intervalo es:
0 < γ < 65.45 ppm oxigeno.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Ejemplo 5
Para los datos del ejemplo 4
a) Calcular el coeficiente de correlación no lineal por el método general, para la
muestra dada.
b) ¿Qué porcentaje de variación es explicada?
c) ¿Qué porcentaje de variación es no explicada?
d) Tomando en cuenta que a los valores observados se les ajusto una parábola,
calcular el coeficiente de correlación no lineal (parabólico) por el método
simplificado.
Solución:
a) n = 10 𝑌� = 135.6
𝑌� = 401.40 -13.173 X + 0.111 X2
Variación total = 88434.40
variación explicada = 84589.09
variación no explicada = 3845.31
r = �84589.09/88434.40 = 0.978
Por lo tanto, existe un buena correlación entre el contenido de oxigeno y el contenido
de carbono.
𝒀 𝒀� 𝒀� − 𝒀� (𝒀� − 𝒀�) 𝟐 𝒀 − 𝒀� (𝒀 − 𝒀�) 𝟐
325 291.83 156.23 24407.8129 189.4 35872.36
264 259.32 123.72 15306.6384 128.4 16486.56
200 228.78 93.18 8682.5124 64.4 4147.36
151 165.32 29.72 883.2784 15.4 237.16
122 141.45 5.85 34.2225 -13.6 184.96
93 81.83 -53.77 2891.2129 -42.6 1814.76
70 61.12 -74.48 5547.2704 -65.6 4303.36
48 23.19 -112.41 12636.0081 -87.6 7673.76
43 45.20 -90.40 8172.16 -92.6 8574.76
40 57.96 -77.64 6027.9696 -95.6 9139.36
1356 0 0 84589.09 0 88434.4
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
b) r2
= 0.9566
El 95.66% de la variación en el contenido de oxigeno (ppm) es explicada por los puntos
de carbono del acero.
c) 1-r2
= 1 – 0.9566 = 0.0434
El 4.34% de la variación en el contenido de oxigeno (ppm) no es explicada, es decir,
esta variación restante puede deberse a otros factores como pequeñas alteraciones en
la temperatura, tipo de horno, medio ambiente, etc., los cuales pueden haber alterado
el equilibrio químico carbono-oxigeno.
d) Del ejemplo 4 se tiene:
𝑌� = 401.40 - 13.173 X + 0.111 X2
b= -13.173 c = 0.111
∑ 𝑥𝑦 = −20641.2 ∑ 𝑋2
𝑌 = −1686807.8 ∑ 𝑦2
= 88434.4
Entonces:
r= �
(−13.173)(−20641.2)+ (0.111)(−1686802.8)
88434.4
= 0.978
EJEMPLO 6
En los 4 y 5 se realizaron los cálculos de regresión y correlación, suponiendo que una
curva cuadrática (parábola) es una relación entre el contenido de oxígeno y el
contenido de carbono en la fabricación química del acero líquido. Sin embargo, aunque
estadísticamente se obtuvieron resultados satisfactorios respecto a la variación
explicada en la correlación no lineal existente, químicamente no es aceptable que un
acero aumente su contenido de oxigeno al aumentar el contenido de carbono
(obsérvense los contenidos de oxigeno obtenidos por la regresión parabólica para 77 y
80 puntos de carbono; de hecho, cuando se extrapoló a 90 puntos de carbono se
estimó un contenido de oxigeno de 114.93 ppm, el cual es superior en oxidación a un
acero con 34 puntos de carbono).
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Por lo mencionado y por pláticas con los ingenieros químicos de la fábrica, se supuso
que una relación hiperbólica que pudiera resultar satisfactoria es:
Z Y = K
Donde:
Z = puntos de carbono
Y = ppm de oxigeno
K = constante
Y los argumentos pueden ser resumidos en los siguientes:
1) No es químicamente aceptable que se obtenga un acero con 0 ppm de oxigeno,
aunque sea muy grande la cantidad de carbono.
2) No se deben obtener contenidos negativos de oxigeno
3) Al aumentar el contenido de carbono debe disminuirse la cantidad de oxigeno y
viceversa.
4) No existe un contenido de carbono tal que se obtenga un mínimo en la cantidad
de oxigeno. (En la regresión parabólica del ejemplo 2 se obtiene un mínimo para
59 puntos de carbono)
Si se efectúa la transformación X =
1
𝑍
se obtiene la relación:
Y= b X, donde b = K
Que es la ecuación de una recta; y para los datos del ejemplo 2 se pide:
a) Dibujar un diagrama de dispersión con la transformación indicada.
b) Indicar la ecuación original.
c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono.
d) Calcular el error estándar de regresión lineal Y sobre X, es decir, la medida de la
falta de ajuste de los puntos a la recta.
e) En función de los datos transformados ¿se puede afirmar con 5% de significancia
que el coeficiente de regresión es diferente de cero?
f) Si en el inciso anterior, el coeficiente resulto significativo, estimarlo con un intervalo
de 95% de confianza.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno de
un acero con 60 puntos de carbono.
Solución:
a) Ver figura 4
b) La ecuación:
Y = b X ; X = 1/Z
Se obtiene con las siguientes operaciones de los valores observados.
Z X Y X2(*)
XY Y2
9
12
15
22
25
34
38
70
77
80
0.111
0.083
0.067
0.045
0.040
0.029
0.026
0.014
0.013
0.013
325
264
200
151
122
93
70
48
43
40
0.012
0.007
0.004
0.0021
0.0016
0.0009
0.0007
0.0002
0.0002
0.0002
36.111
22.000
13.333
6.864
4.880
2.735
1.842
0.686
0.558
0.500
105625
69696
40000
22801
14884
8649
4900
2304
1849
1600
0.4421 1356 0.0295 89.5096 272308
0.04421 135.6 0.0195 59.9441 183873.6
0.009945 29.5655 88434.4
FIGURA 4.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
(*) Los cálculos fueron hechos en una calculadora y no aparecen indicadas todas las
cifras significativas tomadas en cuenta.
b = ∑ 𝑥𝑦 / ∑ 𝑥2
= 29.5655 / 0.009945 = 2972.9
Y = 2972.9 X
Y la ecuación original es:
𝑌� Z = 2972.9
O equivalente:
𝑌� = 2972.9 / Z
c) 𝑌� = 2972.9 / Z = 2972.9 / 90 = 33.03
Obsérvese que las ppm de oxígeno con 90 puntos de carbono son inferiores a las
observadas con 80 puntos de carbono.
d) sY∙X = �
88434.4−(2972.9)(29.5655)
10−2
= 8.21
obsérvese que el error estándar de la regresión lineal transformada es inferior al
error estándar de la regresión parabólica.
e) H0 : β = 0 ; H1 : β ≠ 0
b = 2972.9 sb = sY∙X / �∑ 𝑥2 = 8.21 / √0.009945 = 82.32
Regla de decisión: si tc está entre ± tt se acepta H0
tc = (2972.9 – 0) / 82.32 = 36.11
con α = 5% y con 8 g. l. se obtiene ± tt = ± 2.306
Como 36.11 no está entre ± 2.306, se rechaza H0 , es decir, que el coeficiente de
regresión Y sobre X poblacional no es cero.
Obsérvese que se tiene una mayor significancia estadística con la transformación
hecha que con la regresión parabólica.
f) Con 95% de confianza y 8 g. l. se obtiene t0 = 2.306
b = 2972.9 sb = 82.32
β = 2972.9 ± (2.306) (82.32) = 2972.9 ± 189.9
2783.1< β < 3162.7
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
g) Con 95% de confianza y 8 g. l. se obtiene t0 = 2.306
SY ≈ sY∙X = 8.21
Si Z = 60 entonces:
Y = 297.9 / 60 = 49.5
Por lo tanto,
Y = 49.5 ± (2.306) (8.21) = 49.5 ± 18.9
30.6 < Y < 68.4
EJEMPLO 7
Para los datos del ejemplo 6:
a) Calcular el coeficiente de correlación lineal para la ecuación transformada, para
la muestra dada, utilizando la fórmula:
𝑟 = �𝛴𝑥2 ∙ 𝛴𝑦2/(𝛴𝑥𝑦)2
b) Calcular el coeficiente de correlación no lineal por el método general, para la
muestra dada.
c) De una explicación de la diferencia que existe entre los coeficientes de
correlación calculados en los incisos (a) y (b).
d) ¿Qué porcentaje de la variación es explicada?
e) ¿Qué porcentaje de la variación es no explicada?
f) ¿Qué conclusiones se pueden obtener al comparar los resultados obtenidos en
este ejemplo, respecto a los resultados del ejemplo 5.
Solución:
a) 𝑟 = �𝛴𝑥2 ∙ 𝛴𝑦2/(𝛴𝑥𝑦)2 = �(0.009945) ∙ (88434.4)/(29.5655)2 = 1.00
b) 𝑛 = 10 𝑌� = 135.6
𝑌� = 2972.9/𝑍
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝒀 𝒀� 𝒀� − 𝒀� �𝒀� − 𝒀��
𝟐
𝒀 − 𝒀� (𝒀 − 𝒀� 𝟐
)
325
264
200
151
122
93
70
48
43
40
1356
330.3
247.7
198.2
135.1
118.9
87.4
78.2
42.5
38.6
37.2
194.7
112.1
62.6
-0.5
-16.7
-48.2
-57.4
-93.1
-97.0
-98.4
-41.9
37908.1
12566.4
3918.8
0.3
278.9
2323.2
3294.8
8667.6
9409.0
9682.6
88049.6
189.4
128.4
64.4
15.4
-13.6
-42.6
-65.6
-87.6
-92.6
-95.6
0
35872.4
16486.6
4147.4
237.2
185.0
1814.8
4303.4
7673.8
8574.8
9139.4
88434.4
Obsérvese que ∑ �𝑌� − 𝑌��
2
es diferente de cero y esto es debido a que la
transformación hecha supone que la recta pasa por el origen, pero se utilizaron
fórmulas para una relación del tipo:
Y = a + bX
y de hecho se obtiene que a = 4.19 y al ser incrementada cada una de las 10
estimaciones Y por este valor, se obtendría que ∑ � 𝑌� − 𝑌�� = 0.
Variación total = 88434.4
Variación explicada = 88049.6
𝑟 = �
88049.6
88434.4
= 0.9978
c) La principal razón es que la fórmula:
𝑟 = �
∑ 𝑥2 • ∑ 𝑦2
∑ 𝑥𝑦2
solo sirve para calcular la correlación lineal entre dos variables que tienen una ecuación
de regresión del tipo:
Y = a + bX
y por lo explicado en el inciso anterior, queda claro que la forma correcta de hacer el
cálculo es por el método general.
d) r2
= 0.9956
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
el 99.56% de la variación en el contenido de oxígeno (ppm) es explicada por los puntos
de carbono del acero.
e) 1- r2
= 1- 0.9956 = 0.0044
el 0.44% de la variación en el contenido de oxígeno (ppm) no es explicada, es decir,
esta variación restante puede deberse a otros factores (supuestamente controlados)
como temperatura, tipo de horno, medio ambiente, etc., los cuales pueden haber
alterado el equilibrio químico carbono-oxígeno.
f) La estadística es de gran utilidad para la modelación matemática de procesos reales,
pero debe ser aplicada con buen criterio, tanto estadístico como del área tecnológica
del problema, para evitar que el modelo ajustado pueda no proporcionar la adecuada
información e incluso pueda proporcionar información errónea.
EJEMPLO 8
Los datos de la tabla representan el número de bacterias (en cientos) que sobreviven
por irradiación por rayos X (200 kilovoltios) durante 1 a 15 períodos de 6 minutos cada
uno en un experimento. El propósito del experimento fue probar la hipótesis de choque
único de la acción de rayos-X. Según esta teoría, existe un único centro vital en cada
bacteria al cual le tiene que pegar un rayo antes de que se muera la bacteria. De
hecho, esto indica que en cualquier momento el número de bacterias que se mueren es
proporcional al número de bacterias vivas. Entonces un poco de ecuaciones
diferenciales dan la siguiente relación funcional.
𝑛 𝑡 = 𝑛 𝑜 𝑒 𝛽𝑡
, 𝑡 ≥ 0
Donde: 𝑛 𝑡 = el número de sobrevivientes después del tiempo t de irradiación.
𝑛 𝑜 = el número de bacterias al principio del experimento.
β = la razón de destrucción.
Si se toman logaritmos (naturales) de ambos lados de esta ecuación se
obtiene:
ln 𝑛 𝑡 = ln 𝑛0 + 𝛽𝑡
= 𝛼 + βt
Donde: α = ln no y se tiene ln nt expresado como función lineal de t.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Número de bacterias sobrevivientes (Unidades de 100)
FIGURA 5
a) Estimar los parámetros α y β.
b) En las escalas transformadas, haga el diagrama de dispersión y trace la recta de
mínimos cuadrados que se encontró en el inciso a.
c) ¿Cuál es la ecuación original?
d) Estimar el número de bacterias nt, que sobreviven una irradiación de 45 minutos
(7.5 períodos).
e) Calcular el error estándar de ajuste.
f) Calcular un intervalo de confianza para la razón de destrucción β (nivel de
confianza 95%).
g) Para el inciso d) calcular los límites de confianza (90%) para esta estimación.
Tiempo (No. De Períodos) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
nt = No. De bacterias 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Solución:
Se llena la tabla siguiente:
𝒕 𝒏 𝒕 𝐥𝐧 𝒏 𝒕 𝒕 𝟐 𝒕 ∙ 𝐥𝐧 𝒏 𝒕 (𝐥𝐧 𝒏 𝒕) 𝟐
1 355 5.872 1 5.872 34.482
2 211 5.353 4 10.704 28.642
3 197 5.283 9 15.850 27.912
4 166 5.112 16 20.448 26.132
5 142 4.956 25 24.779 24.560
6 106 4.663 36 27.981 21.748
7 104 4.644 49 32.511 21.570
8 60 4.094 64 32.755 16.764
9 56 4.025 81 36.228 16.204
10 38 3.638 100 36.376 13.232
11 36 3.584 121 39.419 12.842
12 32 3.466 144 41.589 12.011
13 21 3.045 169 39.579 9.269
14 19 2.944 196 41.222 8.670
15 15 2.708 225 40.621 7.334
120 x 64.406 1,240 446.073 281.552
8.00 x 4.227 960 507.248 268.021
280 -61.175 13.531
a) b = -61.175/280 = -0.218
a = 4.117 – (-0.218)(8.00)
= 5.975
ln nt = 5.975 – 0.218 t
FIGURA 6
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
b) Ver figura 6
c) La ecuación en las escalas originales depende de:
𝑛� 𝑜= antilog natural (5.975) = 𝑒5.975
= 393.438 bacterias.
Por lo tanto:
𝑛� 𝑡 = 𝑛� 𝑜 • 𝑒 𝑏𝑡
= 393.438𝑒− 0.218𝑡
Es la ecuación que se buscaba.
d) t = 7.5 períodos
𝑛�7.5 = 393.438𝑒− 0.218 (7.5)
= 76.702 bacterias sobrevivientes es la cantidad estimada
para un tiempo de irradiación de 45 minutos.
e)
𝑠𝑙𝑛 𝑛 𝑡
𝑡 = �
13.531 − (−0.218)(−61.175)
15 − 2
= �
0.195
13
= 0.122
Por lo tanto el error estándar de ajuste de nt a t es:
snt.t = antilog (0.122) = 1.13024
lo cual se puede considerar como el error porcentual de estimación.
f)sb=
0.122
√280
= 0.0073
tt = 2.160 con g.l. = 13 y 95% de confianza.
Entonces
β = - 0.218 ± 2.16 (0.0073) = -0.218 ± 0.016
Es decir β la razón de destrucción de las bacterias está entre
-0.234 y -0.202 con 95% de confianza.
g) Con 90% y 13 g.l., tt= 1.771 y se hace el intervalo primero en las escalas
transformadas.
ln n7.5 = 5.975 – 0.218 (7.5) ± (1.771) (0.122) = 4.34 ± 0.216
Entonces
4.124 < ln n7.5 < 4.556
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
y 61.68 < n7.5 < 95.2 bacterias con 90% de confianza.
Nota: El excelente ajuste del modelo con los datos transformados según la teoría de
choque único corrobora la validez de esta teoría.
EJEMPLO 9
Para los datos del ejemplo 8:
a) Calcular el coeficiente de correlación entre las variables ln nt y t, utilizando la fórmula
simplificada.
b) ¿Qué porcentaje de la variación en los logaritmos de las cuentas es explicada y
cuánto queda por explicar?
SOLUCION:
a)
𝑟ln 𝑛𝑡, 𝑡=
− 61.175
�(13.531)(280)
= −0.994
b)
𝑟ln 𝑛𝑡,= (−0.994)2=0.988
2
es decir 98.8% de la variación es explicada y queda únicamente 1.2% por explicar que
bien puede ser debido a “error experimental” en las cuentas de las bacterias, la
preparación del material, etc. Así que se tiene un modelo excelente para describir el
número de bacterias sobrevivientes y puesto que el modelo fue deducido bajo la
hipótesis de choque único se tiene una confirmación de esta teoría en base al
experimento.
EJEMPLO 10
En una estación experimental se realizó el siguiente experimento para averiguar la
respuesta al nitrógeno de una variedad de de arroz que se cultivaba en la región . En
10 parcelas muy parecidas se sembraron la variedad de interés previamente habiendo
aplicado el fertilizante de tal manera que en dos parcelas escogidas al azar la cantidad
de nitrógeno fue de 80 kg/Ha, en otras dos a razón de 160 kg/Ha y así sucesivamente
hasta 400 kg/Ha. Se obtuvieron los siguientes rendimientos en Ton/Ha:
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
X= Cantidad de nitrógeno
(en unidades de 100 kg/Ha)
Y= Rendimientos
0.8
1.6
2.4
3.2
4.0
5.24
5.80
7.05
7.63
7.46
5.42
5.39
7.57
8.19
6.69
En base a estos resultados:
a) Dibujar el diagrama de dispersión.
b) Comentar sobre la forma del diagrama, utilizando su conocimiento a priori de la Ley
de Mitsherlich.
c) Calcular la ecuación de la parábola que se ajusta a los puntos a la muestra y
dibujarla en el diagrama.
d) Estimar el rendimiento que tendré una parcela fertilizada a razón de 260 kg/Ha (2.6
unidades).
e) Calcular el error estándar de regresión parabólica de Y sobre X.
f) Estimar el coeficiente lineal β y el coeficiente cuadrático Y con intervalos de
confianza de 90%.
g) Construir un intervalo de confianza de 95% para la estimación hecha en el inciso d).
Solución:
a) Ver la figura 7
b) Se observa en el diagrama de dispersión que la respuesta al nitrógeno parece
ser lineal en un rango desde 80 hasta 240 ó posiblemente 320 kg/Ha nivel en el
cual ya hay un cambio y se observa que el rendimiento promedio en 400 kg/Ha
es menor que él de 320. Esto está de acuerdo con la ley de Mitscherlich que
postula solo un pequeño o nula respuesta adicional al fertilizante cuando se
acerca al óptimo fisiológico de la planta. Por lo tanto ajustar una recta no es tan
adecuado como una parábola (polinomio de 2º. grado) que puede modelar más
adecuadamente este comportamiento cerca del máximo.
c) La ecuación Y = a + bX + cX2
se obtiene en base a las siguientes operaciones
con los valores observados:
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝑿 𝒀 𝑿 𝟐
𝑿 𝟑
𝑿 𝟒 𝑿𝒀 𝑿 𝟐
𝒀 𝒀 𝟐
0.8 5.24 0.64 0.512 0.4096 4.192 3.3536 27.4576
0.8 5.42 0.64 0.512 0.4096 4.336 3.4688 29.3764
1.6 5.80 2.56 4.096 6.5536 9.280 14.8480 33.6400
1.6 5.39 2.56 4.096 6.5536 8.624 13.7984 29.0521
2.4 7.05 5.76 13.824 33.1776 16.920 40.6080 49.7025
2.4 7.57 5.76 13.824 33.1776 18.168 43.6032 57.3049
3.2 7.63 10.24 32.768 104.8576 24.416 78.1312 58.2169
3.2 8.19 10.24 32.768 104.8576 26.208 83.8656 67.0761
4.0 7.46 16 64.000 256.0000 29.840 119.36 55.6516
4.0 6.69 16 64.000 256.0000 26.760 107.04 44.7561
24 66.44 70.4 230.400 801.9968 168.744 508.0768 452.2342
2.4 6.644 57.6 168.960 495.616 159.456 467.7376 441.4274
12.8 61.44 306.3808 9.288 40.3392 10.8068
FIGURA 7
y se calcula:
D = (12.8) (306.3808) – (61.44)2
= 146.80
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝑏 =
(9.288)(306.3808) − (40.3392)(61.44)
146.80
=
367.2244
146.80
= 2.5015
𝑐 =
(40.3392)(12.80) − (9.288)(61.44)
146.8
=
−54.3130
146.80
= −0.3700
𝑎 = 6.644 − (2.5015)(2.4) −
(−0.37)(70.4)
10
= 3.24
𝑌 = 3.24 + 2.5015𝑋 − 0.37𝑋2
Es la ecuación de la parábola de regresión de rendimiento (Y) sobre nivel de nitrógeno
(X). En la figura 7 está trazada también la parábola con los valores estimados 𝑌�.
d) Si X = 2.6 entonces
𝑌 = 3.24 + 2.5015(2.6) − 0.37(2.6)2
= 7.2479 ton/Ha.
e) 𝑠 𝑌∙𝑋 = �
10.8068−(2.5015)(0.288)−(−0.37)40.3392
10−3
= �
2.4984
7
= 0.5974 Ton/Ha.
f) 𝑠 𝑏 = 0.5974�306.3808/146.80 = 0.8630
y tt = 1.895 con 7 g.l. y nivel 90%
𝛽 = 2.501 ± (1.895)(0.8630) = 2.5015 ± 1.6354 ó
0.8661 < 𝛽 < 4.1369 con 90% de confianza.
𝑠𝑐 = 0.597�
12.8
146.8
= 0.1764
𝛶 = −0.37 ± (1.895)(0.1764) = −0.37 ± 0.3343 ó
0.7043 < 𝛶 <-0.0357 con 90% de confianza.
g) 95% de confianza, 7 g.l., tt = 2.365
Si X = 2.6 ya se determinó que
Y = 7.2479 entonces
Y = 7.2479 ± (2.365) (0.5167)
= 7.2479 ± 1.222 ó
6.026 < Y < 8.470 con 95% de confianza.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Es decir el rendimiento de una parcela fertilizada a razón de 260 kg/Ha estará entre
6.026 y 8.470 ton/ha con 95% de confianza.
EJEMPLO 11
En una placa se colocaron seis concentraciones de penicilina pura en progresión
geométrica de 1 a 32 unidades por mililitro. En la tabla a continuación se proporcionan
los diámetros de los círculos de las zonas de inhibición en el crecimiento del bacilo
subtilis en milímetros para cada concentración, para más detalle acerca del
experimento ver el ejemplo 11
X Y
Concentración
de penicilina
en solución
Diámetro
del
círculo
1 15.87
2 17.78
4 19.52
8 21.35
16 23.13
32 24.77
De estudios anteriores se conoce que tomando logaritmo de base 2 de la
concentración, la relación entre concentración y diámetro del círculo de inhibición se
linealiza.
A partir de los datos de este experimento:
a) Efectuar la transformación y calcular la ecuación de la recta de la forma
𝑌� = 𝑎 + 𝑏𝑥∗
(curva tipo)
b) Dibujar el diagrama de dispersión con los datos originales y el diagrama de
dispersión y la recta encontrada con los datos transformados.
c) Calcular el error estándar de regresión lineal de Y sobre X, es decir, la medida
de la falta de ajuste de los puntos a la recta.
d) Si se mide un diámetro de 20.08 mm ¿Cuál será la concentración de penicilina
estimada puntualmente?
e) En función de los datos transformados ¿se puede afirmar con el 5% de
significación si el coeficiente de regresión es diferente de cero?
f) Estimar con 95% de confianza el coeficiente de regresión de la población.
g) Estimar mediante un intervalo de confianza del 95% el diámetro de inhibición
para una concentración de 5 unidades/ml.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Solución:
a) Se tiene que:
𝑌 = 𝑎 + 𝑏 𝑙𝑜𝑔2 𝑋
Entonces:
𝑌� = 𝑎 + 𝑏𝑋∗
Donde:
𝑋∗
= 𝑙𝑜𝑔2 𝑋
Entonces se efectúa la transformación de los datos originales y se tiene:
𝑿 𝑿∗
𝒀 𝑿∗𝟐 𝑿∗
𝒀 𝒀 𝟐
1 0 15.87 0 0 25.8569
2 1 17.78 1 17.78 316.1284
4 2 19.52 4 39.04 381.0304
8 3 21.35 9 64.05 455.8225
16 4 23.13 16 92.52 534.9969
32 5 24.77 55 123.85 613.5529
15 122.42 55 337.24 2553.388
2.5 20.40 37.5 306.05 2497.776
17.5 31.19 55.612
𝑏 =
31.19
17.5
= 1.78228 𝑚𝑚, por cada U.I. por ml.
𝑎 = 20.4 − 1.78228(2.5) = 15.944
𝑌� = 15.944 + 1.78228 𝑋∗
b) Ver Figura 8
c) 𝑆 𝑌∙𝑋 = �[55.612 − 1.78228(31.19)]/4 = 0.07531
d) Si
Y = 20.08 mm
De la ecuación de la recta despejando 𝑋∗
se tiene:
𝑋∗
=
20.08 − 15.944
1.78228
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝑋∗
= 2.32
𝑋∗
= 2.32 = 𝑙𝑜𝑔2 𝑋
𝑋∗
= 22.32
= 4.99 𝑈. 𝐼./𝑚𝑙
e) H0: β = 0
H1: β ≠ 0
b = 1.78228
𝑆 𝑏 =
0.07531
√17.5
= 0.018
Regla de decisión: si tc esta entre ± tt aceptar H0.
𝑡 𝑐 =
1.78228
0.018
= 99
Con α = 5% y 4 g.l. se obtiene ± tt = 2.78
Como tc = 99 no se encuentra entre ± tt rechazar H0, esto es que el coeficiente
de regresión no es cero y sí hay relación entre concentración y diámetro de
inhibición.
f) Con 95% de confianza y 4 g.l. tt = 2.78
b = 1.78228
β = 1.78228 ± 2.78 (0.018)
1.73224 ≤ β ≤ 1.83232 mm/ U.I./ml.
g) Si X = 5 se tiene:
𝑌� = 15.944 + 1.78228(2.322) = 20.0824
tt con 95% de confianza y 4 g.l. tt = 2.78
𝑆 𝑌� = 𝑆 𝑌∙𝑋 = 0.07531
Y = 20.0824 ± 2.78 (0.07531)
19.87303 ≤ Y ≤ 20.29176 mm.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
FIGURA 8
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
EJEMPLO 12
Los datos que aparecen enseguida son los rendimientos mensuales en una fábrica de
gas de agua. Se burbujea vapor de agua y aire alternadamente a través de carbón de
coque para producir una mezcla gaseosa, cuyos principales componentes son
nitrógeno, hidrógeno y monóxido de carbono. La medida del rendimiento es el coque
consumido por cada 1000 m3
de (H2 + CO) producido.
X
Proporción aire/vapor
(1000m3
de aire/ton. de vapor)
Y
Consumo mensual de coque
(unidades de coque/1000 m3
de H2 + CO
producido)
2.11
2.32
2.22
2.19
1.99
1.62
1.76
1.23
1.42
1.26
120
128
114
141
78
31
51
50
50
40
A partir de estos datos:
a) Dibujar un diagrama de dispersión.
b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y
dibujarla en el diagrama.
c) ¿Cuál será el consumo de coque estimado puntualmente si la relación aire/vapor es
de 1.45 x 1000m3
de aire/ton. de vapor?.
d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra
dada.
e) Probar con 5% de significación si al consumo de coque le afecta la relación
aire/vapor en forma lineal y no lineal.
f) Si en el inciso anterior, los coeficientes de linealidad (β) y curvatura (y) poblacionales
resultan significativos, estimarlos mediante intervalos del 95% de confianza.
g) Estimar con un intervalo del 95% de confianza el consumo de coque para una
relación de 1.45 x 1000m3
de aire/ton. de vapor.
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
SOLUCION
a) Ver figura 9
FIGURA 9
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
b)
𝑿 𝒀 𝑿 𝟐
𝑿 𝟑
𝑿 𝟒 𝑿𝒀 𝑿 𝟐
𝒀 𝒀 𝟐
2.11
2.32
2.22
2.19
1.99
1.62
1.76
1.23
1.42
1.26
120
128
114
141
78
31
51
50
50
40
4.4521
5.3824
4.9284
4.7961
3.9601
2.6244
3.0976
1.5129
2.0164
1.5876
9.3939
12.4871
10.9410
10.5034
7.8805
4.2515
5.4517
1.8608
2.8632
2.0003
19.8211
28.9702
24.2891
23.0025
15.6823
6.8874
9.5951
2.2888
4.0658
2.5204
253.20
296.96
253.08
308.79
155.22
50.22
89.76
61.50
71.00
50.40
534.252
688.9472
561.8376
676.2501
308.8876
81.3564
157.9776
75.645
100.820
63.504
14400
16384
12996
19881
6084
961
2601
2500
2500
1600
18.12 803 34.358 67.6334 137.1227 1590.13 3249.4775 79907
1.812 80.3 32.83344 62.25566 118.0472 1455.036 2758.9474 64480.9
1.52456 5.37834 19.0755 135.094 490.5301 15426.1
D = (1.52456) (19.0755) – (5.37834)2
= 0.1552
b = [(135.094) (19.0755) – (490.5301) ( 5.37834)] / 0.1552 = - 394.6653
c = [(490.5301) ( 1.52456) – (135.094) ( 5.37834)] / 0.1552 = 136.9916
a = 80.3 – (394.6653) (1.812) – ( 136.9916) (34.358) / 10 = 324.7577
𝑌�= 324.7577 – 394.6653X + 136.9916X2
es la ecuación de la parábola de regresión de
Y sobre X.
c) Si
X = 1.45
Entonces:
𝑌�= 324.7577 – 394.6653 (1.45) + 136.9916 (1.45)2
𝑌�= 40.5178 unidades de trabajo
d) 𝑠 𝑌•𝑋 =
�[15426.1−(−394.6653)(135.094)− (136.9916)( 490.53)]
7
= 14.8541 unidades de trabajo
e) H0: β = 0
H1: β ≠ 0
Regla de decisión: si tc está entre ± tt aceptar H0
b = -394.6653
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
𝑠 𝑏= 14.8541 �
19.0755
.1552
= 164.679
tc = 394.6653/164.679 = 2.396
con 7 g.l. y α = 0.05, ± tt = 2.37
Como t = 2.396 no se encuentra entre ± tt = 2.37 se rechaza H0, es decir que el
coeficiente de linealidad poblacional no es cero, por lo tanto la relación aire/ vapor
afecta linealmente al consumo de carbón de coque.
H0: y = 0
H1: y≠ 0
Regla de decisión: si tc está entre ± tt aceptar H0
c = 136.9916
sc= 14.8541 �
1.52456
0.1522
= 46.5556
tc =
136.9916
46.5556
= 2.94
con α= 0.05 y 7 g.l. ± tt = 2.37
Como tc= 2.94 no está entre ± tt = 2.37 rechazar H0 , es decir, que el coeficiente de
curvatura de 2º grado poblacional no es cero, por lo tanto al consumo de coque le
afecta no linealmente la relación aire/vapor.
f) Intervalo de confianza para β al 95%
tt con 95% y 7 g.l. es igual a 2.37, entonces:
b = -394.6653 sb= 164.679
β = -394.6653 ± 2.37 (164.679)
-784.9545 < β < -4.37607 unidades de trabajo por cada 1000 m3
de aire
por tonelada de vapor.
Intervalo de confianza para y al 95%
c = 136.9916 sc = 46.5556
tt con 95% de confianza y 7g.l. es igual a 2.37
y = 136.9916 ± 2.37 (46.5556)
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
26.6548 < y < 247.3283
g) Si
X= 1.45x (1000 m3
aire/ton. de vapor)
Entonces según el inciso c):
𝑌�= 40.5178
tt= 2.37 con 95% de confianza y 7 g.l.
𝑠 𝑌•𝑋 ≅ 𝑠 𝑦�= 14.8541
Y = 40.5178 ± 2.37 (14.854)
5.3135 < Y < 75.7220 unidades de trabajo de consumo de coque.
EJEMPLO 13
Con los datos del problema 11:
a) Calcular el coeficiente de correlación no lineal.
b) ¿Qué % de variación es explicada?
c) ¿Qué % de variación no es explicada?
SOLUCION
a)
r =
31.19
�(17.5)(55.612)
= 0.99979
b)
r2
= (0.99979)2
= 0.9995
es decir, el 99.95% de las variaciones en el diámetro del círculo de inhibición son
explicadas por las variaciones en la concentración de la penicilina.
c)
1-0.9995 = 0.0005
Regresión y Correlación Lineal Múltiple
http://www.cuautitlan.unam.mx
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Es decir, el .05% de las variaciones en el diámetro del círculo de inhibición no son
explicadas por las variaciones en la concentración de penicilina. Está variación se
puede deber a factores exclusivamente operativos del trabajo de laboratorio porque
casi es cero.

Más contenido relacionado

La actualidad más candente

S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptxS16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptxYeferQuion
 
Distribución gamma
Distribución gammaDistribución gamma
Distribución gammalevisandro
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesYazmin Venegas
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAFELIX Castro Garcia
 
Diseño factorial general ejemplos
Diseño factorial general ejemplosDiseño factorial general ejemplos
Diseño factorial general ejemplosluluhernan
 
4.6 supuestosestadisticos
4.6 supuestosestadisticos4.6 supuestosestadisticos
4.6 supuestosestadisticosJassive Aguirre
 
U2 series de tiempo
U2 series de tiempoU2 series de tiempo
U2 series de tiempoALMAYUNIS1
 
Hessiano orlado
Hessiano orladoHessiano orlado
Hessiano orladoCerveza13
 
Tarea 13 de probabilidad y estadística con respuesta
Tarea 13 de probabilidad y estadística con respuestaTarea 13 de probabilidad y estadística con respuesta
Tarea 13 de probabilidad y estadística con respuestaIPN
 
Distribuciones de probabilidad
Distribuciones de probabilidadDistribuciones de probabilidad
Distribuciones de probabilidadErikadame
 
Fase2 100402 grupo_9
Fase2 100402 grupo_9Fase2 100402 grupo_9
Fase2 100402 grupo_9Elvia Padilla
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...Ekthor Daniel R G
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5CarmenAlonzo7
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 

La actualidad más candente (20)

S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptxS16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
S16.s1 Regresion Lineal Multiple.Matriz de varianzas-covarianzas.pptx
 
Distribución gamma
Distribución gammaDistribución gamma
Distribución gamma
 
5. regresión lineal multiple
5.  regresión lineal multiple5.  regresión lineal multiple
5. regresión lineal multiple
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporciones
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
 
Ejercicios resueltos
Ejercicios resueltosEjercicios resueltos
Ejercicios resueltos
 
Diseño factorial general ejemplos
Diseño factorial general ejemplosDiseño factorial general ejemplos
Diseño factorial general ejemplos
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
 
4.6 supuestosestadisticos
4.6 supuestosestadisticos4.6 supuestosestadisticos
4.6 supuestosestadisticos
 
U2 series de tiempo
U2 series de tiempoU2 series de tiempo
U2 series de tiempo
 
Hessiano orlado
Hessiano orladoHessiano orlado
Hessiano orlado
 
Tarea 13 de probabilidad y estadística con respuesta
Tarea 13 de probabilidad y estadística con respuestaTarea 13 de probabilidad y estadística con respuesta
Tarea 13 de probabilidad y estadística con respuesta
 
Distribuciones de probabilidad
Distribuciones de probabilidadDistribuciones de probabilidad
Distribuciones de probabilidad
 
Distribución hipergeometrica
Distribución hipergeometricaDistribución hipergeometrica
Distribución hipergeometrica
 
Fase2 100402 grupo_9
Fase2 100402 grupo_9Fase2 100402 grupo_9
Fase2 100402 grupo_9
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
 
Clase12 heterocedasticidad
Clase12 heterocedasticidadClase12 heterocedasticidad
Clase12 heterocedasticidad
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5
 
Análisis de Regresión Múltiple
Análisis de Regresión MúltipleAnálisis de Regresión Múltiple
Análisis de Regresión Múltiple
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 

Similar a 10 regresion y correlacion lineal multiple

T02 bidimensional 03
T02 bidimensional 03T02 bidimensional 03
T02 bidimensional 03Universidad
 
02 estadística bidimensional
02 estadística bidimensional02 estadística bidimensional
02 estadística bidimensionalklorofila
 
1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresionSociedadIncluyente
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Lorea hernandez luis_antonio_tema de matematicas
Lorea hernandez luis_antonio_tema de matematicasLorea hernandez luis_antonio_tema de matematicas
Lorea hernandez luis_antonio_tema de matematicasmrprincipal
 
Analisis de regresion multiple
Analisis de regresion multipleAnalisis de regresion multiple
Analisis de regresion multipleJhosepAlexFernndez
 
Representación de datos experimentales
Representación de datos experimentalesRepresentación de datos experimentales
Representación de datos experimentalesFabio Dorta
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basicavestaoriginal
 

Similar a 10 regresion y correlacion lineal multiple (20)

T02 bidimensional 03
T02 bidimensional 03T02 bidimensional 03
T02 bidimensional 03
 
2. reg.lin.multiple
2. reg.lin.multiple2. reg.lin.multiple
2. reg.lin.multiple
 
02 estadística bidimensional
02 estadística bidimensional02 estadística bidimensional
02 estadística bidimensional
 
1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion1. Tema Nº 2 (Apuntes).pptx simplex regresion
1. Tema Nº 2 (Apuntes).pptx simplex regresion
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Formulario estadisticas
Formulario estadisticas Formulario estadisticas
Formulario estadisticas
 
Lorea hernandez luis_antonio_tema de matematicas
Lorea hernandez luis_antonio_tema de matematicasLorea hernandez luis_antonio_tema de matematicas
Lorea hernandez luis_antonio_tema de matematicas
 
Regresion
RegresionRegresion
Regresion
 
Formulario correlacion
Formulario correlacion Formulario correlacion
Formulario correlacion
 
Presentación regreción lineal
Presentación regreción linealPresentación regreción lineal
Presentación regreción lineal
 
Presentación regreción lineal
Presentación regreción linealPresentación regreción lineal
Presentación regreción lineal
 
2015 word
2015 word2015 word
2015 word
 
Analisis de regresion multiple
Analisis de regresion multipleAnalisis de regresion multiple
Analisis de regresion multiple
 
Ensayo semana 4
Ensayo semana 4Ensayo semana 4
Ensayo semana 4
 
Rlm
RlmRlm
Rlm
 
Representación de datos experimentales
Representación de datos experimentalesRepresentación de datos experimentales
Representación de datos experimentales
 
6 regresion y correlación
6 regresion y correlación6 regresion y correlación
6 regresion y correlación
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basica
 
Pruebasdebondaddeajuste 151127221517-lva1-app6891
Pruebasdebondaddeajuste 151127221517-lva1-app6891Pruebasdebondaddeajuste 151127221517-lva1-app6891
Pruebasdebondaddeajuste 151127221517-lva1-app6891
 

Último

FORMATO REPORTE SEMANAL KLEF - Sem 15.pptx
FORMATO REPORTE SEMANAL KLEF - Sem 15.pptxFORMATO REPORTE SEMANAL KLEF - Sem 15.pptx
FORMATO REPORTE SEMANAL KLEF - Sem 15.pptxSAMAELAUGURIOFIGUERE
 
Libro teoria de los vehiculos Aparicio.pdf
Libro teoria de los vehiculos Aparicio.pdfLibro teoria de los vehiculos Aparicio.pdf
Libro teoria de los vehiculos Aparicio.pdferick82709
 
Tarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieriaTarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieriaSebastianQP1
 
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...esandoval7
 
Tema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieriaTema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieriaLissetteMorejonLeon
 
CFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric ProjectCFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric ProjectCarlos Delgado
 
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...Arquitecto Alejandro Gomez cornejo muñoz
 
Sistema de Base de Datos para renta de trajes
Sistema de Base de Datos para renta de trajesSistema de Base de Datos para renta de trajes
Sistema de Base de Datos para renta de trajesjohannyrmnatejeda
 
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptxNayeliZarzosa1
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
Sistema de gestión de turnos para negocios
Sistema de gestión de turnos para negociosSistema de gestión de turnos para negocios
Sistema de gestión de turnos para negociosfranchescamassielmor
 
lean manufacturing and its definition for industries
lean manufacturing and its definition for industrieslean manufacturing and its definition for industries
lean manufacturing and its definition for industriesbarom
 
Procedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnasProcedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnasAhmedMontaoSnchez1
 
4.3 Subestaciones eléctricas componentes principales .pptx
4.3 Subestaciones eléctricas componentes principales .pptx4.3 Subestaciones eléctricas componentes principales .pptx
4.3 Subestaciones eléctricas componentes principales .pptxEfrain Yungan
 
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfCONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfErikNivor
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.pptVitobailon
 
Peligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacionPeligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacionOsdelTacusiPancorbo
 
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptxI LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptxPATRICIAKARIMESTELAL
 
01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx
01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx
01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptxluiscisnerosayala23
 
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptxMUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptxIcelaMartnezVictorin
 

Último (20)

FORMATO REPORTE SEMANAL KLEF - Sem 15.pptx
FORMATO REPORTE SEMANAL KLEF - Sem 15.pptxFORMATO REPORTE SEMANAL KLEF - Sem 15.pptx
FORMATO REPORTE SEMANAL KLEF - Sem 15.pptx
 
Libro teoria de los vehiculos Aparicio.pdf
Libro teoria de los vehiculos Aparicio.pdfLibro teoria de los vehiculos Aparicio.pdf
Libro teoria de los vehiculos Aparicio.pdf
 
Tarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieriaTarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieria
 
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...
 
Tema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieriaTema 7 Plantas Industriales (2).pptx ingenieria
Tema 7 Plantas Industriales (2).pptx ingenieria
 
CFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric ProjectCFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric Project
 
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
 
Sistema de Base de Datos para renta de trajes
Sistema de Base de Datos para renta de trajesSistema de Base de Datos para renta de trajes
Sistema de Base de Datos para renta de trajes
 
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
5.1 MATERIAL COMPLEMENTARIO Sesión 02.pptx
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
Sistema de gestión de turnos para negocios
Sistema de gestión de turnos para negociosSistema de gestión de turnos para negocios
Sistema de gestión de turnos para negocios
 
lean manufacturing and its definition for industries
lean manufacturing and its definition for industrieslean manufacturing and its definition for industries
lean manufacturing and its definition for industries
 
Procedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnasProcedimientos constructivos superestructura, columnas
Procedimientos constructivos superestructura, columnas
 
4.3 Subestaciones eléctricas componentes principales .pptx
4.3 Subestaciones eléctricas componentes principales .pptx4.3 Subestaciones eléctricas componentes principales .pptx
4.3 Subestaciones eléctricas componentes principales .pptx
 
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdfCONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.ppt
 
Peligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacionPeligros de Excavaciones y Zanjas presentacion
Peligros de Excavaciones y Zanjas presentacion
 
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptxI LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
I LINEAMIENTOS Y CRITERIOS DE INFRAESTRUCTURA DE RIEGO.pptx
 
01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx
01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx
01 COSTOS UNITARIOS Y PRESUPUESTO DE OBRA-EXPEDIENTE TECNICO DE OBRA.pptx
 
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptxMUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
MUROS Y CONEXIONES NTC 2017 CONCRETO REFORZADO.pptx
 

10 regresion y correlacion lineal multiple

  • 1. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Regresión y Correlación lineal múltiple es el décimo fascículo, de una serie de guías de estudio en las que se desarrollan los temas de los programas de las asignaturas del área de Probabilidad y Estadística, así como temas selectos que complementan el aprendizaje de de esta disciplina. Tienen la característica de que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o el que sea de su propio interés. Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe abordar el estudio de los métodos estadísticos, despertando la inquietud por aprender y resolver los problemas y casos planteados. Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección llamada Aprendiendo.com. En esta última sección se le proporciona al estudiante un ambiente interactivo, utilizando los recursos disponibles en Internet, de tal forma que los casos planteados los desarrolle en ambientes de aprendizaje que le permitan encontrarse con el conocimiento, “manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de internet con acceso a bases de datos reales, software de uso libre y en general los recursos de la Web 2.0, que se refieren a una segunda generación en la historia de la Web basada en comunidades de usuarios, que fomentan la colaboración y el intercambio ágil de información entre los mismos. Nuestro reconocimiento a la Dirección General de Asuntos del Personal Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia” clave PE302709. Los Autores PRESENTACIÓN
  • 2. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán REGRESIÓN Y CORRELACIÓN LINEAL MULTIPLE A) REGRESION LINEAL MULTIPLE Ahora considere una variable dependiente (Y) y varias variables independientes (X1, X2, etc.). Entonces la regresión múltiple, mide el comportamiento o actitud de la variable Y con respecto a todas las variables X. La relación entre las variables puede ser lineal o no lineal. Considere solamente la regresión lineal múltiple de Y sobre X1 y X2 (pues se puede generalizar fácilmente por inducción), que es una relación E (Y) = α + β1 X1+ β2 X2. Ajustando las observaciones (ternas ordenadas con representación gráfica de puntos en un espacio tridimensional) a un plano de regresión, con ecuación: Ŷ= a + b1X1 + b2 X2 Donde: 𝑌� = Valor estimado de Y para valores dados de X1 y X2, a = Intersección al origen del plano en el eje Y, b1 = Coeficiente de regresión parcial (pendiente) de Y sobre X1, con X2 constante, b2 =Coeficiente de regresión parcial (pendiente) de Y sobre X2, con X1 constante. Para calcular estos parámetros muestrales, efectúe las siguientes operaciones a los valores muestrales observados: 𝑿 𝟏 𝑿 𝟐 𝒀 𝑿 𝟏 𝟐 𝑿 𝟏 𝑿 𝟐 𝑿 𝟏 𝑌 𝑿 𝟐 𝟐 𝑿 𝟐 𝑌 𝒀 𝟐 𝑿 𝟏𝟏 𝑋21 𝑌1 𝑋11 2 𝑋11 𝑋21 𝑋11 𝑌1 𝑋21 2 𝑋21 𝑌1 𝑌1 2 𝑿 𝟏𝟐 𝑋22 𝑌2 𝑋12 2 𝑋12 𝑋22 𝑋12 𝑌2 𝑋22 2 𝑋22 𝑌2 𝑌2 2 … … … … … … … … … 𝑿 𝟏𝒏 𝑋2𝑛 𝑌𝑛 𝑋1𝑛 2 𝑋1𝑛 𝑋2𝑛 𝑋1𝑛 𝑌𝑛 𝑋2𝑛 2 𝑋2𝑛 𝑌𝑛 𝑌𝑛 2 Σ𝑿 𝟏 Σ𝑋2 Σ𝑌 Σ𝑋1 2 Σ𝑋1 𝑋2 Σ𝑋1 𝑌 Σ𝑋2 2 Σ𝑋2 𝑌 Σ𝑌2 𝑿�1 𝑋�2 𝑌� n 𝑋�1 2 n 𝑋�1 𝑋�2 n 𝑋�1 𝑌� n 𝑋�2 2 n 𝑋�2 𝑌� n𝑌�2 Σ𝑥1 2 Σ𝑥1 𝑥2 Σ𝑥1 𝑦 Σ𝑥2 2 Σ𝑥2y Σ𝑦2 Donde el último renglón se obtiene de restar los dos anteriores; por ejemplo, en la cuarta columna se tiene:
  • 3. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Σ𝑥1 2 = Σ𝑋1 2 - n 𝑋�1, y se calcula finalmente: D= (Σ𝑥1 2 ) (Σ𝑥2 2 ) – (Σ𝑥1 𝑥2) 2 (denominador) b1= (Σ𝑥2 2) (Σ𝑥1 𝑦) – (Σ𝑥1 𝑥2) (Σ𝑥2y) 𝐷 b2= (Σ𝑥1 2) (Σ𝑥2y) – (Σ𝑥1 𝑥2) (Σ𝑥1 𝑦) 𝐷 a = 𝑌� – b1 𝑋�1 – b2 𝑋�2 La barra de ajuste de los puntos al plano se mide con el error estándar de regresión lineal múltiple de Y sobre X1 y X2 𝑠 𝑌•𝑋1 𝑋2 = �Σ(Y−Y�)2 𝑛−3 = � 𝛴 𝑦2 − 𝑏1 𝛴𝑥1 𝑦−𝑏2 𝛴𝑥2 𝑦 𝑛−3 A continuación, basándose en los resultados muestrales, se puede hacer la inferencia estadística para los parámetros poblacionales de las siguientes formas: 1) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X1 con X2 constante en la población (β1). Se plantean las hipótesis H0: β1= 0 (u otro valor) H1: β1 ≠ 0 (u otro valor, con pruebas unilaterales también) y se compara tc = (b1 – 0) / 𝑠 𝑏1 (u otro valor) con tt donde: 𝑠 𝑏1 = 𝑠 𝑌 •𝑋1 𝑋2 �𝛴 𝑥2 2 /𝐷 es la variación natural del estimador b1 2) Prueba de hipótesis para el coeficiente de regresión parcial de Y sobre X2 con X1 constante en la población (β2). Se plantean las hipótesis H0: β2 = 0 (u otro valor) H1: β2 = 0 (u otro valor, con pruebas unilaterales también)
  • 4. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán y se compara tc= (b2 – 0) / 𝑠 𝑏2 ( 0 u otro valor) con tt donde: 𝑠 𝑏2 = 𝑠 𝑌•𝑋1 𝑋2 �𝛴𝑥1 2 /𝐷 es la variación natural del estimador b2 Si se desea en cualquier caso o si en los casos 1) y 2), la prueba resulta significativa, se puede encontrar los intervalos de confianza respectivos. 3) Intervalo de confianza para estimar β1 β1 = b1 ± t0 𝑠 𝑏1 4) Intervalo de confianza para estimar β2 β1 = b2 ± t0 𝑠 𝑏2 otro valor que se puede estimar es el valor individual Y, para valores de X1 y X2 dados. 5) Intervalo de confianza para estimar Y: Y= 𝑌� ± t0 sY Donde sŷ= sY•X1•X2 es aproximadamente la variación natural del estimador Y. B) CORRELACION LINEAL MULTIPLE El coeficiente de correlación lineal múltiple 𝑟𝑌•𝑋1 𝑋2 es una medida del grado de relación mutua entre la variable Y y las variables X1 y X2 en la muestra. El cuadrado del coeficiente de correlación lineal múltiple 𝑟𝑌• 𝑋1 𝑋2 2 es el % de la variación de Y, explicado por la regresión lineal múltiple con X1 y X2. Dicho coeficiente se calcula de la siguiente forma: 𝑟𝑌•𝑋1 𝑋2 = � 𝑟 𝑌• 𝑋1 2 + 𝑟 𝑌• 𝑋2 2 − 2 𝑟 𝑌• 𝑋1 𝑟 𝑌• 𝑋2 𝑟 𝑋1• 𝑋2 1− 𝑟 𝑋 2 1• 𝑋2
  • 5. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Donde: 𝑟𝑌• 𝑋1 = Σ 𝑥1y / �𝛴𝑥1 2 • 𝛴𝑦2 Es el coeficiente de correlación lineal simple entre Y y X1. 𝑟𝑌• 𝑋2 = ∑ 𝑥2 𝑦 / �𝛴𝑥2 2 • 𝛴𝑦2 Es el coeficiente de correlación lineal simple entre Y y X2. 𝑟𝑋1 •𝑋2 = ∑ 𝑥1 𝑥2/ �𝛴𝑥1 2 • 𝛴𝑥2 2 Es el coeficiente de correlación lineal simple entre X1 y X2. Y sus cuadrados 𝑟𝑌 •𝑋1 2 , 𝑟𝑌 •𝑋2 2 y 𝑟𝑋 2 1 •𝑋2 son los coeficientes de determinación, que explican el % de variación de la primer variable, debido a la regresión lineal simple con la segunda variable. Otra forma (más simple) de calcular el coeficiente de correlación lineal múltiple es utilizando los coeficientes de regresión parcial muestrales b1 y b2 con la siguiente fórmula: 𝑟𝑌•𝑋1 𝑋2 = � 𝛴 (𝑌�−𝑌�)2 𝛴 (𝑌−𝑌�)2 = � 𝑏1 𝛴 𝑥1 𝑦+ 𝑏2 𝛴𝑥2 𝑦 𝛴𝑦2 También se puede calcular el coeficiente de correlación lineal múltiple como el coeficiente de correlación lineal simple, que mide la relación entre Y y ŷ = a + b1X1+b2X2 es decir: 𝑟𝑌•𝑋1 𝑋2 = 𝑟 𝑌•𝑌� = ∑ 𝑦𝑦� �𝛴𝑦2 • 𝛴ŷ2 = �𝛴ŷ2/𝛴𝑦2 Ejemplo 1. A continuación se anotan los resultados de una muestra de probetas de acero templadas en frío que tienen X1= contenido de cobre en % y X2 = temperatura de aleación en miles de ℉, a las que se les midió la dureza = Y.
  • 6. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán X1 0.02 0.02 0.02 0.02 0.10 0.10 0.10 0.10 0.18 0.18 0.18 0.18 X2 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3 1.0 1.1 1.2 1.3 Y 78.9 65.1 55.2 56.4 80.9 69.7 57.4 55.4 85.3 71.8 60.7 58.9 a) Encuentre la ecuación del plano de regresión de Y sobre X1 y X2 para la muestra dada. b) ¿Cuál será la dureza, estimada puntualmente de una probeta que tenga 0.13% de cobre y 0.9 miles de ℉ de temperatura de aleación? c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2. d) Si se mantiene la temperatura de aleación constante, ¿será cierto que a la dureza no le afecta el contenido de cobre con 5% de significación? A partir de la muestra dada. e) Si se conserva el contenido de cobre constante, la dureza disminuye 55º cada que aumentamos 1000 ℉ la temperatura de aleación; este coeficiente, ¿habrá disminuido con 1% de significación en base a la muestra? f) Encontrar el intervalo de 99% de confianza para estimar el coeficiente de regresión parcial de dureza sobre contenido de cobre, con temperatura de aleación constante. g) Encontrar el intervalo de 90% de confianza para estimar el coeficiente de regresión parcial de dureza sobre temperatura de aleación con el contenido de cobre constante. h) Calcular el intervalo de 95% de confianza para estimar la dureza de una probeta que tiene 0.20% de cobre y 1.5 miles de ℉ de temperatura de aleación. Solución: X1 X2 Y 𝑿 𝟏 𝟐 X1X2 X1 Y 𝑿 𝟐 𝟐 X2Y Y2 0.02 0.02 0.02 0.02 1.0 1.1 1.2 1.3 78.9 65.1 55.2 56.4 0.0004 0.0004 0.0004 0.0004 0.020 0.022 0.024 0.026 1.578 1.302 1.104 1.128 1.00 1.21 1.44 1.69 78.90 71.61 66.24 73.32 6225.21 4238.01 3047.04 3180.96 0.10 0.10 0.10 0.10 1.0 1.1 1.2 1.3 80.9 69.7 57.4 55.4 0.0100 0.0100 0.0100 0.0100 0.100 0.110 0.120 0.130 8.090 6.970 5.740 5.540 1.00 1.21 1.44 1.69 80.90 76.67 68.88 72.02 6544.81 4858.09 3294.76 3069.16 0.18 0.18 0.18 0.18 1.0 1.1 1.2 1.3 85.3 71.8 60.7 58.9 0.0324 0.0324 0.0324 0.0324 0.180 0.198 0.216 0.234 15.354 12.924 10.926 10.602 1.00 1.21 1.44 1.69 85.30 78.98 72.84 76.57 7276.09 5155.24 3684.49 3469.21 1.20 13.8 795.7 0.1712 1.38 81.258 16.02 902.23 54043.07 0.1 1.15 66.3083 0.12 1.38 79.57 15.87 915.055 52761.5403 n=12 0.0512 0 1.688 0.15 -12.825 1281.5292
  • 7. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán a) Después de la tabla anterior, se calculan los valores: D = (0.0512) (0.15) – (0)2 = 0.00768 b1 = (0.15)(1.688) − (0)( −12.825) 0.00768 = 0.2532 0.00768 = 32.96875 b2 = (0.0512)(−12.825)− (0)(1.688) 0.00768 = −0.65664 0.00768 = -85.5 a = 66.3083 – (32.96875) (0.1) – (-85.5) (1.15) = 161.3365 y finalmente: Y = 161.3365+32.96875 X1 -85.5 X2 Es la ecuación del plano de regresión de Y sobre X1 y X2. b) Si X1 = 0.13 y X2 = 0.9 Entonces: Ŷ = 161.3365+32.96875 (0.13) – 85.5 (0.9) = 88.6724 grados de dureza c) 𝑠 𝑌•𝑋1 𝑋2 = � (1281.5292)− (32.96875)(1.688)− (−85.5) (−12.825) 12−3 = � 129.3404 9 = 3.7909 d) H0: β1 = 0 R. de D.: si tc está entre ± tt aceptar H0 H1: β1 ≠ 0 b1 = 32.96785 𝑠 𝑏1 = 3.7909 � 0.15 0.00768 = 16.7537 tc = 32.96875− 0 16.7537 = 1.968 con 9 g.l. y α = 0.05 ± tt = ± 2.262 Como 1.968 está entre ± 2.262, acepte H0, es decir que el coeficiente de regresión parcial de Y sobre X1 con X2 constante es cero, por lo tanto, el contenido de cobre no le afecta a la dureza, con 5% de significación.
  • 8. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán e) β2 = -55 H0: β2 = -55 R. de D. si tc ± es mayor que –tt, aceptar H0 H1: β2 < -55 b2 = -85.5 𝑠 𝑏2 = 3.7909 � 0.0512 0.00768 = 9.7881 tC= −85.5−(−55) 9.7881 = -3.116 Con 9 g.l. y α = 0.01 -tt = -2.821 como - 3.116 es menor que – 2.821, rechace H0, es decir que β2 si ha disminuido con 1% de significación. f) Y = 0.99 9 g.l. t0 = 3.250 b1= 32.96875 𝑠 𝑏1 = 16.7537 β1 = 32.96875 ± (3.250) (16.7537) = 32.96875 ± 54.4495 – 21.4808 < β1 < 87.4183 grados de dureza por cada unidad de % cobre g) Y = 0.90 9 g.l. t0= 1.833 b2 = -85.5 𝑠 𝑏2 = 9.7881 β2 = -85.5 ± (1.833) (9.7881) = -85.5 ± 17.9417 – 103.4417< β2 < -67.5583 grados de dureza por cada 1000 ℉ h) Y= 0.95 9 g.l. t0= 2.262 X1= 0.20 X2 = 1.5 Ŷ = 161.3365+32.96875 (0.20) – 85.5 (1.5) = 39.6802 𝑠 𝑌� = 3.7909 Y = 39.6802 ± (2.262) (3.7909) = 39.6802 ± 8.5751 31.1051 < Y < 48.2553 grados de dureza.
  • 9. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán EJEMPLO 2 Para los datos del ejemplo 1 calcule: a) Los 3 coeficientes de correlación lineal simple. b) El coeficiente de correlación lineal múltiple de Y= dureza, sobre X1 = contenido de cobre y X2 = temperatura de aleación (𝑟𝑦 •𝑋1 𝑋2 ) utilizando los coeficientes de correlación lineal simple. c) 𝑟𝑌 •𝑋1 𝑋2 utilizando los coeficientes de regresión parcial. d) Los valores estimados de dureza (𝑌�) para los valores dados de contenido de cobre (X1) y temperatura de aleación (X2) y grafíquelos contra los valores reales de dureza (Y) para observar la correlación (diagrama de dispersión). e) 𝑟𝑌 •𝑋1 𝑋2 utilizando la correlación lineal simple entre Y y 𝑌�. f) El % de variación no explicada de la dureza sobre el contenido de cobre y la temperatura de aleación. SOLUCIÓN: a) 𝑟𝑌 •𝑋1 = 1.688 �(0.0512)(1281.5292) = 0.2084 baja correlación lineal entre dureza y contenido de cobre 𝑟𝑌•𝑋2 = −12.825 �(0.15)(1281.5192) = -0.9250 alta correlación lineal entre dureza y temperatura de aleación (en sentido negativo). 𝑟𝑋1•𝑋2 = 0 �(0.0512)(0.15) = 0 nula correlación lineal entre contenido de cobre y temperatura de aleación. b) 𝑟𝑌 •𝑋1 𝑋2 =� (0.2084)2+ (−0.92502)−2(0.2084)(−0.9250)(0) 1−(0)2 = � 0.8991 1 =0.9482
  • 10. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Alta correlación lineal de la dureza sobre el contenido de cobre y la temperatura de aleación. c) 𝑟𝑌∗𝑋1 𝑋2 = � (32.96875)(1.688)+(−85.5)(−12.825) 1281.5292 = � 1152.18875 1281.5292 = 0.9482 d) 𝑌� = 161.3365 + 32.96875 𝑋1 − 85.5 𝑋2 X1 X2 𝒀� Y 0.02 1.0 76.50 78.9 0.02 1.1 67.95 65.1 0.02 1.2 59.40 55.2 0.02 1.3 50.85 56.4 0.10 1.0 79.13 80.9 0.10 1.1 70.58 69.7 0.10 1.2 62.03 57.4 0.10 1.3 53.48 55.4 0.18 1.0 81.77 85.3 0.18 1.1 73.22 71.8 0.18 1.2 64.67 60.7 0.18 1.3 56.12 58.9 FIGURA 1.
  • 11. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán e) 𝑌 𝑌� 𝑌2 𝑌 ∙ 𝑌� 𝑌�2 78.9 76.50 6225.21 6035.52 5851.61 65.1 67.95 4238.01 4423.27 4616.64 55.2 59.40 3047.04 3278.65 3527.87 56.4 50.85 3180.96 2867.70 2585.30 80.9 79.13 6544.81 6401.89 6262.08 69.7 70.58 4858.09 4919.66 4982.01 57.4 62.03 3294.76 3560.71 3848.13 55.4 53.48 3069.16 2962.98 2860.47 85.3 81.77 7276.09 6975.05 6686.47 71.8 73.22 5155.24 5257.26 5361.29 60.7 64.67 3684.49 3925.52 4182.32 58.9 56.12 3469.21 3305.52 3149.55 795.7 795.7 54043.07 53913.73 53913.73 66.31 66.31 52761.54 52761.54 52761.54 n = 12 1281.53 1152.19 1152.19 𝑟𝑌∗𝑋1 𝑋2 = 𝑟𝑌𝑌 = 1152.19 �(1281.53)(1152.19) = 1152.19 1215.14 = 0.9482 f) 𝑟𝑌∗𝑋1 𝑋2 = 0.9482 𝑟𝑌∗𝑋1 𝑋2 2 = 0.8991 aproximadamente 90% de la variación es explicada 1 − 𝑟𝑌∗𝑋1 𝑋2 2 = 1 − 0.8991 = 0.1009 Es decir, aproximadamente existe un 10% de variación en la dureza , que no se explica debido al contenido de cobre y a la temperatura de aleación; este 10% de variación se podría explicar estudiando otras variables que afectan a la dureza, tales como, contenido de: carbón, manganeso, cromo, etc. EJEMPLO 3 Cuando se realiza el envasado del sulfato de amonio es de gran importancia que fluya libremente, con objeto de que las máquinas automáticas que llenan y pesan los envases puedan funcionar correctamente. Sin embargo, a veces, los cristales se adhieren a las paredes del conducto de alimentación. Las adherencias pueden deberse en parte a la humedad, pero pueden también depender del % de impurezas. Para Investigar las causas de las adherencias se realizó un ensayo que correspondía aproximadamente a las condiciones de envasado y en el que se dejó fluir cierta cantidad de sulfato de amonio por un pequeño conducto circular, determinándose la velocidad de flujo.
  • 12. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán En la siguiente tabla se dan las velocidades de flujo y otros datos de las muestras examinadas. Y velocidad de flujo (gr/seg) X1 humedad inicial en unidades de 0.01% X2 % de impurezas en unidades de 0.01% X1 21 20 16 18 16 18 12 12 13 13 X2 0 0 0 0 0 1 1 0 0 0 Y 5 4.81 4.46 4.81 4.46 3.85 3.21 3.25 4.55 4.85 a) Encuentre la ecuación del plano de regresión de Y sobre X1 y X2 para la muestra dada. b) Cual será la velocidad de flujo, estimada puntualmente para sulfato de amonio con 11 unidades de humedad inicial y 0.01% de impurezas. c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2. d) Si se mantiene el % de impurezas constante, pruebe si a la velocidad de flujo no le afecta el % de humedad con 5% de significación. e) Si se mantiene el % de humedad constante, pruebe si a la velocidad de flujo no le afecta el % de impurezas con 5% de significación. f) Encontrar el intervalo de confianza al 95% para estimar al coeficiente de regresión parcial de la velocidad de flujo sobre el % de humedad con % de impurezas constante. g) Encontrar el intervalo de confianza al 95% para estimar el coeficiente de regresión parcial de la velocidad de flujo sobre el % de impurezas con % de humedad constante. h) calcular el intervalo del 95% de confianza para estimar la velocidad de flujo del sulfato de amonio que tenga 15 unidades de humedad y 1 unidad de impurezas.
  • 13. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán SOLUCIÓN: X1 X2 Y 𝑿 𝟏 𝟐 𝑿 𝟐 𝟐 X1X2 X1Y X2Y Y2 21 0 5 441 0 0 105 0 25 20 0 4.81 400 0 0 96.2 0 23.1361 16 0 4.46 256 0 0 71.36 0 19.8916 18 0 4.81 324 0 0 86.58 0 23.1361 16 0 4.46 256 0 0 71.36 0 19.8916 18 1 3.85 324 1 18 69.30 3.85 14.8225 12 1 3.21 144 1 12 38.52 3.21 10.3041 12 0 3.25 144 0 0 39.0 0 10.5625 13 0 4.55 169 0 0 59.15 0 20.7025 13 0 4.85 169 0 0 63.05 0 23.5225 159 2 43.25 2627 2 30 699.52 7.06 190.9695 15.9 0.2 4.325 2528.1 1.4 31.8 687.675 8.65 187.0562 98.9 1.6 -1.8 11.845 -1.59 3.91325 a) D = 98.9 (1.6) – (-1.8)2 = 155 𝑏1 = (1.6)(11.845)− (−1.8)(−1.59) 155 = 0.1038 𝑏2 = 98.9 (−1.59) − (−1.8)(11.845) 155 = −0.8769 a = 4.325 – 0.1038 (15.9) – (-0.8769) (0.2) = 2.8499 tenemos entonces: 𝑌� = 2.8499 6 + 0.1038 𝑋1 − 0.8769 𝑋2 b) Si X1 = 15 y X2 = 1 Y = 2.8499 + 0.1038 (15) – 0.8769 (1) = 3.52994 c) 𝑆 𝑌∗𝑋1 𝑋2 = � 3.91325 − 0.1038(11.845) − (−0.8769)(−1.59) 7 𝑆 𝑌∗𝑋1 𝑋2 = 0.42918
  • 14. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán d) H0: β1 = 0 Regla de decisión: si tc está entre ± tt aceptar H0: b1 = 0.1038 𝑆 𝑏1 = 0.42918�16/155 = 0.04360 𝑡 𝑐 = 0.1038 0.04380 = 2.38 ttablas con α = 5% y 7 g.l. = 2.365 como tc = 2.38 no se encuentra entre ± tt =2.365 se rechaza H0 es decir, sí existe relación entre la velocidad de flujo y el % de humedad con % de impurezas constante. e) H0: β2 = 0 regla de decisión si tc está entre ± tt aceptar H0: H1: β2 ≠ 0 b2 = -0.87696 𝑆 𝑏2 = 0.42918�98.9/155 = 0.34282 𝑡 𝑐 = −0.87696 0.34282 = 2.55 tt con α = 5% y 7 g.l. = 2.365, por tanto se rechaza H0, es decir si existe relación entre la velocidad de flujo y él % de impurezas con el % de humedad constante. f) Y = 95% 7 g.l. t0 = 2.365 b1 = 0.1038 𝑠 𝑏1 = 0.04360 β1 = b1 ± t0 𝑠 𝑏1 β1 = 0.1038 ± 2.365 = (0.04360) 0.000686<β1<0.206914 aumento de velocidad de flujo por cada unidad de % de humedad.
  • 15. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán g) Y= 95% 7 g.l. t0 = 2.365 B2 = -0.87696 𝑠 𝑏2 = 0.34282 β2 = -0.87696 ± 2.365 (0.34282) -1.68772 < β2 < -0.06619 disminución de velocidad de flujo por cada unidad de % de impurezas. h) Y = 0.95 7 g.l. t0 = 2.365 X1 = 15 X2 = 1 𝑌� = 2.8499 + 0.1038 (15) – 0.87696 (1) = 3.52994 𝑆 𝑌� ≅ 𝑠 𝑌•𝑋1 𝑋2 = 0.42918 Y = 3.52994 ± 2.365 (0.42918) 2.5149 < Y < 4.5449 gr/seg de velocidad de flujo EJEMPLO 4 Para los datos del ejemplo 3 calcule: a) Los 3 coeficientes de correlación lineal simple. b) El coeficiente de correlación lineal múltiple de Y velocidad de flujo sobre X1 = % de humedad y X2 = % de impurezas. Utilizando los coeficientes de correlación lineal simple. c) 𝑟𝑌•𝑋1 𝑋2 = utilizando los coeficientes de regresión parcial. e) El % de variación no explicado de la velocidad de flujo sobre él % de humedad y él % de impurezas del sulfato de amonio.
  • 16. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán SOLUCIÓN a) 𝑟𝑌•𝑋1 = 11.845 �98.9 (3.91325) = 0.6020 𝑟𝑌 •𝑋1 2 = 0.3624 Aproximadamente el 36.24% de las variaciones de la velocidad de flujo se explican debido a las variaciones en el % de humedad. 𝑟𝑌•𝑋2 = −1.59 �1.6 ( 3.9 325 ) = -0.6354 𝑟𝑌 •𝑋2 2 = 0.4037 Aproximadamente el 40% de las variaciones en la velocidad de flujo se explican debido a las variaciones en el % de impurezas. 𝑟𝑋1 𝑋2 = −1.8 �98.9 (1.6) = −0.1430 𝑟𝑋 2 1𝑋2 = 0.0204 Baja correlación entre % de humedad y % de impurezas. b) 𝑟𝑌 •𝑋1 𝑋2 = �(602)2+ (−0.6354)2− 2 (0.602)(−0.635)(−0.1430) 1− (−0.1430)2 = 0.8188 c) 𝑟𝑌 •𝑋1 𝑋2 = � 0.1038 (11.845)+ (−0.87696) (−1.59) 3.91325 = 0.8188 d) 𝑟𝑌 •𝑋1 𝑋2 = 0.8188 𝑟𝑌 •𝑋1 2 𝑋2 = (0.8188)2 = 0.6704 1- 𝑟𝑌 •𝑋1 𝑋2 2 = 1 -0.6704 = 0.3296
  • 17. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Es decir el 67% de las variaciones en la velocidad de flujo se explican debido al % de humedad y al % de impurezas, y aproximadamente el 33% no es explicado, debido a estos factores; este 33% se podría explicar estudiando otras variables que podrían afectar a la velocidad de flujo de las cuales unas muy importantes serían la forma de la partícula y el tamaño de la partícula. EJEMPLO 5 Mastitis es el nombre genérico que se utiliza para referir a las infecciones de la glándula mamaria, las cuales son de mucha importancia para el ganado lechero. Cuando se encuentran presentes microorganismos patógenos en la leche y sin embargo, el animal no presenta síntomas clínicos se conoce vagamente como “mastitis subclínica”. En un estudio sobre mastitis subclínica efectuado en 19 hatos lecheros localizados en el altiplano mexicano se midieron tres variables: X1 = el estado del equipo de ordeño. X2 = la higiene en la sala de ordeño. Y = el porcentaje del hato libre de mastitis subclínica. Las primeras dos variables se calificaron en una escala del 1 al 10 en base a un promedio de calificaciones parciales, obtenidas sobre aspectos de higiene y mediciones efectuadas al equipo de ordeño. La calificación de Y para cada hato fue determinada en base a exámenes bacteriológicos de la leche de una muestra de vacas del hato. En seguida se muestra la tabla de los resultados: HATO # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 X1 8.7 6.0 7.0 8.0 7.7 6.0 6.3 8.0 5.0 5.7 7.7 7.0 5.3 4.7 6.3 8.0 7.0 8.7 5.3 X2 8.0 7.3 5.3 4.0 4.0 5.0 4.0 8.0 6.0 7.3 5.7 4.7 6.0 5.7 7.0 4.0 4.7 8.0 6.7 Y 77 60 72 45 44 46 49 79 60 60 56 30 56 38 47 43 18 81 53 a) Encuentre la ecuación de regresión múltiple del % libre de mastitis subclínica (Y) en base al equipo (X1) e higiene (X2). b) Estime cual será el % promedio de animales libres de mastitis subclínica en establos que tengan una calificación de 7.0 en equipo y 8.5 de higiene. c) Calcular el error estándar de la regresión lineal múltiple 𝑠 𝑌•𝑋1 𝑋2 .
  • 18. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán d) ¿Es significativo el efecto del estado del equipo (X1) sobre Y cuando la calificación de la higiene (X2) se mantiene constante? e) ¿Es significativo el efecto de la higiene (X2) sobre Y cuando la calificación del equipo (X1) se mantiene constante? f) Estime el coeficiente del efecto de higiene β2 con 95% de confianza. g) Calcular un intervalo de confianza de 90% para estimar el porcentaje de vacas libres de mastitis subclínica en un hato con calificación de 6 en equipo y 5 en higiene. SOLUCION: Como primer paso se forma la siguiente tabla: X1 X2 Y 𝑿 𝟏 𝟐 X1X2 X1Y 𝑿 𝟐 𝟐 X2Y Y2 8.7 6.0 7.0 8.0 7.7 8.0 7.3 5.3 4.0 4.0 77 60 72 45 44 75.69 36.00 49.00 64.00 59.29 69.60 43.80 37.10 32.00 30.80 669.9 360.0 504.0 360.0 338.8 64.00 53.29 28.09 16.00 16.00 616.0 438.0 381.6 180.0 176.0 5929 3600 5184 2025 1936 6.0 6.3 8.0 5.0 5.7 5.0 4.0 8.0 6.0 7.3 46 49 79 60 60 36.00 36.69 64.00 25.00 32.49 30.00 25.20 64.00 30.00 41.61 276.0 308.7 632.0 300.0 342.0 25.00 16.00 64.00 36.00 53.29 230.0 196.0 632.0 360.0 438.0 2116 2401 6241 3600 3600 7.7 7.0 5.3 4.7 6.3 5.7 4.7 6.0 5.7 7.0 56 30 56 38 47 59.29 49.00 28.09 22.09 36.69 43.89 32.90 31.80 26.79 44.10 431.2 210.0 296.8 178.6 296.1 32.49 22.09 36.00 32.49 49.00 319.2 141.0 336.0 216.6 329.0 3136 900 3136 1440 2209 8.0 7.0 8.7 5.3 4.0 4.7 8.0 6.7 43 18 81 53 64.00 49.00 75.69 28.09 32.00 32.90 69.60 35.51 344.0 126.0 704.7 280.9 16.00 22.09 64.00 44.89 172.0 84.6 648.0 355.1 1849 324 6561 2809 128.4 114.4 1014 896.10 753.60 6959.7 690.72 6249.1 59000 6.76 5.86 53.37 867.71 752.83 6852.5 653.16 5945.2 54116 n=19 28.39 0.77 107.2 37.56 303.9 4884 a) En base a la tabla anterior se calculan los valores: D = (28.34) (37.56) – (0.77)2 = 1065.74 b1 = (37.56)(107.2)− (0.77)(303.9) 1065.74 = 3.56
  • 19. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán b2 = (28.39)(303.9)− (0.77)(107.2) 1065.74 = 8.02 a= 53.37 – (3.56) (6.76) – (8.02) (5.86) = - 17.69 y se tiene finalmente: 𝑌� = -17.69 + 3.56 X1 + 8.02 X2 o en otros términos % promedio estimado libres de mastitis = -17.69 + 3.55 EQUIPO + 8.02 HIGIENE subclínica. b) Si X1 = 7.0 y X2 = 8.5 entonces: 𝑌� = -17.69 + 3.56 (7.0) + 8.02 (8.5) = 75.40% de animales libres de mastitis subclínica.. c) 𝑠 𝑌 •𝑋1 𝑋2 = � 4884−(3.56)( 107.2)− (8.02)(303.9) 19−3 = � 2065.09 16 = 11.36 d) H0: β1 = 0 vs H1: β1 ≠ 0 ahora: b1 = 3.56 𝑠 𝑏1 = 11.36 � 37.56 1065.74 = 2.13 tc= (3.56−0) 2.13 = 1.67 con 16 g.l. El valor tt = 2.12 con α = 5% para la prueba bilateral y se acepta H0. Sin embargo, si se considera la prueba unilateral (si el efecto del equipo existe, debe de ser positivamente correlacionado con Y), H0: β1 < 0 vs H1: β1 > 0 entonces tt = 1.75 con α = 5% para esta prueba unilateral y se observa que se tiene una evidencia de peso moderado a favor del efecto del estado del equipo sobre el % de animales libres de mastitis subclínica (aunque no llega a ser significativo al nivel 5%).
  • 20. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán e) Por las razones mencionadas anteriormente se prueba: H0: β2 < 0 vs H1: β > 0 y se calcula: b2 = 8.02 𝑠 𝑏2 = 11.36 � 28.39 1065.74 = 1.85 tc = (8.02−0) 1.85 = 4.33 lo cual es significativo al nivel α = 0.0005, reflejando una relación muy definida entre % libre de mastitis subclínica e higiene. f) Nivel de confianza =95% g.l. = 16 entonces: t = 2.12 y se tiene: β2= 8.02 ± 2.12 (1.85) = 8.02 ± 3.92 4.10 < β2 < 11.94 % de animales adicionales libres de mastitis subclínica por cada punto adicional de calificación de higiene. g) Nivel de confianza = 90% g.l. = 19 tt = 1.729 X1= 6.0 X2= 5.0 𝑌� = −17.69 + 3.56 (6.0) + 8.02 (5.0) = 43.77 𝑠 𝑌� = 11.36
  • 21. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán entonces: Y= 43.77 ± (1.729) (11.36) = 43.77 ± 19.64 24.13% < Y < 63.41% libres de mastitis subclínica. EJEMPLO 6 Para los datos del ejemplo 5 calcule: a) Los tres coeficientes de correlación lineal simple. b) El coeficiente de correlación lineal múltiple de Y sobre X1 = equipo y X2 = higiene (𝑟𝑌∙𝑋1 𝑋2 ). c) 𝑟𝑌∙𝑋1 𝑋2 utilizando los coeficientes de regresión parcial de b1 y b2. d) El % de variación no explicada de Y por equipo e higiene. Solución: a) 𝑟𝑌𝑋1 = 107.2 �(28.39)(4884) = 0.29 correlación moderada entre Y y equipo. 𝑟𝑌𝑋2 = 303.9 �(37.56)(4884) = 0.71 correlación altamente significativa entre Y e higiene. 𝑟𝑋1 𝑋2 = 0.77 �(28.39)(37.56) = 0.02 casi nula correlación entre la calificación de equipo y la calificación de higiene en esta muestra de hatos lecheros. b) 𝑟𝑌∙𝑋1 𝑋2 = � (0.29)2+(0.71)2−2(0.29)(0.71)(0.02) (1−0.02) = 0.77 c) 𝑟𝑌∙𝑋1 𝑋2 = � (3.56)(107.2)+(8.02)(303.9) (4884) = 0.76 que son iguales excepto por errores de redondeo (el último es más preciso, ya que se utilizaron más dígitos significativos). d) El % de variación en el porcentaje de animales libres de mastitis en un hato que no está explicado por el estado del equipo y la higiene en la sala de ordeño = 1 − 𝑟𝑌∙𝑋1 𝑋2 2 = 1 − (0.76)2 = 1 − 0.58 = 42% Este porcentaje puede deberse a factores no tomados en cuenta en la ecuación, tales como sobre-ordeño, edad de las vacas, producción láctea y otros.
  • 22. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán EJEMPLO 7 En un experimento, se hizo pasar un gas a través de un cierto medidor de orificio (mide velocidad de flujo). Para una relación de presión X1 (Pb/Pa : Pa es la presión antes del orificio y Pb es la presión después del orificio) y una relación de diámetros X2 (dt/d0 : dt es el diámetro del tubo y d0 es el diámetro del orificio), se obtuvieron los siguientes datos del factor de expansión. Y del medidor de orificio (factor adimensional, el cual es útil para cuantificación de transporte y medida de fluídos en la mecánica de fluidos). a) Encontrar la ecuación del plano de regresión de Y sobre X1 y X2, para la muestra dada. b) ¿Cuál será el factor de expansión, estimado puntualmente, para una relación de presión X1 = 0.90 y una relación de diámetros X2 = 0.10? c) Calcular el error estándar de regresión lineal múltiple de Y sobre X1 y X2. d) Si se mantiene constante la relación de diámetros (X2), ¿usted afirmaría que la relación de presión (X1) no afecta al factor de expansión con un nivel del 5% de significancia?, a partir de la muestra dada. e) Si se conserva constante la relación de presión (X1), ¿usted afirmaría que la relación de diámetros (X2) afecta al factor de expansión con un nivel del 5% de significancia?, a partir de la muestra dada. f) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión parcial del factor de expansión (Y) sobre la relación de presión (X1), con una relación de diámetros constante. g) Encontrar el intervalo de 95% de confianza para estimar el coeficiente de regresión parcial del factor de expansión (Y) sobre la relación de diámetro (X2), con una relación de presión constante. h) Calcular el intervalo de 95% de confianza para estimar el factor de expansión para el caso de una relación de presión X1 = 0.75 y una relación de diámetros X2 = 0.70. Solución: 𝑿 𝟏 𝑋2 𝑌 0.80 0.80 0.92 0.80 0.60 0.93 0.80 0.40 0.94 0.70 0.80 0.88 0.70 0.60 0.90 0.70 0.40 0.91 0.60 0.80 0.84 0.60 0.60 0.87 0.60 0.40 0.89
  • 23. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán a) Con los datos anteriores se obtiene la siguiente tabla: 𝑿 𝟏 𝑿 𝟐 𝒀 𝑿 𝟏 𝟐 𝑿 𝟏 𝑿 𝟐 𝑿 𝟏 𝒀 𝑿 𝟐 𝟐 𝑿 𝟐 𝒀 𝒀 𝟐 0.80 0.80 0.92 0.64 0.64 0.736 0.64 0.736 0.8464 0.80 0.60 0.93 0.64 0.48 0.744 0.36 0.558 0.8649 0.80 0.40 0.93 0.64 0.32 0.744 0.16 0.372 0.8649 0.70 0.80 0.88 0.49 0.56 0.616 0.64 0.704 0.7744 0.70 0.60 0.90 0.49 0.42 0.630 0.36 0.540 0.8100 0.70 0.40 0.91 0.49 0.28 0.637 0.16 0.364 0.8281 0.60 0.80 0.84 0.36 0.48 0.504 0.64 0.672 0.7056 0.60 0.60 0.87 0.36 0.36 0.522 0.36 0.522 0.7569 0.60 0.40 0.88 0.36 0.24 0.528 0.16 0.352 0.7744 ∑ 6.30 ∑ 5.40 ∑ 8.06 ∑ 4.47 ∑ 3.78 ∑ 5.661 ∑ 3.48 ∑ 4.820 ∑ 7.2256 0.70 0.60 0.896 4.41 3.78 5.642 3.24 4.836 7.2182 n =9 0.06 0 0.019 0.24 -0.016 0.0074 D = (∑𝑥1 2 ) (∑𝑥2 2 ) – (∑x1X2)2 = (0.06) (0.24) – 02 = 0.0144 𝑏1 = (∑ 𝑥2 2)(∑ 𝑥1 𝑦)−(∑ 𝑥1 𝑥2) (∑ 𝑥2 𝑦) 𝐷 = (0.24)(0.019)−(0)(−0.016) 0.0144 = 0.3167 𝑏2 = (∑ 𝑥1 2)(∑ 𝑥2 𝑦)−(∑ 𝑥1 𝑥2) (∑ 𝑥1 𝑦) 𝐷 = (0.06)(−0.016)−(0)(0.019) 0.0144 = - 0.0667 𝑎 = 𝑌� − 𝑏1 𝑋�1 − 𝑏2 𝑋�2 = 0.8956 − (0.3167)(0.70) − (−0.0667)(0.60) = 0.7139 Por lo tanto, la ecuación del plano de regresión es: 𝑌� = 0.7139 + 0.3167𝑋1 − 0.0667𝑋2 b) Si X1= 0.90 y X2 = 0.10, entonces: 𝑌� = 0.7139 + (0.3167)(0.90) − (0.0667)(0.10) = 0.9923 c) 𝑆 𝑌∙𝑋1 𝑋2 = � ∑ 𝑦2−𝑏1 ∑ 𝑥1 𝑦−𝑏2 ∑ 𝑥2 𝑦 𝑛−3
  • 24. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝑆 𝑌∙𝑋1 𝑋2 = � (0.0074) − (0.3167)(0.019) − (0.0667)(−0.016) 9 − 3 = 0.0075 d) H0: β1 = 0 H1: β1 ≠ 0 Regla de decisión: si tc está entre ± tt aceptar H0 b1 = 0.3167 𝑠 𝑏1 = 𝑠 𝑌•𝑋1 𝑋2 � ∑𝑋2 2 𝐷 = 0.0075 � 0.24 0.9048 = 0.03068 tc= (0.3167−0) 0.03068 = 10.323 con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447 como 10.323 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de regresión parcial de Y sobre X1, con X2 constante, es diferente de cero, por lo tanto, la relación de presión afecta al factor de expansión. e) H0: β2 =0 H1: β2 ≠ 0 Regla de decisión: si tc está entre ± tt aceptar H0. b2 = -0.0667 𝑠 𝑏2 = 𝑠 𝑌•𝑋1 𝑋2 = �∑𝑥2 2 𝐷 = 0.0075 � .06 0.0144 = 0.0153 tc= (−0.0667−0) 0.0153 = −4.359 con 6 g.l. y α = 5% se obtiene ± tt = ± 2.447 como -4.359 no está entre ± 2.447, se rechaza H0, es decir, que el coeficiente de regresión parcial de Y sobre X2, con X1 constante, es diferente de cero, por lo tanto, la relación de diámetros afecta al factor de expansión.
  • 25. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán f) Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447 b1 = 0.3167 𝑠 𝑏1 = 0.03068 β1 = 0.3167 ± (2.447) (0.03068) = 0.3167 ± 0.0751 0.2416 < β1 < 0.3918 g) Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447 b2 = -0.0667 𝑠 𝑏2 = 0.0153 β2 = -0.0667 ± (2.447) (0.0153) = -0.0667 ± 0.0374 -0.1041 < β2 < -0.0293 h) Para Y = 0.95 y 6 g.l. se obtiene t0 = 2.447 X1 = 0.75 X2 = 0.70 𝑌�= 0.7139 + (0.3167) (0.75) – (0.0667) (0.70) = 0.9048 𝑠 𝑌�= 𝑠 𝑌�•𝑋1 𝑋2 = 0.0075 Y = 0.9048 ± (2.447) (0.0075) = 0.9048 ± 0.0184 0.8864 < Y < 0.9232 EJEMPLO 8 Para los datos del ejemplo 7 calcular: a) Los 3 coeficientes de correlación lineal simple. b) El coeficiente de correlación lineal múltiple de Y = factor de expansión, sobre X1 = relación de presión y X2 = relación de diámetros (𝑟𝑌•𝑋1 𝑋2 ), utilizando los coeficientes de correlación lineal simple. c) El coeficiente de correlación lineal múltiple (𝑟𝑌•𝑋1 𝑋2 ), utilizando los coeficientes de regresión parcial.
  • 26. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán d) Los valores estimados del factor de expansión (𝑌�) para los valores dados de la relación de presión (X1) y la relación de diámetros (X2) y graficarlos contra los valores dados del factor de expansión (Y) y observar la correlación mediante un diagrama de dispersión. e) El coeficiente de correlación lineal múltiple (𝑟𝑌•𝑋1 𝑋2 ), como el coeficiente de correlación lineal simple que mide la relación mutua entre Y y 𝑌�. f) El porcentaje de variación explicada y variación no explicada del factor de expansión (Y) sobre la relación de presión (X1) y la relación de diámetros (X2). SOLUCION a) 𝑟𝑌•𝑋1 = ∑𝑥•𝑦 ��∑𝑥1 2�(∑𝑦2) = 0.019 �(0.06)(0.0074) = 0.900 alta correlación lineal entre el factor de expansión y la relación de presión. 𝑟𝑌 •𝑋2 = ∑ 𝑥2 𝑦 ��∑ 𝑥2 2�(∑ 𝑦2) = − 0.016 �( 0.24)(0.0074) = −0.379 baja correlación lineal entre el factor de expansión y la relación de diámetros. 𝑟𝑋1•𝑋2 = ∑𝑥1𝑥2 ��∑𝑥1 2� (∑𝑥2 2) = 0 �(0.06)(0.24) = 0 no existe correlación lineal entre la relación de presión y la relación de diámetros, es decir, casi son independientes. b) 𝑟𝑌•𝑋1 𝑋2 = ( 𝑟 𝑌•𝑋1 2 + 𝑟 𝑌 2 •𝑋2 −2 𝑟 𝑌•𝑋1 𝑟 𝑌•𝑋2 𝑟 𝑋1𝑋2 ) (1− 𝑟 𝑋 2 1𝑋2 ) = � 0.9002+ (−0.379)2− 2 (0.900)(−0.379)(0) 1−(0)2 = 0.9769 alta correlación lineal del factor de expansión sobre la relación de presión y la relación de diámetros. c) 𝑟𝑌•𝑋1 𝑋2 = � 𝑏1 ∑𝑥1 𝑦+ 𝑏2 ∑𝑥2 𝑦 ∑𝑦2 = � �� 0. 3167 �(0.019)+ (−0.0667)(−0.016)� 0−0074 = 0.9769 d) 𝑌� = 0.8956
  • 27. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝑌� = 0.7138 + 0.3167 X1 – 0.0667 X2 X1 X2 Y 𝒀� Y-𝒀� (Y-𝒀�)2 𝒀� − 𝒀� (𝒀� − 𝒀� 𝟐 ) 0.80 0.80 0.80 0.70 0.70 0.70 0.60 0.60 0.60 0.80 0.60 0.40 0.80 0.60 0.40 0.80 0.60 0.40 0.92 0.93 0.93 0.88 0.90 0.91 0.84 0.87 0.88 0.9139 0.9272 0.9406 0.8822 0.8956 0.9089 0.8506 0.8639 0.8772 .0244 .0344 .0344 -.0156 .0044 .0144 -.0556 -.0256 -.0156 .0006 .0012 .0012 .0002 .0000 .0002 .0031 .0007 .0002 .0183 .0317 .0450 -0.133 0 .0133 -.0450 -.0317 -.0183 .0003 .0010 .0020 .0002 0 .0002 .0020 .0010 .0003 SUMA 0 .0074 0 .0071 FIGURA 2. e) 𝑟𝑌 •𝑋1 𝑋2 = 𝑟 𝑌•𝑌� = � ∑(𝑌�−𝑌�)2 ∑(𝑌−𝑌�)2 = � 0.0071 0.0074 = 0.9769 f) 𝑟𝑌 •𝑋1 𝑋2 = 0.9769 𝑟𝑌 •𝑋1 𝑋2 2 = 0.9543 1 − 𝑟𝑌 •𝑋1 𝑋2 2 = 1 − 0.9543 = 0.0457
  • 28. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán El porcentaje de variación explicada es de 95.43% y el porcentaje de variación no explicada es de 4.57%, el cual puede se debido a transmisiones de calor a través de la tubería, variaciones de densidad, temperatura, etc. REGRESIÓN Y CORRELACIÓN LINEAL. A) REGRESIÓN NO LINEAL. Cuando la relación entre la variable dependiente o aleatoria (Y) con respecto a la variable independiente o controlada (X), no tiene la forma de una línea recta, se aplica la regresión no lineal que consta de 3 opciones generales que son: 1) TRANFORMACIÓN A LINEAL. Cuando el problema original por antecedentes específicos o por observación de su diagrama de dispersión se puede ajustar a una curva conocida, entonces es factible efectuar la transformación (principalmente por logaritmos, por inverso, por raíz, etc.) de una o las 2 variables, de tal manera que es posible obtener la ecuación de una recta (𝑌�= a + b X); una vez obtenida ésta, se puede efectuar toda la inferencia en forma similar a la utilizada en la Técnica X. Si se realiza un nuevo diagrama de dispersión con la(s) variable(s) transformada(s), se observará que los puntos se dispersan muy aproximadamente en una línea recta. Es importante tener en cuenta la transformación, para la obtención de la ecuación original y para efectuar la inferencia estadística respectiva. Algunos ejemplos de curvas conocidas y su respectiva transformación a recta son los siguientes:
  • 29. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Z ZFunción Recíproca z = 1/(A+BW) Recuerde que la ecuación de una recta es: Y = a + b X donde: Función Potencia z = A ∙ 𝑊 𝐵 1 𝐴 A>0 B>0 Z Z W W W W Y = log. Z a = log. A b =B X = log. W Y = 1/z a = A b = B X = W Y = a+b X Y = a+b X W W W Z Z Z Z A>0 B>0 A>0 B>0 Función Exponencial z = A ∙ 𝐵 𝑊 Función Logarítmica 𝑒 𝑧 = A ∙ 𝑊 𝐵 Y = log. Z a = log. A b = log. B X = W Y = a+b X Y = Z a = Ln A b =B X = Ln W Y = a+b X
  • 30. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán b = ∑ 𝑥𝑦 ∑ 𝑥2 a = 𝑌� – b 𝑋� Y además: 𝑠 𝑌 •X = �∑ 𝑦2− 𝑏 (∑ 𝑥𝑦) 𝑛−2 ; 𝑠 𝑏 = 𝑠 𝑌•𝑋 �∑ 𝑥2 𝑆 𝑌= 𝑆 𝑌 •X ∙ aproximadamente 2) REGRESIÓN POLINOMIAL. Cuando la relación entre las variables es un polinomio de la forma: Y = a + b X + c 𝑋2 + d 𝑋3 + … + m 𝑋 𝑘 La más común de las relaciones polinomiales es la regresión parabólica (polinomio de 2° grado), que con la función: E (Y) = α + β X + γ 𝑋2 Mide el comportamiento esperado de la variable dependiente Y con respecto a la variable independiente X en la forma de una parábola a la que se ajustan los puntos (pares ordenados), es decir las observaciones de la muestra. La ecuación de la parábola es: 𝑌� = a + b X + c 𝑋2 Donde: 𝑌� Es el valor de Y, estimado parabólicamente para un valor de X dado. a Es la intersección de la parábola en el eje Y. b Es el coeficiente de linealidad, y c El coeficiente de curvatura de 2° grado.
  • 31. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Para calcular los parámetros muestrales, se efectúan las siguientes operaciones a los valores muestrales observados: X Y 𝑿 𝟐 𝑿 𝟑 𝑿 𝟒 XY X2 Y Y2 X1 X2 … Xn Y1 Y2 … Yn 𝑋1 2 𝑋2 2 … 𝑋 𝑛 2 𝑋1 3 𝑋2 3 … 𝑋 𝑛 3 𝑋1 4 𝑋2 4 … 𝑋 𝑛 4 𝑋1 𝑌1 𝑋2 𝑌2 … 𝑋 𝑛 𝑌𝑛 𝑋1 2 𝑌1 𝑋2 2 𝑌2 … 𝑋 𝑛 2 𝑌𝑛 𝑌1 2 𝑌2 2 … 𝑌𝑛 2 ∑X ∑Y ∑ 𝑋2 ∑ 𝑋3 ∑ 𝑋4 ∑XY ∑X2 𝑌 ∑ 𝑌2 𝑿� 𝑌� 1 𝑛 (∑ 𝑋 )2 1 𝑛 (∑ 𝑋)(∑ 𝑋)2 1 𝑛 (∑ 𝑋2)2 1 𝑛 (∑ 𝑋)(∑ 𝑌) 1 𝑛 (∑ 𝑋2)(∑ 𝑌) 1 𝑛 (∑ 𝑌)2 ∑ 𝑥2 ∑ 𝑥3 ∑ 𝑥4 ∑xy ∑x2 𝑦 ∑ 𝑦2 De los tres últimos renglones, el primero es el de las sumatorias, el segundo de los términos de corrección y el último de sumatorias corregidas, se obtiene restando los dos anteriores: por ejemplo en la 7ª columna: ∑ 𝑥2 𝑦 = ∑ 𝑋2 𝑌 - 1 𝑛 (∑ 𝑋2 ) (∑ 𝑌) Y se calcula: D = (∑ 𝑥2 ) (∑ 𝑥4 ) – (∑ 𝑥3 )2 (denominador) b = (∑𝑥𝑦)�∑ 𝑥4�− �∑ 𝑥2 𝑦��∑ 𝑥3� 𝐷 c = �∑ 𝑥2 𝑦��∑ 𝑥2�− (∑𝑥𝑦) (∑ 𝑥3) 𝐷 a = 𝑌� – b 𝑋� - c (∑ 𝑋2 )/n La falta de ajuste de los puntos a la parábola, se mide con el error estándar de regresión parabólica: 𝑆 𝑌∙𝑋 = � ∑(𝑌− 𝑌�)2 𝑛−3 = � ∑ 𝑦2− 𝑏 (∑𝑥𝑦)− 𝑐 (∑ 𝑥2 𝑌) 𝑛−3
  • 32. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán La inferencia estadística de la regresión parabólica para los parámetros poblacionales se puede hacer principalmente de la siguiente manera: a) Prueba de hipótesis para el coeficiente de linealidad poblacional (β). Se plantean las hipótesis. H0 : β = 0(u otro valor) H1: β ≠ 0 (u otro valor con pruebas unilaterales también) Y se compara t c = 𝑏−0 𝑠 𝑏 (u otro valor con t t ) Donde: 𝑠 𝑏 = 𝑠 𝑌∙ X �∑ 𝑥4 /𝐷 Es la variación natural del estimador b. b) Prueba de hipótesis para el coeficiente de curvatura de 2° grado poblacional (γ). H 0 : γ = 0 (u otro valor) H 1 : γ ≠ 0 (u otro valor con pruebas unilaterales también) Y se compara: t c = 𝑐−0 𝑠 𝑏 (u otro valor con t t ) Donde: 𝑠𝑐 = 𝑠 𝑌 •𝑋 �∑ 𝑥2 /𝐷 Es la variación natural del estimador c. Si se desea en cualquier caso o si en los casos (a y b) anteriores, la prueba resulta significativa, se puede encontrar los intervalos de confianza respectivos. c) Intervalo de confianza para estimar β. β = b ± t0 sb d) Intervalo de confianza para estimar γ. γ = c ± t 0 sc e) Intervalo de confianza para estimar un valor individual Y, para un valor de X dado.
  • 33. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Y = 𝑌� ± t 0 sY Donde 𝑌� = a + b X + c X2 es el estimador y 𝑆 𝑌� = SY∙X es aproximadamente la variación del estimador. En toda la inferencia tt y t0 se obtienen de las tablas con n – 3 g.l. y los niveles de significación y confianza dados respectivamente. 3) FUNCIONES ESPECIALES (NO LINEALES EN LOS PARAMETROS). Es la opción cuando se trata de estimar la relación funcional con una ecuación muestral especial, cuyos parámetros no son fáciles de calcular, pues dicho cálculo es mediante un sistema de ecuaciones no lineales. La solución no es imposible, pues se puede resolver el sistema de ecuaciones por medio de métodos iterativos de computación, pero en esta técnica, no se tratará esta opción. Algunos ejemplos de funciones especiales son: Y = a – b ∙ pX P < 1 a > 0 b > 0 REGRESIÓN ASINTOTICA Y X P < 1 a > 0 b > 0 CURVA DE CRECIMIENTO LOGISTICO X Y Y = a/ (1+b ∙ pX )
  • 34. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán B) CORRELACIÓN NO LINEAL. Si se quiere medir el grado de relación no lineal mutua entre dos variables, se calcula el coeficiente de correlación no lineal muestral que es: r = √𝑟2 = � 𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝐸𝑋𝑃𝐿𝐼𝐶𝐴𝐷𝐴 𝑉𝐴𝑅𝐼𝐴𝐶𝐼𝑂𝑁 𝑇𝑂𝑇𝐴𝐿 = �1 − 𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝑁𝑂 𝐸𝑋𝑃𝐿𝐼𝐶𝐴𝐷𝐴 𝑉𝐴𝑅𝐼𝐴𝐶𝐼Ó𝑁 𝑇𝑂𝑇𝐴𝐿 En donde r2 es el coeficiente de determinación que indica el % de variación explicada entre las variables. Es decir, r = � ∑(𝑌�− 𝑌�)2 ∑(𝑌− 𝑌�)2 = �1 − ∑(𝑌− 𝑌�)2 ∑(𝑌− 𝑌�)2 Y Indica los valores observados. 𝑌� Los valores estimados correspondientes a Y. 𝑌� ∑ 𝑌/𝑛 el valor medio de los valores observados. NOTA: el método anterior es general, pues los valores 𝑌� pueden estar estimados con cualquier relación funcional, pero se puede simplificar mucho en los siguientes casos: 1) Si se efectúa una transformación de no lineal a lineal para la regresión (inciso A.1), entonces el coeficiente de correlación no lineal para las 2 variables originales se puede calcular como el coeficiente de correlación lineal entre las 2 variables ya transformadas, en forma análoga a la efectuada en la técnica X, en donde: r = ∑ 𝑥𝑦/�(∑ 𝑥2)(∑ 𝑦2) 2) Si la relación funcional no lineal es un polinomio de 2° grado (inciso A.2), la que se estima con la ecuación de una parábola 𝑌� = a + b X + c X2 , entonces el coeficiente de correlación parabólico se puede calcular como: r = � 𝑏 (∑ 𝑥𝑦 )+𝑐(∑ 𝑥2 𝑦) ∑ 𝑦2
  • 35. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán EJEMPLO 1 Se anota a continuación R = cantidad de rodamiento de cierto tipo de llanta radial (en miles de millas) y los valores observados aleatoriamente de V = porcentaje de vida útil que aún le queda, después de haber rodado R miles de millas, en una muestra experimental. R 1 2 5 10 20 30 40 50 V 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3 Por experiencias anteriores se tiene la seguridad de que él % de vida útil decrece exponencialmente con una ecuación de la forma V = A ∙ BR y se pide en base a los datos observados: a) Estimar los parámetros A y B encontrando la transformación de la curva exponencial a una recta de la forma Y = a + b X. b) Dibujar en papel adecuado (según las transformaciones) un diagrama de dispersión y la recta encontrada. c) ¿Cuál es la ecuación original? d) Calcular el error estándar de regresión lineal Y sobre X, es decir, la medida de la falta de ajuste de los puntos a la recta. e) Si una llanta ha recorrido 18.5 miles de millas, ¿Cuál será su porcentaje de vida útil que le resta, estimado puntualmente? f) En función de los datos transformados, ¿se puede afirmar con 5% de significación que el coeficiente de regresión es diferente de cero? g) Si en el inciso anterior, el coeficiente resultó significativo, estimarlo con un intervalo de 99% de confianza. h) Si una llanta ha recorrido 35 miles de millas, ¿Cuál será el porcentaje de vida útil que le queda, estimada con un intervalo de 95% de confianza? Solución: a) V = A • BR Log V = log A + R log B Y = a + X b Y = log V a = log A X = R b = log B
  • 36. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Entonces se efectúan las transformaciones a los datos observados. R V X Y X2 XY Y2 1 2 5 10 20 30 40 50 98.2 91.7 81.3 64.0 36.4 32.6 17.1 11.3 1 2 5 10 20 30 40 50 1.9921 1.9624 1.9101 1.8062 1.5611 1.5132 1.2330 1.0531 1 4 25 100 400 900 1600 2500 1.9921 3.9247 9.5505 18.0618 31.2220 45.3965 49.3198 52.6539 3.9685 3.8509 3.6484 3.2623 2.4370 2.2898 1.5203 1.1090 158 13.0311 5530 212.1214 22.0863 19.75 1.6289 3120.5 257.3651 21.2263 2409.5 -45.2437 0.8599 b = −45.2437 2409.5 = - 0.0188 a = 1.6289 – (-0.0188) (19.75) = 1.9997 𝑌� = 1. 9997 – 0.0188 X X = 0 𝑌� = 1.9997 R = 0 V = 99.9408 X = 50 𝑌� = 1.0609 R = 50 V = 11.5051 A = antilog a A = antilog 1.9997 = 99.9408 B = antilog b B = antilog (- 0.0188) = 0.9577 R = X V = antilog Y b) Figura 1 c) V = 99.9408 x 0.9577R d) sYX = � 0.8599−(−0−0188)(−45.2437) 8−2 = � 0.0104 6 = 0.0416 e) Si R = 18.5 X = 18.5 𝑌� = 1.9997 – 0.0188(18.5) = 1.6524
  • 37. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán V = antilog 1.6524 = 44.91% de vida útil. O también V = 99.9408 (0.9577)18.5 = 44.91% de vida útil. f) H0 : β = 0 ; H1 : β ≠ 0 b = -0.0188 sb = 0.0416/√2409.5 = 0.0008 Regla de decisión: si tc esta entre ± tt, aceptar H0. tc = (-0.0188 – 0) / 0.0008 = - 22.182 Con α = 5% se obtiene ± tt = ± 2.447 Como – 22.182 no está entre ± 2.447 se rechaza H0, es decir que el coeficiente de regresión Y sobre X poblacional no es cero. FIGURA 1 g) Con 99% de confianza y 6 g. l. t0 = 3.707 b = -0.0188 sb = 0.0008
  • 38. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán β = -0.0188 ± (3.707)(0.0008) = -0.0188 ± 0.0031 -0.0219 < β < -0.0156 h) Con 95% de confianza y 6 g. l. t0 = 2.447 Si R = 35 X = 35 , Entonces 𝑌� = 1.9997 – 0.0188 (35) = 1.3425 V = antilog 1.3425 = 22.00% de vida útil. sY = sYX = 0.0416 aproximadamente Y = 1.3425 ± (2.447) (0.0416) = 1.3425 ± 0.1017 1.2409 < Y < 1.4442 y al transformar queda 17.41 < V < 27.81% de vida útil. Nótese que el intervalo de confianza no es simétrico alrededor del valor estimado de V = 22%. Esto es debido, al efecto de aplicar la transformación inversa. EJEMPLO 2 En la tabla siguiente se anota X = la cantidad de barniz anticorrosivo (en gramos) y también Y = el tiempo de secado promedio (en horas) de una pintura aplicada en placas de acero, de uso industrial. X 0 1 2 3 4 5 6 7 8 Y 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0 a) Dibujar un diagrama de dispersión. b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y dibujarla en el diagrama. c) ¿Qué tiempo tardara en secar una pintura que tenga 10gr de barniz, estimado puntualmente? d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra dada. e) Probar con el 1% de significación, si al tiempo de secado, le afecta la cantidad de barniz en forma lineal y en forma no lineal.
  • 39. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura de 2° grado (y) poblacionales, resultan significativos, estimarlos mediante intervalos de 95% de confianza. g) Estimar con un intervalo de 90% de confianza, el tiempo que tarda en secar una pintura que tiene 4.5 gr de barniz. SOLUCIÓN: a) Ver figura 2 b) La ecuación 𝑌� = a + b X + c X2 se obtiene con las siguientes operaciones de los valores observados. X Y X2 X3 X4 XY X2 Y Y2 𝑌� 0 1 2 3 4 5 6 7 8 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0 0 1 4 9 16 25 36 49 64 0 1 8 27 64 125 216 343 512 0 1 16 81 256 625 1296 2401 4096 0 10.5 20.0 24.0 28.0 40.0 45.0 59.5 72.0 0 10.5 40.0 72.0 112.0 200.0 270.0 416.5 576.0 144.0 110.25 100.00 64.00 49.00 64.00 56.25 72.25 81.00 12.18 10.52 9.22 8.29 7.73 7.52 7.69 8.22 9.12 36 4 n=9 80.5 8.9444 204 144 60 1296 816 480 8772 4624 44148 299 322 -23 1697 1824.6667 -127.6667 740.75 720.0278 20.7222 FIGURA 2
  • 40. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Y se calcula D = (60)(4148) - (480)2 = 18480 b = (−23)(4148) –(−127.6667)(480) 18480 = −34124 18480 = −1.8465 c = (−127.6667)(60)− (−23)(480) 18480 = 3380 18480 = 0.1829 a = 8.9444 – (-1.8465) (4) – (0.1829) (204)/9 = 12.1848 𝑌� = 12.1848 – 1.8465 X + 0.1829 X2 es la ecuación de la parábola de regresión de Y sobre X. La figura 2 representa también la parábola con los valores estimados 𝑌�. c) Si X = 10 entonces: 𝑌� = 12.1848 – 1.8465 (10) + 0.1829 (10)2 = 12.0095 horas d) sY∙X =� 20.7222− (−1.8465)(−23)− (0.1829)(−127.6667) 9−3 = � 1.6022 6 = 0.5167 horas e) H0: β = 0 R. de D. si tc está entre ± tt aceptar H0 H1: β ≠ 0 b = -1.8465 Sb = 0.5167 � 4148 18480 = 0.2448 tc = (-1.8465) / 0.2448 = -7.542 con 6 g. l. y α = 0.01 ± tt = ± 3.707 Como -7.542 no está entre ± 3.707, se rechaza H0, es decir que el coeficiente de linealidad poblacional no es cero por lo tanto, el tiempo de secado le afecta linealmente a la cantidad de barniz. H0: γ = 0 R. de D. si tc está entre ± tt aceptar H0 H1: γ ≠ 0 c =0.1829 Sc = 0.5157�60/18480 = 0.0294 tc = (0.1829 – 0) 10.0294 = 6.212 con 6 g. l. y 𝛼 = 0.01 ± 𝑡𝑡 = ± 3.707
  • 41. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Como 6.212 no está entre ± 3.707 rechace H0, es decir que el coeficiente de curvatura de 2° grado poblacional no es cero, por lo tanto, al tiempo de secado le afecta también no linealmente la cantidad de barniz. f) Como los dos coeficientes resultaron significativos entonces: 95% de confianza 6 g. l. to=2.447 b = -1.8465 sb = 0.2448 β = -1.8465 ± (2.447) (0.2448) = -1.8465 ± 0.5991 -2.4456 < β < -1.2475 horas de secado por cada gramo de barniz. c = 0.1829 sc= 0.0294 γ = 0.1829 ± (2.447) (0.0294) = 0.1829 ± 0.0721 0 .1109 < γ < 0.2550 g) 90 % de confianza 6 g. l. t0 = 1.943 Si X = 4.5 sY = 0.5167 𝑌� = 12.1848 – 1.8465 (4.5) + 0.1829 (4.5)2 = 7.5792 aproximadamente Y = 7.5792 ± (1.943) (0.5167) = 7.5792 ± 1.0040 6.5751 < Y < 8.5832 horas de secado. EJEMPLO 3 Para los datos del ejemplo 2: a) Calcular el coeficiente de correlación no lineal, por el método general, para la muestra dada. b) ¿Qué % de variación es explicada? c) ¿Qué % de variación no es explicada?
  • 42. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán d) Tomando en cuenta que a los valores observados se les ajustó una parábola, calcular el coeficiente de correlación no lineal (parabólico) por el método simplificado. SOLUCIÓN: a) n=9 Y = 80.5 9 = 8.9444 𝑌� = 12.1848 - 1.8465 x + 0.1829 X2 Y Ŷ Ŷ- 𝒀� (Ŷ-Ȳ�)2 Y-Ȳ (Y-Ȳ)2 12.0 10.5 10.0 8.0 7.0 8.0 7.5 8.5 9.0 80.5 12.1848 10.5212 9.2234 8.2913 7.7251 7.5247 7.6900 8.2212 9.1182 3.2404 1.5768 0.2789 -0.2789 -1.2193 -1.4198 -1.2544 -0.7232 -0.1737 0 10.5502 2.4862 0.0778 0.4265 1.4868 2.0157 1.5735 0.5231 0.0302 19.1201 3.0556 1.5556 1.0556 -0.9444 -1.9444 -0.9444 -1.4444 -0.4444 0.0556 0 9.3364 2.4198 1.1142 0.8920 3.7809 0.8920 2.0864 0.1975 0.0031 20.7222 Variación total = 20.7222 Variación explicada = 19.1201 Variación no explicada = 20.7222 - 19.1201 = 1.6022 a) r= �19.1201/20.7222 = √0.9227 = 0.9606 o también: r = �1 − 1.6022/20.7222 = √1 − 0.0773 = 0.9606
  • 43. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Altísima correlación no líneal entre el tiempo de secado promedio y la cantidad de barniz. b) r2 = 0.9227 Es decir, 92.27% de la variación en el tiempo de secado es explicada por la caridad de barniz anticorrosivo en la pintura aplicada a las placas de acero. c) 1-r2 = 1 -0.9227 = 0.0773 7.73% de la variación en el tiempo de secado es no explicada, es decir, que esta variación restante puede deberse a otros diferentes factores (humedad o temperatura del medio ambiente, concentración del barniz, pulido de la superficie, etc.). d) Como el Ejemplo 2 se tiene: Y = 12.1848 – 1.8465 X + 0.1829 X2 b = -1.8465 c = 0.1829 ∑𝑥𝑦 = −23 ∑𝑥2 𝑦 = −127.6667 ∑𝑦2 = 20.7222 Entonces se puede calcular: r = � (−1.8465)(−23)+ (0.1829)(−127.6667) 20.7222 = � 19.1201 20.7222 = 0.9606
  • 44. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán EJEMPLO 4 En un ejemplo anterior se observa, de la gráfica de contenido de carbono contra partes por millón de oxigeno, que la relación funcional existente pudiera ser una parábola; por lo cual se tomaron datos de X = contenido de carbono en puntos de carbono (1 punto de carbono es igual a 0.01% de carbono) y Y = partes por millón de oxigeno en el horno, inmediatamente antes de vaciar (recuerde que la temperatura de vaciado y la velocidad de vaciado influyen en el contenido de oxigeno) a una temperatura de 1600° C y son los siguientes: X 9 12 15 22 25 34 38 70 77 80 Y 325 264 200 151 122 93 70 59 54 50 a) Dibujar un diagrama de dispersión. b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y dibujarla en un diagrama. c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono. d) Calcular el error estándar de la regresión parabólica de Y sobre X para la muestra dada. e) Probar con un nivel del 5% de significación, si el contenido de carbono afecta en forma lineal y en forma no lineal al contenido de oxígeno en el acero líquido. f) Si en el inciso anterior, los coeficientes de linealidad (β) y de curvatura (γ) poblacionales, resultan significativos, estimarlos mediante intervalos de 95% de confianza. g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno de un acero con 60 puntos de carbono. Solución: a) Ver figura 3 b) La ecuación 𝑌� = a + b X + c X2 se obtiene con las siguientes operaciones de los valores observados.
  • 45. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán FIGURA 3 c) X Y X2 X3 X4 XY X2 Y Y2 𝒀� 9 12 15 22 25 34 38 70 77 80 325 264 200 151 122 93 70 48 43 40 81 144 225 484 625 1156 1444 4900 5929 6400 729 1728 3375 10648 15625 39304 54872 343000 456533 512000 6561 20736 50625 234256 390625 1336336 2085136 24010000 35153041 40960000 2925 3168 3000 3322 3050 3162 2660 3360 3311 3200 26325 38016 45000 73084 76250 107508 101080 235200 254947 256000 105625 69696 40000 22801 14884 8649 4900 2304 1849 1600 291.83 259.32 228.78 165.32 141.45 81.83 61.12 23.19 45.20 57.96 ∑382 38.2 135.6 135.6 21388 14592.4 1437814 817021.6 104247316 45744654.4 31158 51799.2 1213410 2900212.8 272308 183873.6 n=10 6795.6 620792.4 58502661.6 -20641.2 -1686802.8 88434.4
  • 46. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Y se calcula D = (6795.6) (58502661.6) – (620792.4)2 = 12177483271.2 b = (−20641.2)(58502661.6)− (−1686802.8)(620792.4) 12177483271.2 = −13.173 c = (−1686802.8)(6795.6)− (−20641.2)(620792.4) 12177483271.2 = 0.111 a = 135.6 – (-13.173) (38.2) – (0.111) (21388)/10= 401.50 La ecuación de la parábola de regresión de Y sobre X es : 𝑌� = 401.40- 13.173 X + 0.111 X2 La figura 3 representa también la parábola con los valores estimados 𝑌�. c) Si X = 90 entonces: 𝑌� = 401.40 – 13.173 (90) + 0.111(90)2 = 114.93 d) sY∙X=� (88434.4)− (−13.173)(−20641.2)− (0.111)(−1686802.8) 10−3 = 23.186 e) H0 : β = 0 H1 : β ≠ 0 Regla de decisión: si tc esta entre ± tt aceptar H0. b = -13.173 sb = sY∙X �∑ 𝑥4/𝐷 = 23.186 �58502661.6/12177483271.2= 5.082 tc = (b-0)/ sb = -13.173/0.055 = -2.592 con 7 g. l. y α = 5% se obtiene tt = ± 2.365 Como -2.592 no está entre ± 2.365, se rechaza H0, es decir que el coeficiente de linealidad poblacional no es cero, por lo tanto, el contenido de carbono afecta linealmente al contenido de oxigeno libre en el acero líquido. H0 : γ = 0 H1 : γ ≠ 0
  • 47. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Rango de decisión: si t0 está entre ± tt aceptar H0 c = 0.111 sc= sY∙X= �∑ 𝑥2/𝐷 = 23.186 �6795.6/12177483271.2 = 0.0173 tc= (c-0)/sc = 0.111 / 0.0173 = 6.409 con 7 g. l. y α = 5% se obtienen tt = ± 2.365 Como 6.409 no esta entre ± 2.365, se rechaza H0, es decir, que el coeficiente de cuadratura de segundo grado poblacional no es cero, por lo tanto, el contenido de carbono afecta no-linealmente al contenido de oxigeno libre en el acero. f) Como los dos coeficientes resultaron significativos, entonces se obtienen los siguientes intervalos de confianza: para 7 g. l. y α = 5%, t0=2.365 β = b ± 𝑡0 𝑆 𝑏 = - 13.173 ± (2.365) (5.082) = - 13.173 ± 12.019 -25.192 < β < -1.154 γ = c ± t0 sc = 0.111 ± (2.365) (0.0173) = 0.111 ± 0.041 0.070 < γ < 0.152 g) Para X = 60 se obtiene 𝑌� = 401.40 – 13.173 (30) + 0.111(30)2 = 10.62 Para 7 g. l. y α = 5%, t0 = 2.365 Por lo tanto, el intervalo de confianza resultante es : Y = 𝑌� ± t0 SY•X = 10.62 ± (2.365) (23.186) = 10.62 ± 54.83 -44.21 < γ < 65.45 ppm oxígeno. Como no es posible obtener una cantidad negativa de ppm de oxigeno, el intervalo es: 0 < γ < 65.45 ppm oxigeno.
  • 48. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Ejemplo 5 Para los datos del ejemplo 4 a) Calcular el coeficiente de correlación no lineal por el método general, para la muestra dada. b) ¿Qué porcentaje de variación es explicada? c) ¿Qué porcentaje de variación es no explicada? d) Tomando en cuenta que a los valores observados se les ajusto una parábola, calcular el coeficiente de correlación no lineal (parabólico) por el método simplificado. Solución: a) n = 10 𝑌� = 135.6 𝑌� = 401.40 -13.173 X + 0.111 X2 Variación total = 88434.40 variación explicada = 84589.09 variación no explicada = 3845.31 r = �84589.09/88434.40 = 0.978 Por lo tanto, existe un buena correlación entre el contenido de oxigeno y el contenido de carbono. 𝒀 𝒀� 𝒀� − 𝒀� (𝒀� − 𝒀�) 𝟐 𝒀 − 𝒀� (𝒀 − 𝒀�) 𝟐 325 291.83 156.23 24407.8129 189.4 35872.36 264 259.32 123.72 15306.6384 128.4 16486.56 200 228.78 93.18 8682.5124 64.4 4147.36 151 165.32 29.72 883.2784 15.4 237.16 122 141.45 5.85 34.2225 -13.6 184.96 93 81.83 -53.77 2891.2129 -42.6 1814.76 70 61.12 -74.48 5547.2704 -65.6 4303.36 48 23.19 -112.41 12636.0081 -87.6 7673.76 43 45.20 -90.40 8172.16 -92.6 8574.76 40 57.96 -77.64 6027.9696 -95.6 9139.36 1356 0 0 84589.09 0 88434.4
  • 49. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán b) r2 = 0.9566 El 95.66% de la variación en el contenido de oxigeno (ppm) es explicada por los puntos de carbono del acero. c) 1-r2 = 1 – 0.9566 = 0.0434 El 4.34% de la variación en el contenido de oxigeno (ppm) no es explicada, es decir, esta variación restante puede deberse a otros factores como pequeñas alteraciones en la temperatura, tipo de horno, medio ambiente, etc., los cuales pueden haber alterado el equilibrio químico carbono-oxigeno. d) Del ejemplo 4 se tiene: 𝑌� = 401.40 - 13.173 X + 0.111 X2 b= -13.173 c = 0.111 ∑ 𝑥𝑦 = −20641.2 ∑ 𝑋2 𝑌 = −1686807.8 ∑ 𝑦2 = 88434.4 Entonces: r= � (−13.173)(−20641.2)+ (0.111)(−1686802.8) 88434.4 = 0.978 EJEMPLO 6 En los 4 y 5 se realizaron los cálculos de regresión y correlación, suponiendo que una curva cuadrática (parábola) es una relación entre el contenido de oxígeno y el contenido de carbono en la fabricación química del acero líquido. Sin embargo, aunque estadísticamente se obtuvieron resultados satisfactorios respecto a la variación explicada en la correlación no lineal existente, químicamente no es aceptable que un acero aumente su contenido de oxigeno al aumentar el contenido de carbono (obsérvense los contenidos de oxigeno obtenidos por la regresión parabólica para 77 y 80 puntos de carbono; de hecho, cuando se extrapoló a 90 puntos de carbono se estimó un contenido de oxigeno de 114.93 ppm, el cual es superior en oxidación a un acero con 34 puntos de carbono).
  • 50. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Por lo mencionado y por pláticas con los ingenieros químicos de la fábrica, se supuso que una relación hiperbólica que pudiera resultar satisfactoria es: Z Y = K Donde: Z = puntos de carbono Y = ppm de oxigeno K = constante Y los argumentos pueden ser resumidos en los siguientes: 1) No es químicamente aceptable que se obtenga un acero con 0 ppm de oxigeno, aunque sea muy grande la cantidad de carbono. 2) No se deben obtener contenidos negativos de oxigeno 3) Al aumentar el contenido de carbono debe disminuirse la cantidad de oxigeno y viceversa. 4) No existe un contenido de carbono tal que se obtenga un mínimo en la cantidad de oxigeno. (En la regresión parabólica del ejemplo 2 se obtiene un mínimo para 59 puntos de carbono) Si se efectúa la transformación X = 1 𝑍 se obtiene la relación: Y= b X, donde b = K Que es la ecuación de una recta; y para los datos del ejemplo 2 se pide: a) Dibujar un diagrama de dispersión con la transformación indicada. b) Indicar la ecuación original. c) Estimar las partes por millón de un acero que contenga 90 puntos de carbono. d) Calcular el error estándar de regresión lineal Y sobre X, es decir, la medida de la falta de ajuste de los puntos a la recta. e) En función de los datos transformados ¿se puede afirmar con 5% de significancia que el coeficiente de regresión es diferente de cero? f) Si en el inciso anterior, el coeficiente resulto significativo, estimarlo con un intervalo de 95% de confianza.
  • 51. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán g) Estimar con un intervalo de 95% de confianza, las partes por millón de oxígeno de un acero con 60 puntos de carbono. Solución: a) Ver figura 4 b) La ecuación: Y = b X ; X = 1/Z Se obtiene con las siguientes operaciones de los valores observados. Z X Y X2(*) XY Y2 9 12 15 22 25 34 38 70 77 80 0.111 0.083 0.067 0.045 0.040 0.029 0.026 0.014 0.013 0.013 325 264 200 151 122 93 70 48 43 40 0.012 0.007 0.004 0.0021 0.0016 0.0009 0.0007 0.0002 0.0002 0.0002 36.111 22.000 13.333 6.864 4.880 2.735 1.842 0.686 0.558 0.500 105625 69696 40000 22801 14884 8649 4900 2304 1849 1600 0.4421 1356 0.0295 89.5096 272308 0.04421 135.6 0.0195 59.9441 183873.6 0.009945 29.5655 88434.4 FIGURA 4.
  • 52. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán (*) Los cálculos fueron hechos en una calculadora y no aparecen indicadas todas las cifras significativas tomadas en cuenta. b = ∑ 𝑥𝑦 / ∑ 𝑥2 = 29.5655 / 0.009945 = 2972.9 Y = 2972.9 X Y la ecuación original es: 𝑌� Z = 2972.9 O equivalente: 𝑌� = 2972.9 / Z c) 𝑌� = 2972.9 / Z = 2972.9 / 90 = 33.03 Obsérvese que las ppm de oxígeno con 90 puntos de carbono son inferiores a las observadas con 80 puntos de carbono. d) sY∙X = � 88434.4−(2972.9)(29.5655) 10−2 = 8.21 obsérvese que el error estándar de la regresión lineal transformada es inferior al error estándar de la regresión parabólica. e) H0 : β = 0 ; H1 : β ≠ 0 b = 2972.9 sb = sY∙X / �∑ 𝑥2 = 8.21 / √0.009945 = 82.32 Regla de decisión: si tc está entre ± tt se acepta H0 tc = (2972.9 – 0) / 82.32 = 36.11 con α = 5% y con 8 g. l. se obtiene ± tt = ± 2.306 Como 36.11 no está entre ± 2.306, se rechaza H0 , es decir, que el coeficiente de regresión Y sobre X poblacional no es cero. Obsérvese que se tiene una mayor significancia estadística con la transformación hecha que con la regresión parabólica. f) Con 95% de confianza y 8 g. l. se obtiene t0 = 2.306 b = 2972.9 sb = 82.32 β = 2972.9 ± (2.306) (82.32) = 2972.9 ± 189.9 2783.1< β < 3162.7
  • 53. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán g) Con 95% de confianza y 8 g. l. se obtiene t0 = 2.306 SY ≈ sY∙X = 8.21 Si Z = 60 entonces: Y = 297.9 / 60 = 49.5 Por lo tanto, Y = 49.5 ± (2.306) (8.21) = 49.5 ± 18.9 30.6 < Y < 68.4 EJEMPLO 7 Para los datos del ejemplo 6: a) Calcular el coeficiente de correlación lineal para la ecuación transformada, para la muestra dada, utilizando la fórmula: 𝑟 = �𝛴𝑥2 ∙ 𝛴𝑦2/(𝛴𝑥𝑦)2 b) Calcular el coeficiente de correlación no lineal por el método general, para la muestra dada. c) De una explicación de la diferencia que existe entre los coeficientes de correlación calculados en los incisos (a) y (b). d) ¿Qué porcentaje de la variación es explicada? e) ¿Qué porcentaje de la variación es no explicada? f) ¿Qué conclusiones se pueden obtener al comparar los resultados obtenidos en este ejemplo, respecto a los resultados del ejemplo 5. Solución: a) 𝑟 = �𝛴𝑥2 ∙ 𝛴𝑦2/(𝛴𝑥𝑦)2 = �(0.009945) ∙ (88434.4)/(29.5655)2 = 1.00 b) 𝑛 = 10 𝑌� = 135.6 𝑌� = 2972.9/𝑍
  • 54. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝒀 𝒀� 𝒀� − 𝒀� �𝒀� − 𝒀�� 𝟐 𝒀 − 𝒀� (𝒀 − 𝒀� 𝟐 ) 325 264 200 151 122 93 70 48 43 40 1356 330.3 247.7 198.2 135.1 118.9 87.4 78.2 42.5 38.6 37.2 194.7 112.1 62.6 -0.5 -16.7 -48.2 -57.4 -93.1 -97.0 -98.4 -41.9 37908.1 12566.4 3918.8 0.3 278.9 2323.2 3294.8 8667.6 9409.0 9682.6 88049.6 189.4 128.4 64.4 15.4 -13.6 -42.6 -65.6 -87.6 -92.6 -95.6 0 35872.4 16486.6 4147.4 237.2 185.0 1814.8 4303.4 7673.8 8574.8 9139.4 88434.4 Obsérvese que ∑ �𝑌� − 𝑌�� 2 es diferente de cero y esto es debido a que la transformación hecha supone que la recta pasa por el origen, pero se utilizaron fórmulas para una relación del tipo: Y = a + bX y de hecho se obtiene que a = 4.19 y al ser incrementada cada una de las 10 estimaciones Y por este valor, se obtendría que ∑ � 𝑌� − 𝑌�� = 0. Variación total = 88434.4 Variación explicada = 88049.6 𝑟 = � 88049.6 88434.4 = 0.9978 c) La principal razón es que la fórmula: 𝑟 = � ∑ 𝑥2 • ∑ 𝑦2 ∑ 𝑥𝑦2 solo sirve para calcular la correlación lineal entre dos variables que tienen una ecuación de regresión del tipo: Y = a + bX y por lo explicado en el inciso anterior, queda claro que la forma correcta de hacer el cálculo es por el método general. d) r2 = 0.9956
  • 55. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán el 99.56% de la variación en el contenido de oxígeno (ppm) es explicada por los puntos de carbono del acero. e) 1- r2 = 1- 0.9956 = 0.0044 el 0.44% de la variación en el contenido de oxígeno (ppm) no es explicada, es decir, esta variación restante puede deberse a otros factores (supuestamente controlados) como temperatura, tipo de horno, medio ambiente, etc., los cuales pueden haber alterado el equilibrio químico carbono-oxígeno. f) La estadística es de gran utilidad para la modelación matemática de procesos reales, pero debe ser aplicada con buen criterio, tanto estadístico como del área tecnológica del problema, para evitar que el modelo ajustado pueda no proporcionar la adecuada información e incluso pueda proporcionar información errónea. EJEMPLO 8 Los datos de la tabla representan el número de bacterias (en cientos) que sobreviven por irradiación por rayos X (200 kilovoltios) durante 1 a 15 períodos de 6 minutos cada uno en un experimento. El propósito del experimento fue probar la hipótesis de choque único de la acción de rayos-X. Según esta teoría, existe un único centro vital en cada bacteria al cual le tiene que pegar un rayo antes de que se muera la bacteria. De hecho, esto indica que en cualquier momento el número de bacterias que se mueren es proporcional al número de bacterias vivas. Entonces un poco de ecuaciones diferenciales dan la siguiente relación funcional. 𝑛 𝑡 = 𝑛 𝑜 𝑒 𝛽𝑡 , 𝑡 ≥ 0 Donde: 𝑛 𝑡 = el número de sobrevivientes después del tiempo t de irradiación. 𝑛 𝑜 = el número de bacterias al principio del experimento. β = la razón de destrucción. Si se toman logaritmos (naturales) de ambos lados de esta ecuación se obtiene: ln 𝑛 𝑡 = ln 𝑛0 + 𝛽𝑡 = 𝛼 + βt Donde: α = ln no y se tiene ln nt expresado como función lineal de t.
  • 56. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Número de bacterias sobrevivientes (Unidades de 100) FIGURA 5 a) Estimar los parámetros α y β. b) En las escalas transformadas, haga el diagrama de dispersión y trace la recta de mínimos cuadrados que se encontró en el inciso a. c) ¿Cuál es la ecuación original? d) Estimar el número de bacterias nt, que sobreviven una irradiación de 45 minutos (7.5 períodos). e) Calcular el error estándar de ajuste. f) Calcular un intervalo de confianza para la razón de destrucción β (nivel de confianza 95%). g) Para el inciso d) calcular los límites de confianza (90%) para esta estimación. Tiempo (No. De Períodos) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 nt = No. De bacterias 355 211 197 166 142 106 104 60 56 38 36 32 21 19 15
  • 57. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Solución: Se llena la tabla siguiente: 𝒕 𝒏 𝒕 𝐥𝐧 𝒏 𝒕 𝒕 𝟐 𝒕 ∙ 𝐥𝐧 𝒏 𝒕 (𝐥𝐧 𝒏 𝒕) 𝟐 1 355 5.872 1 5.872 34.482 2 211 5.353 4 10.704 28.642 3 197 5.283 9 15.850 27.912 4 166 5.112 16 20.448 26.132 5 142 4.956 25 24.779 24.560 6 106 4.663 36 27.981 21.748 7 104 4.644 49 32.511 21.570 8 60 4.094 64 32.755 16.764 9 56 4.025 81 36.228 16.204 10 38 3.638 100 36.376 13.232 11 36 3.584 121 39.419 12.842 12 32 3.466 144 41.589 12.011 13 21 3.045 169 39.579 9.269 14 19 2.944 196 41.222 8.670 15 15 2.708 225 40.621 7.334 120 x 64.406 1,240 446.073 281.552 8.00 x 4.227 960 507.248 268.021 280 -61.175 13.531 a) b = -61.175/280 = -0.218 a = 4.117 – (-0.218)(8.00) = 5.975 ln nt = 5.975 – 0.218 t FIGURA 6
  • 58. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán b) Ver figura 6 c) La ecuación en las escalas originales depende de: 𝑛� 𝑜= antilog natural (5.975) = 𝑒5.975 = 393.438 bacterias. Por lo tanto: 𝑛� 𝑡 = 𝑛� 𝑜 • 𝑒 𝑏𝑡 = 393.438𝑒− 0.218𝑡 Es la ecuación que se buscaba. d) t = 7.5 períodos 𝑛�7.5 = 393.438𝑒− 0.218 (7.5) = 76.702 bacterias sobrevivientes es la cantidad estimada para un tiempo de irradiación de 45 minutos. e) 𝑠𝑙𝑛 𝑛 𝑡 𝑡 = � 13.531 − (−0.218)(−61.175) 15 − 2 = � 0.195 13 = 0.122 Por lo tanto el error estándar de ajuste de nt a t es: snt.t = antilog (0.122) = 1.13024 lo cual se puede considerar como el error porcentual de estimación. f)sb= 0.122 √280 = 0.0073 tt = 2.160 con g.l. = 13 y 95% de confianza. Entonces β = - 0.218 ± 2.16 (0.0073) = -0.218 ± 0.016 Es decir β la razón de destrucción de las bacterias está entre -0.234 y -0.202 con 95% de confianza. g) Con 90% y 13 g.l., tt= 1.771 y se hace el intervalo primero en las escalas transformadas. ln n7.5 = 5.975 – 0.218 (7.5) ± (1.771) (0.122) = 4.34 ± 0.216 Entonces 4.124 < ln n7.5 < 4.556
  • 59. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán y 61.68 < n7.5 < 95.2 bacterias con 90% de confianza. Nota: El excelente ajuste del modelo con los datos transformados según la teoría de choque único corrobora la validez de esta teoría. EJEMPLO 9 Para los datos del ejemplo 8: a) Calcular el coeficiente de correlación entre las variables ln nt y t, utilizando la fórmula simplificada. b) ¿Qué porcentaje de la variación en los logaritmos de las cuentas es explicada y cuánto queda por explicar? SOLUCION: a) 𝑟ln 𝑛𝑡, 𝑡= − 61.175 �(13.531)(280) = −0.994 b) 𝑟ln 𝑛𝑡,= (−0.994)2=0.988 2 es decir 98.8% de la variación es explicada y queda únicamente 1.2% por explicar que bien puede ser debido a “error experimental” en las cuentas de las bacterias, la preparación del material, etc. Así que se tiene un modelo excelente para describir el número de bacterias sobrevivientes y puesto que el modelo fue deducido bajo la hipótesis de choque único se tiene una confirmación de esta teoría en base al experimento. EJEMPLO 10 En una estación experimental se realizó el siguiente experimento para averiguar la respuesta al nitrógeno de una variedad de de arroz que se cultivaba en la región . En 10 parcelas muy parecidas se sembraron la variedad de interés previamente habiendo aplicado el fertilizante de tal manera que en dos parcelas escogidas al azar la cantidad de nitrógeno fue de 80 kg/Ha, en otras dos a razón de 160 kg/Ha y así sucesivamente hasta 400 kg/Ha. Se obtuvieron los siguientes rendimientos en Ton/Ha:
  • 60. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán X= Cantidad de nitrógeno (en unidades de 100 kg/Ha) Y= Rendimientos 0.8 1.6 2.4 3.2 4.0 5.24 5.80 7.05 7.63 7.46 5.42 5.39 7.57 8.19 6.69 En base a estos resultados: a) Dibujar el diagrama de dispersión. b) Comentar sobre la forma del diagrama, utilizando su conocimiento a priori de la Ley de Mitsherlich. c) Calcular la ecuación de la parábola que se ajusta a los puntos a la muestra y dibujarla en el diagrama. d) Estimar el rendimiento que tendré una parcela fertilizada a razón de 260 kg/Ha (2.6 unidades). e) Calcular el error estándar de regresión parabólica de Y sobre X. f) Estimar el coeficiente lineal β y el coeficiente cuadrático Y con intervalos de confianza de 90%. g) Construir un intervalo de confianza de 95% para la estimación hecha en el inciso d). Solución: a) Ver la figura 7 b) Se observa en el diagrama de dispersión que la respuesta al nitrógeno parece ser lineal en un rango desde 80 hasta 240 ó posiblemente 320 kg/Ha nivel en el cual ya hay un cambio y se observa que el rendimiento promedio en 400 kg/Ha es menor que él de 320. Esto está de acuerdo con la ley de Mitscherlich que postula solo un pequeño o nula respuesta adicional al fertilizante cuando se acerca al óptimo fisiológico de la planta. Por lo tanto ajustar una recta no es tan adecuado como una parábola (polinomio de 2º. grado) que puede modelar más adecuadamente este comportamiento cerca del máximo. c) La ecuación Y = a + bX + cX2 se obtiene en base a las siguientes operaciones con los valores observados:
  • 61. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝑿 𝒀 𝑿 𝟐 𝑿 𝟑 𝑿 𝟒 𝑿𝒀 𝑿 𝟐 𝒀 𝒀 𝟐 0.8 5.24 0.64 0.512 0.4096 4.192 3.3536 27.4576 0.8 5.42 0.64 0.512 0.4096 4.336 3.4688 29.3764 1.6 5.80 2.56 4.096 6.5536 9.280 14.8480 33.6400 1.6 5.39 2.56 4.096 6.5536 8.624 13.7984 29.0521 2.4 7.05 5.76 13.824 33.1776 16.920 40.6080 49.7025 2.4 7.57 5.76 13.824 33.1776 18.168 43.6032 57.3049 3.2 7.63 10.24 32.768 104.8576 24.416 78.1312 58.2169 3.2 8.19 10.24 32.768 104.8576 26.208 83.8656 67.0761 4.0 7.46 16 64.000 256.0000 29.840 119.36 55.6516 4.0 6.69 16 64.000 256.0000 26.760 107.04 44.7561 24 66.44 70.4 230.400 801.9968 168.744 508.0768 452.2342 2.4 6.644 57.6 168.960 495.616 159.456 467.7376 441.4274 12.8 61.44 306.3808 9.288 40.3392 10.8068 FIGURA 7 y se calcula: D = (12.8) (306.3808) – (61.44)2 = 146.80
  • 62. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝑏 = (9.288)(306.3808) − (40.3392)(61.44) 146.80 = 367.2244 146.80 = 2.5015 𝑐 = (40.3392)(12.80) − (9.288)(61.44) 146.8 = −54.3130 146.80 = −0.3700 𝑎 = 6.644 − (2.5015)(2.4) − (−0.37)(70.4) 10 = 3.24 𝑌 = 3.24 + 2.5015𝑋 − 0.37𝑋2 Es la ecuación de la parábola de regresión de rendimiento (Y) sobre nivel de nitrógeno (X). En la figura 7 está trazada también la parábola con los valores estimados 𝑌�. d) Si X = 2.6 entonces 𝑌 = 3.24 + 2.5015(2.6) − 0.37(2.6)2 = 7.2479 ton/Ha. e) 𝑠 𝑌∙𝑋 = � 10.8068−(2.5015)(0.288)−(−0.37)40.3392 10−3 = � 2.4984 7 = 0.5974 Ton/Ha. f) 𝑠 𝑏 = 0.5974�306.3808/146.80 = 0.8630 y tt = 1.895 con 7 g.l. y nivel 90% 𝛽 = 2.501 ± (1.895)(0.8630) = 2.5015 ± 1.6354 ó 0.8661 < 𝛽 < 4.1369 con 90% de confianza. 𝑠𝑐 = 0.597� 12.8 146.8 = 0.1764 𝛶 = −0.37 ± (1.895)(0.1764) = −0.37 ± 0.3343 ó 0.7043 < 𝛶 <-0.0357 con 90% de confianza. g) 95% de confianza, 7 g.l., tt = 2.365 Si X = 2.6 ya se determinó que Y = 7.2479 entonces Y = 7.2479 ± (2.365) (0.5167) = 7.2479 ± 1.222 ó 6.026 < Y < 8.470 con 95% de confianza.
  • 63. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Es decir el rendimiento de una parcela fertilizada a razón de 260 kg/Ha estará entre 6.026 y 8.470 ton/ha con 95% de confianza. EJEMPLO 11 En una placa se colocaron seis concentraciones de penicilina pura en progresión geométrica de 1 a 32 unidades por mililitro. En la tabla a continuación se proporcionan los diámetros de los círculos de las zonas de inhibición en el crecimiento del bacilo subtilis en milímetros para cada concentración, para más detalle acerca del experimento ver el ejemplo 11 X Y Concentración de penicilina en solución Diámetro del círculo 1 15.87 2 17.78 4 19.52 8 21.35 16 23.13 32 24.77 De estudios anteriores se conoce que tomando logaritmo de base 2 de la concentración, la relación entre concentración y diámetro del círculo de inhibición se linealiza. A partir de los datos de este experimento: a) Efectuar la transformación y calcular la ecuación de la recta de la forma 𝑌� = 𝑎 + 𝑏𝑥∗ (curva tipo) b) Dibujar el diagrama de dispersión con los datos originales y el diagrama de dispersión y la recta encontrada con los datos transformados. c) Calcular el error estándar de regresión lineal de Y sobre X, es decir, la medida de la falta de ajuste de los puntos a la recta. d) Si se mide un diámetro de 20.08 mm ¿Cuál será la concentración de penicilina estimada puntualmente? e) En función de los datos transformados ¿se puede afirmar con el 5% de significación si el coeficiente de regresión es diferente de cero? f) Estimar con 95% de confianza el coeficiente de regresión de la población. g) Estimar mediante un intervalo de confianza del 95% el diámetro de inhibición para una concentración de 5 unidades/ml.
  • 64. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Solución: a) Se tiene que: 𝑌 = 𝑎 + 𝑏 𝑙𝑜𝑔2 𝑋 Entonces: 𝑌� = 𝑎 + 𝑏𝑋∗ Donde: 𝑋∗ = 𝑙𝑜𝑔2 𝑋 Entonces se efectúa la transformación de los datos originales y se tiene: 𝑿 𝑿∗ 𝒀 𝑿∗𝟐 𝑿∗ 𝒀 𝒀 𝟐 1 0 15.87 0 0 25.8569 2 1 17.78 1 17.78 316.1284 4 2 19.52 4 39.04 381.0304 8 3 21.35 9 64.05 455.8225 16 4 23.13 16 92.52 534.9969 32 5 24.77 55 123.85 613.5529 15 122.42 55 337.24 2553.388 2.5 20.40 37.5 306.05 2497.776 17.5 31.19 55.612 𝑏 = 31.19 17.5 = 1.78228 𝑚𝑚, por cada U.I. por ml. 𝑎 = 20.4 − 1.78228(2.5) = 15.944 𝑌� = 15.944 + 1.78228 𝑋∗ b) Ver Figura 8 c) 𝑆 𝑌∙𝑋 = �[55.612 − 1.78228(31.19)]/4 = 0.07531 d) Si Y = 20.08 mm De la ecuación de la recta despejando 𝑋∗ se tiene: 𝑋∗ = 20.08 − 15.944 1.78228
  • 65. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝑋∗ = 2.32 𝑋∗ = 2.32 = 𝑙𝑜𝑔2 𝑋 𝑋∗ = 22.32 = 4.99 𝑈. 𝐼./𝑚𝑙 e) H0: β = 0 H1: β ≠ 0 b = 1.78228 𝑆 𝑏 = 0.07531 √17.5 = 0.018 Regla de decisión: si tc esta entre ± tt aceptar H0. 𝑡 𝑐 = 1.78228 0.018 = 99 Con α = 5% y 4 g.l. se obtiene ± tt = 2.78 Como tc = 99 no se encuentra entre ± tt rechazar H0, esto es que el coeficiente de regresión no es cero y sí hay relación entre concentración y diámetro de inhibición. f) Con 95% de confianza y 4 g.l. tt = 2.78 b = 1.78228 β = 1.78228 ± 2.78 (0.018) 1.73224 ≤ β ≤ 1.83232 mm/ U.I./ml. g) Si X = 5 se tiene: 𝑌� = 15.944 + 1.78228(2.322) = 20.0824 tt con 95% de confianza y 4 g.l. tt = 2.78 𝑆 𝑌� = 𝑆 𝑌∙𝑋 = 0.07531 Y = 20.0824 ± 2.78 (0.07531) 19.87303 ≤ Y ≤ 20.29176 mm.
  • 66. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán FIGURA 8
  • 67. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán EJEMPLO 12 Los datos que aparecen enseguida son los rendimientos mensuales en una fábrica de gas de agua. Se burbujea vapor de agua y aire alternadamente a través de carbón de coque para producir una mezcla gaseosa, cuyos principales componentes son nitrógeno, hidrógeno y monóxido de carbono. La medida del rendimiento es el coque consumido por cada 1000 m3 de (H2 + CO) producido. X Proporción aire/vapor (1000m3 de aire/ton. de vapor) Y Consumo mensual de coque (unidades de coque/1000 m3 de H2 + CO producido) 2.11 2.32 2.22 2.19 1.99 1.62 1.76 1.23 1.42 1.26 120 128 114 141 78 31 51 50 50 40 A partir de estos datos: a) Dibujar un diagrama de dispersión. b) Calcular la ecuación de la parábola que se ajusta a los puntos de la muestra y dibujarla en el diagrama. c) ¿Cuál será el consumo de coque estimado puntualmente si la relación aire/vapor es de 1.45 x 1000m3 de aire/ton. de vapor?. d) Calcular el error estándar de regresión parabólica de Y sobre X para la muestra dada. e) Probar con 5% de significación si al consumo de coque le afecta la relación aire/vapor en forma lineal y no lineal. f) Si en el inciso anterior, los coeficientes de linealidad (β) y curvatura (y) poblacionales resultan significativos, estimarlos mediante intervalos del 95% de confianza. g) Estimar con un intervalo del 95% de confianza el consumo de coque para una relación de 1.45 x 1000m3 de aire/ton. de vapor.
  • 68. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán SOLUCION a) Ver figura 9 FIGURA 9
  • 69. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán b) 𝑿 𝒀 𝑿 𝟐 𝑿 𝟑 𝑿 𝟒 𝑿𝒀 𝑿 𝟐 𝒀 𝒀 𝟐 2.11 2.32 2.22 2.19 1.99 1.62 1.76 1.23 1.42 1.26 120 128 114 141 78 31 51 50 50 40 4.4521 5.3824 4.9284 4.7961 3.9601 2.6244 3.0976 1.5129 2.0164 1.5876 9.3939 12.4871 10.9410 10.5034 7.8805 4.2515 5.4517 1.8608 2.8632 2.0003 19.8211 28.9702 24.2891 23.0025 15.6823 6.8874 9.5951 2.2888 4.0658 2.5204 253.20 296.96 253.08 308.79 155.22 50.22 89.76 61.50 71.00 50.40 534.252 688.9472 561.8376 676.2501 308.8876 81.3564 157.9776 75.645 100.820 63.504 14400 16384 12996 19881 6084 961 2601 2500 2500 1600 18.12 803 34.358 67.6334 137.1227 1590.13 3249.4775 79907 1.812 80.3 32.83344 62.25566 118.0472 1455.036 2758.9474 64480.9 1.52456 5.37834 19.0755 135.094 490.5301 15426.1 D = (1.52456) (19.0755) – (5.37834)2 = 0.1552 b = [(135.094) (19.0755) – (490.5301) ( 5.37834)] / 0.1552 = - 394.6653 c = [(490.5301) ( 1.52456) – (135.094) ( 5.37834)] / 0.1552 = 136.9916 a = 80.3 – (394.6653) (1.812) – ( 136.9916) (34.358) / 10 = 324.7577 𝑌�= 324.7577 – 394.6653X + 136.9916X2 es la ecuación de la parábola de regresión de Y sobre X. c) Si X = 1.45 Entonces: 𝑌�= 324.7577 – 394.6653 (1.45) + 136.9916 (1.45)2 𝑌�= 40.5178 unidades de trabajo d) 𝑠 𝑌•𝑋 = �[15426.1−(−394.6653)(135.094)− (136.9916)( 490.53)] 7 = 14.8541 unidades de trabajo e) H0: β = 0 H1: β ≠ 0 Regla de decisión: si tc está entre ± tt aceptar H0 b = -394.6653
  • 70. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 𝑠 𝑏= 14.8541 � 19.0755 .1552 = 164.679 tc = 394.6653/164.679 = 2.396 con 7 g.l. y α = 0.05, ± tt = 2.37 Como t = 2.396 no se encuentra entre ± tt = 2.37 se rechaza H0, es decir que el coeficiente de linealidad poblacional no es cero, por lo tanto la relación aire/ vapor afecta linealmente al consumo de carbón de coque. H0: y = 0 H1: y≠ 0 Regla de decisión: si tc está entre ± tt aceptar H0 c = 136.9916 sc= 14.8541 � 1.52456 0.1522 = 46.5556 tc = 136.9916 46.5556 = 2.94 con α= 0.05 y 7 g.l. ± tt = 2.37 Como tc= 2.94 no está entre ± tt = 2.37 rechazar H0 , es decir, que el coeficiente de curvatura de 2º grado poblacional no es cero, por lo tanto al consumo de coque le afecta no linealmente la relación aire/vapor. f) Intervalo de confianza para β al 95% tt con 95% y 7 g.l. es igual a 2.37, entonces: b = -394.6653 sb= 164.679 β = -394.6653 ± 2.37 (164.679) -784.9545 < β < -4.37607 unidades de trabajo por cada 1000 m3 de aire por tonelada de vapor. Intervalo de confianza para y al 95% c = 136.9916 sc = 46.5556 tt con 95% de confianza y 7g.l. es igual a 2.37 y = 136.9916 ± 2.37 (46.5556)
  • 71. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán 26.6548 < y < 247.3283 g) Si X= 1.45x (1000 m3 aire/ton. de vapor) Entonces según el inciso c): 𝑌�= 40.5178 tt= 2.37 con 95% de confianza y 7 g.l. 𝑠 𝑌•𝑋 ≅ 𝑠 𝑦�= 14.8541 Y = 40.5178 ± 2.37 (14.854) 5.3135 < Y < 75.7220 unidades de trabajo de consumo de coque. EJEMPLO 13 Con los datos del problema 11: a) Calcular el coeficiente de correlación no lineal. b) ¿Qué % de variación es explicada? c) ¿Qué % de variación no es explicada? SOLUCION a) r = 31.19 �(17.5)(55.612) = 0.99979 b) r2 = (0.99979)2 = 0.9995 es decir, el 99.95% de las variaciones en el diámetro del círculo de inhibición son explicadas por las variaciones en la concentración de la penicilina. c) 1-0.9995 = 0.0005
  • 72. Regresión y Correlación Lineal Múltiple http://www.cuautitlan.unam.mx Universidad Nacional Autónoma de México Facultad de Estudios Superiores Cuautitlán Es decir, el .05% de las variaciones en el diámetro del círculo de inhibición no son explicadas por las variaciones en la concentración de penicilina. Está variación se puede deber a factores exclusivamente operativos del trabajo de laboratorio porque casi es cero.