1. 7 - En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento.
Los datos obtenidos se encuentran en la siguiente tabla.
Tiempo (min) Rendimiento (%)
10 64
15 81.7
20 76.2
8 68.5
12 66.6
13 77.9
15 82.2
12 74.2
14 70
20 76
19 83.2
18 85.3
a) ¿En este problema cual variable se considera independiente y cual independiente?
- Se debe considerar el tiempo de extracción como variable independiente (x) y al
rendimiento como la variable dependiente (y), dado que el rendimiento siempre va a
variar conforme el tiempo y no viceversa.
b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué
tipo de relación observa y cuales son algunos hechos especiales?
Existe correlación lineal positiva ya que conforme aumenta el tiempo de extracción también
aumenta el rendimiento, es razonable suponer que la relación entre estas variables la explique un
modelo de regresión lineal simple.
2. c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de
hipótesis y verifique residuos)
Para ajustar la mejor recta que pasa más cerca de todos los puntos y para calcular estimadores, se
usa método de mínimos cuadrados, se resumen los cálculos en la hoja de Excel:
X y X2 Y2 Xy Y e E2
estimado
Tiempo Rendimiento
(min) (%)
10 64 100 4096 640 69.93 -5.93 35.1649
15 81.7 225 6674.89 1225.5 75.88 5.82 33.8724
20 76.2 400 5806.44 1524 81.83 -5.63 31.6969
8 68.5 64 4692.25 548 67.55 0.95 0.9025
12 66.6 144 4435.56 799.2 72.31 -5.71 32.6041
13 77.9 169 6068.41 1012.7 73.5 4.4 19.36
15 82.2 225 6756.84 1233 75.88 6.32 39.9424
12 74.2 144 5505.64 890.4 72.31 1.89 3.5721
14 70 196 4900 980 74.69 -4.69 21.9961
20 76 400 5776 1520 81.83 -5.83 33.9889
19 83.2 361 6922.24 1580.8 80.64 2.56 6.5536
18 85.3 324 7276.09 1535.4 79.45 5.85 34.2225
Suma 176 905.8 2752 68910.36 13489 293.8764
Para ajustar la recta, se calcula:
( ) )
(∑ )(∑ )
∑ [ ] = 13489 – [(176) (905.8) /12] = 203.93
(∑ )
∑ [ ] = 2752 – [(176)2/12] = 170.66
(∑ )
∑ [ ] = 68910.36 – [(905.8)2/12] = 537.55
Para encontrar los estimadores:
̂ = 203.93 / 170.66 = 1.19492187
̂ ̅ ̅ = 75.48333333 - 1.19492187 (14.66666667) = 57.9578125
Por lo tanto, la línea recta ajustada está dada por:
3. Con esta ecuación podemos graficar la recta de regresión lineal:
Por lo que se observa, se concluye que los errores están distribuidos aleatoriamente, la
prueba de hipótesis de interés plantea que la pendiente es significativamente diferente
de 0.
Hipótesis a Establecer En ambos casos H0 se rechaza si
Análisis de Regresión | |> t ( / 2 , n -2 )
Para β1
H0 β1 = 0 Hipótesis a Establecer
HA β1≠ 0 Análisis de Varianza
t0 β1 /√ H0 β1 = 0
HA β1≠ 0
Para β0
H0 β0= 0 F0= CMR / CME
HA β0≠ 0
H0 se rechaza si
̅ | |> F( , n -2 )
t0 β0 √CME [ ]
Estadísticos obtenidos, Minitab: Con
5% de significancia para el análisis de
regresión, es obvio que para los dos
estimadores el estadísticos son mayores
(9.22; 2.88) que el del criterio de rechazo
(2.2281)
Para el análisis de Varianza es lo mismo
8.29 > 4.965
Por lo tanto se rechazan las hipótesis
nulas establecidas y se aceptan las
alternativas, las cuales indican que el
modelo es significativo
4. d) ¿La calidad del ajuste es satisfactoria? Argumente
Determinemos si el modelo permite hacer estimaciones con una precisión aceptable:
Coeficiente de determinación
R2 = SCR / Syy = 243.68 / 537.55 = 0.4533
El 45 % de la variación observada en el rendimiento es explicada por el modelo, la calidad de ajuste
no es satisfactorio, veamos su ajuste…
Coeficiente de determinación ajustado
R2 aj = CMtotal - CME / CMtotal =48.8681 – 29.38 / 48.8681 = 0.3987
Para fines de predicción se recomienda un coeficiente de determinación ajustado de 0.7 este es otro
indicador de que nuestro modelo no hace estimaciones con precisión.
Coeficiente de Correlación
r = Sxy / √SxxSyy = 203.93 / √ (170.66) (537.55) = 0.6732
Observemos las gráficas 4 en uno del modelo de regresión:
Se observa que en la gráfica de probabilidad normal la mayor parte de los puntos tienden a ajustarse
a la línea recta pero en la de residuo contra valor ajustado hay cierto patrón, el modelo registra falla.
Se concluye que aunque el modelo es significativo, la intensidad de la relación
lineal entre las variables no es muy fuerte
5. e) Destaque el valor de la pendiente de la recta e interprételo en términos prácticos
El valor de la pendiente de la recta es: 1.1949, en términos prácticos, tan solo es la cantidad que se
incrementa o disminuye la variable Y para cada unidad que se incrementa X.
f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 25 minutos y
obtenga un intervalo de confianza para esta estimación.
El intervalo de confianza está dado por:
( ̅̅̅
) ( ̅̅̅
)
Y 0 - t( / 2 , n -2 ) √ [ ] <= ( )<= Y0 +t( / 2 , n -2 )√ √ [ ]
Con X0 = 25 ; Y0 = 57.95781 + 1.19492 (25) = 87.83
( )
87.83± 2.2281 √ [ ]
87.83± 2.2281 √ 0
87.83± 10.174
Por lo tanto el intervalo de confianza es:
77.65 <= ( )<= 98.004
6. 22.-se realizó un experimento para estudiar el sabor del queso panela en función de la
cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio
reportado por un grupo de 5 panelistas que probaron todos los quesos y los calificaron
con una escala hedónica. Los datos obtenidos se muestran a continuación:
Sal Cuajo sabor
6 0.3 5.67
5.5 0.387 7.44
4.5 0.387 7.33
4 0.3 6.33
4.5 0.213 7.11
5.5 0.213 7.22
5 0.3 6.33
5 0.3 6.66
a) ajuste el modelo
La ecuación de regresión es
Y= 7.30 - 0.183 x1 + 1.26 x2
b) ¿el modelo explica la variación observada en el sabor? Argumente con base en la
significancia del modelo, los residuales y el coeficiente de determinación
Para hablar de un modelo que tiene un ajuste satisfactorio es necesario que ambos coeficientes
tengan valores superiores a 0.7, y en este caso muestro coeficiente de determinación presento un
valor muy bajo del 0.05 (5%) y un coeficiente de determinación ajustado con valor negativo
interpretando esto como un 0%. Esto se debe a que en nuestro modelo hay términos que no
contribuyen de manera significativa por lo tanto debemos depurar el modelo.
Análisis de residuos.- en la gráfica de probabilidad normal los puntos no se ajustan a la recta y
presentan un cierto nivel de simetría en el comportamiento de los mismos por lo tanto podemos
decir que el modelo no es aceptable. En la gráfica de residuos vs predichos si el modelo es adecuado
se espera que en esta grafica los puntos no sigan ningún patrón y que, por lo tanto, estén
distribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre
significa que el modelo se ajusta de cualquier manera a lo largo de los modelos de Y.
En el caso de nuestra grafica se observa que los puntos están distribuidos a lo largo del eje de las X
de forma constante. Y por último en la gráfica de residuos vs observamos que el comportamiento
de los residuos maneja un patrón, lo cual quiere decir que nuestro modelo no es adecuado.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del
ajuste.
Y = 5.4 + 4.77 x1 - 70.4 x2 + 0.00 x1x2 - 0.495 x12 + 119 x22
Podemos prescindir del cuarto término de la ecuación, ya que su coeficiente es cero,
quedando la ecuación de la siguiente manera:
Y = 5.4 + 4.77 x1 - 70.4 x2 - 0.495 x12 + 119 x22
Se analiza la calidad del ajuste en la siguiente cuestión.
7. d) Compare el error estándar de estimación (√ ) y los coeficientes de determinación
( ) para ambos modelos
En nuestro primer modelo al calcular los coeficientes de determinación y el ajustado del mismo,
nos pudimos dar cuenta de que el modelo no era adecuado para explicar la relación de variables
debido a que el valor era demasiado bajo y por lo tanto no era un modelo confiable.
Al obtener nuestra ecuación con términos cuadráticos, nos dimos cuenta que este modelo si es
significativo debido a los valores que nos arrojó el coeficiente de determinación y su ajustado, al
ver una amplia mejoría en los resultados.
Primer modelo Segundo modelo
R2=0.054 = 5% R2=0.923 = 93.2%
R2aj= -0.32 = 0% R2aj= 0.761 = 76.1%
Error estándar de estimación
Primer modelo Segundo modelo
√ = 0.7127 √ = 0.3029
Es claro que la diferencia entre un modelo y otro es evidente.
e) ¿Cuál modelo prefiere para explicar el sabor?
El segundo modelo con términos cuadráticos.