1. INSTITUTO TECNOLOGICO DE TIJUANA
Ingeniería Industrial
Materia: Estadística Inferencial
Grupo: 3Z
Profesor: Juan Morales
Alumno: Arres Pérez Midian Raquel
No. Control: 17210035
Capitulo #10
Tarea #5
Resolver los ejercicios planteados más adelante
Tijuana B.C a 13 de mayo del 2018
2.
3. Existe una correlación entre dos variables cuando los valores de una de ellas
están relacionados de alguna manera con los valores de la otra.
El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre
los valores cuantitativos pareados x y y en una muestra.
4.
5. Ejercicio #1
Notación Para cada año de varios seleccionados al azar, se registra el número total de puntos
anotados en el juego de futbol del Súper Bowl y el número total de automóviles nuevos vendidos en
Estados Unidos. Para esta muestra de datos pareados, ¿qué representa r? ¿Qué representa 𝜌? Sin
realizar investigación ni cálculos, estime el valor de r.
R= r representa el valor del coeficiente de correlación lineal calculado utilizando datos muestrales
pareados y 𝜌 representa el valor del coeficiente de correlación lineal que se calcularía utilizando todos
los datos pareados en la población.
Valor de r=0 , porque no hay correlación
Ejercicio #3
Causa del calentamiento global Si encontramos que existe una correlación lineal entre la
concentración de dióxido de carbono (CO2) en nuestra atmósfera y la temperatura que prevalece en el
planeta, ¿eso indica que los cambios en la concentración de dióxido de carbono provocan cambios en
la temperatura del planeta? ¿Por qué?
R= No. Debemos entender que la correlación no siempre indica una causalidad hay ocasiones que una
no depende de la otra.
6. Interpretación de r. En los ejercicios 5 a 8, utilice un nivel de significancia de A = 0.05.
Ejercicio #7
7. Estatura y pulso Se miden las estaturas (en pulgadas) y el pulso (en latidos por minuto) en una
muestra de 40 mujeres. Al utilizar STATDISK con los datos pareados de la estatura y el pulso, se
encuentra un coeficiente de correlación lineal de 0.202 (según datos de la National Health
Examination Survey). ¿Existe evidencia suficiente para sustentar la afirmación de que existe una
correlación lineal entre las estaturas y los pulsos de las mujeres? Explique.
R= No. Ya que el valor de |0.202| es menor que el valor crítico de 0.312, por lo tanto no existe
suficiente evidencia para rechazar la H0 ,concluimos que existe una correlación.
.
7. Prueba de una correlación lineal. En los ejercicios 13 a 28, construya un diagrama de dispersión, calcule el valor del
coeficiente de correlación lineal r, calcule los valores críticos de r a partir de la tabla A-6 utilizando a 𝜎 = 0.05, y determine si
existe evidencia suficiente para sustentar la afirmación de que existe una correlación lineal entre las dos variables. (Guarde
su trabajo, ya que utilizaremos los mismos conjuntos de datos en los ejercicios de la sección 10-3).
Ejercicio #21
21. Costos de reparación de automóviles A continuación se presentan los costos de reparación (en
dólares) para automóviles que participaron en pruebas de choques frontales a una velocidad de 6 mi/h y
en pruebas de choques traseros a una velocidad de 6 mi/h (según datos del Insurance Institute for
Highway Safety). Los automóviles son Toyota Camry, Mazda 6, Volvo S40, Saturn Aura, Subaru Legacy,
Hyundai Sonata y Honda Accord. ¿Hay evidencia suficiente para concluir que existe una correlación
lineal entre los costos de reparación de los choques frontales y de los choques traseros?
R= r = -0.283. Valores críticos: r =±0.754. Valor P = 0.539. No existe suficiente
evidencia para sustentar la afirmación de una correlación lineal entre los
costos de reparación por choques frontales y choques traseros
8. Ejercicio #23
3. Calentamiento global La preocupación por el calentamiento global ha conducido a la realización de
estudios de la relación entre la temperatura global y la concentración de dióxido de carbono (CO2). A
continuación se presentan las concentraciones (en partes por millón) de CO2 y las temperaturas (en °C)
para diferentes años (según datos del Earth Policy Institute). ¿Existe una correlación lineal entre la
temperatura y la concentración de CO2?
R= r = 0.892. Valores críticos: r =±0.632. Valor P = 0.001. Existe suficiente evidencia para sustentar la
afirmación de una correlación lineal entre la temperatura global y la concentración de CO2.
9. La ecuación de regresión expresa una relación entre x (llamada variable explicativa, variable de
predicción o variable independiente) y (llamada variable de respuesta o variable dependiente). La
definición anterior indica que en estadística, la ecuación típica de una línea recta y=mx + b se expresa
en la forma 𝑦 = 𝑏0 + 𝑏1 𝑥, donde b0 es la intersección con el eje y, y b1 es la pendiente. La pendiente b1 y
la intersección con el eje y, b0, también se pueden calcular utilizando las siguientes fórmulas.
10. Ejercicio #2
Recta con el mejor ajuste ¿En qué sentido la recta de regresión es la línea recta que se ajusta “mejor” a
los puntos en un diagrama de dispersión?
R= el criterio especifico que se utiliza para determinar que recta se ajusta “mejor” es la propiedad de los
mínimos cuadrados, a esta recta se le llama recta de regresión
Ejercicio #4
Notación ¿Qué diferencia hay entre la ecuación de regresión 𝑦 = 𝐵0 + 𝐵1 𝑥 y la ecuación de regresión
𝑦 = 𝑏0 + 𝑏1 𝑥?
R= La diferencia es hacia que grupo de datos va dirigido uno es para la muestras (b minúscula), que es la
quien y el otro dato ara poblacionales (B mayúscula)
11. Realización de predicciones. En los ejercicios 5 a 8, utilice los datos indicados para calcular el mejor valor predicho de la
variable dependiente. Asegúrese de seguir el procedimiento para predicciones descrito en la figura 10-5
Ejercicio #8
Estaturas y pesos de supermodelos Se obtienen las estaturas (en pulgadas) y los pesos (en libras) de
una muestra aleatoria de nueve supermodelos (Alves, Avermann, Hilton, Dyer, Turlington, Hall, Campbell,
Mazza y Hume). El coeficiente de correlación lineal es 0.360 y la ecuación de la recta de regresión es 𝑦 =
31.8 + 1.23𝑥, donde x representa la estatura. La media de las nueve estaturas es 69.3 pulgadas, y la
media de los nueve pesos es 117 libras. ¿Cuál es el mejor peso predicho de una supermodelo que mide
72 pulgadas de estatura?
R= valor critico es de 0.666 mi r=0.360, ∴ 𝑠𝑖 𝑚𝑖 𝑟 < 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟𝑖𝑡𝑖𝑐𝑜 el valor de correlación lineal es menor que el
valor criticó por lo tanto no hay evidencia suficiente para sustentar una correlación línea la predicción mas acertada
es la media de los pesos Y=117 lbs
𝑦 = 31.8 + 1.23𝑥
𝑦 = 31.8 + 1.23 72
𝑦 = 31.8 + 88.56
𝑦 = 120.36 𝑙𝑏𝑠
12. Ejercicio #12
Efectos de conglomerados Remítase al diagrama de dispersión generado por Minitab del ejercicio 12
de la sección 10-2.
a) Utilice los pares de valores de los 8 puntos y calcule la ecuación de la recta de regresión.
R= 𝑦= 0.085 + 0.9846 x eso indica mi ecuación de la recta
b) Utilice únicamente los pares de valores de los cuatro puntos en la esquina inferior izquierda y calcule
la ecuación de la recta de regresión.
R= 𝑦= 1.50 + 0.000 x
c) Utilice únicamente los pares de valores de los cuatro puntos en la esquina superior derecha y calcule
la ecuación de la recta de regresión.
R= 𝑦= 9.50 + 0.000x
d) Compare los resultados de los incisos a), b) y c).
R= la ecuación del inciso a) puede ser útil para hacer una
predicción a partir de un punto x. Lo que no sucede con los
Incisosb) y c) ya que solo tenemos no tenemos una variable
En la cual podamos sustituir un dato.
13. Determinación de la ecuación de la recta de regresión y predicciones. En los ejercicios 13 a 28, utilice los mismos conjuntos
de datos que en los ejercicios de la sección 10-2. En cada caso, determine la ecuación de regresión, permitiendo que la
primera variable sea la variable de predicción (x). Calcule los valores predichos indicados siguiendo el procedimiento de
predicción descrito en la figura 10-5.
Ejercicio #16
Estaturas de presidentes y finalistas Calcule la mejor estatura predicha de Goldwater, el candidato
que obtuvo el segundo lugar, si la estatura de Johnson, el candidato presidencial ganador, es de 75
pulgadas. ¿La estatura predicha de Goldwater se acerca a su estatura real de 72 pulgadas?
R== 𝑦= 95.4 - 0.321x con un valor critico de 0.707
𝑦= 95.4 - 0.321(72) =72.288
Descriptive Statistics: segundo lugar
Variable Mean Q1 Median Q3
segundo lugar 72.063 69.625 72.500 74.000
Con
herramienta
tecnológica
14. La desviación total de (x, y) es la distancia vertical 𝑦 − 𝑦, que es la distancia entre el punto (x,
y) y la recta horizontal que pasa por la media muestral 𝑦.
La desviación explicada es la distancia vertical 𝑦 − 𝑦, que es la distancia entre el valor
predicho y y la recta horizontal que pasa por la media muestral 𝑦. 𝑦.
La desviación sin explicar es la distancia vertical 𝑦 − 𝑦 ,que es la distancia vertical entre el
punto (x, y) y la recta de regresión. (La distancia 𝑦 − 𝑦 también se conoce como residuo, tal
como se definió en la sección 10-3).
El valor de r2 es la proporción de la variación en y que se explica por la relación lineal entre x y y.
Un intervalo de predicción es una
estimación del intervalo de un valor
predicho de y.
15. Conocimientos estadísticos y pensamiento crítico
Ejercicio #1
Notación se Suponga que tiene valores pareados que consisten en las estaturas (en pulgadas) y los
pesos (en libras) de 40 hombres elegidos al azar (como en el conjunto de datos 1 del apéndice B), y
que planea utilizar una estatura de 70 pulgadas para predecir el peso. Describa con sus propias
palabras lo que representa se.
R= Es el error estándar de estimación, que es una medida de las diferencias entre los pesos
observados y los pesos predichos a partir de la ecuación de regresión.
Interpretación del coeficiente de determinación. En los ejercicios 5 a 8, utilice el valor del coeficiente de correlación lineal r
para calcular el coeficiente de determinación y el porcentaje de la variación total que se explica por medio de la relación
lineal entre las dos variables de los conjuntos de datos del apéndice B.
Ejercicio #5
r= 0.873 (x=alquitrán en cigarrillos mentolados, y=nicotina en cigarrillos mentolados)
R= 0.762; 76.2%
S R-sq R-sq(adj) R-sq(pred)
1.85790 76.22% 75.18% 71.64%
16. Interpretación de resultados de un programa de cómputo. En los ejercicios 9 a 12, remítase a los resultados de Minitab que
se obtuvieron utilizando datos pareados de los pesos (en libras) de 32 automóviles y sus cantidades de consumo de
combustible en carretera (en mi/gal), como se listan en el conjunto de datos 16 del apéndice B. Además de los datos
muestrales pareados, se dio la indicación a Minitab de que usara un peso de un automóvil de 4000 libras para predecir la
cantidad de combustible consumido en carretera.
Ejercicio #9
Prueba de correlación Utilice la información de la pantalla para determinar el valor del coeficiente de
correlación lineal. (Advertencia: Tenga cuidado de identificar de manera correcta el signo del coeficiente
de correlación). Considerando que hay 32 pares de datos, ¿existe evidencia suficiente para sustentar la
afirmación de una correlación lineal entre los pesos de automóviles y las cantidades de combustible que
consumen en carretera?
R=r = -0.806 (r es negativa porque las cantidades de consumo de combustible en carretera disminuyen
conforme el peso del automóvil aumenta, como lo demuestra el hecho de que la pendiente de la recta
de regresión sea negativa). El valor crítico de r está entre 0.361 y 0.335 (suponiendo un nivel de
significancia de 0.05). Valor P = 0.000. Existe suficiente evidencia para sustentar la afirmación de una
correlación lineal entre los pesos de los automóviles y sus cantidades de consumo de combustible en
carretera.
45004000350030002500
37.5
35.0
32.5
30.0
27.5
25.0
Carretera
Scatterplot of Carretera vs Peso
Correlation: Peso, Carretera
Pearson correlation of Peso and Carretera = -0.806
P-Value = 0.000
y = Valor critico 0.361 +
32−30
35−30
0.335 − 0.361 =0.3506
17. Ejercicio #11
Predicción del consumo de combustible en carretera Si un automóvil pesa 4000 libras, ¿cuál es el
valor que predice mejor el consumo de combustible en carretera? (Suponga que existe una correlación
lineal entre el peso y el consumo de combustible en carretera).
R=
Cálculo de medidas de variación. En los ejercicios 13 a 16, calcule a) la variación explicada, b) la variación no explicada, c) la
variación total, d) el coeficiente de determinación y e) el error estándar de la estimación se. En cada caso existe evidencia
suficiente para sustentar una afirmación de una correlación lineal, de manera que es razonable utilizar la ecuación de
regresión para hacer predicciones. (Los resultados se utilizan en los ejercicios 17 a 20).
Ejercicio #13
IPC y pizza A continuación se presentan los valores del Índice de precios al consumidor (IPC) y el
precio de una rebanada de pizza, incluidos en la tabla 10-1 del problema del capítulo.
R=
a) Variación explicada= 2.64829
b) Variación No explicada= 0.0800433
c) variación total= 2.728333
d) r= 0.9706622 R-sq
e) Se =0.1414596
𝑦= 50.5 0.00587 x
𝑦= 50.5 0.00587 (4000)=27.028 mi/gal
18.
19. Conocimientos estadísticos y pensamiento crítico
Ejercicio #2
Coeficiente ajustado de discriminación
a) Al comparar diferentes ecuaciones de regresión múltiple para predecir el precio de venta de un
Corvette 1960, ¿por qué la R2 ajustada es una mejor medida que R2?
R= El coeficiente múltiple de determinación 𝑅2 tiene una grave desventaja: a mayor numero de
variables incluidas, se incrementa la 𝑅2
. A causa de esta desventaja, la comparación de diferentes
ecuaciones de regresión múltiple se logra mejor con el coeficiente ajustado de determinación, que
es 𝑅2
ajustada para el numero de variables y el tamaño de la muestra.
b) Al utilizar los datos muestrales de la tabla 10-6, la variable única de predicción de la estatura de
la madre produce una R2 ajustada de 0.623, y las dos variables de predicción (la estatura de la
madre y la estatura del padre) dan como resultado una R2 ajustada de 0.637. Si el uso de las dos
variables de predicción produce una R2 ajustada mayor, ¿por qué es mejor la ecuación de
regresión con una sola variable de predicción?
R= No necesariamente se deben incluir todas las variables de predicción disponibles. La
determinación de la mejor ecuación de regresión múltiple requiere de una buena dosis de juicio, y
no existe un procedimiento exacto y automático que se pueda utilizar para encontrar la mejor
ecuación de regresión múltiple. En caso, utilizar la estatura de la madre para predecir la estatura
de la hija arrojaría una ecuación de regresión mas confiable.
20. Ejercicio #4
Respuesta y variables de predicción Se obtiene la ecuación de regresión 𝑦 = −3528 + 1.02𝑥1 −
1.94𝑥2 utilizando datos muestrales que consisten en los precios de venta de casas (según el conjunto
de datos 23 del apéndice B). En esa ecuación, representa el precio de venta predicho, x1 representa el
precio de lista y x2 representa el impuesto anual. Identifique las variables de respuesta y las variables
de predicción. En general, ¿en qué difieren una variable de respuesta y una variable de predicción?
R= Variables de respuesta: y (precio de venta predicho) y variables de predicción: x (x1:precio de lista,
x2=impuesto anual).
Esto quiere decir que las variables de predicción son el precio de la lista y los impuestos anuales,
mientras que la variable de respuesta es el precio de venta. Cuando existe una correlación entre
variables, es possible hacer predicciones con variables que se saben o se tienen, que son las variables
de predicción. Mediante una ecuación de regression Podemos obtener el valor de la variable de
respuesta.
21. Interpretación de resultados de programas de cómputo. En los ejercicios 5 a 8, remítase al resultado de Minitab y
responda las preguntas formuladas o identifique los elementos indicados. El resultado de Minitab se basa en las
cantidades medidas de alquitrán, monóxido de carbono (CO) y nicotina en una muestra de 25 cigarrillos de tamaño grande,
incluidas en el conjunto de datos 4 del apéndice B.
Ejercicio #6
Mediciones de cigarrillos Identifique lo siguiente:
a) El valor P correspondiente a la significancia general de
la ecuación de regresión múltiple
R= p=0.317
b) El valor del coeficiente múltiple de determinación R2
R= 𝑅2 = 0.091 o 9.91%
c) El valor ajustado de R2
R= 𝑅2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎 =0.0172 o 1.7%
22. Ejercicio #8
Mediciones de cigarrillos Un cigarrillo tiene 26 mg de alquitrán y 15 mg de CO. Utilice la ecuación
de regresión múltiple para determinar la cantidad predicha de nicotina. ¿Es probable que el resultado
sea un buen valor de predicción? ¿Por qué?
R=
Regression Equation
Nicotina = 1.594 + 0.0231 Alq. - 0.0525 CO
y = 1.59 + 0.0231x1 − 0.0525x2
y = 1.59 + 0.0231 25 − 0.0525(15)
y = 1.38 𝑚𝑔
23. Precios de venta de casas: Cálculo de la mejor ecuación de regresión múltiple.
En los ejercicios 9 a 12, remítase a la siguiente tabla, que se obtuvo utilizando los datos de las casas vendidas (del
conjunto de datos 23 del apéndice B). La variable de respuesta (y) es el precio de venta (en dólares) y las variables de
predicción (x) son PL (precio de lista en dólares), AH (área habitable de la casa, en pies cuadrados) y T (tamaño del terreno
en acres).
Ejercicio #12
Una casa está en venta, con un precio de lista de $400,000; tiene un área habitacional de 3000 pies
cuadrados y está construida sobre un terreno de 2 acres. ¿Cuál es el mejor valor predicho del precio
de venta? ¿Es posible que ese precio de venta predicho constituya una buena estimación? ¿Es
posible que ese precio de venta predicho sea muy exacto?
R= 𝑦 = 1120 + 0.972𝑃𝐿 + 0.281𝐴𝐻 + 465𝑇
𝑦 = 1120 + 0.972 40000 + 0.281 3000 + 465 2
𝑦 =391 693
Es probable ya que su r ajustada tiende casi a 1
24. Obtención del mejor modelo. En los ejercicios 5 a 16, construya un diagrama de dispersión e identifique el modelo
matemático que se ajusta mejor a los datos indicados. Suponga que el modelo se va a emplear únicamente para el alcance
que tienen los datos y considere solo los modelos lineal, cuadrático, logarítmico, exponencial y potencia.
Ejercicio #5
La tabla lista las cantidades de los incrementos semanales de los salarios y (en dólares), especificadas
en un contrato laboral negociado con empleados de la corporación Telektronic.
The regression equation is
Incremento = 8.000 + 2.000 Año
R= Lineal: y = 8 + 2x =8+(2*5)=18
Ejercicio #7
La tabla lista la distancia d (en pies) por encima del suelo para el caso de un objeto que se deja caer en
el vacío desde una altura de 500 pies. El tiempo t (en segundos) es el tiempo que transcurre desde que
se suelta el objeto
The regression equation is
d = 500.0 + 0.000000 t - 16.00 t^2
R= Cuadrático: d = -16t2 + 500
54321
18
17
16
15
14
13
12
11
10
9
S 0
R-Sq 1 00.0%
R-Sq(adj) 1 00.0%
Año
Incremento
Fitted Line Plot
Incremento = 8.000 + 2.000 Año
54321
500
400
300
200
100
S 0
R-Sq 1 00.0%
R-Sq(adj) 1 00.0%
t
d
Fitted Line Plot
d = 500.0 + 0.000000 t
- 1 6.00 t^2
25. Ejercicio #9
Precio del boleto del metro Utilice los datos del año y del precio del boleto del metro, incluidos en la
tabla 10-1 del problema del capítulo. Sea x el año, con 1960 codificado como 1, 1973 codificado como
14, y así sucesivamente. Sea y el precio del boleto del metro. ¿Parece que el mejor modelo es un buen
modelo? ¿Por qué? Utilice el mejor modelo para efectuar una proyección del precio del boleto del metro
para el año 2020.
R= Exponencial: y = 0.158270(1.05935x), donde 1960 se codifica como 1. Con el alto valor de R2 de
0.970, parece que el modelo es bueno. El valor proyectado para 2020 es $5.33.
403020100
2.0
1.5
1.0
0.5
0.0
S 0.886686
R-Sq 42.4%
R-Sq(adj) 0.0%
Codificado
Precio_1
Fitted Line Plot
Precio_1 = 0.9586 - 0.0406 Codificado
+ 0.001 72 Codificado^2 - 0.000003 Codificado^3
26. Ejercicio #11
Muertes de manatíes por barcos La siguiente tabla lista el número de muertes anuales de manatíes en
Florida por impactos con embarcaciones a partir de 1980 (según datos de Florida Fish and Wildlife
Conservation). ¿El mejor modelo es mucho mejor que los demás? Calcule el número proyectado de este
tipo de muertes para 2006. El número real de muertes en 2006 fue de 92. ¿Qué diferencia hay entre el
número real de muertes de manatíes y el número de muertes proyectadas?
16 24 20 15 34 33 33 39 43 50 47 53 38 35 49 42 60 54 67 82 78 81 95 73 69 80
R= Cuadrático: y = 0.00802808x2 + 2.45538x + 15.3223, donde 1980 se codifica como 1. El modelo
cuadrático no es mucho mejor que los modelos lineal, exponencial y de potencia. El número proyectado
de 87 no se aleja mucho del número real de 92.
2520151050
100
90
80
70
60
50
40
30
20
10
S 9.21 063
R-Sq 84.3%
R-Sq(adj) 82.9%
codifica
muertes
Fitted Line Plot
muertes = 1 5.32 + 2.455 codifica
+ 0.00803 codifica^2
27. Ejercicio #13
Experimento de física Un experimento para una clase de física implica dejar caer una pelota de golf y
registrar la distancia (en metros) que cae en diferentes tiempos (en segundos) después de ser soltada.
Los datos se incluyen en la siguiente tabla. Proyecte la distancia para un tiempo de 12 segundos,
considerando que la pelota de golf se dejó caer de un edificio con una altura de 50 m.
R=Cuadrático: y = 4.90x2 - 0.0286x + 0.00476. El modelo produce una distancia de 705 m, pero el
edificio solo mide 50 m de alto, de manera que la distancia no puede exceder los 50 m.
3.02.52.01.51.00.50.0
50
40
30
20
10
0
S 0.0308607
R-Sq 1 00.0%
R-Sq(adj) 1 00.0%
Tiempo
Distancia
Fitted Line Plot
Distancia = 0.00476 - 0.02857 Tiempo
+ 4.895 Tiempo^2