1.6.1.1. regresión lineal

1
Estrategia didáctica 1.6.1.1. Estudio de poblaciones con datos bivariados. Regresión
lineal
Comentario: En ocasiones se puede tratar de establecer alguna correlación entre dos
variables que se obtuvieron de una encuesta o de las que se cree que hay alguna posible
relación. El procedimiento se llama regresión lineal que sirve para decidir si entre las
variables hay alguna variación de este tipo. En este caso se hará un estudio de datos
bivariados porque ahora se tomarán en cuenta 2 variables de manera simultánea y no
como en las prácticas anteriores donde sólo se hacía el estudio de una sola variable.
1. Los datos que se obtienen de una encuesta pueden tener cierta correlación entre
ellos, esto quiere decir que si uno de ellos varía, posiblemente el otro también lo
haga. Por ejemplo, si el tiempo de estudio de un alumno es grande, entonces se
puede esperar que tenga cada vez mejores calificaciones. En este caso, podemos
suponer que a mayor tiempo de estudio mejor calificación. Otro caso es referente al
tiempo de traslado de un alumno a la escuela. Podemos suponer que mientras más
tiempo emplee para llegar a la escuela, deberá llevar más dinero. Un tercer ejemplo
consiste en creer que a mayor ejercicio que haga una persona, tenderá a reducir de
peso, es decir a mayor cantidad de ejercicio, menor peso.
En el primer ejemplo, hay correlación entre las variables tiempo de estudio y
calificación; en el segundo caso hay una correlación entre tiempo de traslado y
cantidad de dinero, en el tercer caso hay correlación entre las variables peso y
cantidad de ejercicio. En los dos primeros casos, cuando una variable aumenta, la
segunda también aumenta (correlación positiva); en el tercer caso cuando una
variable aumenta, la otra disminuye (correlación negativa).
Hay también correlaciones nulas que ocurren en la mayoría de los casos. El primer
ejemplo consiste en ver si el precio del dólar está correlacionado con el número de
habitantes de México. Otro ejemplo consiste en ver si la estatura de una persona
tiene que ver con el número de hermanos que tiene. En el primer caso el precio del
dólar difícilmente tiene que ver con el número de habitantes en el país. En el
segundo caso, un aumento o disminución del número de hermanos de una persona
no tiene nada que ver con su estatura.
2. En el libro “La falsa medida del hombre” escrito por Stephen Jay Gould, hay una
explicación breve pero interesante acerca de la correlación entre dos variables: “La
correlación evalúa la tendencia de una medida a variar de acuerdo con otra. Por
ejemplo: cuando un niño crece, tanto sus brazos como sus piernas se alargan; esa
tendencia a cambiar en la misma dirección se denomina correlación positiva. No
todas las partes del cuerpo exhiben tales correlaciones positivas en el curso del
crecimiento. Por ejemplo, los dientes salen y luego ya no crecen. La relación entre
la longitud del primer incisivo y la longitud de las piernas desde, digamos, los diez
años hasta la edad adulta representa una correlación nula: las piernas se alargan
mientras que los dientes no cambian en absoluto. Otras correlaciones pueden ser
negativas: una medida se incrementa y otra se reduce. Empezamos a perder

2
neuronas a una edad desesperadamente precoz y nunca son reemplazadas.
Adviértase que no he hablado de causalidad. No sabemos porqué existen esas
correlaciones o porqué no existen: sólo sabemos que se dan o que no se dan.
La medida normal de la correlación se denomina coeficiente de correlación de
Pearson y su símbolo es r. El coeficiente de correlación va de +1 para una
correlación perfecta positiva, a 0 para una correlación nula, y –1 para una
correlación perfecta negativa. Sin embargo, para que nadie se imagine que la
correlación representa un método mágico para detectar inequívocamente la causa,
consideremos la relación entre mi edad y el precio de la gasolina en los últimos 10
años. Se trata de una correlación casi perfecta, pero nadie pensará que existe una
causa común. La existencia de la correlación no permite extraer conclusión alguna
sobre la causa. Sin duda, la inmensa mayoría de las correlaciones que se dan en este
mundo no son causales. Todo aquello que durante los últimos años ha ido
decreciendo en forma regular presentará una correlación muy pronunciada con la
distancia entre la Tierra y el cometa Halley (que también ha ido decreciendo
últimamente), pero ni siquiera el más empeñoso de los astrólogos logrará descubrir
un nexo causal en la mayoría de esas relaciones. Este es uno de los errores más
frecuentes y graves del razonamiento humano.” Veamos ahora como se realiza el
estudio de problemas
I. ANALISIS DE REGRESION SIMPLE. (ANS)
 El objetivo del ANS es determinar si existe alguna posible relación lineal entre
dos variables, X y Y, llamada variable regresora a la primera y variable de
respuesta a la segunda.
 Definimos la población de la cual se hará el estudio, como al conjunto de todas
las parejas posibles (x,y) de valores de las variables. El análisis se hará solo con
una muestra de esta población en la que a partir de un grupo de valores de la
variable regresora se obtendrán un conjunto correspondiente de valores de la
variable de respuesta. Así si queremos averiguar cuál es la posible correlación
entre calificación obtenida y tiempo de estudio, podemos decir que la variable
regresora es la X: tiempo de estudio y la variable de respuesta es Y: calificación
obtenida.
 La media de las Y se denota μ. Por ejemplo, si X es el tiempo de estudio para un
examen de un grupo de alumnos y Y es la calificación obtenida, entonces μ es la
media deY.
 Cada valor de Y, es decir, de la calificación obtenida, se aleja de la media de
calificaciones una cantidad Y- μ. Esta cifra la llamaremos error ε, es decir ε =
Y- μ, o bien
Y = μ + ε (1)
Por ejemplo, hagamos un ejemplo con datos reales.

3
Una empresa tiene que purificar oxígeno para llenar los tanques de oxígeno que se
usan en los hospitales. El proceso de purificación se hace quemando
hidrocarburos en un condensador y es importante saber qué porcentaje de
hidrocarburos se usen para que el oxígeno esté más puro. El proceso se hizo con
distintos porcentajes de hidrocarburos y se midió la pureza del oxígeno en cada
caso, obteniéndose la siguiente tabla, donde la primer columna es el porcentaje de
pureza y la segunda columna es el porcentaje de hidrocarburos.
La variable de respuesta Y, es la pureza del oxígeno y la variable regresora es el
porcentaje de hidrocarburos X. Podemos formar una pareja de valores que podemos
graficar en un plano. Por ejemplo, tendremos los puntos (1.02, 86.91), (1.11, 89.85),
etcétera. Para ver si existe algún tipo de correlación, dibujamos los puntos en un
plano para obtener un diagrama de puntos llamado diagrama de dispersión. En este
diagrama dibujamos de manera intuitiva una recta que nos indica si los puntos
tienen alguna correlación lineal, es decir si entre ellos hay algún tipo de linealidad
entre todos juntos. La recta se ha dibujado para ver si vale la pena hacer un estudio
mas amplio de la posible correlación entre este par de variables.
86.91 1.02
89.85 1.11
90.28 1.43
96.34 1.11
92.58 1.01
87.33 0.95
86.29 1.11
91.86 0.87
95.61 1.43
89.86 1.02
96.73 1.46
99.42 1.55
98.66 1.55
96.07 1.55
93.65 1.4
87.31 1.15
95 1.01
96.85 0.99
85.2 0.95
90.56 0.98

4
 El diagrama de dispersión, puede sugerir que la media μ cae en una recta. De
ello podemos plantear que la relación entre Y y X es lineal, es decir, usando la
ecuación de una recta:
μ = A + BX (2)
 De (1) y (2) se tiene Y = A +BX + ε. Esta ecuación se llama modelo de
regresión lineal. (2) es la recta de regresión y A y B son los coeficientes de
regresión de la población. Cuando calculemos los valores de A y B, entonces
habremos encontrado una ecuación lineal que parece ser la ley que siguen el par
de variables X y Y. Con esta ecuación podemos evaluar un valor del porcentaje
de hidrocarburos para calcular cuál es el valor del porcentaje de pureza que
obtendremos del oxígeno al realizar el experimento con dicho porcentaje de
hidrocarburos.
 El problema consiste en estimar el valor de μ a partir de los coeficientes de
regresión, es decir, se deben hallar los valores de A y B para sustituirlos en (2) y
obtener el modelo lineal entre esas dos variables.
 Se sabe que las ecuaciones que nos permiten calcular los valores de A y B son
las siguientes:
  
 
n
X
X
n
XY
XY
B
XBYA
2
2 







Estas ecuaciones sirven para calcular los valores de A y B que al ser sustituidos en
la ecuación (2), nos permitirá encontrar la posible correlación lineal que existe entre
estas dos variables. La manera de calcularlas es mediante el cálculo de cada una de
85.0
88.8
92.5
96.3
100.0
0.8 1.0 1.2 1.4 1.6
pureza vs hidrocarb
hidrocarb
pureza

5
las sumas de las variables. ,,,,,, 2
nyXXYXYXY  son respectivamente
la media de las Y, la media de las X, la suma de todos los productos de las XY, la
suma de las Y, la suma de las X y la suma de los cuadrados de las X. Por ejemplo, si
hacemos este problema en excel se tendrá la siguiente tabla:
Y X XY X^2
86.91 1.02 88.6482 1.0404
89.85 1.11 99.7335 1.2321
90.28 1.43 129.1004 2.0449
96.34 1.11 106.9374 1.2321
92.58 1.01 93.5058 1.0201
87.33 0.95 82.9635 0.9025
86.29 1.11 95.7819 1.2321
91.86 0.87 79.9182 0.7569
95.61 1.43 136.7223 2.0449
89.86 1.02 91.6572 1.0404
96.73 1.46 141.2258 2.1316
99.42 1.55 154.101 2.4025
98.66 1.55 152.923 2.4025
96.07 1.55 148.9085 2.4025
93.65 1.4 131.11 1.96
87.31 1.15 100.4065 1.3225
95 1.01 95.95 1.0201
96.85 0.99 95.8815 0.9801
85.2 0.95 80.94 0.9025
90.56 0.98 88.7488 0.9604
Suma de Y Suma de X Suma de XY Suma de X^2
1846.36 23.65 2195.1635 29.0311
Luego calculando los valores de A y B con las fórmulas:
Media de Y Media de X Numerador Denominador
92.318 1.1825 2183.3207 11.8428 1.064975
Calculo de B
11.120261
Calculo de A
79.1682913

6
Estos mismos valores se pueden hallar con NCSS, como se ve a continuación. En
run summary section se encuentra intercept, que es el valor de A, slope (pendiente)
es el valor de B, (compáralos con los cálculos de excel), en descriptive statistics
section encontrarás la media de las X (1.1825) y la media de las Y (92.318), que
también se calcularon con excel. En regression estimation section, encontrarás de
nuevo los valores de A y B, pero al final encontrarás el modelo donde se han
sustituido los valores de A y B en la ecuación (2) para obtener el modelo lineal:
Run Summary Section
Parameter Value Parameter Value
Intercept 79.1683 Rows Prediction Only 0
Slope 11.1203 Sum of Frequencies 20
R-Squared 0.3592 Sum of Weights 20.0000
Correlation 0.5994 Coefficient of Variation 0.0391
Mean Square Error 13.04957 Square Root of MSE 3.612419
Descriptive Statistics Section
Parameter Dependent Independent
Variable pureza hidrocarb
Count 20 20
Mean 92.3180 1.1825
Standard Deviation 4.3925 0.2368
Minimum 85.2000 0.8700
Maximum 99.4200 1.5500
Regression Estimation Section
Intercept Slope
Parameter B(0) B(1)
Regression Coefficients 79.1683 11.1203
Lower 95% Confidence Limit 70.3079 3.7660
Upper 95% Confidence Limit 88.0287 18.4745
Standard Error 4.2174 3.5005
Standardized Coefficient 0.0000 0.5994
T Value 18.7718 3.1768
Prob Level 0.0000 0.0052
Reject H0 (Alpha = 0.0500) Yes Yes
Power (Alpha = 0.0500) 1.0000 0.8516
Regression of Y on X 79.1683 11.1203
Inverse Regression from X on Y 55.7144 30.9544
Orthogonal Regression of Y and X 55.7824 30.8969
Estimated Model
Pureza = ( 79.1682913213926) + ( 11.1202610389912) * (hidrocarb)
Con el modelo podemos hacer predicciones acerca del valor de la pureza cuando
sustituimos el valor que querramos en el lugar de hidrocarburo.

7
Pero ¿qué tan bueno es el modelo? Podemos ver del diagrama de dispersión que los
puntos no estaban exactamente en una recta, sino que estaban dispersos. Es por eso
que se debe calcular un valor que nos diga qué tan bueno es nuestro modelo lineal
para hacer predicciones. Como decía Gould, debemos calcular el coeficiente de
correlación de Pearson para saber si el modelo sirve para hacer predicciones. Esto lo
podemos ver en NCSS en run summary section aparece Correlation cuyo valor es de
0.5994. Como el valor no se aproxima a 1 o –1, entonces el modelo no es muy
bueno para hacer predicciones porque apenas vale 0.59, que no es un valor muy
cercano a los valores mencionados.
3. a) Una compañía de seguros desea determinar el grado de relación que existe entre
el ingreso familiar x y el monto del seguro de vida Y del jefe de familia. Con base
en una muestra aleatoria de 18 familias, se obtuvo la siguiente información (miles
de dólares):
Ingres
o
4
5
2
0
4
0
4
0
4
7
3
0
2
5
2
0
1
5
3
5
4
0
55 50 60 1
5
3
0
3
5
4
5
Segur
o
7
0
5
0
6
0
5
0
9
0
5
5
5
5
3
5
4
0
6
5
7
5
10
5
11
0
12
0
3
0
4
0
6
5
8
0
Dibuja el diagrama de dispersión. Calcula la recta de regresión y obtener un
intervalo de confianza del 95% para el valor real de la pendiente y de la ordenada al
origen. ¿Cuál es la respuesta media del seguro de vida para un jefe de familia cuyos
ingresos son de 85?
Si usamos el NCSS (Has el ejercicio en Excel para comparar resultados) se tendrá:
Linear Regression Plot Section
Intercept Slope
Parameter B(0) B(1)
20.0
50.0
80.0
110.0
140.0
10.0 25.0 40.0 55.0 70.0
seguro_ vs ingreso
i n g r e s o
s e g u r o _

8
Lower 95% Confidence Limit -13.8797 1.3490
Standard Error 7.7267 0.2021
Standardized Coefficient 0.0000 0.9103
T Value 0.3236 8.7945
Prob Level 0.7504 0.0000
Reject H0 (Alpha = 0.0500) No Yes
Power (Alpha = 0.0500) 0.0607 1.0000
Estimated Model
( 2.50022746710823) + ( 1.77742798391353) * (ingreso)
b) Veamos otro ejemplo:
En una planta industrial se produce vapor para controlar la temperatura ambiente, los
datos que se midieron fueron los siguientes. La primer fila es la temperatura (Y) y la
segunda fila es el uso de vapor:
21 24 32 47 50 59 68 74 62 50 41 30
185.79 214.47 288.03 424.84 454.68 539.03 621.55 675.06 562.03 452.93 369.95 273.98
El diagrama de dispersión y la salida de NCSS son las siguientes. Explica los resultados:
Linear Regression Plot Section
Intercept Slope
Parameter B(0) B(1)
Lower 95% Confidence Limit 0.2951 0.1077
Estimated Model
( .693817156474225) + ( .108581050289453) * (uso)
Linear Regression Report
20.0
35.0
50.0
65.0
80.0
100.0 250.0 400.0 550.0 700.0
temp vs uso
uso
temp

9
Page/Date/Time 2 15/06/2005 12:45:21 a.m.
Database
Y = seguro_ X = ingreso
Correlation and R-Squared Section
Spearman
Pearson Rank
Correlation Correlation
Parameter Coefficient R-Squared Coefficient
Estimated Value 0.9103 0.8286 0.9195
Lower 95% Conf. Limit (r dist'n) 0.7618
Upper 95% Conf. Limit (r dist'n) 0.9638
Lower 95% Conf. Limit (Fisher's z) 0.7711 0.7931
Upper 95% Conf. Limit (Fisher's z) 0.9664 0.9700
Adjusted (Rbar) 0.8179
T-Value for H0: Rho = 0 8.7945 8.7945 9.3556
I. Resuelve los siguientes ejercicios:
a) En algunas empresas se utilizan vehículos guiados computarizados para el manejo
de materiales. Por ello, la disposición física de la bodega debe diseñarse
cuidadosamente para evitar congestionamientos. En el Journal of Engineering for
industry (1993), se estudió el diseño óptimo de una bodega computarizada. La
disposición contempla que los vehículos no se bloqueen entre sí cuando viajan
dentro de la bodega, es decir, cuando no hay congestionamiento. Este proceso se
simuló mediante una computadora. En cada simulación, se varió el número de
vehículos y se midió el tiempo de congestionamiento, tiempo total que un vehículo
bloqueó a otro. Los datos se muestran en la tabla siguiente:
# de vehículos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tiempo de congestionamiento 0 0 .02 .01 .01 .01 .03 .03 .02 .04 .04 .04 .03 .04 .05
Encuentra la recta de regresión.
b) En el libro “Crítica del mundo cultural” escrito por Gabriel Zaid, afirma que
“México es un país donde el radicalismo (izquierdista por supuesto), aumenta con
los ingresos”, es decir, donde “los pobres son conservadores y los progresistas no
son pobres.” Y continúa: “ A lo largo del siglo, ha quedado ampliamente
demostrado que las banderas revolucionarias sirven más para trepar y prosperar en
nombre de los pobres que para el beneficio de los pobres. Una y otra vez sucede que
alguien descubre los ideales revolucionarios y que, aunque sabe que hay corrupción,
demagogia, etcétera, cree que su honradez personal va a hacer la diferencia: cuando
hable de revolución, se entenderá que ahora sí es en serio, porque él es él. El
negocio prospera, independientemente que las personas sinceras prosperen o no
prosperen, sin ningún efecto notable para los mexicanos más pobres. Cuando ví en
Análisis Político ,- continúa Zaid- (1979), la tabla de votación porcentual por estado
y por partido, me pareció que había una tendencia a que en los estados más ricos se

10
votara más por el partido comunista. Para confirmar esta impresión, me puse a
buscar indicadores de ingreso por estado y encontré el ingreso anual medio familiar
calculado en el censo de 1970. La relación entre ambas series resultó significativa.
Como puede verse en la tabla, las dos mayores votaciones varían de estado a estado
conforme a los ingresos, aunque en sentido inverso: en los estados pobres se vota
más por el PRI y menos por el PAN. Los coeficientes de correlación resultan
significativos. Bajo el supuesto de que el PRI es revolucionario, de izquierda,
popular, y el PAN reaccionario, de derecha, elitista, es natural que en la escala de
ingresos se muevan en sentido contrario, y sería de esperarse que la votación por el
PCM (partido comunista de México) se pareciera a la del PRI, puesto que el PCM
es todavía más revolucionario. Pero resulta que la votación por el PCM se parece
más a la del PAN: es en los estados ricos y no en los pobres donde obtiene más
votaciones. Véase la tabla siguiente:

11
Nivel de ingreso y votación por estado.
ingreso PRI PAN PCM
DF 32497 46.84 16.95 11.56
BC Sur 30961 49.98 16.58 4.22
Baja California 23667 69.54 15.72 4.15
Nuevo León 23665 66.22 29.58 1.18
Sonora 21731 78.94 14.62 2.13
Tamaulipas 18728 75.68 2.56 2.38
Jalisco 17581 56.37 15.66 3.96
Sinaloa 16945 75.7 7.15 4.56
Colima 16873 78.94 11.22 1.42
Chihuahua 16805 67.02 13.92 5.16
E. México 16767 60.87 12.53 7.77
Coahuila 16485 71.43 18.65 2.39
Quintana Roo 14664 95.31 0.92 0.43
Nayarit 13455 77.35 1.17 12.57
Aguascalientes 13361 72.31 10.34 1.69
Morelos 13195 74.1 9.44 4.12
Campeche 12503 96.06 0.4 1.36
Veracruz 12126 85.43 2.07 1.3
Tabasco 11812 89.06 2.02 0.96
Querétaro 11289 84.70 7.99 1.72
Guanajuato 10741 74.14 12.43 0.95
Durango 10708 83.59 8.41 2.17
San Luis Potosí 9745 83.1 5.31 1.48
Puebla 9607 74.25 11.47 4.27
Michoacán 9279 86.02 4.81 2.06
Yucatán 9272 89.67 6.26 1.83
Hidalgo 8692 90.01 3.04 2.12
Zacatecas 8393 86.89 6.04 1.54
Tlaxcala 8156 84.37 5.82 2.9
Guerrero 8077 83.91 2.37 6.12
Chiapas 7423 94.86 1.55 0.38
Oaxaca 6414 83.22 4.46 2.49
i) Dibuja el diagrama de dispersión: ingresos vs votación del PRI. Calcula una recta
de regresión para esas dos variables. Has lo mismo para ingresos vs votación del
PAN e ingresos vs votación del PCM.

12
ii) Dibuja un diagrama de dispersión para la votación del PAN vs votación del PCM.
¿Tiene razón Zaid? ¿qué significa el coeficiente de correlación? ¿qué concluyes?
iii) “El paralelismo entre la votación de ambos partidos, PAN y PCM, es un
fenómeno de conjunto, más que local. La votación por el PAN y por el PCM
aumenta, como fenómeno de conjunto, de los estados más pobres a los más ricos.
Esto se confirma analizando la votación conjunta PAN + PCM (Zaid)”
iv) Repite el inciso a) pero ahora calculando los coeficientes de la recta de regresión
(y el coeficiente de correlación), para ingresos vs (votación PAN + PCM). ¿Cómo
explicas el resultado?
Zaid termina afirmando que “En el México actual, nadie acusa a nadie de
revolucionario: se enorgullecería. La verdadera acusación es de no serlo. En esos
usos del lenguaje en México hay algo revelador del país en que vivimos. Se puede
vivir en el Pedregal, mientras no se viva en el error: mientras se abomine de la
explotación. Para no ser perseguidos, hay que pasarse al lado de los perseguidores.
Y es que en una sociedad posrevolucionaria, las condiciones materiales siguen
determinando la conciencia pero al revés: a mejores condiciones materiales, mayor
conciencia revolucionaria. Ser de izquierda y vivir en el Pedregal, tener casa en
Cuernavaca, viajar al extranjero, ganar más que el salario mínimo, es algo que hay
que hacerse perdonar. Para tener buena conciencia, ganando más que el salario
mínimo, hay que estar por el cambio. Así se llega a los criterios de verdad por
afiliación: no se está del lado bueno por tener razón; se tiene razón por estar del lado
bueno. Es perfectamente posible que, en los remotos interiores de México, los
indios se mueran de hambre sin que el estado mexicano corra mucho peligro, a lo
que no se puede arriesgar es a no dar alguna satisfacción, por deteriorada que sea, a
las aspiraciones de los que ya han comido y se mueren por un título universitario,
por un automóvil. No tener título universitario se ha vuelto tan costoso, por la
exclusión que implica, que lo único razonable es sacarlo al menor costo posible. Ya
teniéndolo, se multiplican las oportunidades. Los títulos son como las tarjetas de
crédito: credenciales para ser creído, cuyo costo se carga a los que no las tienen.”
c) En febrero del 2005, Reforma publicó que las industrias manufactureras con mayor
incremento en su productividad en los últimos 4 años también fueron las que más
recortes de personal realizaron en ese período. Esto significa que el avance
registrado en la productividad manufacturera no ha sido producto de mejoras
tecnológicas sino de nuevas formas de organización de los procesos de trabajo,
orientadas a producir lo mismo con menos empleados. Se presenta a continuación
los datos del INEGI donde se tienen los índices de productividad y de empleo por
industrias.

13
Productividad (%) Empleo (%)
Madera y sus productos 6.2 -5.9
Productos metálicos, maq. y equipo 4.8 -6.5
Textiles, vestido y cuero 4.4 -8.1
Productos minerales no metálicos 4.4 -2.8
Industrias metálicas básicas 3.2 -2.4
Sustancias químicas 3.1 -3.6
Alimentos, bebidas y tabaco 1.7 -0.3
Papel, imprentas y editoriales 1.2 -1.7
Promedio 3.5 -3.9
Aunque se afirma que una empresa es competitiva en la medida en que aumenta su
productividad con empleo creciente, esto no ha ocurrido en México, donde la
competitividad es por costos y no por mejoras tecnológicas como puede observarse
en la tabla. Para determinar si existe alguna correlación entre estas dos variables,
traza un diagrama de dispersión y halla la recta de mejor ajuste para que valides el
modelo calculando intervalos para los coeficientes de regresión y calcular los
coeficientes de regresión y de determinación.
d) Dibuja el diagrama de dispersión de los datos siguientes (personas que entraron al
cine en funciones diferentes y el gasto total que hicieron. Calcula la recta de
regresión y calcula el coeficiente de regresión.
#
personas
62 30 28 17 10 30 31 15 29
gasto 8700 1650 4200 1400 6000 1890 1990 2010 2450
e) Calcula la recta de regresión de los siguientes datos. Es el precio del pétroleo por
barril en dólares y la velocidad de un huracán en las mismas fechas en que ambos
eventos ocurrieron. ¿Qué dice en este caso el coeficiente de regresión?
velocidad 120 300 250 200 100 350 310 150 215
precio 25 16 42 40 60 18 19 20 45
 Guardar con el nombre nombre-apellido.E1.6.1.1Regresión lineal-grupo.doc .

14
AUTOEVALUACION 1
1. Los siguientes datos indican la distribución de la población mayor de 12 años según
estado conyugal (en este caso son solteros):
HOMBRES MUJERES
12-14 3218584 3139293
15-19 4594265 4194076
20-24 2665426 2267760
25-29 1236409 1068574
30-34 569293 540794
35-39 329187 343942
40-44 195308 232948
45-49 123203 164839
50-54 90668 131655
55-59 62812 91840
60-64 52691 79534
a) Dibuja un histograma e indica cuál es la distribución de las poblaciones,
dibujando el histograma a mano.
b) Utiliza Excel para hacer la gráfica. Compara ambas gráficas que obtuviste.
c) Calcula la media, la mediana y la moda. ¿Qué significa cada una de las tres
medidas?
d) Calcula la desviación estándar para edades de hombres (mujeres)
solteros(as).
2. Si la distribución del peso de los hombres que viajan por avión de Cancún a México
tienen una media de 73.35 kg y la distribución es asimétrica positiva, ¿qué pensarías
acerca del peso de la mayoría de los viajeros? ¿y si el modelo fuera exponencial con
la misma media?
3. En un examen de matemáticas, los estudiantes del CCH tienen calificaciones que se
distribuyen en forma normal con media de 6.25 puntos. Los estudiantes de la
vocacional tienen calificaciones que se distribuyen en forma normal con una media
de 6.1 puntos. ¿Qué puedes afirmar acerca de las dos poblaciones? ¿cuál tiene mejor
desempeño?
4. Da un ejemplo de una variable que se distribuye de manera asimétrica positiva.
Explica el ejemplo.
5. Calcula la media y desviación estándar de los siguientes datos: 3, 6, 6, 8, 2 ,5, 7, 3,
6, 8, 6, 5, 9, 10, 1, 23, 4 ,7, 4, 1.3.
6. El tiempo de estudio de 12 alumnos y la calificación que obtuvieron fue la
siguiente:

15
Tiempo 4.2 3.1 2 2.7 1.5 3 3.1 1 2.5
calificación 8.7 6.5 4 4.1 6 8 9 2 4.5
Dibuja el diagrama de dispersión, calcula la recta de regresión y usa NCSS para
hallar el coeficiente de correlación. ¿Qué puedes decir acerca de la utilidad del
modelo de regresión?
AUTOEVALUACION 2
1. Los siguientes datos indican la distribución de la población mayor de 12 años según
condición de actividad económica y ocupación (PEA):
HOMBRES MUJERES
12-14 356208 157551
15-19 2290305 1214869
20-24 3345154 1751450
25-29 3478172 1683384
30-34 3131178 1487632
35-39 2805986 1370986
40-44 2295861 1080320
45-49 1761567 750876
50-54 1389028 515386
55-59 968675 304275
60-64 677972 196787
a) Dibuja un histograma e indica cuál es la distribución de las poblaciones.
b) Calcula la media, la mediana y la moda. ¿Qué significa cada una de las tres
medidas?
c) Calcula la desviación estándar para edades de hombres.
d) ¿Cuál es el modelo de población que infieres del polígono de frecuencias?
2. El peso mediano de las mujeres de cierta ciudad es de 55 kg con una desviación
estándar de 6 kg y el peso es normal, ¿qué puedes decir acerca de las mujeres de esa
ciudad? ¿si el modelo es asimétrico positivo, que puede afirmar acerca del peso de
las mujeres? ¿y si fuera asimétrico positivo?
3. Calcula la media y la desviación de los siguientes datos: 2, 4, 6, 5, 7, 12, 3, 9, 6, 6,
7, 2, 5, 10, 11, 5, 8, 7, 8, 7.
4. Da un ejemplo de una variable que se distribuya en forma de j invertida y otro
ejemplo en la que la variable se distribuya en forma de U.

16
5. ¿Puede ocurrir que la mayoría de los obreros de una empresa ganen menos del
salario medio? Si es así, ¿en qué situación puede darse este caso?
6. Los siguientes 9 datos indican el tiempo de traslado de los alumnos a la escuela (en
minutos) y el dinero que llevan consigo. Dibuja un diagrama de dispersión y calcula
la recta de regresión.
Tiempo 45 30 20 25 15 5 30 60 25
Dinero 60 65 20 40 80 10 90 25 75

1.6.1.1. regresión lineal

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 1.6.1.1. regresión lineal

Similar a 1.6.1.1. regresión lineal (20)

Más de k4rol1n4

Más de k4rol1n4 (20)

Último

Último (20)

1.6.1.1. regresión lineal