2. Ing. William león Velásquez 2
Coeficiente de correlación.-
Coeficiente de determinación.-
Prueba de significancia del
coeficiente de correlación.-
Aplicaciones.
Modelo de regresión y
ecuación de regresión.-
Ecuación de regresión
estimada.-
Método de cuadrados
mínimos.-
4. EL COEFICIENTE DE
CORRELACIÓN DE PEARSON
El coeficiente de correlación, creado por
Karl Pearson alrededor de 1900, describe la
fuerza de la relación entre dos conjuntos de
variables .
Se nombra con la letra r, y frecuentemente
se le conoce como r de Pearson y
coeficiente de correlación producto-
momento.
Puede adoptar cualquier valor de -1.00 a
+1.00, inclusive.
Un coeficiente de correlación de -1.00 o bien
de +1.00 indica una correlación perfecta.
Ing. William león Velásquez
4
6. El siguiente dibujo resume la fuerza y dirección del
coeficiente de correlación.
EL COEFICIENTE DE CORRELACIÓN
DE PEARSON
Ing. William león Velásquez
6
7. COEFICIENTE DE CORRELACIÓN EJEMPLO 1
El director de recursos humanos de
Ventas S.A. está entrevistando y
seleccionando nuevos vendedores.
El ha diseñado una prueba que le
ayudará a realizar la mejor selección
posible para la fuerza de ventas.
Con el fin de probar la validez de la
prueba para predecir las ventas
semanales, él eligió vendedores
experimentados y aplicó la prueba a
cada uno.
Ing. William león Velásquez
7
8. Calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Vendedor Calificación Ventas
semanales
José Luis 4 5,000
Rufino 7 12,000
Frida 3 4,000
Diego 6 8,000
María 10 11,000
Ing. William león Velásquez
8
La calificación de cada vendedor fue entonces
pareada con sus ventas semanales.
COEFICIENTE DE CORRELACIÓN
EJEMPLO 1
9. Calificaciones y ventas semanales de 5 vendedores de
Ventas S.A.
Vendedor
Calificación
(x)
Ventas
(y)
x2 xy y2
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
María 10 11 100 110 121
total 30 40 210 274 370
Ing. William león Velásquez
9
COEFICIENTE DE CORRELACIÓN
EJEMPLO 1
10. Calcular el coeficiente de correlación para el ejemplo
que involucre las ventas semanales y las calificaciones
de los vendedores.
Ing. William león Velásquez
10
𝐫 =
𝐧 𝐱𝐲 − 𝐱 𝐲
𝐧 𝐱 𝟐 − 𝐱 𝟐 𝐧 𝐲 𝟐 − 𝐲 𝟐
𝐫 =
𝟓(𝟐𝟕𝟒) − (𝟑𝟎)(𝟒𝟎)
(𝟓) 𝟐𝟏𝟎 − (𝟑𝟎) 𝟐 𝟓 𝟑𝟕𝟎 − (𝟒𝟎) 𝟐
r=0.88
COEFICIENTE DE CORRELACIÓN
EJEMPLO 1
11. La práctica usual es redondear r a la centésima
más próxima, en este problema esto es 0.88,
indicando una muy fuerte relación entre las
calificaciones y las ventas semanales de los
vendedores.
Esto hace parecer que la prueba del director de
recursos humanos tiene potencial para predecir
las ventas semanales.
Ing. William león Velásquez
11
COEFICIENTE DE CORRELACIÓN
EJEMPLO 1
12. Se realiza un estudio de la talla,
medida en cm. y el peso, medido en kg.
de un grupo de 10 personas,
Los valores obtenidos figuran en la
tabla inferior:
Talla
(cms)
160 165 168 170 171 175 175 180 180 182
Peso
(kgs)
55 58 58 61 67 62 66 74 79 83
Ing. William Jaime León Velásquez 12
Calcular el coeficiente de correlación
COEFICIENTE DE
CORRELACIÓN EJEMPLO 2
13. Con los datos calculados:
Sxy = 55.32
Sx = 50.71
Sy = 752.81
r = 55.32 / (50.71 * 752.81)
r =0.0014
r se acerca a 0 la dependencia es débil y por tanto
las predicciones que se realicen a partir de la recta
de regresión serán poco fiables
Ing. William Jaime León Velásquez 13
COEFICIENTE DE CORRELACIÓN
EJEMPLO 2
14. En el ejemplo 1 sobre la relación entre las
calificaciones y las ventas semanales de los
vendedores el coeficiente de correlación de 0.88
fue interpretado como muy fuerte.
Los términos fuerte, moderado y débil, no tienen
un significado muy preciso.
COEFICIENTE DE DETERMINACIÓN
Ing. William león Velásquez
14
15. Una medida que da un significado más
exacto es el coeficiente de determinación.
Este es calculado elevando al cuadrado el
coeficiente de correlación.
En el ejemplo,
el coeficiente de determinación (r2) es de
0.77, encontrado por (0.88)2.
COEFICIENTE DE DETERMINACIÓN
Ing. William león Velásquez
15
16. Este es una proporción o porcentaje, podemos decir que el 77%
de la variación en las ventas semanales es explicado por la
variación en las calificaciones de la prueba.
Coeficiente de determinación es la proporción de la variación
total en la variable dependiente Y que es explicada por la
variación en la variable independiente X.
El coeficiente de determinación es la cantidad de variación en y
que está explicada por la recta de regresión.
Y se calcula:
EL COEFICIENTE DE DETERMINACIÓN
Ing. William león Velásquez
16
𝐫 𝟐
=
𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚
𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥
17. El coeficiente de no determinación es la proporción de la
variación total en Y que no esta explicada por la variación en X.
Este coeficiente se calcula con 1 – r2.
En el problema del ejemplo es 1 – ( .88 )2 = .23. Esto significa que
el 23% de la variación total en las ventas semanales no es
explicado por la variación en las calificaciones de las pruebas.
Los coeficientes de determinación y de no determinación pueden
solamente ser positivos y pueden asumir valores entre 0 y 1.00
inclusive.
EL COEFICIENTE DE NO
DETERMINACIÓN
Ing. William león Velásquez
17
19. Del ejemplo 1 la relación entre las calificaciones y las ventas
semanales de los vendedores el coeficiente de correlación de
0.88 , lo que indicaba una asociación fuerte entre ambas
variables.
Sin embargo, en la muestra había sólo 5 vendedores.
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Ing. William león Velásquez
19
¿Puede ser que la correlación entre la
población sea 0?
Si, y esto significaría que la correlación
de 0.88 se debió a la casualidad.
En este ejemplo, la población es todo el
personal de ventas de la empresa.
20. Resolver este problema requiere una prueba para
responder la pregunta obvia:
¿puede haber una correlación cero entre la población
de la cual se seleccionó la muestra?
En otras palabras,
¿proviene el valor r calculado de una población de
observaciones pareadas con correlación cero?
Para continuar la convención de usar letras griegas
para representar un parámetro poblacional ρ, (se
pronuncia “rho”) representará la correlación entre la
población.
Ing. William león Velásquez
20
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
21. Formulación de la hipótesis
H0: ρ = 0
(No existe una correlación lineal).
H1: ρ ≠ 0
(Existe una correlación lineal).
Ing. William león Velásquez
21
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
22. Método 1: El estadístico de prueba es t
Estadístico de prueba:
Ing. William león Velásquez
22
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
𝒕 = 𝒓
𝒏 − 𝟐
𝟏 − 𝒓 𝟐
𝒕 =
𝒓 − 𝒖 𝒓
𝟏 − 𝒓 𝟐
𝒏 − 𝟐
donde μr denota el valor afirmado de la media de
los valores de r.
Sea μr = 0 al probar la hipótesis nula de ρ = 0.
23. TABLA t
Ing. William león Velásquez
23
Estadístico de prueba:
Utilice la tabla tα con n -2 grados de libertad.
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
24. Ing. William león Velásquez
24
Conclusión:.
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Si 𝑡 > que el valor crítico de la tabla tα, se
rechaza la H0 y se concluye que existe una
correlación lineal.
Si 𝑡 ≤ que el valor crítico de la tabla tα, no
se rechaza la H0; no hay evidencia suficiente
para concluir que existe una correlación
lineal.
25. Método 2: El estadístico de prueba es r
Estadístico de prueba:
Ing. William león Velásquez
25
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba: r
𝐫 =
𝐧 𝐱𝐲 − 𝐱 𝐲
𝐧 𝐱 𝟐 − 𝐱 𝟐 𝐧 𝐲 𝟐 − 𝐲 𝟐
𝐫 =
𝐗 − 𝐗 𝐘 − 𝐘
(𝐧 − 𝟏)𝐒 𝐗 𝐒 𝐘
26. Valores críticos: Utilice la tabla
Con un nivel de significancia y tamaño n
Estadístico de prueba:
Ing. William león Velásquez
26
VALIDACIÓN DEL
COEFICIENTE DE
CORRELACIÓN
27. VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Ing. William león Velásquez
27
Conclusión:.
Si 𝑟 > que el valor crítico de la tabla r, se
rechaza la H0 y se concluye que existe una
correlación lineal.
Si 𝑟 ≤ que el valor crítico de la tabla r, no
se rechaza la H0; no hay evidencia suficiente
para concluir que existe una correlación
lineal.
28. Sin embargo, solo fueron incluidos cinco
vendedores en el experimento. Por lo
tanto, uno podría preguntarse si la
correlación de la población (todos los
vendedores de la compañía) puede ser de
cero (sin correlación).
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN
Ing. William león Velásquez
28
En base al ejemplo desarrollado, el director de recursos humanos
en Ventas S.A. diseñó una prueba para predecir las ventas
semanales.
El coeficiente de correlación entre las calificaciones de las
pruebas y las ventas fue calculado en 0.88, esto indica una fuerte
correlación entre las dos variables.
29. En el ejemplo las hipótesis serán:
Ho: ρ = 0
( La correlación en la población es cero )
Ha: ρ <> 0
( La correlación en la población es diferente de cero)
Para la forma de la hipótesis alterna sabemos que la prueba
es de dos colas.
Usando un nivel de significancia de α = 0.10.
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN
29
Se debe probar la hipótesis de que la población de donde
provienen las observaciones tiene correlación cero
(simbolizada con la letra griega ρ que se pronuncia rho ).
30. Los grados de libertad se calculan Φ = n – 2 , en este
ejemplo Φ= 5 – 2 = 3.
Se localiza el valor crítico en la tabla t de student:
.
tabla "t" α/2 = .05
Φ= n - 2 = 3 tc = 2.35336
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN
30
Entonces tc = 2.35336
31. La fórmula para calcular t(el estadístico de prueba) es:
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN
31
𝒕 = 𝒓
𝒏 − 𝟐
𝟏 − 𝒓 𝟐
𝒕 = 𝒓
𝒏 − 𝟐
𝟏 − 𝒓 𝟐
= (𝟎. 𝟖𝟖)
𝟓 − 𝟐
𝟏 − 𝟎. 𝟖𝟖 𝟐
= 𝟑. 𝟐𝟏
Entonces:
32. Se localizan en la gráfica los valores críticos y el
valor del estadístico de prueba.
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN
32
33. El valor del estadístico de prueba ( t* = 3.21 ) cae dentro
de la zona crítica, por lo tanto se acepta la hipótesis
alterna con un nivel de significancia de α = 0.10.
Esto significa que la correlación no es cero.
Para un punto de vista práctico, esto indica al director de
recursos humanos que si hay correlación entre las
calificaciones de las pruebas y las ventas semanales de
la población de vendedores.
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN
33
34. Una gran empresa de ventas de
artículos electrónicos, quiere
verificar si existe relación entre las
llamadas que realiza el vendedor
con las ventas de computadoras
que realiza.
Con tal motivo selecciona a 10 de
sus vendedores de manera
aleatoria y se registra su cantidad
de llamadas y las computadoras
vendidas
EJEMPLO
34
llamadas x 20 40 20 30 10 10 20 20 20 30
ventas y 30 60 40 60 30 40 40 50 30 70
36. Con los datos obtenidos calculamos r
EJEMPLO
36
𝐫 =
𝐗 − 𝐗 𝐘 − 𝐘
(𝐧 − 𝟏)𝐒 𝐗 𝐒 𝐘
𝐫 =
900
9 9.1893658𝑥14.3372
r=0.759
¿Cómo se interpreta una correlación de 0.759?
Es positiva, por lo que se observa una relación directa entre el número
de llamadas de ventas y el número de computadoras vendidas
Esto confirma el razonamiento basado en el diagrama de dispersión.
El valor de 0.759 está muy cercano a 1.00, y por lo tanto se concluye
que la asociación es fuerte.
37. EJEMPLO
37
¿Recuerde que la gerente de ventas de la empresa
determinó que la correlación entre el número de llamadas
de ventas y el número de copiadoras vendidas era 0.759, lo
que indicaba una asociación fuerte entre ambas variables.
Sin embargo, en la muestra había sólo 10 vendedores.
¿Puede ser que la correlación entre la población sea 0?
Esto significaría que la correlación de 0.759 se debió a la
casualidad.
En este ejemplo, la población es todo el personal de ventas
de la empresa.
38. Formulación de la hipótesis
H0: ρ = 0
(la correlación entre la población es cero).
H1: ρ ≠ 0
(La correlación entre la población es diferente de
cero).
Ing. William león Velásquez
38
Ejemplo
PRUEBA DE HIPÓTESIS DE CORRELACIÓN
39. Método 1: El estadístico de prueba es t
Estadístico de prueba:
Ing. William león Velásquez
39
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
donde μr denota el valor afirmado de la media
de los valores de r. Sea μr = 0 al probar la
hipótesis nula de ρ = 0.
𝒕 =
𝒓 𝒏 − 𝟐
𝟏 − 𝒓 𝟐
𝒕 =
𝟎.𝟕𝟓𝟗 𝟏𝟎−𝟐
𝟏−𝟎.𝟕𝟓𝟗 𝟐
=3.297
40. Estadístico de prueba:
Utilice la tabla tα con n -2 grados de libertad
Para ubicar el valor crítico de 2.306, para gl 10- 2= 8.
y un α/2=0.025
Ing. William león Velásquez
40
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
41. Ing. William león Velásquez
41
Conclusión:.
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
la regla de decisión en este caso indica que si el valor
calculado de t se encuentra en el área entre 2.306 y 2.306
Si 3.297 > que el valor crítico de la tabla tα, se rechaza la
H0 y se concluye que existe una correlación lineal.
Esto indica a la gerente de ventas que hay una correlación entre
el número de llamadas de ventas y el número de copiadoras
vendidas en la población de vendedores, es decir en toda la
empresa
43. Ing. William león Velásquez 43
El término regresión fue utilizado por primera vez como un
concepto estadístico en 1877 por sir Francis Galton, quien
llevó a cabo un estudio que demostraba que la estatura de los
niños nacidos de padres altos tiende a retroceder o “regresar”
hacia la estatura media de la población.
INTRODUCCIÓN
Eligió la palabra regresión como el nombre
del proceso general de predecir una variable
(la estatura de los niños) a partir de otra (la
estatura del padre o de la madre).
Posteriormente, los estadísticos acuñaron el
término regresión para describir el proceso
mediante el cual se utilizan una variable para
predecir otra.
Sir Francis Galton
(Duddeston, 1822 - Haslemere,
1911) Antropólogo y geógrafo
inglés
44. Ing. William león Velásquez 44
En el análisis de regresión, se desarrolla una ecuación
de estimación, esto es, una fórmula matemática que
relaciona las variables conocidas con la variable
desconocida.
INTRODUCCIÓN
Luego de conocer el patrón de
esta relación, se puede aplicar
el análisis de correlación para
determinar el grado en el que
las variables se relacionan.
El análisis de correlación,
entonces, nos indica qué tan
bien la ecuación de estimación
describe realmente la relación.
45. Ing. William león Velásquez 45
El análisis de regresión es una técnica para investigar
y modelar la relación entre variables.
INTRODUCCIÓN
Aplicaciones de regresión
son numerosas y ocurren
en casi todos los campos,
incluyendo ingeniería, la
física, ciencias económicas,
ciencias biológicas y de la
salud, como también
ciencias sociales
46. Ing. William león Velásquez 46
OBJETIVO DEL MODELO DE
REGRESION SIMPLE
Explicar el comportamiento de una variable cuantitativa
de interés.
Y (consumo de gasolina de un auto hibrido, temperatura del
agua de mar) como función de otra variable cuantitativa X
observable (velocidad del auto en la ciudad, profundidad a
la que se observa la temperatura del agua).
Y = variable respuesta, endógena o dependiente
X = regresor, predictor, variable explicativa,
exógena o independiente
Se estudiará principalmente el modelo de regresión lineal
simple, en el que se expresa Y como función lineal de X.
47. Ing. William león Velásquez 47
EL MODELO
Diseño fijo y aleatorio
En el diseño aleatorio se toma una muestra (x1; y1); ….;
(xn; yn) de una población (X;Y ) donde X es una variable
aleatoria (los valores observados de X no están prefijados
de antemano).
(X; Y ) =(Estatura en cm, Peso en kg) de un estudiante
universitario elegido al azar.
(X; Y ) =(Nivel de un cierto contaminante, Mortalidad)
en una ciudad elegida al azar.
En este caso el modelo de regresión establece una
expresión para la función de regresión E(Yj)= x.
48. Ing. William león Velásquez 48
EL MODELO
Ejemplo 1: Se desea estudiar la relación que existe entre el
ancho X (en mm.) y la longitud Y (en mm.) de la concha de
abanico de las costas.
Se observan los datos:
49. Ing. William león Velásquez 49
EL MODELO
En el diseño fijo prefijamos unos valores x1;…. ; xn de la variable
X. Para cada xi tomamos una o varias observaciones de Y .
(X; Y ) =(profundidad en m. del agua marina, temperatura en oC del
agua a esa profundidad)
El modelo de regresión en este caso establece una expresión para
E(Yi), el valor esperado de Y cuando el valor prefijado de X es xi .
Si todos los xi están a la misma distancia entre sí se trata de un
diseño fijo equiespaciado.
El tratamiento estadístico de ambos diseños es parecido, aunque
la notación sea diferente. A menudo, por simplicidad, utilizaremos
la notación del diseño fijo aunque el diseño del experimento sea
aleatorio.
50. Ing. William león Velásquez 50
EL MODELO DE REGRESION LINEAL
SIMPLE
Diseño fijo: Diseño aleatorio:
Yi = β0 + β1 xi + Ui (Y/X = xi ) = β0 + β1 xi + Ui
donde β0 y β1 son respectivamente la ordenada en el
origen y la pendiente de la recta de regresión.
Ui es un termino de perturbación o error experimental.
Interpretación de los parámetros de la regresión:
β0 representa el valor medio de la respuesta Y cuando la
variable explicativa X vale 0.
β1 representa la variación que experimenta en media la
respuesta Y cuando la variable explicativa X aumenta en
una unidad.
51. Ing. William león Velásquez 51
HIPOTESIS BASICAS DEL MODELO:
a) E(Ui ) = 0, para cada i = 1; .....; n.
b) Var(Ui ) = σ2, para cada i = 1; .......; n.
c) E(Ui Uj ) = 0 , para todo i ≠ j .
d) Ui ~ Normal, para todo i .
Además en el diseño aleatorio supondremos que X1;
…..;Xn son independientes.
Hipótesis equivalentes para diseño fijo:
Y1; …..;Yn son observaciones independientes, con
Yi ~ N(β0 + β1 xi ; σ2):
Hipótesis equivalentes para diseño aleatorio:
(X1;Y1); ….; (Xn;Yn) son independientes, con
Y /X = xi ~ N(β0 + β1 xi ; σ2)
52. ¿ CÓMO SE ANALIZA UN MODELO DE
REGRESIÓN?
Para analizar un modelo de
regresión se pueden establecer
básicamente dos pasos.
Paso 1. Estimar los parámetros del
modelo de regresión. Este proceso
es llamado ajuste del modelo a los
datos.
Paso 2. El siguiente paso de un
análisis de regresión es chequear
que tan bueno es el modelo
ajustado. El resultado de este
chequeo puede indicar si el modelo
es razonable o si el ajuste original
debe ser modificado.
52Ing. William león Velásquez
54. Ing. William león Velásquez
54
INTRODUCCIÓN
Se estudiará la estimación de parámetros para el
modelo de regresión lineal simple.
Es decir, un modelo con un solo regresor X que tiene
una relación con una respuesta Y y que es una línea
recta.
El modelo lineal es dado por
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
55. Ing. William león Velásquez
55
INTRODUCCIÓN
Donde
Yi es la i esima observación de la variable aleatoria
dependiente Y.
Xi es la i esima observación de la variable fija dependiente X
βo es el intercepto y es una constante (parámetro)
β1 es llamado la pendiente y es una constante (parámetro)
ε es la componente aleatoria error
Para ε se hacen los siguientes supuestos:
Los errores tienen media cero
Los errores tienen varianza igual pero desconocida .
Los errores no son correlacionados.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
56. Ing. William león Velásquez
56
INTRODUCCIÓN
La no correlación de los errores significa que el valor de
un error no depende del valor de cualquier otro error.
Es de tener en cuenta que:
1. La variable regresora X es la controlada por el
investigador y medida con un error despreciable.
2. La variable respuesta Y es aleatoria. Esto es, existe
una distribución de probabilidad para Y en cada
posible valor de X
La media de la distribución es
E(Y/X) = βo + β1 X
y la varianza es
V(Y/X)= V( βo + β1 X + ε ) = σ2
57. Ing. William león Velásquez
57
OBTENCIÓN DE LOS DATOS
Lo primero que se debe hacer
antes de recopilar los datos es
identificar la variable dependiente y
la variable independiente. seguido
esto se registran los pares de
datos ya sea por medio de:
Experimentos controlados
diseñado específicamente para
obtener los datos o
Registros históricos existentes.
58. Ing. William león Velásquez
58
EJEMPLO DE EXPERIMENTOS
CONTROLADOS Y NO CONTROLADOS
Ejemplo 1
Se realizó un experimento el efecto de
incremento de la temperatura en la
efectividad de un antibiótico.
Se almacenaron tres porciones de una
onza del antibiótico durante el mismo
lapso a cada una de las siguientes
temperaturas: 30º 50º 70º 90º.
Las lecturas de la efectividad observadas a la temperatura del
periodo experimental fueron:
Lecturas de la efectividad:
38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21
Temperatura: 30º 50º 70º 90º
59. Ing. William león Velásquez
59
EJEMPLO DE EXPERIMENTOS CONTROLADOS
Y NO CONTROLADOS
Ejemplo 2
Los experimentos diseñados para medir valores LC50 en
la investigación de los efectos de cierto producto tóxico
en peces se efectúan con dos métodos diferentes:
Método 1: el agua fluye continuamente a través de los
tanques de laboratorio dinámico.
Método 2: condiciones de agua en reposo.
A fin de establecer los criterios para sustancias tóxicas, la Agencia para la
protección ambiental (APA) pretende ajustar todos los resultados a la condición
dinámica. Por lo que se requiere de un modelo para relacionar los dos tipos de
observaciones. Las observaciones acerca de ciertos productos tóxicos en ambas
condiciones, estáticas y dinámica, dieron los siguientes resultados (las mediciones
están en partes por millón, ppm).
Producto tóxico 1 2 3 4 5 6 7 8 9 10
CL50 dinámico, 23 22.3 9.4 9.7 0.15 0.28 0.75 0.51 28 0.39
CL50 estático, 39 37.5 22.2 17.5 0.64 0.45 2.62 2.36 32 0.77
60. Ing. William león Velásquez
60
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
EJEMPLO 1
Se hace un estudio para saber si existe
relación con el promedio de las notas
obtenidas en la universidad con el sueldo
que ganan después de dos años de
egresados.
Con la finalidad de estimar el sueldo que
ganará, teniendo como información su
promedio obtenido.
Se ubican a nueve egresados y se recopila
la siguiente información
Egresado 1 2 3 4 5 6 7 8 9
Promedio
obtenido 16 12 13 8 12 13 10 9 14
Sueldo
actual 3100 2500 2500 1900 2200 2800 1600 2200 2600
61. Ing. William león Velásquez
61
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
Para el análisis de una situación de relación entre dos variables se
debe:
1. Identificar la variable independendiente y la variable
dependiente:
En este caso la variable dependiente es la sueldo actual (y) y
la variable independiente es promedio obtenido en al
universidad (x ).
2. Determinar si existe una relación de dependencia
razonable.
En la situación presentada puede observarse que en la realidad
estas dos características (sueldo actual y promedio obtenido)
presentan una relación lógica. Se va ha mostrar gráficamente
para verificar.
62. Ing. William león Velásquez
62
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
Para determinar de manera inicial la relación lineal entre
las dos variables se debe elaborar un diagrama de
dispersión, como el que aparece en la figura
De acuerdo al
gráfico de
dispersión se
puede asumir que
existe una relación
lineal y se
requiere la línea
recta que mejor se
ajuste a los datos
experimentales
0
500
1000
1500
2000
2500
3000
3500
0 5 10 15 20
Sueldoactual
Promedio obtenido
y
Lineal (y)
63. Ing. William león Velásquez
63
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
3. Determinar el modelo estadístico:
Como el sueldo actual parece aumentar a medida que
aumenta el promedio obtenido entonces se debe sugerir
un modelo lineal dado por:
Donde
yi es el valor observado en este caso la sueldo actual para un
valor de promedio obtenido xi,
bo corresponde al intercepto de con la línea de regresión y
b1 representa el valor medio de sueldo actual para un valor
determinado de promedio obtenido llamada pendiente de la
línea de regresión o coeficiente de regresión,
xi es el valor de los promedios obtenidos, que se asume, es
medida sin error. Y
Y = b0 + b1X
64. Ing. William león Velásquez
64
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
4. Determinar la ecuación de regresión o
modelo ajustado:
El modelo predicho o ecuación de regresión
ajustada es una expresión como la siguiente
Para obtenerla se debe encontrar los valores
estimados de los parámetros: 𝑦 .
Éstos se obtienen aplicando el método de
mínimos cuadrados.
yi = b0 + b1xi
65. Ing. William león Velásquez
65
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
El método de mínimos cuadrado busca cual es la recta
que más se acerca a los puntos.
Busca la recta que haga que la distancia entre el valor
real y el valor obtenido por la recta ajustada sea la más
pequeña
La suma de todas estas distancias simbolizadas como:
sea la más pequeña.
Como la mejor recta está determinada por bo y b1 entonces
matemáticamente, se desea escoger los valores para bo y
b1 que minimicen la suma de cuadrados del error
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 = 𝑆𝐶 𝐸𝑟𝑟𝑜𝑟 = 𝑦𝑖 − 𝑦𝑖
2
𝑘
𝑖=1
66. Ing. William león Velásquez
66
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
Los estadísticos básicos
necesarios para la regresión
lineal y la correlación son:
x y
16 3100
12 2500
13 2500
8 1900
12 2200
13 2800
10 1600
9 2200
14 2600
11.889 2377.778
SX SY
0.892 161.804
𝑋 𝑌
68. OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
𝑏1=
7877.778
50.889
= 154.8035
𝑏0= 2377.778 – 154.80.5 (11.889)= 537.336
𝑌= 537.336 + 154.8035 X
Y = b0 + b1X
69. Ing. William león Velásquez
69
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
El valor de la pendiente significa que a medida que
aumente en una unidad el promedio obtenido, el sueldo
actual promedio se incrementará en 154.8035 unidades.
𝑌= 537.336 + 154.8035 X
Finalmente la ecuación resultante es:
70. • Se ha realizado un estudio sobre el efecto de la
temperatura en el pH de la leche descremada.
• La variable independiente será la temperatura en grado
Celsius (X) bajo diferentes condiciones experimentales
• Y la variable dependiente será el pH de la leche (Y).
• Los datos recopilados son:
Temperatura
(x)
4 4 24 24 25 38 38 40
pH (y) 6,9 6,8 6,6 6,7 6,7 6,6 6,6 6,5
Temperatura
(x)
45 50 55 56 60 67 70 78
pH (y) 6,5 6,5 6,4 6,4 6,4 6,3 6,3 6,3
01,683y360565,4369x5,104y678 2
i
2
ii iii xyx
EJEMPLO 2