Análisis de Correlacion Lineal

ANALISIS DE
CORRELACIÓN LINEAL
Ing. William León Velásquez
ESTADISTICA
INDUSTRIAL
TEMA
05
UNMSM
FII
Ing William León Velásquez 1

Ing. William león Velásquez 2
 Coeficiente de correlación.-
 Coeficiente de determinación.-
 Prueba de significancia del
coeficiente de correlación.-
 Aplicaciones.
 Modelo de regresión y
ecuación de regresión.-
 Ecuación de regresión
estimada.-
 Método de cuadrados
mínimos.-

COEFICIENTE DE
CORRELACIÓN
COEFICIENTE DE
DETERMINACIÓN

EL COEFICIENTE DE
CORRELACIÓN DE PEARSON
El coeficiente de correlación, creado por
Karl Pearson alrededor de 1900, describe la
fuerza de la relación entre dos conjuntos de
variables .
Se nombra con la letra r, y frecuentemente
se le conoce como r de Pearson y
coeficiente de correlación producto-
momento.
Puede adoptar cualquier valor de -1.00 a
+1.00, inclusive.
Un coeficiente de correlación de -1.00 o bien
de +1.00 indica una correlación perfecta.
Ing. William león Velásquez
4

0
5
10
15
20
25
0 2 4 6 8 10 12
EL COEFICIENTE DE CORRELACIÓN
DE PEARSON
rxy = 1
-20
-15
-10
-5
0
5
0 2 4 6 8 10 12
rxy = -1
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10
rxy = 0.88
rxy = -0.88
0
2
4
6
8
10
12
0 2 4 6 8 10 12
rxy = 0
rxy = 0
5
𝑟𝑥𝑦 =
𝑆 𝑥𝑦
𝑆 𝑥 𝑆 𝑦
𝑟𝑥𝑦 =
𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌𝑁
𝑖=1
𝑋𝑖 − 𝑋 2𝑁
𝑖=1 𝑌𝑖 − 𝑌 2𝑁
𝑖=1
−1 ≤ 𝑟𝑥𝑦 ≤ +1

El siguiente dibujo resume la fuerza y dirección del
coeficiente de correlación.
EL COEFICIENTE DE CORRELACIÓN
DE PEARSON
6

COEFICIENTE DE CORRELACIÓN EJEMPLO 1
El director de recursos humanos de
Ventas S.A. está entrevistando y
seleccionando nuevos vendedores.
El ha diseñado una prueba que le
ayudará a realizar la mejor selección
posible para la fuerza de ventas.
Con el fin de probar la validez de la
prueba para predecir las ventas
semanales, él eligió vendedores
experimentados y aplicó la prueba a
cada uno.
7

Calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Vendedor Calificación Ventas
semanales
José Luis 4 5,000
Rufino 7 12,000
Frida 3 4,000
Diego 6 8,000
María 10 11,000
8
La calificación de cada vendedor fue entonces
pareada con sus ventas semanales.
COEFICIENTE DE CORRELACIÓN
EJEMPLO 1

Calificaciones y ventas semanales de 5 vendedores de
Ventas S.A.
Vendedor
Calificación
(x)
Ventas
(y)
x2 xy y2
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
María 10 11 100 110 121
total 30 40 210 274 370
9
EJEMPLO 1

Calcular el coeficiente de correlación para el ejemplo
que involucre las ventas semanales y las calificaciones
de los vendedores.
10
𝐫 =
𝐧 𝐱𝐲 − 𝐱 𝐲
𝐧 𝐱 𝟐 − 𝐱 𝟐 𝐧 𝐲 𝟐 − 𝐲 𝟐
𝐫 =
𝟓(𝟐𝟕𝟒) − (𝟑𝟎)(𝟒𝟎)
(𝟓) 𝟐𝟏𝟎 − (𝟑𝟎) 𝟐 𝟓 𝟑𝟕𝟎 − (𝟒𝟎) 𝟐
r=0.88
EJEMPLO 1

La práctica usual es redondear r a la centésima
más próxima, en este problema esto es 0.88,
indicando una muy fuerte relación entre las
calificaciones y las ventas semanales de los
vendedores.
Esto hace parecer que la prueba del director de
recursos humanos tiene potencial para predecir
las ventas semanales.
11
EJEMPLO 1

Se realiza un estudio de la talla,
medida en cm. y el peso, medido en kg.
de un grupo de 10 personas,
Los valores obtenidos figuran en la
tabla inferior:
Talla
(cms)
160 165 168 170 171 175 175 180 180 182
Peso
(kgs)
55 58 58 61 67 62 66 74 79 83
Ing. William Jaime León Velásquez 12
Calcular el coeficiente de correlación
COEFICIENTE DE
CORRELACIÓN EJEMPLO 2

Con los datos calculados:
Sxy = 55.32
Sx = 50.71
Sy = 752.81
r = 55.32 / (50.71 * 752.81)
r =0.0014
r se acerca a 0 la dependencia es débil y por tanto
las predicciones que se realicen a partir de la recta
de regresión serán poco fiables
Ing. William Jaime León Velásquez 13
EJEMPLO 2

En el ejemplo 1 sobre la relación entre las
calificaciones y las ventas semanales de los
vendedores el coeficiente de correlación de 0.88
fue interpretado como muy fuerte.
Los términos fuerte, moderado y débil, no tienen
un significado muy preciso.
COEFICIENTE DE DETERMINACIÓN
14

Una medida que da un significado más
exacto es el coeficiente de determinación.
Este es calculado elevando al cuadrado el
coeficiente de correlación.
En el ejemplo,
el coeficiente de determinación (r2) es de
0.77, encontrado por (0.88)2.
COEFICIENTE DE DETERMINACIÓN
15

Este es una proporción o porcentaje, podemos decir que el 77%
de la variación en las ventas semanales es explicado por la
variación en las calificaciones de la prueba.
Coeficiente de determinación es la proporción de la variación
total en la variable dependiente Y que es explicada por la
variación en la variable independiente X.
El coeficiente de determinación es la cantidad de variación en y
que está explicada por la recta de regresión.
Y se calcula:
EL COEFICIENTE DE DETERMINACIÓN
16
𝐫 𝟐
=
𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚
𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥

El coeficiente de no determinación es la proporción de la
variación total en Y que no esta explicada por la variación en X.
Este coeficiente se calcula con 1 – r2.
En el problema del ejemplo es 1 – ( .88 )2 = .23. Esto significa que
el 23% de la variación total en las ventas semanales no es
explicado por la variación en las calificaciones de las pruebas.
Los coeficientes de determinación y de no determinación pueden
solamente ser positivos y pueden asumir valores entre 0 y 1.00
inclusive.
EL COEFICIENTE DE NO
DETERMINACIÓN
17

PRUEBA DE
SIGNIFICANCIA
AL COEFICIENTE DE
CORRELACIÓN.

Del ejemplo 1 la relación entre las calificaciones y las ventas
semanales de los vendedores el coeficiente de correlación de
0.88 , lo que indicaba una asociación fuerte entre ambas
variables.
Sin embargo, en la muestra había sólo 5 vendedores.
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
19
¿Puede ser que la correlación entre la
población sea 0?
Si, y esto significaría que la correlación
de 0.88 se debió a la casualidad.
En este ejemplo, la población es todo el
personal de ventas de la empresa.

Resolver este problema requiere una prueba para
responder la pregunta obvia:
¿puede haber una correlación cero entre la población
de la cual se seleccionó la muestra?
En otras palabras,
¿proviene el valor r calculado de una población de
observaciones pareadas con correlación cero?
Para continuar la convención de usar letras griegas
para representar un parámetro poblacional ρ, (se
pronuncia “rho”) representará la correlación entre la
población.
20
DE CORRELACIÓN

Formulación de la hipótesis
H0: ρ = 0
(No existe una correlación lineal).
H1: ρ ≠ 0
(Existe una correlación lineal).
21
DE CORRELACIÓN

Método 1: El estadístico de prueba es t
Estadístico de prueba:
22
DE CORRELACIÓN
𝒕 = 𝒓
𝒏 − 𝟐
𝟏 − 𝒓 𝟐
𝒕 =
𝒓 − 𝒖 𝒓
𝟏 − 𝒓 𝟐
𝒏 − 𝟐
donde μr denota el valor afirmado de la media de
los valores de r.
Sea μr = 0 al probar la hipótesis nula de ρ = 0.

TABLA t
23
Utilice la tabla tα con n -2 grados de libertad.
DE CORRELACIÓN

24
Conclusión:.
DE CORRELACIÓN
Si 𝑡 > que el valor crítico de la tabla tα, se
rechaza la H0 y se concluye que existe una
correlación lineal.
Si 𝑡 ≤ que el valor crítico de la tabla tα, no
se rechaza la H0; no hay evidencia suficiente
para concluir que existe una correlación
lineal.

Método 2: El estadístico de prueba es r
25
DE CORRELACIÓN
Estadístico de prueba: r
𝐫 =
𝐧 𝐱𝐲 − 𝐱 𝐲
𝐧 𝐱 𝟐 − 𝐱 𝟐 𝐧 𝐲 𝟐 − 𝐲 𝟐
𝐫 =
𝐗 − 𝐗 𝐘 − 𝐘
(𝐧 − 𝟏)𝐒 𝐗 𝐒 𝐘

Valores críticos: Utilice la tabla
Con un nivel de significancia y tamaño n
26
VALIDACIÓN DEL
COEFICIENTE DE
CORRELACIÓN

DE CORRELACIÓN
27
Conclusión:.
Si 𝑟 > que el valor crítico de la tabla r, se
rechaza la H0 y se concluye que existe una
correlación lineal.
Si 𝑟 ≤ que el valor crítico de la tabla r, no
se rechaza la H0; no hay evidencia suficiente
para concluir que existe una correlación
lineal.

Sin embargo, solo fueron incluidos cinco
vendedores en el experimento. Por lo
tanto, uno podría preguntarse si la
correlación de la población (todos los
vendedores de la compañía) puede ser de
cero (sin correlación).
PRUEBA DE SIGNIFICANCIA DE EL
28
En base al ejemplo desarrollado, el director de recursos humanos
en Ventas S.A. diseñó una prueba para predecir las ventas
semanales.
El coeficiente de correlación entre las calificaciones de las
pruebas y las ventas fue calculado en 0.88, esto indica una fuerte
correlación entre las dos variables.

En el ejemplo las hipótesis serán:
Ho: ρ = 0
( La correlación en la población es cero )
Ha: ρ <> 0
( La correlación en la población es diferente de cero)
Para la forma de la hipótesis alterna sabemos que la prueba
es de dos colas.
Usando un nivel de significancia de α = 0.10.
29
Se debe probar la hipótesis de que la población de donde
provienen las observaciones tiene correlación cero
(simbolizada con la letra griega ρ que se pronuncia rho ).

Los grados de libertad se calculan Φ = n – 2 , en este
ejemplo Φ= 5 – 2 = 3.
Se localiza el valor crítico en la tabla t de student:
.
tabla "t" α/2 = .05
Φ= n - 2 = 3 tc = 2.35336
30
Entonces tc = 2.35336

La fórmula para calcular t(el estadístico de prueba) es:
31
𝒕 = 𝒓
𝒏 − 𝟐
𝟏 − 𝒓 𝟐
𝒕 = 𝒓
𝒏 − 𝟐
𝟏 − 𝒓 𝟐
= (𝟎. 𝟖𝟖)
𝟓 − 𝟐
𝟏 − 𝟎. 𝟖𝟖 𝟐
= 𝟑. 𝟐𝟏
Entonces:

Se localizan en la gráfica los valores críticos y el
valor del estadístico de prueba.
32

El valor del estadístico de prueba ( t* = 3.21 ) cae dentro
de la zona crítica, por lo tanto se acepta la hipótesis
alterna con un nivel de significancia de α = 0.10.
Esto significa que la correlación no es cero.
Para un punto de vista práctico, esto indica al director de
recursos humanos que si hay correlación entre las
calificaciones de las pruebas y las ventas semanales de
la población de vendedores.
33

Una gran empresa de ventas de
artículos electrónicos, quiere
verificar si existe relación entre las
llamadas que realiza el vendedor
con las ventas de computadoras
que realiza.
Con tal motivo selecciona a 10 de
sus vendedores de manera
aleatoria y se registra su cantidad
de llamadas y las computadoras
vendidas
EJEMPLO
34
llamadas x 20 40 20 30 10 10 20 20 20 30
ventas y 30 60 40 60 30 40 40 50 30 70

Obtenemos los datos para calcular el coeficiente r
EJEMPLO
35

Con los datos obtenidos calculamos r
EJEMPLO
36
𝐫 =
𝐗 − 𝐗 𝐘 − 𝐘
(𝐧 − 𝟏)𝐒 𝐗 𝐒 𝐘
𝐫 =
900
9 9.1893658𝑥14.3372
r=0.759
¿Cómo se interpreta una correlación de 0.759?
Es positiva, por lo que se observa una relación directa entre el número
de llamadas de ventas y el número de computadoras vendidas
Esto confirma el razonamiento basado en el diagrama de dispersión.
El valor de 0.759 está muy cercano a 1.00, y por lo tanto se concluye
que la asociación es fuerte.

EJEMPLO
37
¿Recuerde que la gerente de ventas de la empresa
determinó que la correlación entre el número de llamadas
de ventas y el número de copiadoras vendidas era 0.759, lo
que indicaba una asociación fuerte entre ambas variables.
Sin embargo, en la muestra había sólo 10 vendedores.
¿Puede ser que la correlación entre la población sea 0?
Esto significaría que la correlación de 0.759 se debió a la
casualidad.
En este ejemplo, la población es todo el personal de ventas
de la empresa.

Formulación de la hipótesis
H0: ρ = 0
(la correlación entre la población es cero).
H1: ρ ≠ 0
(La correlación entre la población es diferente de
cero).
38
Ejemplo
PRUEBA DE HIPÓTESIS DE CORRELACIÓN

Método 1: El estadístico de prueba es t
39
DE CORRELACIÓN
donde μr denota el valor afirmado de la media
de los valores de r. Sea μr = 0 al probar la
hipótesis nula de ρ = 0.
𝒕 =
𝒓 𝒏 − 𝟐
𝟏 − 𝒓 𝟐
𝒕 =
𝟎.𝟕𝟓𝟗 𝟏𝟎−𝟐
𝟏−𝟎.𝟕𝟓𝟗 𝟐
=3.297

Utilice la tabla tα con n -2 grados de libertad
Para ubicar el valor crítico de 2.306, para gl 10- 2= 8.
y un α/2=0.025
40
DE CORRELACIÓN

41
Conclusión:.
DE CORRELACIÓN
la regla de decisión en este caso indica que si el valor
calculado de t se encuentra en el área entre 2.306 y 2.306
Si 3.297 > que el valor crítico de la tabla tα, se rechaza la
H0 y se concluye que existe una correlación lineal.
Esto indica a la gerente de ventas que hay una correlación entre
el número de llamadas de ventas y el número de copiadoras
vendidas en la población de vendedores, es decir en toda la
empresa

MODELO DE REGRESIÓN Y
ECUACIÓN DE REGRESIÓN

El término regresión fue utilizado por primera vez como un
concepto estadístico en 1877 por sir Francis Galton, quien
llevó a cabo un estudio que demostraba que la estatura de los
niños nacidos de padres altos tiende a retroceder o “regresar”
hacia la estatura media de la población.
INTRODUCCIÓN
Eligió la palabra regresión como el nombre
del proceso general de predecir una variable
(la estatura de los niños) a partir de otra (la
estatura del padre o de la madre).
Posteriormente, los estadísticos acuñaron el
término regresión para describir el proceso
mediante el cual se utilizan una variable para
predecir otra.
Sir Francis Galton
(Duddeston, 1822 - Haslemere,
1911) Antropólogo y geógrafo
inglés

En el análisis de regresión, se desarrolla una ecuación
de estimación, esto es, una fórmula matemática que
relaciona las variables conocidas con la variable
desconocida.
INTRODUCCIÓN
Luego de conocer el patrón de
esta relación, se puede aplicar
el análisis de correlación para
determinar el grado en el que
las variables se relacionan.
El análisis de correlación,
entonces, nos indica qué tan
bien la ecuación de estimación
describe realmente la relación.

El análisis de regresión es una técnica para investigar
y modelar la relación entre variables.
INTRODUCCIÓN
Aplicaciones de regresión
son numerosas y ocurren
en casi todos los campos,
incluyendo ingeniería, la
física, ciencias económicas,
ciencias biológicas y de la
salud, como también
ciencias sociales

OBJETIVO DEL MODELO DE
REGRESION SIMPLE
Explicar el comportamiento de una variable cuantitativa
de interés.
Y (consumo de gasolina de un auto hibrido, temperatura del
agua de mar) como función de otra variable cuantitativa X
observable (velocidad del auto en la ciudad, profundidad a
la que se observa la temperatura del agua).
Y = variable respuesta, endógena o dependiente
X = regresor, predictor, variable explicativa,
exógena o independiente
Se estudiará principalmente el modelo de regresión lineal
simple, en el que se expresa Y como función lineal de X.

EL MODELO
Diseño fijo y aleatorio
En el diseño aleatorio se toma una muestra (x1; y1); ….;
(xn; yn) de una población (X;Y ) donde X es una variable
aleatoria (los valores observados de X no están prefijados
de antemano).
(X; Y ) =(Estatura en cm, Peso en kg) de un estudiante
universitario elegido al azar.
(X; Y ) =(Nivel de un cierto contaminante, Mortalidad)
en una ciudad elegida al azar.
En este caso el modelo de regresión establece una
expresión para la función de regresión E(Yj)= x.

EL MODELO
Ejemplo 1: Se desea estudiar la relación que existe entre el
ancho X (en mm.) y la longitud Y (en mm.) de la concha de
abanico de las costas.
Se observan los datos:

EL MODELO
En el diseño fijo prefijamos unos valores x1;…. ; xn de la variable
X. Para cada xi tomamos una o varias observaciones de Y .
(X; Y ) =(profundidad en m. del agua marina, temperatura en oC del
agua a esa profundidad)
El modelo de regresión en este caso establece una expresión para
E(Yi), el valor esperado de Y cuando el valor prefijado de X es xi .
Si todos los xi están a la misma distancia entre sí se trata de un
diseño fijo equiespaciado.
El tratamiento estadístico de ambos diseños es parecido, aunque
la notación sea diferente. A menudo, por simplicidad, utilizaremos
la notación del diseño fijo aunque el diseño del experimento sea
aleatorio.

EL MODELO DE REGRESION LINEAL
SIMPLE
Diseño fijo: Diseño aleatorio:
Yi = β0 + β1 xi + Ui (Y/X = xi ) = β0 + β1 xi + Ui
donde β0 y β1 son respectivamente la ordenada en el
origen y la pendiente de la recta de regresión.
Ui es un termino de perturbación o error experimental.
Interpretación de los parámetros de la regresión:
β0 representa el valor medio de la respuesta Y cuando la
variable explicativa X vale 0.
β1 representa la variación que experimenta en media la
respuesta Y cuando la variable explicativa X aumenta en
una unidad.

HIPOTESIS BASICAS DEL MODELO:
a) E(Ui ) = 0, para cada i = 1; .....; n.
b) Var(Ui ) = σ2, para cada i = 1; .......; n.
c) E(Ui Uj ) = 0 , para todo i ≠ j .
d) Ui ~ Normal, para todo i .
Además en el diseño aleatorio supondremos que X1;
…..;Xn son independientes.
Hipótesis equivalentes para diseño fijo:
Y1; …..;Yn son observaciones independientes, con
Yi ~ N(β0 + β1 xi ; σ2):
Hipótesis equivalentes para diseño aleatorio:
(X1;Y1); ….; (Xn;Yn) son independientes, con
Y /X = xi ~ N(β0 + β1 xi ; σ2)

¿ CÓMO SE ANALIZA UN MODELO DE
REGRESIÓN?
Para analizar un modelo de
regresión se pueden establecer
básicamente dos pasos.
Paso 1. Estimar los parámetros del
modelo de regresión. Este proceso
es llamado ajuste del modelo a los
datos.
Paso 2. El siguiente paso de un
análisis de regresión es chequear
que tan bueno es el modelo
ajustado. El resultado de este
chequeo puede indicar si el modelo
es razonable o si el ajuste original
debe ser modificado.
52Ing. William león Velásquez

ESTIMACIÓN DE
PARÁMETROS POR
MÍNIMOS CUADRADOS

54
INTRODUCCIÓN
Se estudiará la estimación de parámetros para el
modelo de regresión lineal simple.
Es decir, un modelo con un solo regresor X que tiene
una relación con una respuesta Y y que es una línea
recta.
El modelo lineal es dado por
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

55
INTRODUCCIÓN
Donde
Yi es la i esima observación de la variable aleatoria
dependiente Y.
Xi es la i esima observación de la variable fija dependiente X
βo es el intercepto y es una constante (parámetro)
β1 es llamado la pendiente y es una constante (parámetro)
ε es la componente aleatoria error
Para ε se hacen los siguientes supuestos:
 Los errores tienen media cero
 Los errores tienen varianza igual pero desconocida .
 Los errores no son correlacionados.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

56
INTRODUCCIÓN
La no correlación de los errores significa que el valor de
un error no depende del valor de cualquier otro error.
Es de tener en cuenta que:
1. La variable regresora X es la controlada por el
investigador y medida con un error despreciable.
2. La variable respuesta Y es aleatoria. Esto es, existe
una distribución de probabilidad para Y en cada
posible valor de X
La media de la distribución es
E(Y/X) = βo + β1 X
y la varianza es
V(Y/X)= V( βo + β1 X + ε ) = σ2

57
OBTENCIÓN DE LOS DATOS
Lo primero que se debe hacer
antes de recopilar los datos es
identificar la variable dependiente y
la variable independiente. seguido
esto se registran los pares de
datos ya sea por medio de:
 Experimentos controlados
diseñado específicamente para
obtener los datos o
 Registros históricos existentes.

58
EJEMPLO DE EXPERIMENTOS
CONTROLADOS Y NO CONTROLADOS
Ejemplo 1
Se realizó un experimento el efecto de
incremento de la temperatura en la
efectividad de un antibiótico.
Se almacenaron tres porciones de una
onza del antibiótico durante el mismo
lapso a cada una de las siguientes
temperaturas: 30º 50º 70º 90º.
Las lecturas de la efectividad observadas a la temperatura del
periodo experimental fueron:
Lecturas de la efectividad:
38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21
Temperatura: 30º 50º 70º 90º

59
EJEMPLO DE EXPERIMENTOS CONTROLADOS
Y NO CONTROLADOS
Ejemplo 2
Los experimentos diseñados para medir valores LC50 en
la investigación de los efectos de cierto producto tóxico
en peces se efectúan con dos métodos diferentes:
Método 1: el agua fluye continuamente a través de los
tanques de laboratorio dinámico.
Método 2: condiciones de agua en reposo.
A fin de establecer los criterios para sustancias tóxicas, la Agencia para la
protección ambiental (APA) pretende ajustar todos los resultados a la condición
dinámica. Por lo que se requiere de un modelo para relacionar los dos tipos de
observaciones. Las observaciones acerca de ciertos productos tóxicos en ambas
condiciones, estáticas y dinámica, dieron los siguientes resultados (las mediciones
están en partes por millón, ppm).
Producto tóxico 1 2 3 4 5 6 7 8 9 10
CL50 dinámico, 23 22.3 9.4 9.7 0.15 0.28 0.75 0.51 28 0.39
CL50 estático, 39 37.5 22.2 17.5 0.64 0.45 2.62 2.36 32 0.77

60
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
EJEMPLO 1
Se hace un estudio para saber si existe
relación con el promedio de las notas
obtenidas en la universidad con el sueldo
que ganan después de dos años de
egresados.
Con la finalidad de estimar el sueldo que
ganará, teniendo como información su
promedio obtenido.
Se ubican a nueve egresados y se recopila
la siguiente información
Egresado 1 2 3 4 5 6 7 8 9
Promedio
obtenido 16 12 13 8 12 13 10 9 14
Sueldo
actual 3100 2500 2500 1900 2200 2800 1600 2200 2600

61
Para el análisis de una situación de relación entre dos variables se
debe:
1. Identificar la variable independendiente y la variable
dependiente:
En este caso la variable dependiente es la sueldo actual (y) y
la variable independiente es promedio obtenido en al
universidad (x ).
2. Determinar si existe una relación de dependencia
razonable.
En la situación presentada puede observarse que en la realidad
estas dos características (sueldo actual y promedio obtenido)
presentan una relación lógica. Se va ha mostrar gráficamente
para verificar.

62
Para determinar de manera inicial la relación lineal entre
las dos variables se debe elaborar un diagrama de
dispersión, como el que aparece en la figura
De acuerdo al
gráfico de
dispersión se
puede asumir que
existe una relación
lineal y se
requiere la línea
recta que mejor se
ajuste a los datos
experimentales
0
500
1000
1500
2000
2500
3000
3500
0 5 10 15 20
Sueldoactual
Promedio obtenido
y
Lineal (y)

63
3. Determinar el modelo estadístico:
Como el sueldo actual parece aumentar a medida que
aumenta el promedio obtenido entonces se debe sugerir
un modelo lineal dado por:
Donde
yi es el valor observado en este caso la sueldo actual para un
valor de promedio obtenido xi,
bo corresponde al intercepto de con la línea de regresión y
b1 representa el valor medio de sueldo actual para un valor
determinado de promedio obtenido llamada pendiente de la
línea de regresión o coeficiente de regresión,
xi es el valor de los promedios obtenidos, que se asume, es
medida sin error. Y
Y = b0 + b1X

64
4. Determinar la ecuación de regresión o
modelo ajustado:
El modelo predicho o ecuación de regresión
ajustada es una expresión como la siguiente
Para obtenerla se debe encontrar los valores
estimados de los parámetros: 𝑦 .
Éstos se obtienen aplicando el método de
mínimos cuadrados.
yi = b0 + b1xi

65
El método de mínimos cuadrado busca cual es la recta
que más se acerca a los puntos.
Busca la recta que haga que la distancia entre el valor
real y el valor obtenido por la recta ajustada sea la más
pequeña
La suma de todas estas distancias simbolizadas como:
sea la más pequeña.
Como la mejor recta está determinada por bo y b1 entonces
matemáticamente, se desea escoger los valores para bo y
b1 que minimicen la suma de cuadrados del error
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 = 𝑆𝐶 𝐸𝑟𝑟𝑜𝑟 = 𝑦𝑖 − 𝑦𝑖
2
𝑘
𝑖=1

66
Los estadísticos básicos
necesarios para la regresión
lineal y la correlación son:
x y
16 3100
12 2500
13 2500
8 1900
12 2200
13 2800
10 1600
9 2200
14 2600
11.889 2377.778
SX SY
0.892 161.804
𝑋 𝑌

67
x y
16 3100 16.901 521604.938 2969.136
12 2500 0.012 14938.272 13.580
13 2500 1.235 14938.272 135.802
8 1900 15.123 228271.605 1858.025
12 2200 0.012 31604.938 -19.753
13 2800 1.235 178271.605 469.136
10 1600 3.568 604938.272 1469.136
9 2200 8.346 31604.938 513.580
14 2600 4.457 49382.716 469.136
11.889 2377.778 50.889 1675555.556 7877.778
SSx SSy SPXY
SX SY SXY
0.892 161.804 984.722
𝑋 𝑌
(X - 𝑋)2 (Y - 𝑌)2 (X - 𝑋) (Y - 𝑌)
∑(X - 𝑋)2
∑(Y - 𝑌)2 ∑(X - 𝑋) (Y - 𝑌)

𝑏1=
7877.778
50.889
= 154.8035
𝑏0= 2377.778 – 154.80.5 (11.889)= 537.336
𝑌= 537.336 + 154.8035 X
Y = b0 + b1X

69
El valor de la pendiente significa que a medida que
aumente en una unidad el promedio obtenido, el sueldo
actual promedio se incrementará en 154.8035 unidades.
𝑌= 537.336 + 154.8035 X
Finalmente la ecuación resultante es:

• Se ha realizado un estudio sobre el efecto de la
temperatura en el pH de la leche descremada.
• La variable independiente será la temperatura en grado
Celsius (X) bajo diferentes condiciones experimentales
• Y la variable dependiente será el pH de la leche (Y).
• Los datos recopilados son:
Temperatura
(x)
4 4 24 24 25 38 38 40
pH (y) 6,9 6,8 6,6 6,7 6,7 6,6 6,6 6,5
Temperatura
(x)
45 50 55 56 60 67 70 78
pH (y) 6,5 6,5 6,4 6,4 6,4 6,3 6,3 6,3
  01,683y360565,4369x5,104y678 2
i
2
ii iii xyx
EJEMPLO 2

Temperatura
806040200
PH
7.0
6.9
6.8
6.7
6.6
6.5
6.4
6.3
6.2
a) Encontrar la recta de regresión de mínimos
cuadrados.
EJEMPLO 2

Sol: Para encontrar la recta de regresión tenemos que calcular
los coeficientes:
    
   
008,0
117212
939
6783605616
5,1046785,436916
2





b
3394714278,053125,6
16
678
)0080111251,0(
16
5,104
a
8707,6a
Por lo tanto la recta de regresión es:
pHleche = 6.871 – 0.008 Temperatura
EJEMPLO 2

FIN
wjleonv@yahoo.com

Análisis de Correlacion Lineal

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Análisis de Correlacion Lineal

Similar a Análisis de Correlacion Lineal (20)

Más de Universidad Nacional Mayor de San Marcos

Más de Universidad Nacional Mayor de San Marcos (14)

Último

Último (20)

Análisis de Correlacion Lineal