1. Estadística Correlación y regresión lineal
ANALISIS DE CORRELACION
(Simple)
ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado para medir
la intensidad de la relación (correlación) entre dos variables.
El principal objetivo del análisis de correlación es determinar que tan intensa es la relación
entre dos variables. Una medida de esta relación es el coeficiente de correlación ( r ) el cual puede
tomar valores en una escala desde –1 hasta +1 inclusive como se indica enseguida.
INTENS MODERA DEBIL DEBIL MODERADA INTENSA
-1.00 -0.50 0 +0.50 +1.00
correlación negativa (C.N.) correlación positiva (C.P.)
COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearson
aproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relación
entre dos conjuntos de variables, por lo cual también se le conoce como r de Pearson.
Si r toma los valores de –1 o de +1 indica correlación perfecta como se indica en los
siguientes diagramas de dispersión.
(Gráfica que indica la relación entre las dos variables).
y y
r = -1 r = +1
x x
Correlación Negativa Prefecta Correlación Positiva Perfecta
Si r = 0 indica que no existe ninguna correlación entre las dos variables.
El coeficiente de correlación se calcula mediante la siguiente fórmula:
n (∑ ) −( ∑ )(∑ )
xy x y
r =
[ n (∑ ² ) −(∑ )²][n(∑ ² ) −(∑ )²]
x x y y
Donde:
n ⇒ es el número de pares de observaciones (x, y)
x ⇒ valores de la variable independiente x.
y ⇒ valores de la variable dependiente y.
EJEMPLO:
.
2. Estadística Correlación y regresión lineal
El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para
el área de ventas. Ha diseñado una prueba que ayude a seleccionar los mejores
aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de
predicción de las ventas semanales, eligió al azar cinco vendedores experimentados y
aplicó la prueba a cada uno (esta muestra es pequeña para fines didácticos, en la práctica
debe tomarse una muestra mucho mayor).
Los resultados obtenidos se muestran en la tabla siguiente:
VENDEDOR PUNTUACIÓN DE PRUEBA VENTAS SEMANALES
SR. MARTÍN 4 $ 5,000
SR. JOSE 7 12,000
SRA. MARIA 3 4,000
SR. JUAN 6 8,000
SRA. SILVIA 10 11,000
Se piensan entonces que las ventas semanales dependen de la puntuación de prueba por
lo cual se toman las ventas como variable dependiente ( y ) y la puntuación de prueba como
variable independiente ( x ).
El diagrama de dispersión de los datos anteriores se muestra a continuación:
Y
Ventas 14
Semanales 12
10
8
6
4
2
1 2 3 4 5 6 7 8 9 10 11 x
puntuación de prueba
Utilizando los datos originales se construye lo siguiente:
Puntuación de Ventas
Prueba ( X ) Semanales ( Y ) X² XY Y²
4 5 16 20 25
7 12 49 84 144
3 4 9 12 16
6 8 36 48 64
10 11 100 110 121
ΣX = 30 ΣY = 40 ΣX² = 210 ΣXY = 274 ΣY² = 370
El coeficiente de correlación es 0.88 calculado por:
∑ n( ∑ ∑
xy ) −( x )( y)
. r = [n(
∑x ² ) −(∑ )²][n(∑ ² ) −(∑ )²]
x y y
5( 274 ) – ( 30 )( 40 ) 170 .
= √ [ 5 ( 210 ) – ( 30 )² ] [ 5 ( 370 ) – ( 40 )² ] =√ (150)(250) = 0.88
Lo cual indica una relación muy intensa.
.
3. Estadística Correlación y regresión lineal
Coeficiente de determinación: Es la proporción de la variación total en la variable
dependiente (y) que se explica por, o se debe a, la variación total en la variable dependiente (x).
COEFICIENTE DE DETERMINACIÓN = (COEFICIENTE DE CORRELACIÓN)² = r²
Para el ejemplo anterior el coeficiente de correlación es = ( 0.88 )² = 0.77 e indica que el
77% de la variación total en las ventas semanales se explica por, o se debe a, la variación en las
puntuaciones de prueba.
Coeficiente de no-determinación: Es el complemento del coeficiente de determinación.
Para el ejemplo el coeficiente de no-determinación = 1 - r² = 1 - 0.77 = 0.23. Esto significa que
23% de la variación total en las ventas semanales no se debe a la variación en las puntuaciones de
prueba.
Un coeficiente de correlación de 0.80 da un coeficiente de determinación de 0.64. Algunos
estadígrafos preferirían utilizar la medida más conservadora (0.64), considerando que el coeficiente
de correlación de 0.80 puede exagerar la relación entre los dos conjuntos de variables.
Ejercicios Propuestos
Texto Páginas Ejercicios
Manson y Lind 500...502 1....4
ANALISIS DE REGRERSION LINEAL
.
4. Estadística Correlación y regresión lineal
(SIMPLE)
Se define a la regresión lineal como una relación fundamental entre dos o más variables
correlacionadas y se usa para pronosticar una variable con base en la otra. Por lo general la
relación se obtiene de dos datos observados. En la regresión lineal la relación entre variables
forma una línea directa.
La línea de regresión lineal es de la forma y’ = a + bx, donde y’ es la variable dependiente
que queremos resolver; a es la intersección de y’; b es la dependiente y x es la variable
independiente (en el análisis de series de tiempo, x representa unidades de tiempo).
La regresión lineal es útil para pronósticos a largo plazo de sucesos importantes y para la
planificación agregada. Por ejemplo, sería muy útil para pronosticar la demanda de familias de
productos. Aunque es probable que durante un periodo varié bastante la demanda para un
producto específico de la familia, la demanda para toda la familia es sorpresivamente regular.
La restricción principal para usar los pronósticos de regresión lineal es que,
supuestamente, los datos pasados y las proyecciones caen sobre una línea recta. Aunque esto
limita su aplicación, algunas veces, si usamos un periodo más breve puede usarse el análisis de
regresión lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un período de diez
o veinte años la tendencia se pierde entre todos los datos y será baja la proyección para el año
siguiente. Sin embargo, si sólo usamos los últimos años, el pronóstico será más preciso. Es una
parte del procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con los
datos.
La regresión lineal se usa tanto para pronósticos de series de tiempo como para
pronósticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical de
un gráfico) cambia como resultado del tiempo (el eje horizontal en el gráfico), se trata de un
análisis de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamos
ante una relación causal (como el incremento en el número de muertes por cáncer en el pulmón
con respecto a las personas que fuman).
METODO DE MINIMOS CUADRADOS
El método de mínimos cuadrados trata de ajustar a la línea a los datos que minimicen la
suma de los cuadrados de la distancia vertical entre cada punto de datos y su punto
correspondiente a la línea.
La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a
continuación:
y’ = a + bx
Donde:
y’ ⇒ variable dependiente calculada por la ecuación, indica el pronóstico para el período x.
x ⇒ periodo de tiempo.
a ⇒ es el valor de y’ cuando x es = 0.
b ⇒ es la pendiente de la línea.
.
5. Estadística Correlación y regresión lineal
∑y −b∑x n( ∑xy ) − ∑x ∑y
b=
n∑x ² − ( ∑x )²
a=
n
y ⇒ Representa el valor de la variable correspondiente del periodo x.
EJEMPLO 1.
Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos
anteriores son los que se indican a continuación.
Periodo (x) Ventas (y) (xy) (x²) Y’
1 600 600 1 801.3
2 1550 3100 4 1160.9
3 1500 4500 9 1520.5
4 1500 6000 16 18880.1
5 2400 12000 25 2239.7
6 3100 18600 36 2599.4
7 2600 18200 49 2959.0
8 2900 23200 64 3318.6
9 3800 34200 81 3678.2
10 4500 45000 100 4037.8
11 4000 44000 121 4397.4
12 4900 58800 144 4757.1
∑x = 78 ∑y = 33,350 ∑ = 268,200 ∑ = 650
Calculando la pendiente:
12( 268,200) −78(33,350) 3218,400 −2601300 617,100
b = = = =359.6153
12(650) −(78)² 7800 −6084 1716
Por lo tanto el valor de a será:
33,350 −359.6153(78)
a = = 441.66
12
El pronóstico para el periodo 13 será:
y’13 = a +bx = 441.66 + 359.6153 (13) = 5,116
y para el periodo 14 y 15:
y’14 = 441.66 + 359.6153 (14) = 5,476
y’15 = 441.66 + 359.6153 (15) = 5,836
.
6. Estadística Correlación y regresión lineal
V $5000
E 4000
Pronósticos de Venta
N 3000
T 2000
A 1000
S 500
Línea de Regresión
a
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
PERIODO ( X )
El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datos
anteriores es:
n
∑( y i − y 'i ) ²
Sy ' = i =1
=363.9
n −2
Una ecuación más fácil de calcular para el error estándar es:
Sy ' =
∑ ² −a ∑ −b∑
y y xy
n −2
EJEMPLO 2.
Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores,
las sumas y otros datos básicos para despejar o evaluar a y b aparecen en la tabla siguiente:
.
7. Estadística Correlación y regresión lineal
Ventas
Puntuación semanales
de prueba. (niveles de
dólares)
Vendedor X Y X² XY Y²
Sr. Amber 4 5 16 20 25
Sr. Archer 7 12 49 84 144
Sra. Smith 3 4 9 12 16
Sr. Malcolm 6 8 36 48 64
Sra. Goodwin 10 11 100 110 121
Total 30 40 210 274 370
¿Cuál es la ecuación de regresión?
SOLUCION:
Las sumas de la tabla anterior se utilizan para ilustrar los cálculos para a y b en la ecuación
de regresión:
n( ∑xy ) − ∑x ∑y 5( 274 ) −(30)(40)
b= = = 1.133
n∑x ² − ( ∑x )² 5(210) −(30)²
a = Y – bx = (40/5) – 1.133(30/5) = 8 – 6.798 = 1.202
Y’ = 1.202 + 1.133 (EN MILES DE DÓLARES).
Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares). Las
ventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en la puerta del director
de personal es $8000, que se obtiene por y’ = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000
(en miles de dólares).
EJERCICIO:
Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año siguiente.
E F M A M J J A S O N D E F M A M J J A S O N D E F M
6 5 6 8 8 6 7 7 6 7 7 6 7 8 9 7 7 7 6 8 8 8 9 10
8 5 3 2 7 3 7 8 2 8 4 2 4 0 6 4 1 1 6 6 5 9 1 3
.