Regresión lineal y
correlación
Análisis de correlación
 El análisis de correlación es un grupo de técnicas
estadísticas usadas para medir la fuerza de la
asociación entre dos variables.
 Un diagrama de dispersión es una gráfica que
representa la relación entre dos variables.
 La variable dependiente es la variable que se predice o
calcula.
 La variable independiente proporciona las bases para el
cálculo. Es la variable de predicción.
El coeficiente de correlación, r
El coeficiente de correlación (r) es una medida de la
intensidad de la relación lineal entre dos variables.
 Requiere datos de nivel de razón.
 Puede tomar cualquier valor de -1.00 a 1.00.
 Los valores de -1.00 o 1.00 indican la correlación
perfecta y fuerte.
 Los valores cerca de 0.0 indican la correlación débil.
 Los valores negativos indican una relación inversa y los
valores positivos indican una relación directa.
Correlación negativa perfecta
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
Correlación positiva perfecta
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Y
Correlación cero
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
Y
X
Correlación positiva fuerte
Y
X
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
Fórmula para r
 Calculamos el coeficiente de correlación de las
fórmulas siguientes.
[ ] ( ) ( )[ ]2222
)()(
))(()(
)1(
))((
YYnXXn
YXXYn
ssn
YYXX
r
yx
Σ−ΣΣ−Σ
ΣΣ−Σ
=
−
−−Σ
=
Coeficiente de determinación
El coeficiente de determinación (r2
) es la proporción de la
variación total en la variable dependiente (y) que se
explica por la variación en la variable independiente (x).
 Es el cuadrado del coeficiente de correlación.
 Su rango es de 0 a 1.
 No da ninguna información sobre la dirección de la
relación entre las variables.
Ejemplo 1
 Juan Escobedo, presidente de la sociedad de alumnos
de la Universidad de Toledo, se ocupa de estudiar el
costo de los libros de texto. Él cree que hay una relación
entre el número de páginas en el texto y el precio de
venta del libro. Para proporcionar una prueba,
selecciona una muestra de ocho libros de texto
actualmente en venta en la librería. Dibuje un diagrama
de dispersión. Compruebe el coeficiente de correlación.
Libro Páginas Precio ($)
 Intr. a la Historia 500 84
 Álgebra 700 75
 Intr.a la Psicología 800 99
 Intr. a la Sociología 600 72
 Mercadotecnia 400 69
 Intr. a la Biología 500 81
 Fund. de Jazz 600 63
 Intr.a la Enfermería 800 93
Ejemplo 1 (Continuación)
400 500 600 700 800
60
70
80
90
100
Page
Scatter Diagram of Number of Pages and Selling Price of Text
Price ($)
Ejemplo 1 (Continuación)
Libro Páginas Precio ($)
X Y XY X2
Y2
Intr. a la Historia 500 84 42,000 250,000 7,056
Álgebra 700 75 52,500 490,000 5,625
Intr. a la Psicología 800 99 79,200 640,000 9,801
Intr. a la Sociología 600 72 43,200 360,000 5,184
Mercadotecnia 400 69 27,600 160,000 4,761
Intr. a la Biología 500 81 40,500 250,000 6,561
Fund. de Jazz 600 63 37,800 360,000 3,969
Intr. a la Enfermería 800 93 74,400 640,000 8,649
Total 4,900 636 397,200 3,150,000 51,606
Ejemplo 1 (Continuación)
[ ] ( ) ( )[ ]
[ ][ ]
614.0
)636()606,51(8)900,4(000,150,3(8
)636)(900,4()200,397(8
)()(
))(()(
22
2222
=
−−
−
=
Σ−ΣΣ−Σ
ΣΣ−Σ
=
YYnXXn
YXXYn
r
Ejemplo 1 (Continuación)
 La correlación entre el número de páginas y el precio
de venta del libro es 0.614. Esto indica una asociación
moderada entre las variables. Pruebe la hipótesis de
que no hay correlación en la población. Utilice un nivel
de la significancia del .02.
Paso 1: H0: La correlación en la población es cero.
H1: La correlación en la población no es cero.
Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n – 2 = 8 – 2 = 6.
Ejemplo 1 (Continuación)
Paso 3: Para encontrar el valor del estadístico de
prueba, utilizamos:
Paso 4: H0 no se rechaza. No podemos rechazar
la hipótesis de que no hay correlación en la
población. La cantidad de asociación puede
ser debido al azar.
905.1
)614(.1
28614.
1
2
22
=
−
−
=
−
−
=
r
nr
t
Ejemplo 1 (Continuación)
Análisis de regresión
 En análisis de regresión utilizamos la variable
independiente (X) para estimar la variable dependiente
(Y).
 La relación entre las variables es lineal.
 Ambas variables deben ser por lo menos escala del
intervalo.
 El criterio de mínimos cuadrados se utiliza para
determinar la ecuación. Este es el término (Y – Y')2
Análisis de regresión
La ecuación de regresión es: Y' = a + bX, donde:
 Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.
 a es la ordenada de la intersección con el eje Y cuando
X = 0. Es el valor estimado de Y cuando X=0
 b es la pendiente de la recta, o el cambio promedio en Y'
para cada cambio de una unidad en X.
 el principio de mínimos cuadrados se utiliza para
obtener a y b.
Análisis de regresión
 El principio de mínimos cuadrados se utiliza para
obtener a y b. Las ecuaciones para determinar a y b
son:
b
n XY X Y
n X X
a
Y
n
b
X
n
=
−
−
= −
( ) ( )( )
( ) ( )
Σ Σ Σ
Σ Σ
Σ Σ
2 2
 Desarrolle una ecuación de regresión para la
información dada en el Ejemplo 1 que se puede utilizar
para estimar el precio de venta basado en el número de
páginas.
05143.
)900,4()000,150,3(8
)636)(900,4()200,397(8
2
=
−
−
=b
0.48
8
900,4
05143.0
8
636
=−=a
Ejemplo 2 (Continuación)
La ecuación de regresión es:
Y' = 48.0 + .05143X
 La ecuación cruza al eje Y en $48. Un libro sin las
páginas costaría $48.
 La pendiente de la línea es .05143. El costo de cada
página adicional es de cinco céntimos.
 El signo del valor de b y el signo del valor de r serán
siempre iguales.
Ejemplo 2 (Continuación)
Podemos utilizar la ecuación de regresión para
estimar valores de Y.
 El precio de venta estimado de un libro de 800 páginas
es $89.14, encontrado por
14.89)800(05143.00.48
05143.00.48
=+=
+=′ XY
Ejemplo 2 (Continuación)
El error estándar de estimación
 El error estándar de estimación mide la dispersión de
los valores observados alrededor de la línea de
regresión.
 Las fórmulas que se utilizan para comprobar el error
estándar son:
2
2
)(
2
2
.
−
Σ−Σ−Σ
=
−
′−Σ
=
n
XYbYaY
n
YY
s xy
Encuentre el error estándar de estimación para el
problema que implica el número de páginas en un libro
y el precio de venta.
408.10
28
)200,397(05143.0)636(48606,51
2
2
.
=
−
−−
=
−
Σ−Σ−Σ
=
n
XYbYaY
s xy
Ejemplo 3
Suposiciones subyacentes en el
análisis de regresión lineal
 Para cada valor de X, hay un grupo de valores de Y, y
estos valores de Y se distribuyen normalmente.
 Las medias de estas distribuciones normales de valores
Y, caen todas en la recta de regresión.
 Las desviaciones estándar de estas distribuciones
normales son iguales.
 Los valores de Y son estadísticamente
independendientes. Esto significa que en la selección de
una muestra, los valores de Y elegidos para un valor
particular de X no dependen de los valores de Y de
ningún otro valor de X.
Intervalo de confianza
 El intervalo de confianza para el valor medio de Y para
un valor dado de X está dado por:
31.1514.89
8
)4900(
000,150,3
)5.612800(
8
1
)408.10(447.214.89
)(
)(1
2
2
2
2
2
.
±
−
−
+±
Σ
−Σ
−
+±′
n
X
X
XX
n
tsY xy
Intervalo de predicción
 El intervalo de predicción para un valor individual de Y
para un valor dado de X se da por:
72.2914.89
8
)4900(
000,150,3
)5.612800(
8
1
1)408.10(447.214.89
)(
)(1
1
2
2
2
2
2
.
±
−
−
++±
Σ
−Σ
−
++±′
n
X
X
XX
n
tsY xy
Resumir los resultados:
 El precio de venta estimado para un libro con 800
páginas es $89.14.
 El error estándar de estimación es $10.41.
 El intervalo de confianza de 95% para todos los libros con
800 páginas es $89.14+-$15.31. Esto significa que los
límites están entre $73.83 y $104.45.
 El intervalo de predicción de 95% para un libro particular
con 800 páginas es $89.14+-$29.72. Esto significa que
los límites están entre $59.42 y $118.86.
 Estos resultados aparecen en la siguiente salida de
MINITAB.
Ejemplo 3 (Continuación)
Regression Analysis: Price versus Pages
The regression equation is
Price = 48.0 + 0.0514 Pages
Predictor Coef SE Coef T P
Constant 48.00 16.94 2.83 0.030
Pages 0.05143 0.02700 1.90 0.105
S = 10.41 R-Sq = 37.7% R-Sq(adj) = 27.3%
Analysis of Variance
Source DF SS MS F P
Regression 1 393.4 393.4 3.63 0.105
Residual Error 6 650.6 108.4
Total 7 1044.0
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 89.14 6.26 ( 73.82, 104.46) ( 59.41, 118.88)
Ejemplo 3 (Continuación)
Cinco niños de 2, 3, 5, 7 y 8 años de edad
pesan, respectivamente, 14, 20, 32, 42 y
44 kilos.
Hallar la ecuación de la recta de
regresión de la edad sobre el peso.
¿Cuál sería el peso aproximado de un niño
de seis años?
30
 La tabla siguiente nos da las notas del test de aptitud (X)
dadas a seis dependientes a prueba y ventas del primer
mes de prueba (Y) en cientos de euros.
 X 25 42 33 54 29 36
 Y 42 72 50 90 45 48
Hallar el coeficiente de correlación e interpretar el
resultado obtenido.
Calcular la recta de regresión de Y sobre X. Predecir las
ventas de un vendedor que obtenga 47 en el test.
31
Un centro comercial sabe en función de la
distancia, en kilómetros, a la que se sitúe de un
núcleo de población, acuden los clientes, en
cientos, que figuran en la tabla:
 Nº de Clientes (X) 8 7 6 4 2 1
 Distancia (Y) 15 19 25 23 34 40
Calcular el coeficiente de correlación lineal.
Si el centro comercial se sitúa a 2 km, ¿cuántos
clientes puede esperar?
Si desea recibir a 5 clientes, ¿a qué distancia del
núcleo de población debe situarse? 32
REFERENCIAS
 http://renanquispellanos.com/recursos/CURSOECONOMETRIA/CLASE%20N
%C2%BA1%20Y%20N%C2%BA2_ANALISIS%20DE%20REGRESION
%20APLICADO.ppt
 http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin
 http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.
 http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin
 http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.
 http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin
 http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.
 http://www.vitutor.com/estadistica/bi/ejercicios_regresion.html 33

6 regresion y correlación

  • 1.
  • 2.
    Análisis de correlación El análisis de correlación es un grupo de técnicas estadísticas usadas para medir la fuerza de la asociación entre dos variables.  Un diagrama de dispersión es una gráfica que representa la relación entre dos variables.  La variable dependiente es la variable que se predice o calcula.  La variable independiente proporciona las bases para el cálculo. Es la variable de predicción.
  • 3.
    El coeficiente decorrelación, r El coeficiente de correlación (r) es una medida de la intensidad de la relación lineal entre dos variables.  Requiere datos de nivel de razón.  Puede tomar cualquier valor de -1.00 a 1.00.  Los valores de -1.00 o 1.00 indican la correlación perfecta y fuerte.  Los valores cerca de 0.0 indican la correlación débil.  Los valores negativos indican una relación inversa y los valores positivos indican una relación directa.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
    Fórmula para r Calculamos el coeficiente de correlación de las fórmulas siguientes. [ ] ( ) ( )[ ]2222 )()( ))(()( )1( ))(( YYnXXn YXXYn ssn YYXX r yx Σ−ΣΣ−Σ ΣΣ−Σ = − −−Σ =
  • 9.
    Coeficiente de determinación Elcoeficiente de determinación (r2 ) es la proporción de la variación total en la variable dependiente (y) que se explica por la variación en la variable independiente (x).  Es el cuadrado del coeficiente de correlación.  Su rango es de 0 a 1.  No da ninguna información sobre la dirección de la relación entre las variables.
  • 10.
    Ejemplo 1  JuanEscobedo, presidente de la sociedad de alumnos de la Universidad de Toledo, se ocupa de estudiar el costo de los libros de texto. Él cree que hay una relación entre el número de páginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente en venta en la librería. Dibuje un diagrama de dispersión. Compruebe el coeficiente de correlación.
  • 11.
    Libro Páginas Precio($)  Intr. a la Historia 500 84  Álgebra 700 75  Intr.a la Psicología 800 99  Intr. a la Sociología 600 72  Mercadotecnia 400 69  Intr. a la Biología 500 81  Fund. de Jazz 600 63  Intr.a la Enfermería 800 93 Ejemplo 1 (Continuación)
  • 12.
    400 500 600700 800 60 70 80 90 100 Page Scatter Diagram of Number of Pages and Selling Price of Text Price ($) Ejemplo 1 (Continuación)
  • 13.
    Libro Páginas Precio($) X Y XY X2 Y2 Intr. a la Historia 500 84 42,000 250,000 7,056 Álgebra 700 75 52,500 490,000 5,625 Intr. a la Psicología 800 99 79,200 640,000 9,801 Intr. a la Sociología 600 72 43,200 360,000 5,184 Mercadotecnia 400 69 27,600 160,000 4,761 Intr. a la Biología 500 81 40,500 250,000 6,561 Fund. de Jazz 600 63 37,800 360,000 3,969 Intr. a la Enfermería 800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606 Ejemplo 1 (Continuación)
  • 14.
    [ ] () ( )[ ] [ ][ ] 614.0 )636()606,51(8)900,4(000,150,3(8 )636)(900,4()200,397(8 )()( ))(()( 22 2222 = −− − = Σ−ΣΣ−Σ ΣΣ−Σ = YYnXXn YXXYn r Ejemplo 1 (Continuación)
  • 15.
     La correlaciónentre el número de páginas y el precio de venta del libro es 0.614. Esto indica una asociación moderada entre las variables. Pruebe la hipótesis de que no hay correlación en la población. Utilice un nivel de la significancia del .02. Paso 1: H0: La correlación en la población es cero. H1: La correlación en la población no es cero. Paso 2: H0 es rechazada si t>3.143 o si t<-3.143. Hay 6 grados de libertad, encontrados cerca. n – 2 = 8 – 2 = 6. Ejemplo 1 (Continuación)
  • 16.
    Paso 3: Paraencontrar el valor del estadístico de prueba, utilizamos: Paso 4: H0 no se rechaza. No podemos rechazar la hipótesis de que no hay correlación en la población. La cantidad de asociación puede ser debido al azar. 905.1 )614(.1 28614. 1 2 22 = − − = − − = r nr t Ejemplo 1 (Continuación)
  • 17.
    Análisis de regresión En análisis de regresión utilizamos la variable independiente (X) para estimar la variable dependiente (Y).  La relación entre las variables es lineal.  Ambas variables deben ser por lo menos escala del intervalo.  El criterio de mínimos cuadrados se utiliza para determinar la ecuación. Este es el término (Y – Y')2
  • 18.
    Análisis de regresión Laecuación de regresión es: Y' = a + bX, donde:  Y' es el valor pronosticado de la variable Y para un valor seleccionado de X.  a es la ordenada de la intersección con el eje Y cuando X = 0. Es el valor estimado de Y cuando X=0  b es la pendiente de la recta, o el cambio promedio en Y' para cada cambio de una unidad en X.  el principio de mínimos cuadrados se utiliza para obtener a y b.
  • 19.
    Análisis de regresión El principio de mínimos cuadrados se utiliza para obtener a y b. Las ecuaciones para determinar a y b son: b n XY X Y n X X a Y n b X n = − − = − ( ) ( )( ) ( ) ( ) Σ Σ Σ Σ Σ Σ Σ 2 2
  • 20.
     Desarrolle unaecuación de regresión para la información dada en el Ejemplo 1 que se puede utilizar para estimar el precio de venta basado en el número de páginas. 05143. )900,4()000,150,3(8 )636)(900,4()200,397(8 2 = − − =b 0.48 8 900,4 05143.0 8 636 =−=a Ejemplo 2 (Continuación)
  • 21.
    La ecuación deregresión es: Y' = 48.0 + .05143X  La ecuación cruza al eje Y en $48. Un libro sin las páginas costaría $48.  La pendiente de la línea es .05143. El costo de cada página adicional es de cinco céntimos.  El signo del valor de b y el signo del valor de r serán siempre iguales. Ejemplo 2 (Continuación)
  • 22.
    Podemos utilizar laecuación de regresión para estimar valores de Y.  El precio de venta estimado de un libro de 800 páginas es $89.14, encontrado por 14.89)800(05143.00.48 05143.00.48 =+= +=′ XY Ejemplo 2 (Continuación)
  • 23.
    El error estándarde estimación  El error estándar de estimación mide la dispersión de los valores observados alrededor de la línea de regresión.  Las fórmulas que se utilizan para comprobar el error estándar son: 2 2 )( 2 2 . − Σ−Σ−Σ = − ′−Σ = n XYbYaY n YY s xy
  • 24.
    Encuentre el errorestándar de estimación para el problema que implica el número de páginas en un libro y el precio de venta. 408.10 28 )200,397(05143.0)636(48606,51 2 2 . = − −− = − Σ−Σ−Σ = n XYbYaY s xy Ejemplo 3
  • 25.
    Suposiciones subyacentes enel análisis de regresión lineal  Para cada valor de X, hay un grupo de valores de Y, y estos valores de Y se distribuyen normalmente.  Las medias de estas distribuciones normales de valores Y, caen todas en la recta de regresión.  Las desviaciones estándar de estas distribuciones normales son iguales.  Los valores de Y son estadísticamente independendientes. Esto significa que en la selección de una muestra, los valores de Y elegidos para un valor particular de X no dependen de los valores de Y de ningún otro valor de X.
  • 26.
    Intervalo de confianza El intervalo de confianza para el valor medio de Y para un valor dado de X está dado por: 31.1514.89 8 )4900( 000,150,3 )5.612800( 8 1 )408.10(447.214.89 )( )(1 2 2 2 2 2 . ± − − +± Σ −Σ − +±′ n X X XX n tsY xy
  • 27.
    Intervalo de predicción El intervalo de predicción para un valor individual de Y para un valor dado de X se da por: 72.2914.89 8 )4900( 000,150,3 )5.612800( 8 1 1)408.10(447.214.89 )( )(1 1 2 2 2 2 2 . ± − − ++± Σ −Σ − ++±′ n X X XX n tsY xy
  • 28.
    Resumir los resultados: El precio de venta estimado para un libro con 800 páginas es $89.14.  El error estándar de estimación es $10.41.  El intervalo de confianza de 95% para todos los libros con 800 páginas es $89.14+-$15.31. Esto significa que los límites están entre $73.83 y $104.45.  El intervalo de predicción de 95% para un libro particular con 800 páginas es $89.14+-$29.72. Esto significa que los límites están entre $59.42 y $118.86.  Estos resultados aparecen en la siguiente salida de MINITAB. Ejemplo 3 (Continuación)
  • 29.
    Regression Analysis: Priceversus Pages The regression equation is Price = 48.0 + 0.0514 Pages Predictor Coef SE Coef T P Constant 48.00 16.94 2.83 0.030 Pages 0.05143 0.02700 1.90 0.105 S = 10.41 R-Sq = 37.7% R-Sq(adj) = 27.3% Analysis of Variance Source DF SS MS F P Regression 1 393.4 393.4 3.63 0.105 Residual Error 6 650.6 108.4 Total 7 1044.0 Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 89.14 6.26 ( 73.82, 104.46) ( 59.41, 118.88) Ejemplo 3 (Continuación)
  • 30.
    Cinco niños de2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos. Hallar la ecuación de la recta de regresión de la edad sobre el peso. ¿Cuál sería el peso aproximado de un niño de seis años? 30
  • 31.
     La tablasiguiente nos da las notas del test de aptitud (X) dadas a seis dependientes a prueba y ventas del primer mes de prueba (Y) en cientos de euros.  X 25 42 33 54 29 36  Y 42 72 50 90 45 48 Hallar el coeficiente de correlación e interpretar el resultado obtenido. Calcular la recta de regresión de Y sobre X. Predecir las ventas de un vendedor que obtenga 47 en el test. 31
  • 32.
    Un centro comercialsabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en la tabla:  Nº de Clientes (X) 8 7 6 4 2 1  Distancia (Y) 15 19 25 23 34 40 Calcular el coeficiente de correlación lineal. Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar? Si desea recibir a 5 clientes, ¿a qué distancia del núcleo de población debe situarse? 32
  • 33.
    REFERENCIAS  http://renanquispellanos.com/recursos/CURSOECONOMETRIA/CLASE%20N %C2%BA1%20Y%20N%C2%BA2_ANALISIS%20DE%20REGRESION %20APLICADO.ppt  http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.  http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin  http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.  http://es.slideshare.net/lexoruiz/regresin-lineal-y-correlacin  http://www.jorgegalbiati.cl/nov_10/TRegresion.ppt.  http://www.vitutor.com/estadistica/bi/ejercicios_regresion.html 33