SlideShare una empresa de Scribd logo
1 de 7
Estadística                                                               Correlación y regresión lineal


                              ANALISIS DE CORRELACION
                                                (Simple)
         ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado para medir
la intensidad de la relación (correlación) entre dos variables.

        El principal objetivo del análisis de correlación es determinar que tan intensa es la relación
entre dos variables. Una medida de esta relación es el coeficiente de correlación ( r ) el cual puede
tomar valores en una escala desde –1 hasta +1 inclusive como se indica enseguida.


               INTENS    MODERA         DEBIL            DEBIL       MODERADA       INTENSA

               -1.00          -0.50                0         +0.50                +1.00
                  correlación negativa (C.N.)              correlación positiva (C.P.)



        COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearson
aproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relación
entre dos conjuntos de variables, por lo cual también se le conoce como r de Pearson.

        Si r toma los valores de –1 o de +1 indica correlación perfecta como se indica en los
siguientes diagramas de dispersión.

                        (Gráfica que indica la relación entre las dos variables).

                y                                                y



                          r = -1                                     r = +1




                                        x                                                  x

              Correlación Negativa Prefecta                   Correlación Positiva Perfecta


Si r = 0 indica que no existe ninguna correlación entre las dos variables.

El coeficiente de correlación se calcula mediante la siguiente fórmula:

                                         n (∑ ) −( ∑ )(∑ )
                                             xy     x   y
                           r =
                                   [ n (∑ ² ) −(∑ )²][n(∑ ² ) −(∑ )²]
                                         x       x       y       y


Donde:
n ⇒ es el número de pares de observaciones (x, y)
x ⇒ valores de la variable independiente x.
y ⇒ valores de la variable dependiente y.

EJEMPLO:



                                                                                                       .
Estadística                                                                 Correlación y regresión lineal


        El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para
        el área de ventas. Ha diseñado una prueba que ayude a seleccionar los mejores
        aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de
        predicción de las ventas semanales, eligió al azar cinco vendedores experimentados y
        aplicó la prueba a cada uno (esta muestra es pequeña para fines didácticos, en la práctica
        debe tomarse una muestra mucho mayor).

Los resultados obtenidos se muestran en la tabla siguiente:

         VENDEDOR                     PUNTUACIÓN DE PRUEBA                   VENTAS SEMANALES
         SR. MARTÍN                             4                                 $ 5,000
          SR. JOSE                              7                                  12,000
         SRA. MARIA                             3                                   4,000
          SR. JUAN                              6                                   8,000
         SRA. SILVIA                           10                                  11,000

        Se piensan entonces que las ventas semanales dependen de la puntuación de prueba por
lo cual se toman las ventas como variable dependiente ( y ) y la puntuación de prueba como
variable independiente ( x ).

        El diagrama de dispersión de los datos anteriores se muestra a continuación:
                                       Y

                     Ventas          14
                    Semanales        12
                                     10
                                      8
                                      6
                                      4
                                      2

                                                1 2 3 4 5 6 7 8 9 10 11 x
                                                  puntuación de prueba

Utilizando los datos originales se construye lo siguiente:

 Puntuación de          Ventas
  Prueba ( X )       Semanales ( Y )                 X²                   XY                   Y²
       4                   5                         16                   20                   25
       7                  12                         49                   84                  144
       3                   4                          9                   12                   16
       6                   8                         36                   48                   64
      10                  11                        100                  110                  121
    ΣX = 30             ΣY = 40                   ΣX² = 210            ΣXY = 274            ΣY² = 370

El coeficiente de correlación es 0.88 calculado por:
                                        ∑  n(   ∑ ∑
                                                  xy ) −(     x )(   y)
                        . r = [n(
                                  ∑x ² ) −(∑ )²][n(∑ ² ) −(∑ )²]
                                            x       y       y


                            5( 274 ) – ( 30 )( 40 )                       170     .
               = √ [ 5 ( 210 ) – ( 30 )² ] [ 5 ( 370 ) – ( 40 )² ]   =√ (150)(250) = 0.88

                                Lo cual indica una relación muy intensa.




                                                                                                         .
Estadística                                                           Correlación y regresión lineal


       Coeficiente de determinación: Es la proporción de la variación total en la variable
dependiente (y) que se explica por, o se debe a, la variación total en la variable dependiente (x).

        COEFICIENTE DE DETERMINACIÓN = (COEFICIENTE DE CORRELACIÓN)² = r²

       Para el ejemplo anterior el coeficiente de correlación es = ( 0.88 )² = 0.77 e indica que el
77% de la variación total en las ventas semanales se explica por, o se debe a, la variación en las
puntuaciones de prueba.

        Coeficiente de no-determinación: Es el complemento del coeficiente de determinación.
Para el ejemplo el coeficiente de no-determinación = 1 - r² = 1 - 0.77 = 0.23. Esto significa que
23% de la variación total en las ventas semanales no se debe a la variación en las puntuaciones de
prueba.

        Un coeficiente de correlación de 0.80 da un coeficiente de determinación de 0.64. Algunos
estadígrafos preferirían utilizar la medida más conservadora (0.64), considerando que el coeficiente
de correlación de 0.80 puede exagerar la relación entre los dos conjuntos de variables.



                                       Ejercicios Propuestos

                 Texto                     Páginas                      Ejercicios

              Manson y Lind                500...502                      1....4




                         ANALISIS DE REGRERSION LINEAL

                                                                                                   .
Estadística                                                           Correlación y regresión lineal


                                            (SIMPLE)
        Se define a la regresión lineal como una relación fundamental entre dos o más variables
correlacionadas y se usa para pronosticar una variable con base en la otra. Por lo general la
relación se obtiene de dos datos observados. En la regresión lineal la relación entre variables
forma una línea directa.

       La línea de regresión lineal es de la forma y’ = a + bx, donde y’ es la variable dependiente
que queremos resolver; a es la intersección de y’; b es la dependiente y x es la variable
independiente (en el análisis de series de tiempo, x representa unidades de tiempo).

         La regresión lineal es útil para pronósticos a largo plazo de sucesos importantes y para la
planificación agregada. Por ejemplo, sería muy útil para pronosticar la demanda de familias de
productos. Aunque es probable que durante un periodo varié bastante la demanda para un
producto específico de la familia, la demanda para toda la familia es sorpresivamente regular.

         La restricción principal para usar los pronósticos de regresión lineal es que,
supuestamente, los datos pasados y las proyecciones caen sobre una línea recta. Aunque esto
limita su aplicación, algunas veces, si usamos un periodo más breve puede usarse el análisis de
regresión lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un período de diez
o veinte años la tendencia se pierde entre todos los datos y será baja la proyección para el año
siguiente. Sin embargo, si sólo usamos los últimos años, el pronóstico será más preciso. Es una
parte del procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con los
datos.

         La regresión lineal se usa tanto para pronósticos de series de tiempo como para
pronósticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical de
un gráfico) cambia como resultado del tiempo (el eje horizontal en el gráfico), se trata de un
análisis de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamos
ante una relación causal (como el incremento en el número de muertes por cáncer en el pulmón
con respecto a las personas que fuman).



                              METODO DE MINIMOS CUADRADOS

       El método de mínimos cuadrados trata de ajustar a la línea a los datos que minimicen la
suma de los cuadrados de la distancia vertical entre cada punto de datos y su punto
correspondiente a la línea.

        La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a
continuación:

                                           y’ = a + bx

Donde:

y’ ⇒ variable dependiente calculada por la ecuación, indica el pronóstico para el período x.
x ⇒ periodo de tiempo.
a ⇒ es el valor de y’ cuando x es = 0.
b ⇒ es la pendiente de la línea.




                                                                                                   .
Estadística                                                              Correlación y regresión lineal



               ∑y −b∑x                                                   n( ∑xy ) − ∑x ∑y
                                                                   b=
                                                                          n∑x ² − ( ∑x )²
          a=
                    n




y ⇒ Representa el valor de la variable correspondiente del periodo x.


EJEMPLO 1.
        Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos
anteriores son los que se indican a continuación.

  Periodo (x)           Ventas (y)                 (xy)              (x²)                   Y’
        1                   600                     600                1                   801.3
        2                  1550                     3100               4                  1160.9
        3                  1500                     4500               9                  1520.5
        4                  1500                     6000              16                 18880.1
        5                  2400                    12000              25                  2239.7
        6                  3100                    18600              36                  2599.4
        7                  2600                    18200              49                  2959.0
        8                  2900                    23200              64                  3318.6
        9                  3800                    34200              81                  3678.2
       10                  4500                    45000             100                  4037.8
       11                  4000                    44000             121                  4397.4
       12                  4900                    58800             144                  4757.1
     ∑x = 78            ∑y = 33,350             ∑ = 268,200        ∑ = 650


Calculando la pendiente:


           12( 268,200) −78(33,350)   3218,400 −2601300   617,100
        b =                         =                   =         =359.6153
                12(650) −(78)²           7800 −6084        1716




Por lo tanto el valor de a será:

                                         33,350 −359.6153(78)
                                   a =                        = 441.66
                                                  12


El pronóstico para el periodo 13 será:

y’13 = a +bx = 441.66 + 359.6153 (13) = 5,116

y para el periodo 14 y 15:

y’14 = 441.66 + 359.6153 (14) = 5,476

y’15 = 441.66 + 359.6153 (15) = 5,836




                                                                                                      .
Estadística                                                                                Correlación y regresión lineal


V        $5000

E        4000
                                                                                          Pronósticos de Venta
N        3000

T        2000

A        1000

S          500
                 Línea de Regresión

     a




                 0   1   2   3   4      5      6       7         8      9     10     11      12    13    14      15
                                              PERIODO ( X )


        El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datos
anteriores es:

                                                   n

                                               ∑( y        i   − y 'i ) ²
                                     Sy ' =    i =1
                                                                            =363.9
                                                       n −2


Una ecuación más fácil de calcular para el error estándar es:



                                  Sy ' =
                                              ∑ ² −a ∑ −b∑
                                               y      y   xy
                                                                 n −2




EJEMPLO 2.
       Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores,
las sumas y otros datos básicos para despejar o evaluar a y b aparecen en la tabla siguiente:




                                                                                                                        .
Estadística                                                                   Correlación y regresión lineal


                                          Ventas
                   Puntuación          semanales
                   de prueba.          (niveles de
                                         dólares)
 Vendedor               X                   Y                 X²                XY                 Y²
  Sr. Amber              4                   5                16                 20                25
  Sr. Archer             7                  12                49                 84               144
 Sra. Smith              3                   4                 9                 12                16
 Sr. Malcolm             6                   8                36                 48                64
Sra. Goodwin            10                  11               100                110               121
     Total              30                  40               210                274               370

¿Cuál es la ecuación de regresión?

SOLUCION:
        Las sumas de la tabla anterior se utilizan para ilustrar los cálculos para a y b en la ecuación
de regresión:

                             n( ∑xy ) − ∑x ∑y            5( 274 ) −(30)(40)
                      b=                             =                         = 1.133
                                 n∑x ² − ( ∑x )²           5(210) −(30)²




                       a = Y – bx = (40/5) – 1.133(30/5) = 8 – 6.798 = 1.202


                             Y’ = 1.202 + 1.133 (EN MILES DE DÓLARES).


        Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares). Las
ventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en la puerta del director
de personal es $8000, que se obtiene por y’ = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000
(en miles de dólares).

EJERCICIO:
     Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año siguiente.

E   F   M A    M J     J     A    S   O N D E        F   M A       M J   J     A   S     O N D      E F M
6   5   6 8    8 6     7     7    6   7 7 6 7        8   9 7       7 7   6     8   8     8 9 10
8   5   3 2    7 3     7     8    2   8 4 2 4        0   6 4       1 1   6     6   5     9 1 3




                                                                                                           .

Más contenido relacionado

La actualidad más candente

Comparaciones multiples trabajo1
Comparaciones multiples trabajo1Comparaciones multiples trabajo1
Comparaciones multiples trabajo1Daks Jenus
 
Analisis de regresion y correlacion lineal
Analisis de regresion y correlacion linealAnalisis de regresion y correlacion lineal
Analisis de regresion y correlacion linealmikewanda4
 
Estimacion Puntual E Intervalos.Ppt [Compatibility M
Estimacion  Puntual E Intervalos.Ppt [Compatibility MEstimacion  Puntual E Intervalos.Ppt [Compatibility M
Estimacion Puntual E Intervalos.Ppt [Compatibility MLuis Baquero
 
Regresión Lineal
Regresión LinealRegresión Lineal
Regresión LinealArles Ramos
 
Pruebas de normalidad: Prueba de Anderson-Darling
Pruebas de normalidad: Prueba de Anderson-Darling Pruebas de normalidad: Prueba de Anderson-Darling
Pruebas de normalidad: Prueba de Anderson-Darling Armando López
 
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTDISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTJonatan Gabriel Linares
 
Distribucion de Chi Cuadrado
Distribucion de Chi CuadradoDistribucion de Chi Cuadrado
Distribucion de Chi CuadradoCarlos Sevilla
 
Regresion y correlacion ppt
Regresion y correlacion pptRegresion y correlacion ppt
Regresion y correlacion pptrodrigomartinezs
 
Prueba de hipotesis y intervalos de confianza
Prueba de hipotesis y intervalos de confianzaPrueba de hipotesis y intervalos de confianza
Prueba de hipotesis y intervalos de confianzaIselitaa Hernadez
 
Diseño factorial de 3 factores
Diseño factorial de 3 factores Diseño factorial de 3 factores
Diseño factorial de 3 factores Oscar Saenz
 
Regresion lineal
Regresion linealRegresion lineal
Regresion linealzai93
 
Intervalos de confianza 2018
Intervalos de confianza 2018Intervalos de confianza 2018
Intervalos de confianza 2018franciscoe71
 
T studentdoscolas
T studentdoscolasT studentdoscolas
T studentdoscolasGOPPASUDD
 

La actualidad más candente (20)

Comparaciones multiples trabajo1
Comparaciones multiples trabajo1Comparaciones multiples trabajo1
Comparaciones multiples trabajo1
 
Analisis de regresion y correlacion lineal
Analisis de regresion y correlacion linealAnalisis de regresion y correlacion lineal
Analisis de regresion y correlacion lineal
 
Preguntas Diseno Factoriales
Preguntas Diseno FactorialesPreguntas Diseno Factoriales
Preguntas Diseno Factoriales
 
Pruebas de hipotesis Varianza desconocida
Pruebas de hipotesis Varianza  desconocidaPruebas de hipotesis Varianza  desconocida
Pruebas de hipotesis Varianza desconocida
 
Estimacion Puntual E Intervalos.Ppt [Compatibility M
Estimacion  Puntual E Intervalos.Ppt [Compatibility MEstimacion  Puntual E Intervalos.Ppt [Compatibility M
Estimacion Puntual E Intervalos.Ppt [Compatibility M
 
5 estadística inferencial
5 estadística inferencial5 estadística inferencial
5 estadística inferencial
 
Regresión Lineal
Regresión LinealRegresión Lineal
Regresión Lineal
 
Pruebas de normalidad: Prueba de Anderson-Darling
Pruebas de normalidad: Prueba de Anderson-Darling Pruebas de normalidad: Prueba de Anderson-Darling
Pruebas de normalidad: Prueba de Anderson-Darling
 
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENTDISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
DISTRIBUCION DE JI-CUADRADO, FISHER Y T-STUDENT
 
Intervalos de confianza
Intervalos de confianzaIntervalos de confianza
Intervalos de confianza
 
Estimadores
EstimadoresEstimadores
Estimadores
 
Distribucion de Chi Cuadrado
Distribucion de Chi CuadradoDistribucion de Chi Cuadrado
Distribucion de Chi Cuadrado
 
Regresion y correlacion ppt
Regresion y correlacion pptRegresion y correlacion ppt
Regresion y correlacion ppt
 
Prueba de hipotesis y intervalos de confianza
Prueba de hipotesis y intervalos de confianzaPrueba de hipotesis y intervalos de confianza
Prueba de hipotesis y intervalos de confianza
 
Diseño factorial de 3 factores
Diseño factorial de 3 factores Diseño factorial de 3 factores
Diseño factorial de 3 factores
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Intervalos de confianza 2018
Intervalos de confianza 2018Intervalos de confianza 2018
Intervalos de confianza 2018
 
T studentdoscolas
T studentdoscolasT studentdoscolas
T studentdoscolas
 
Regresion lineal ppt
Regresion lineal pptRegresion lineal ppt
Regresion lineal ppt
 
Prueba de hipótesis
Prueba de hipótesisPrueba de hipótesis
Prueba de hipótesis
 

Similar a análisis de correlación y regresión lineales

05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptxPEALOZACASTILLOCINTI
 
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdfEÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdfSaulRamonestorres
 
Análisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.pptAnálisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.pptFREDDYTORIBIOHUAYTAM
 
Análisis de regresión
Análisis de regresiónAnálisis de regresión
Análisis de regresiónJOHNNY28000
 
Regresion simple.
Regresion simple.Regresion simple.
Regresion simple.ITCG
 
analisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesanalisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesAngelCastillo858247
 
Veter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlaciónVeter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlaciónUniv Peruana Los Andes
 
CLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdfCLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdfjenniferps1
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxEleazar86
 
Proyecciones
Proyecciones Proyecciones
Proyecciones lmk8
 
Psico. 14 ava. regresión y correlación
Psico. 14 ava. regresión y correlaciónPsico. 14 ava. regresión y correlación
Psico. 14 ava. regresión y correlaciónUniv Peruana Los Andes
 

Similar a análisis de correlación y regresión lineales (20)

05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
Regresión lineal (1).pdf
Regresión lineal (1).pdfRegresión lineal (1).pdf
Regresión lineal (1).pdf
 
9- REGRESIÓN (1).pdf
9- REGRESIÓN (1).pdf9- REGRESIÓN (1).pdf
9- REGRESIÓN (1).pdf
 
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdfEÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
 
Análisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.pptAnálisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.ppt
 
Análisis de regresión
Análisis de regresiónAnálisis de regresión
Análisis de regresión
 
Regrecion lineal simple
Regrecion lineal simpleRegrecion lineal simple
Regrecion lineal simple
 
6 regresion y correlación
6 regresion y correlación6 regresion y correlación
6 regresion y correlación
 
Regresion simple.
Regresion simple.Regresion simple.
Regresion simple.
 
Unidad5 reglineal
Unidad5 reglinealUnidad5 reglineal
Unidad5 reglineal
 
analisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesanalisis de regresion y correlacion de variables
analisis de regresion y correlacion de variables
 
Regresion Y Correlacion
Regresion Y CorrelacionRegresion Y Correlacion
Regresion Y Correlacion
 
Veter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlaciónVeter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlación
 
Correlacion
CorrelacionCorrelacion
Correlacion
 
CLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdfCLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdf
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptx
 
Análisis de regresión simple.
Análisis de regresión simple.Análisis de regresión simple.
Análisis de regresión simple.
 
Proyecciones
Proyecciones Proyecciones
Proyecciones
 
Análisis de Correlacion Lineal
Análisis de Correlacion LinealAnálisis de Correlacion Lineal
Análisis de Correlacion Lineal
 
Psico. 14 ava. regresión y correlación
Psico. 14 ava. regresión y correlaciónPsico. 14 ava. regresión y correlación
Psico. 14 ava. regresión y correlación
 

análisis de correlación y regresión lineales

  • 1. Estadística Correlación y regresión lineal ANALISIS DE CORRELACION (Simple) ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado para medir la intensidad de la relación (correlación) entre dos variables. El principal objetivo del análisis de correlación es determinar que tan intensa es la relación entre dos variables. Una medida de esta relación es el coeficiente de correlación ( r ) el cual puede tomar valores en una escala desde –1 hasta +1 inclusive como se indica enseguida. INTENS MODERA DEBIL DEBIL MODERADA INTENSA -1.00 -0.50 0 +0.50 +1.00 correlación negativa (C.N.) correlación positiva (C.P.) COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearson aproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relación entre dos conjuntos de variables, por lo cual también se le conoce como r de Pearson. Si r toma los valores de –1 o de +1 indica correlación perfecta como se indica en los siguientes diagramas de dispersión. (Gráfica que indica la relación entre las dos variables). y y r = -1 r = +1 x x Correlación Negativa Prefecta Correlación Positiva Perfecta Si r = 0 indica que no existe ninguna correlación entre las dos variables. El coeficiente de correlación se calcula mediante la siguiente fórmula: n (∑ ) −( ∑ )(∑ ) xy x y r = [ n (∑ ² ) −(∑ )²][n(∑ ² ) −(∑ )²] x x y y Donde: n ⇒ es el número de pares de observaciones (x, y) x ⇒ valores de la variable independiente x. y ⇒ valores de la variable dependiente y. EJEMPLO: .
  • 2. Estadística Correlación y regresión lineal El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para el área de ventas. Ha diseñado una prueba que ayude a seleccionar los mejores aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de predicción de las ventas semanales, eligió al azar cinco vendedores experimentados y aplicó la prueba a cada uno (esta muestra es pequeña para fines didácticos, en la práctica debe tomarse una muestra mucho mayor). Los resultados obtenidos se muestran en la tabla siguiente: VENDEDOR PUNTUACIÓN DE PRUEBA VENTAS SEMANALES SR. MARTÍN 4 $ 5,000 SR. JOSE 7 12,000 SRA. MARIA 3 4,000 SR. JUAN 6 8,000 SRA. SILVIA 10 11,000 Se piensan entonces que las ventas semanales dependen de la puntuación de prueba por lo cual se toman las ventas como variable dependiente ( y ) y la puntuación de prueba como variable independiente ( x ). El diagrama de dispersión de los datos anteriores se muestra a continuación: Y Ventas 14 Semanales 12 10 8 6 4 2 1 2 3 4 5 6 7 8 9 10 11 x puntuación de prueba Utilizando los datos originales se construye lo siguiente: Puntuación de Ventas Prueba ( X ) Semanales ( Y ) X² XY Y² 4 5 16 20 25 7 12 49 84 144 3 4 9 12 16 6 8 36 48 64 10 11 100 110 121 ΣX = 30 ΣY = 40 ΣX² = 210 ΣXY = 274 ΣY² = 370 El coeficiente de correlación es 0.88 calculado por: ∑ n( ∑ ∑ xy ) −( x )( y) . r = [n( ∑x ² ) −(∑ )²][n(∑ ² ) −(∑ )²] x y y 5( 274 ) – ( 30 )( 40 ) 170 . = √ [ 5 ( 210 ) – ( 30 )² ] [ 5 ( 370 ) – ( 40 )² ] =√ (150)(250) = 0.88 Lo cual indica una relación muy intensa. .
  • 3. Estadística Correlación y regresión lineal Coeficiente de determinación: Es la proporción de la variación total en la variable dependiente (y) que se explica por, o se debe a, la variación total en la variable dependiente (x). COEFICIENTE DE DETERMINACIÓN = (COEFICIENTE DE CORRELACIÓN)² = r² Para el ejemplo anterior el coeficiente de correlación es = ( 0.88 )² = 0.77 e indica que el 77% de la variación total en las ventas semanales se explica por, o se debe a, la variación en las puntuaciones de prueba. Coeficiente de no-determinación: Es el complemento del coeficiente de determinación. Para el ejemplo el coeficiente de no-determinación = 1 - r² = 1 - 0.77 = 0.23. Esto significa que 23% de la variación total en las ventas semanales no se debe a la variación en las puntuaciones de prueba. Un coeficiente de correlación de 0.80 da un coeficiente de determinación de 0.64. Algunos estadígrafos preferirían utilizar la medida más conservadora (0.64), considerando que el coeficiente de correlación de 0.80 puede exagerar la relación entre los dos conjuntos de variables. Ejercicios Propuestos Texto Páginas Ejercicios Manson y Lind 500...502 1....4 ANALISIS DE REGRERSION LINEAL .
  • 4. Estadística Correlación y regresión lineal (SIMPLE) Se define a la regresión lineal como una relación fundamental entre dos o más variables correlacionadas y se usa para pronosticar una variable con base en la otra. Por lo general la relación se obtiene de dos datos observados. En la regresión lineal la relación entre variables forma una línea directa. La línea de regresión lineal es de la forma y’ = a + bx, donde y’ es la variable dependiente que queremos resolver; a es la intersección de y’; b es la dependiente y x es la variable independiente (en el análisis de series de tiempo, x representa unidades de tiempo). La regresión lineal es útil para pronósticos a largo plazo de sucesos importantes y para la planificación agregada. Por ejemplo, sería muy útil para pronosticar la demanda de familias de productos. Aunque es probable que durante un periodo varié bastante la demanda para un producto específico de la familia, la demanda para toda la familia es sorpresivamente regular. La restricción principal para usar los pronósticos de regresión lineal es que, supuestamente, los datos pasados y las proyecciones caen sobre una línea recta. Aunque esto limita su aplicación, algunas veces, si usamos un periodo más breve puede usarse el análisis de regresión lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un período de diez o veinte años la tendencia se pierde entre todos los datos y será baja la proyección para el año siguiente. Sin embargo, si sólo usamos los últimos años, el pronóstico será más preciso. Es una parte del procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con los datos. La regresión lineal se usa tanto para pronósticos de series de tiempo como para pronósticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical de un gráfico) cambia como resultado del tiempo (el eje horizontal en el gráfico), se trata de un análisis de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamos ante una relación causal (como el incremento en el número de muertes por cáncer en el pulmón con respecto a las personas que fuman). METODO DE MINIMOS CUADRADOS El método de mínimos cuadrados trata de ajustar a la línea a los datos que minimicen la suma de los cuadrados de la distancia vertical entre cada punto de datos y su punto correspondiente a la línea. La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a continuación: y’ = a + bx Donde: y’ ⇒ variable dependiente calculada por la ecuación, indica el pronóstico para el período x. x ⇒ periodo de tiempo. a ⇒ es el valor de y’ cuando x es = 0. b ⇒ es la pendiente de la línea. .
  • 5. Estadística Correlación y regresión lineal ∑y −b∑x n( ∑xy ) − ∑x ∑y b= n∑x ² − ( ∑x )² a= n y ⇒ Representa el valor de la variable correspondiente del periodo x. EJEMPLO 1. Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos anteriores son los que se indican a continuación. Periodo (x) Ventas (y) (xy) (x²) Y’ 1 600 600 1 801.3 2 1550 3100 4 1160.9 3 1500 4500 9 1520.5 4 1500 6000 16 18880.1 5 2400 12000 25 2239.7 6 3100 18600 36 2599.4 7 2600 18200 49 2959.0 8 2900 23200 64 3318.6 9 3800 34200 81 3678.2 10 4500 45000 100 4037.8 11 4000 44000 121 4397.4 12 4900 58800 144 4757.1 ∑x = 78 ∑y = 33,350 ∑ = 268,200 ∑ = 650 Calculando la pendiente: 12( 268,200) −78(33,350) 3218,400 −2601300 617,100 b = = = =359.6153 12(650) −(78)² 7800 −6084 1716 Por lo tanto el valor de a será: 33,350 −359.6153(78) a = = 441.66 12 El pronóstico para el periodo 13 será: y’13 = a +bx = 441.66 + 359.6153 (13) = 5,116 y para el periodo 14 y 15: y’14 = 441.66 + 359.6153 (14) = 5,476 y’15 = 441.66 + 359.6153 (15) = 5,836 .
  • 6. Estadística Correlación y regresión lineal V $5000 E 4000 Pronósticos de Venta N 3000 T 2000 A 1000 S 500 Línea de Regresión a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PERIODO ( X ) El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datos anteriores es: n ∑( y i − y 'i ) ² Sy ' = i =1 =363.9 n −2 Una ecuación más fácil de calcular para el error estándar es: Sy ' = ∑ ² −a ∑ −b∑ y y xy n −2 EJEMPLO 2. Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores, las sumas y otros datos básicos para despejar o evaluar a y b aparecen en la tabla siguiente: .
  • 7. Estadística Correlación y regresión lineal Ventas Puntuación semanales de prueba. (niveles de dólares) Vendedor X Y X² XY Y² Sr. Amber 4 5 16 20 25 Sr. Archer 7 12 49 84 144 Sra. Smith 3 4 9 12 16 Sr. Malcolm 6 8 36 48 64 Sra. Goodwin 10 11 100 110 121 Total 30 40 210 274 370 ¿Cuál es la ecuación de regresión? SOLUCION: Las sumas de la tabla anterior se utilizan para ilustrar los cálculos para a y b en la ecuación de regresión: n( ∑xy ) − ∑x ∑y 5( 274 ) −(30)(40) b= = = 1.133 n∑x ² − ( ∑x )² 5(210) −(30)² a = Y – bx = (40/5) – 1.133(30/5) = 8 – 6.798 = 1.202 Y’ = 1.202 + 1.133 (EN MILES DE DÓLARES). Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares). Las ventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en la puerta del director de personal es $8000, que se obtiene por y’ = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000 (en miles de dólares). EJERCICIO: Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año siguiente. E F M A M J J A S O N D E F M A M J J A S O N D E F M 6 5 6 8 8 6 7 7 6 7 7 6 7 8 9 7 7 7 6 8 8 8 9 10 8 5 3 2 7 3 7 8 2 8 4 2 4 0 6 4 1 1 6 6 5 9 1 3 .