SlideShare una empresa de Scribd logo
1 de 7
Estadística                                                               Correlación y regresión lineal


                              ANALISIS DE CORRELACION
                                                (Simple)
         ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado para medir
la intensidad de la relación (correlación) entre dos variables.

        El principal objetivo del análisis de correlación es determinar que tan intensa es la relación
entre dos variables. Una medida de esta relación es el coeficiente de correlación ( r ) el cual puede
tomar valores en una escala desde –1 hasta +1 inclusive como se indica enseguida.


               INTENS    MODERA         DEBIL            DEBIL       MODERADA       INTENSA

               -1.00          -0.50                0         +0.50                +1.00
                  correlación negativa (C.N.)              correlación positiva (C.P.)



        COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearson
aproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relación
entre dos conjuntos de variables, por lo cual también se le conoce como r de Pearson.

        Si r toma los valores de –1 o de +1 indica correlación perfecta como se indica en los
siguientes diagramas de dispersión.

                        (Gráfica que indica la relación entre las dos variables).

                y                                                y



                          r = -1                                     r = +1




                                        x                                                  x

              Correlación Negativa Prefecta                   Correlación Positiva Perfecta


Si r = 0 indica que no existe ninguna correlación entre las dos variables.

El coeficiente de correlación se calcula mediante la siguiente fórmula:

                                         n (∑ ) −( ∑ )(∑ )
                                             xy     x   y
                           r =
                                   [ n (∑ ² ) −(∑ )²][n(∑ ² ) −(∑ )²]
                                         x       x       y       y


Donde:
n ⇒ es el número de pares de observaciones (x, y)
x ⇒ valores de la variable independiente x.
y ⇒ valores de la variable dependiente y.

EJEMPLO:



                                                                                                       .
Estadística                                                                 Correlación y regresión lineal


        El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para
        el área de ventas. Ha diseñado una prueba que ayude a seleccionar los mejores
        aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de
        predicción de las ventas semanales, eligió al azar cinco vendedores experimentados y
        aplicó la prueba a cada uno (esta muestra es pequeña para fines didácticos, en la práctica
        debe tomarse una muestra mucho mayor).

Los resultados obtenidos se muestran en la tabla siguiente:

         VENDEDOR                     PUNTUACIÓN DE PRUEBA                   VENTAS SEMANALES
         SR. MARTÍN                             4                                 $ 5,000
          SR. JOSE                              7                                  12,000
         SRA. MARIA                             3                                   4,000
          SR. JUAN                              6                                   8,000
         SRA. SILVIA                           10                                  11,000

        Se piensan entonces que las ventas semanales dependen de la puntuación de prueba por
lo cual se toman las ventas como variable dependiente ( y ) y la puntuación de prueba como
variable independiente ( x ).

        El diagrama de dispersión de los datos anteriores se muestra a continuación:
                                       Y

                     Ventas          14
                    Semanales        12
                                     10
                                      8
                                      6
                                      4
                                      2

                                                1 2 3 4 5 6 7 8 9 10 11 x
                                                  puntuación de prueba

Utilizando los datos originales se construye lo siguiente:

 Puntuación de          Ventas
  Prueba ( X )       Semanales ( Y )                 X²                   XY                   Y²
       4                   5                         16                   20                   25
       7                  12                         49                   84                  144
       3                   4                          9                   12                   16
       6                   8                         36                   48                   64
      10                  11                        100                  110                  121
    ΣX = 30             ΣY = 40                   ΣX² = 210            ΣXY = 274            ΣY² = 370

El coeficiente de correlación es 0.88 calculado por:
                                        ∑  n(   ∑ ∑
                                                  xy ) −(     x )(   y)
                        . r = [n(
                                  ∑x ² ) −(∑ )²][n(∑ ² ) −(∑ )²]
                                            x       y       y


                            5( 274 ) – ( 30 )( 40 )                       170     .
               = √ [ 5 ( 210 ) – ( 30 )² ] [ 5 ( 370 ) – ( 40 )² ]   =√ (150)(250) = 0.88

                                Lo cual indica una relación muy intensa.




                                                                                                         .
Estadística                                                           Correlación y regresión lineal


       Coeficiente de determinación: Es la proporción de la variación total en la variable
dependiente (y) que se explica por, o se debe a, la variación total en la variable dependiente (x).

        COEFICIENTE DE DETERMINACIÓN = (COEFICIENTE DE CORRELACIÓN)² = r²

       Para el ejemplo anterior el coeficiente de correlación es = ( 0.88 )² = 0.77 e indica que el
77% de la variación total en las ventas semanales se explica por, o se debe a, la variación en las
puntuaciones de prueba.

        Coeficiente de no-determinación: Es el complemento del coeficiente de determinación.
Para el ejemplo el coeficiente de no-determinación = 1 - r² = 1 - 0.77 = 0.23. Esto significa que
23% de la variación total en las ventas semanales no se debe a la variación en las puntuaciones de
prueba.

        Un coeficiente de correlación de 0.80 da un coeficiente de determinación de 0.64. Algunos
estadígrafos preferirían utilizar la medida más conservadora (0.64), considerando que el coeficiente
de correlación de 0.80 puede exagerar la relación entre los dos conjuntos de variables.



                                       Ejercicios Propuestos

                 Texto                     Páginas                      Ejercicios

              Manson y Lind                500...502                      1....4




                         ANALISIS DE REGRERSION LINEAL

                                                                                                   .
Estadística                                                           Correlación y regresión lineal


                                            (SIMPLE)
        Se define a la regresión lineal como una relación fundamental entre dos o más variables
correlacionadas y se usa para pronosticar una variable con base en la otra. Por lo general la
relación se obtiene de dos datos observados. En la regresión lineal la relación entre variables
forma una línea directa.

       La línea de regresión lineal es de la forma y’ = a + bx, donde y’ es la variable dependiente
que queremos resolver; a es la intersección de y’; b es la dependiente y x es la variable
independiente (en el análisis de series de tiempo, x representa unidades de tiempo).

         La regresión lineal es útil para pronósticos a largo plazo de sucesos importantes y para la
planificación agregada. Por ejemplo, sería muy útil para pronosticar la demanda de familias de
productos. Aunque es probable que durante un periodo varié bastante la demanda para un
producto específico de la familia, la demanda para toda la familia es sorpresivamente regular.

         La restricción principal para usar los pronósticos de regresión lineal es que,
supuestamente, los datos pasados y las proyecciones caen sobre una línea recta. Aunque esto
limita su aplicación, algunas veces, si usamos un periodo más breve puede usarse el análisis de
regresión lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un período de diez
o veinte años la tendencia se pierde entre todos los datos y será baja la proyección para el año
siguiente. Sin embargo, si sólo usamos los últimos años, el pronóstico será más preciso. Es una
parte del procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con los
datos.

         La regresión lineal se usa tanto para pronósticos de series de tiempo como para
pronósticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical de
un gráfico) cambia como resultado del tiempo (el eje horizontal en el gráfico), se trata de un
análisis de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamos
ante una relación causal (como el incremento en el número de muertes por cáncer en el pulmón
con respecto a las personas que fuman).



                              METODO DE MINIMOS CUADRADOS

       El método de mínimos cuadrados trata de ajustar a la línea a los datos que minimicen la
suma de los cuadrados de la distancia vertical entre cada punto de datos y su punto
correspondiente a la línea.

        La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a
continuación:

                                           y’ = a + bx

Donde:

y’ ⇒ variable dependiente calculada por la ecuación, indica el pronóstico para el período x.
x ⇒ periodo de tiempo.
a ⇒ es el valor de y’ cuando x es = 0.
b ⇒ es la pendiente de la línea.




                                                                                                   .
Estadística                                                              Correlación y regresión lineal



               ∑y −b∑x                                                   n( ∑xy ) − ∑x ∑y
                                                                   b=
                                                                          n∑x ² − ( ∑x )²
          a=
                    n




y ⇒ Representa el valor de la variable correspondiente del periodo x.


EJEMPLO 1.
        Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos
anteriores son los que se indican a continuación.

  Periodo (x)           Ventas (y)                 (xy)              (x²)                   Y’
        1                   600                     600                1                   801.3
        2                  1550                     3100               4                  1160.9
        3                  1500                     4500               9                  1520.5
        4                  1500                     6000              16                 18880.1
        5                  2400                    12000              25                  2239.7
        6                  3100                    18600              36                  2599.4
        7                  2600                    18200              49                  2959.0
        8                  2900                    23200              64                  3318.6
        9                  3800                    34200              81                  3678.2
       10                  4500                    45000             100                  4037.8
       11                  4000                    44000             121                  4397.4
       12                  4900                    58800             144                  4757.1
     ∑x = 78            ∑y = 33,350             ∑ = 268,200        ∑ = 650


Calculando la pendiente:


           12( 268,200) −78(33,350)   3218,400 −2601300   617,100
        b =                         =                   =         =359.6153
                12(650) −(78)²           7800 −6084        1716




Por lo tanto el valor de a será:

                                         33,350 −359.6153(78)
                                   a =                        = 441.66
                                                  12


El pronóstico para el periodo 13 será:

y’13 = a +bx = 441.66 + 359.6153 (13) = 5,116

y para el periodo 14 y 15:

y’14 = 441.66 + 359.6153 (14) = 5,476

y’15 = 441.66 + 359.6153 (15) = 5,836




                                                                                                      .
Estadística                                                                                Correlación y regresión lineal


V        $5000

E        4000
                                                                                          Pronósticos de Venta
N        3000

T        2000

A        1000

S          500
                 Línea de Regresión

     a




                 0   1   2   3   4      5      6       7         8      9     10     11      12    13    14      15
                                              PERIODO ( X )


        El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datos
anteriores es:

                                                   n

                                               ∑( y        i   − y 'i ) ²
                                     Sy ' =    i =1
                                                                            =363.9
                                                       n −2


Una ecuación más fácil de calcular para el error estándar es:



                                  Sy ' =
                                              ∑ ² −a ∑ −b∑
                                               y      y   xy
                                                                 n −2




EJEMPLO 2.
       Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores,
las sumas y otros datos básicos para despejar o evaluar a y b aparecen en la tabla siguiente:




                                                                                                                        .
Estadística                                                                   Correlación y regresión lineal


                                          Ventas
                   Puntuación          semanales
                   de prueba.          (niveles de
                                         dólares)
 Vendedor               X                   Y                 X²                XY                 Y²
  Sr. Amber              4                   5                16                 20                25
  Sr. Archer             7                  12                49                 84               144
 Sra. Smith              3                   4                 9                 12                16
 Sr. Malcolm             6                   8                36                 48                64
Sra. Goodwin            10                  11               100                110               121
     Total              30                  40               210                274               370

¿Cuál es la ecuación de regresión?

SOLUCION:
        Las sumas de la tabla anterior se utilizan para ilustrar los cálculos para a y b en la ecuación
de regresión:

                             n( ∑xy ) − ∑x ∑y            5( 274 ) −(30)(40)
                      b=                             =                         = 1.133
                                 n∑x ² − ( ∑x )²           5(210) −(30)²




                       a = Y – bx = (40/5) – 1.133(30/5) = 8 – 6.798 = 1.202


                             Y’ = 1.202 + 1.133 (EN MILES DE DÓLARES).


        Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares). Las
ventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en la puerta del director
de personal es $8000, que se obtiene por y’ = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000
(en miles de dólares).

EJERCICIO:
     Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año siguiente.

E   F   M A    M J     J     A    S   O N D E        F   M A       M J   J     A   S     O N D      E F M
6   5   6 8    8 6     7     7    6   7 7 6 7        8   9 7       7 7   6     8   8     8 9 10
8   5   3 2    7 3     7     8    2   8 4 2 4        0   6 4       1 1   6     6   5     9 1 3




                                                                                                           .

Más contenido relacionado

La actualidad más candente

Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1Instituto Tecnologico De Pachuca
 
Distribuciones muestrales
Distribuciones muestralesDistribuciones muestrales
Distribuciones muestralesMynor Garcia
 
Regresión lineal y correlación
Regresión lineal y correlaciónRegresión lineal y correlación
Regresión lineal y correlaciónAlejandro Ruiz
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 
Ejercicios resueltos regresion multiple
Ejercicios resueltos  regresion multipleEjercicios resueltos  regresion multiple
Ejercicios resueltos regresion multipleJuan Timoteo Cori
 
T studentdoscolas
T studentdoscolasT studentdoscolas
T studentdoscolasGOPPASUDD
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...Ekthor Daniel R G
 
Análisis de series de tiempo
Análisis de series de tiempoAnálisis de series de tiempo
Análisis de series de tiempoIsaac Gomez
 
Flujo máximo teoria de redes
Flujo máximo teoria de redesFlujo máximo teoria de redes
Flujo máximo teoria de redesADRIANA NIETO
 
Medidas de dispersión, variación o variabilidad
Medidas de dispersión, variación o variabilidadMedidas de dispersión, variación o variabilidad
Medidas de dispersión, variación o variabilidadEnedina Rodriguez
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesYazmin Venegas
 

La actualidad más candente (20)

Analisis De Regresion Y Correlacion
Analisis De Regresion Y CorrelacionAnalisis De Regresion Y Correlacion
Analisis De Regresion Y Correlacion
 
Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1Ejercicios diseño de bloques completos al azar ejercicio 1
Ejercicios diseño de bloques completos al azar ejercicio 1
 
Distribuciones muestrales
Distribuciones muestralesDistribuciones muestrales
Distribuciones muestrales
 
5. regresión lineal multiple
5.  regresión lineal multiple5.  regresión lineal multiple
5. regresión lineal multiple
 
Regresión lineal y correlación
Regresión lineal y correlaciónRegresión lineal y correlación
Regresión lineal y correlación
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 
Análisis de Regresión Lineal
Análisis de Regresión LinealAnálisis de Regresión Lineal
Análisis de Regresión Lineal
 
Serie de tiempo
Serie de tiempoSerie de tiempo
Serie de tiempo
 
Ejercicios resueltos regresion multiple
Ejercicios resueltos  regresion multipleEjercicios resueltos  regresion multiple
Ejercicios resueltos regresion multiple
 
Problemas de Regresion Lineal
Problemas de Regresion LinealProblemas de Regresion Lineal
Problemas de Regresion Lineal
 
T studentdoscolas
T studentdoscolasT studentdoscolas
T studentdoscolas
 
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de...
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Experimentos con un solo factor
Experimentos con un solo factorExperimentos con un solo factor
Experimentos con un solo factor
 
Regresion lineal multiple
Regresion lineal multipleRegresion lineal multiple
Regresion lineal multiple
 
Análisis de series de tiempo
Análisis de series de tiempoAnálisis de series de tiempo
Análisis de series de tiempo
 
Método de Mínimos Cuadrados
Método de Mínimos CuadradosMétodo de Mínimos Cuadrados
Método de Mínimos Cuadrados
 
Flujo máximo teoria de redes
Flujo máximo teoria de redesFlujo máximo teoria de redes
Flujo máximo teoria de redes
 
Medidas de dispersión, variación o variabilidad
Medidas de dispersión, variación o variabilidadMedidas de dispersión, variación o variabilidad
Medidas de dispersión, variación o variabilidad
 
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporcionesIntervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la diferencia de proporciones
 

Similar a análisis de correlación y regresión lineales

05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptxPEALOZACASTILLOCINTI
 
Regresion y correlacion ppt
Regresion y correlacion pptRegresion y correlacion ppt
Regresion y correlacion pptrodrigomartinezs
 
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdfEÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdfSaulRamonestorres
 
Análisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.pptAnálisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.pptFREDDYTORIBIOHUAYTAM
 
Análisis de regresión
Análisis de regresiónAnálisis de regresión
Análisis de regresiónJOHNNY28000
 
Regresion simple.
Regresion simple.Regresion simple.
Regresion simple.ITCG
 
analisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesanalisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesAngelCastillo858247
 
Veter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlaciónVeter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlaciónUniv Peruana Los Andes
 
CLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdfCLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdfjenniferps1
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxEleazar86
 
Proyecciones
Proyecciones Proyecciones
Proyecciones lmk8
 

Similar a análisis de correlación y regresión lineales (20)

05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx05 Bioest. Análisis Correlación y Regres. Lineal.pptx
05 Bioest. Análisis Correlación y Regres. Lineal.pptx
 
Regresión lineal (1).pdf
Regresión lineal (1).pdfRegresión lineal (1).pdf
Regresión lineal (1).pdf
 
Regresion y correlacion ppt
Regresion y correlacion pptRegresion y correlacion ppt
Regresion y correlacion ppt
 
9- REGRESIÓN (1).pdf
9- REGRESIÓN (1).pdf9- REGRESIÓN (1).pdf
9- REGRESIÓN (1).pdf
 
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdfEÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
EÑ COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.pdf
 
Análisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.pptAnálisis de Regresión y Correlación.ppt
Análisis de Regresión y Correlación.ppt
 
Análisis de regresión
Análisis de regresiónAnálisis de regresión
Análisis de regresión
 
Regrecion lineal simple
Regrecion lineal simpleRegrecion lineal simple
Regrecion lineal simple
 
6 regresion y correlación
6 regresion y correlación6 regresion y correlación
6 regresion y correlación
 
Regresion simple.
Regresion simple.Regresion simple.
Regresion simple.
 
Unidad5 reglineal
Unidad5 reglinealUnidad5 reglineal
Unidad5 reglineal
 
analisis de regresion y correlacion de variables
analisis de regresion y correlacion de variablesanalisis de regresion y correlacion de variables
analisis de regresion y correlacion de variables
 
Regresion Y Correlacion
Regresion Y CorrelacionRegresion Y Correlacion
Regresion Y Correlacion
 
Veter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlaciónVeter. 14 ava. regresión y correlación
Veter. 14 ava. regresión y correlación
 
Correlacion
CorrelacionCorrelacion
Correlacion
 
CLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdfCLASE-8 Regresión y correlación (dicotomicas).pdf
CLASE-8 Regresión y correlación (dicotomicas).pdf
 
trabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptxtrabajo estadistica asi bien bien svfgunda parte.pptx
trabajo estadistica asi bien bien svfgunda parte.pptx
 
Análisis de regresión simple.
Análisis de regresión simple.Análisis de regresión simple.
Análisis de regresión simple.
 
Proyecciones
Proyecciones Proyecciones
Proyecciones
 
Análisis de Correlacion Lineal
Análisis de Correlacion LinealAnálisis de Correlacion Lineal
Análisis de Correlacion Lineal
 

análisis de correlación y regresión lineales

  • 1. Estadística Correlación y regresión lineal ANALISIS DE CORRELACION (Simple) ANÁLISIS DE CORRELACION: Es el grupo de técnicas estadísticas empleado para medir la intensidad de la relación (correlación) entre dos variables. El principal objetivo del análisis de correlación es determinar que tan intensa es la relación entre dos variables. Una medida de esta relación es el coeficiente de correlación ( r ) el cual puede tomar valores en una escala desde –1 hasta +1 inclusive como se indica enseguida. INTENS MODERA DEBIL DEBIL MODERADA INTENSA -1.00 -0.50 0 +0.50 +1.00 correlación negativa (C.N.) correlación positiva (C.P.) COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearson aproximadamente en el año 1900, el coeficiente de correlación describe la intensidad de la relación entre dos conjuntos de variables, por lo cual también se le conoce como r de Pearson. Si r toma los valores de –1 o de +1 indica correlación perfecta como se indica en los siguientes diagramas de dispersión. (Gráfica que indica la relación entre las dos variables). y y r = -1 r = +1 x x Correlación Negativa Prefecta Correlación Positiva Perfecta Si r = 0 indica que no existe ninguna correlación entre las dos variables. El coeficiente de correlación se calcula mediante la siguiente fórmula: n (∑ ) −( ∑ )(∑ ) xy x y r = [ n (∑ ² ) −(∑ )²][n(∑ ² ) −(∑ )²] x x y y Donde: n ⇒ es el número de pares de observaciones (x, y) x ⇒ valores de la variable independiente x. y ⇒ valores de la variable dependiente y. EJEMPLO: .
  • 2. Estadística Correlación y regresión lineal El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para el área de ventas. Ha diseñado una prueba que ayude a seleccionar los mejores aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de predicción de las ventas semanales, eligió al azar cinco vendedores experimentados y aplicó la prueba a cada uno (esta muestra es pequeña para fines didácticos, en la práctica debe tomarse una muestra mucho mayor). Los resultados obtenidos se muestran en la tabla siguiente: VENDEDOR PUNTUACIÓN DE PRUEBA VENTAS SEMANALES SR. MARTÍN 4 $ 5,000 SR. JOSE 7 12,000 SRA. MARIA 3 4,000 SR. JUAN 6 8,000 SRA. SILVIA 10 11,000 Se piensan entonces que las ventas semanales dependen de la puntuación de prueba por lo cual se toman las ventas como variable dependiente ( y ) y la puntuación de prueba como variable independiente ( x ). El diagrama de dispersión de los datos anteriores se muestra a continuación: Y Ventas 14 Semanales 12 10 8 6 4 2 1 2 3 4 5 6 7 8 9 10 11 x puntuación de prueba Utilizando los datos originales se construye lo siguiente: Puntuación de Ventas Prueba ( X ) Semanales ( Y ) X² XY Y² 4 5 16 20 25 7 12 49 84 144 3 4 9 12 16 6 8 36 48 64 10 11 100 110 121 ΣX = 30 ΣY = 40 ΣX² = 210 ΣXY = 274 ΣY² = 370 El coeficiente de correlación es 0.88 calculado por: ∑ n( ∑ ∑ xy ) −( x )( y) . r = [n( ∑x ² ) −(∑ )²][n(∑ ² ) −(∑ )²] x y y 5( 274 ) – ( 30 )( 40 ) 170 . = √ [ 5 ( 210 ) – ( 30 )² ] [ 5 ( 370 ) – ( 40 )² ] =√ (150)(250) = 0.88 Lo cual indica una relación muy intensa. .
  • 3. Estadística Correlación y regresión lineal Coeficiente de determinación: Es la proporción de la variación total en la variable dependiente (y) que se explica por, o se debe a, la variación total en la variable dependiente (x). COEFICIENTE DE DETERMINACIÓN = (COEFICIENTE DE CORRELACIÓN)² = r² Para el ejemplo anterior el coeficiente de correlación es = ( 0.88 )² = 0.77 e indica que el 77% de la variación total en las ventas semanales se explica por, o se debe a, la variación en las puntuaciones de prueba. Coeficiente de no-determinación: Es el complemento del coeficiente de determinación. Para el ejemplo el coeficiente de no-determinación = 1 - r² = 1 - 0.77 = 0.23. Esto significa que 23% de la variación total en las ventas semanales no se debe a la variación en las puntuaciones de prueba. Un coeficiente de correlación de 0.80 da un coeficiente de determinación de 0.64. Algunos estadígrafos preferirían utilizar la medida más conservadora (0.64), considerando que el coeficiente de correlación de 0.80 puede exagerar la relación entre los dos conjuntos de variables. Ejercicios Propuestos Texto Páginas Ejercicios Manson y Lind 500...502 1....4 ANALISIS DE REGRERSION LINEAL .
  • 4. Estadística Correlación y regresión lineal (SIMPLE) Se define a la regresión lineal como una relación fundamental entre dos o más variables correlacionadas y se usa para pronosticar una variable con base en la otra. Por lo general la relación se obtiene de dos datos observados. En la regresión lineal la relación entre variables forma una línea directa. La línea de regresión lineal es de la forma y’ = a + bx, donde y’ es la variable dependiente que queremos resolver; a es la intersección de y’; b es la dependiente y x es la variable independiente (en el análisis de series de tiempo, x representa unidades de tiempo). La regresión lineal es útil para pronósticos a largo plazo de sucesos importantes y para la planificación agregada. Por ejemplo, sería muy útil para pronosticar la demanda de familias de productos. Aunque es probable que durante un periodo varié bastante la demanda para un producto específico de la familia, la demanda para toda la familia es sorpresivamente regular. La restricción principal para usar los pronósticos de regresión lineal es que, supuestamente, los datos pasados y las proyecciones caen sobre una línea recta. Aunque esto limita su aplicación, algunas veces, si usamos un periodo más breve puede usarse el análisis de regresión lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un período de diez o veinte años la tendencia se pierde entre todos los datos y será baja la proyección para el año siguiente. Sin embargo, si sólo usamos los últimos años, el pronóstico será más preciso. Es una parte del procedimiento de regresión lineal se estima lo adecuado del ajuste en la línea con los datos. La regresión lineal se usa tanto para pronósticos de series de tiempo como para pronósticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical de un gráfico) cambia como resultado del tiempo (el eje horizontal en el gráfico), se trata de un análisis de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamos ante una relación causal (como el incremento en el número de muertes por cáncer en el pulmón con respecto a las personas que fuman). METODO DE MINIMOS CUADRADOS El método de mínimos cuadrados trata de ajustar a la línea a los datos que minimicen la suma de los cuadrados de la distancia vertical entre cada punto de datos y su punto correspondiente a la línea. La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a continuación: y’ = a + bx Donde: y’ ⇒ variable dependiente calculada por la ecuación, indica el pronóstico para el período x. x ⇒ periodo de tiempo. a ⇒ es el valor de y’ cuando x es = 0. b ⇒ es la pendiente de la línea. .
  • 5. Estadística Correlación y regresión lineal ∑y −b∑x n( ∑xy ) − ∑x ∑y b= n∑x ² − ( ∑x )² a= n y ⇒ Representa el valor de la variable correspondiente del periodo x. EJEMPLO 1. Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos anteriores son los que se indican a continuación. Periodo (x) Ventas (y) (xy) (x²) Y’ 1 600 600 1 801.3 2 1550 3100 4 1160.9 3 1500 4500 9 1520.5 4 1500 6000 16 18880.1 5 2400 12000 25 2239.7 6 3100 18600 36 2599.4 7 2600 18200 49 2959.0 8 2900 23200 64 3318.6 9 3800 34200 81 3678.2 10 4500 45000 100 4037.8 11 4000 44000 121 4397.4 12 4900 58800 144 4757.1 ∑x = 78 ∑y = 33,350 ∑ = 268,200 ∑ = 650 Calculando la pendiente: 12( 268,200) −78(33,350) 3218,400 −2601300 617,100 b = = = =359.6153 12(650) −(78)² 7800 −6084 1716 Por lo tanto el valor de a será: 33,350 −359.6153(78) a = = 441.66 12 El pronóstico para el periodo 13 será: y’13 = a +bx = 441.66 + 359.6153 (13) = 5,116 y para el periodo 14 y 15: y’14 = 441.66 + 359.6153 (14) = 5,476 y’15 = 441.66 + 359.6153 (15) = 5,836 .
  • 6. Estadística Correlación y regresión lineal V $5000 E 4000 Pronósticos de Venta N 3000 T 2000 A 1000 S 500 Línea de Regresión a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PERIODO ( X ) El error estándar de estimación, o sea, la calidad de ajuste de la línea a los datos anteriores es: n ∑( y i − y 'i ) ² Sy ' = i =1 =363.9 n −2 Una ecuación más fácil de calcular para el error estándar es: Sy ' = ∑ ² −a ∑ −b∑ y y xy n −2 EJEMPLO 2. Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores, las sumas y otros datos básicos para despejar o evaluar a y b aparecen en la tabla siguiente: .
  • 7. Estadística Correlación y regresión lineal Ventas Puntuación semanales de prueba. (niveles de dólares) Vendedor X Y X² XY Y² Sr. Amber 4 5 16 20 25 Sr. Archer 7 12 49 84 144 Sra. Smith 3 4 9 12 16 Sr. Malcolm 6 8 36 48 64 Sra. Goodwin 10 11 100 110 121 Total 30 40 210 274 370 ¿Cuál es la ecuación de regresión? SOLUCION: Las sumas de la tabla anterior se utilizan para ilustrar los cálculos para a y b en la ecuación de regresión: n( ∑xy ) − ∑x ∑y 5( 274 ) −(30)(40) b= = = 1.133 n∑x ² − ( ∑x )² 5(210) −(30)² a = Y – bx = (40/5) – 1.133(30/5) = 8 – 6.798 = 1.202 Y’ = 1.202 + 1.133 (EN MILES DE DÓLARES). Por tanto, la ecuación de regresión es y’ = 1.202 + 1.133x (en miles de dólares). Las ventas pronosticas para un candidato a un puesto en ventas, que calificó 6 en la puerta del director de personal es $8000, que se obtiene por y’ = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000 (en miles de dólares). EJERCICIO: Datos: Calcular el pronóstico para los meses de enero, febrero y marzo del año siguiente. E F M A M J J A S O N D E F M A M J J A S O N D E F M 6 5 6 8 8 6 7 7 6 7 7 6 7 8 9 7 7 7 6 8 8 8 9 10 8 5 3 2 7 3 7 8 2 8 4 2 4 0 6 4 1 1 6 6 5 9 1 3 .