SlideShare una empresa de Scribd logo
1 de 26
UNIDAD IV:
 DISTRIBUCIÓN BIDIMENSIONAL
      REGRESIÓN LINEAL

                Biometría I
Universidad de San Antonio Abad del Cusco

           Semestre 2012 - 2


                               Lic. Dionicio Cárdenas Cancha
Unidad IV: Distribución Bidimensional



       CONTENIDO
             Relación entre variables
             Diagrama de dispersión
             Covarianza
             - Relación directa, inversa e incorrelación
             Correlación lineal
             - Relación directa, inversa e incorrelación
             - Grado de relación lineal entre variables
             Regresión, predicción
             - Variable dependiente
             - Variable(s) independiente
             - Modelo lineal de regresión
             - Residuo, error

02/04/2013                        Biometría I                       2
Unidad IV: Distribución Bidimensional

       Qué vamos a estudiar

       Diferentes formas de describir la relación entre dos
       variables cuando estas son numéricas.

       Ejemplos:
       - Estudiar si hay relación entre la altura y el peso.
       - Se pretende estudiar si las notas de la asignatura de Estadística II
          dependen de la asignatura de Estadística I.
          Variable dependiente o criterio: Estadística II
          Variable independiente o predictora: Estadística I

       Para estudiar empíricamente estas relaciones medimos, en una muestra
       de sujetos, los valores de las variables incluidas en la relación. La
       información de un sujeto cualquiera de la muestra Si, vendrá dada por el
       par (Xi, Yi). El conjunto de pares constituye la matriz de datos de la
       investigación.

02/04/2013                         Biometría I                                  3
Unidad IV: Distribución Bidimensional

       Estudio conjunto de dos variables
       A la derecha tenemos una posible manera de                        Altura    Peso
       recoger los datos obtenidos observando dos                        en cm.   en Kg.
       variables en varios individuos de una muestra.                      162      61
             En cada fila tenemos los datos de un individuo
                                                                           154      60
             Cada columna representa los valores que toma una variable
             sobre los mismos                                              180      78
             Los individuos no se muestran en ningún orden particular      158      62
                                                                           171      66
       Dichas observaciones pueden ser representadas                       169      60
       en un diagrama de dispersión. En ellos, cada                        166      54
       individuo es un punto cuyas ordenadas son los                       176      84
       valores de las variables.                                           163      68
                                                                           ...      ...
       Nuestro objetivo será intentar reconocer a partir del
       mismo si hay relación entre las variables, de qué
       tipo, y si es posible predecir el valor de una de ellas
       en función de la otra.

02/04/2013                               Biometría I                                      4
Unidad IV: Distribución Bidimensional

           Diagrama de dispersión o nube de puntos
           Tenemos las alturas y los pesos de 30 individuos representados en un
           diagrama de dispersión.
   Variable dependiente y (peso)

                 100
                  90
                                     Pesa 76 kg.
                  80
     Peso (kg)




                  70




                                                                                Mide 187 cm.
                  60
                          Pesa 50 kg.
                  50
                  40
                                            Mide 161 cm.
                  30
                    140        150          160        170         180                 190       200
                                                   Altura (cm)

                                                                  Variable independiente x (altura)

02/04/2013                                    Biometría I                                             5
Unidad IV: Distribución Bidimensional

       Relación entre variables
       Tenemos las alturas y los pesos de 30 individuos representados en un
       diagrama de dispersión.

   100
     90
     80
     70
     60
     50
     40
     30
          140     150        160         170         180            190   200

02/04/2013                         Biometría I                              6
Unidad IV: Distribución Bidimensional

       Predicción de una variable en función de la otra
       Aparentemente el peso aumenta 10Kg por cada 10 cm de altura… o
       sea, el peso aumenta en una unidad por cada unidad de altura.


100
  90
  80
  70         10 kg.

  60
  50
                                  10 cm.
  40
  30
    140           150      160             170      180           190   200
02/04/2013                       Biometría I                            7
Unidad IV: Distribución Bidimensional

              Relación directa e inversa
  330                                                                   100

  280         Incorrelación                                              90      Fuerte relación
                                                                         80         directa.
  230
                                                                         70
  180
                                                                         60
  130                                                                    50

   80                                                                    40
                                                                         30
   30
                                                                           140        150      160   170   180   190       200
        140        150        160   170   180         190         200


   Incorrelación. Para valores de X por encima de la                    Relación directa o creciente. Para los valores
   media tenemos valores de Y por encima y por                          de X mayores (o menores) que la media le
   debajo en proporciones similares.                                    corresponden valores de Y mayores (o menores)
                                                                        también.
   80
   70                                           Cierta relación         Relación inversa o decreciente. Para los
   60                                              inversa              valores de X mayores que la media le
                                                                        corresponden valores de Y menores.
   50
   40
   30
   20
   10
    0
        140        150    160       170   180        190      200

02/04/2013                                                 Biometría I                                                 8
Unidad IV: Distribución Bidimensional

       Covarianza de dos variables X e Y

       La covarianza entre dos variables, Sxy, nos indica si la
       posible relación entre dos variables es directa o inversa.
             Directa o positiva:   S xy    0                       1
                                                     S xy            xi . yi   x.y
                                                               i   n
             Inversa o negativa:    S xy    0
       El signo de la covarianza nos dice si el aspecto de la
       nube de puntos es creciente o no, pero no nos dice nada
       sobre el grado de relación entre las variables.




02/04/2013                                 Biometría I                               9
Unidad IV: Distribución Bidimensional

       Coeficiente de correlación lineal de Pearson

       El coeficiente de correlación lineal de Pearson de dos
       variables, r, nos indica si los puntos tienen una tendencia
       a disponerse alineadamente (excluyendo rectas
       horizontales y verticales).

       Tiene el mismo signo que Sxy por tanto de su signo             S xy
       obtenemos el que la posible relación sea directa o
                                                                  r
                                                                      SxS y
       inversa.

       r es útil para determinar si hay relación lineal entre dos
       variables, pero no servirá para otro tipo de relaciones
       (cuadrática, logarítmica, …)



02/04/2013                      Biometría I                            10
Unidad IV: Distribución Bidimensional

       Propiedades de r

             Es adimensional (No posee unidades de medida)
             Sólo toma valores en [-1, 1]
             Las variables son incorrelacionadas  r = 0
             Relación lineal perfecta entre dos variables 
             r = +1 o r = -1
             Cuanto más cerca esté r de +1 o -1 mejor será el
             grado de relación lineal.
              Relación
              inversa                                  Relación
              perfecta                                  directa
                               Variables
                                                         casi
                           incorrelacionadas
                                                       perfecta




              -1                        0                           +1

02/04/2013                         Biometría I                           11
Unidad IV: Distribución Bidimensional

          Ejemplos de correlaciones positivas
 330                                                   130
                                                       120
 280                                                   110
 230                                                   100
                                                        90
 180                                                    80
                                                        70
 130                                                    60
  80                                                    50
                                        r=0,1           40
                                                                                        r=0,4
  30                                                    30
    140      150   160   170   180      190      200      140   150   160   170   180   190      200


100                                                    100
 90                                                     90
 80                                                     80
 70                                                     70
 60                                                     60
 50                                                     50
 40                                      r=0,8          40                              r=0,99
 30                                                     30
   140       150   160   170   180      190      200      140   150   160   170   180   190          200


02/04/2013                                    Biometría I                                       12
Unidad IV: Distribución Bidimensional

             Ejemplos de correlaciones negativas
  90                                                        80
  80                                                        70
  70                                                        60
  60                                                        50
  50
                                                            40
  40
                                                            30
  30
  20                                                        20
  10          r=-0,5                                        10      r=-0,7
   0                                                         0
       140       150   160   170   180       190      200     140      150   160   170   180   190        200


  80                                                        80
  70                                                        70
  60                                                        60
  50                                                        50
  40                                                        40
  30                                                        30
  20                                                        20
  10         r=-0,95                                        10   r=-0,999
   0                                                         0
    140          150   160   170   180      190       200     140      150   160   170   180   190        200

02/04/2013                                         Biometría I                                       13
Unidad IV: Distribución Bidimensional

       Preguntas frecuentes

             ¿Si r = 0 entonces las variables son independientes?
       • En la práctica, casi siempre si, pero no tiene por qué ser cierto en
         todos los casos.
       • Lo contrario si es cierto: independencia implica incorrelación.

             Me ha salido r = 1.2 ¿la relación es «superlineal»?
       • Eso es un error de cálculo. Siempre debe tomar un valor entre -1
         y +1

             ¿A partir de qué valores se considera que hay «buena
             relación lineal»?
       • Imposible dar un valor concreto. Para este curso digamos que si
         |r| > 0.7 hay buena relación lineal y que si |r| > 0.4, hay cierta
         relación.


02/04/2013                         Biometría I                                  14
Unidad IV: Distribución Bidimensional

       Modelo de Regresión

       El análisis de regresión sirve para predecir una medida
       en función de otra medida (o varias)

       • Y = Variable dependiente (predicha, explicada)

       • X = Variable independiente (predictora, explicativa)

       ¿Es posible descubrir una relación?

       • Y = f(x) + error
         - f es una función de un tipo determinado (en nuestro caso
            lineal)
         - el error es aleatorio, pequeño y no depende de X




02/04/2013                        Biometría I                         15
Unidad IV: Distribución Bidimensional

       Modelo de Regresión Lineal Simple

       Ejemplo: Estudio de altura en grupos familiares

       Altura del hijo = 85 cm + 0,5 altura del padre (Y = 85 + 0,5 X)

       • Si el padre mide 200 cm ¿cuánto mide el hijo?
         Se espera (predice) 85 + 0,5 x 200 = 185 cm.
         Alto, pero no tanto como el padre

       • Si el padre mide 120 cm ¿cuánto mide el hijo?
         Se espera (predice) 85 + 0,5 x 120 = 145 cm
         Bajo, pero no tanto como el padre




02/04/2013                         Biometría I                           16
Unidad IV: Distribución Bidimensional

       Modelo de Regresión Lineal Simple

       En el modelo de regresión lineal simple, dada dos
       variables
       • Y (dependiente, predicha, explicada)
       • X (independiente, predictora, explicativa)

       Buscamos encontrar una función de X (lineal) que nos permita
       aproximar Y mediante
       • Y’ = a + bX
          - b (pendiente de la recta)
          - a (ordenada en el origen, coeficiente de posición, constante)

       Y e Y’ rara vez coincidirán por muy bueno que sea el modelo de
       regresión. A la cantidad
       • e = Y – Y’ se le denomina residuo o error residual



02/04/2013                        Biometría I                               17
Unidad IV: Distribución Bidimensional

       Modelo de Regresión Lineal Simple

       En el ejemplo se encontró:
       • Y’ = a + bX
         b = 0,5 (el hijo gana 0.5 cm por cada cm del padre)
         a = 85 cm
             Altura del hijo (cm)




                                    180
                                    150                      b = 0,5
                                    120
                                     90
                                     60
                                     30            a =85 cm
                                      0
                                          0
                                              10
                                                   20
                                                        30
                                                             40
                                                                   50
                                                                        60
                                                                             70
                                                                                  80
                                                                                       90
                                                                                            100
                                                                                                  110
                                                                                                        120
                                                                                                              130
                                                                                                                    140
                                                                                                                          150
                                                                                                                                160
                                                                                                                                      170
                                                                                                                                            180
                                                                                                                                                  190
                                                                                                                                                        200
                                                                                                                                                              210
                                                                                                                                                                    220
                                                                                  Altura del padre (cm)


02/04/2013                                                                   Biometría I                                                                                  18
Unidad IV: Distribución Bidimensional

       Modelo de Regresión Lineal Simple

       La relación entre las variables no es exacta. Es natural
       preguntarse entonces:
             • Cuál es la mejor recta que sirve para predecir los valores de Y
               en función de los de X
             • Qué error (residual) cometemos con dicha aproximación
             Altura del hijo (cm)




                                    180
                                    150                      b = 0,5
                                    120
                                     90
                                     60
                                     30            a =85 cm
                                      0
                                          0
                                              10
                                                   20
                                                        30
                                                             40
                                                                   50
                                                                        60
                                                                             70
                                                                                  80
                                                                                       90
                                                                                            100
                                                                                                  110
                                                                                                        120
                                                                                                              130
                                                                                                                    140
                                                                                                                          150
                                                                                                                                160
                                                                                                                                      170
                                                                                                                                            180
                                                                                                                                                  190
                                                                                                                                                        200
                                                                                                                                                              210
                                                                                                                                                                    220
                                                                                  Altura del padre (cm)


02/04/2013                                                                   Biometría I                                                                                  19
Unidad IV: Distribución Bidimensional

       Modelo de Regresión Lineal Simple

       El modelo lineal de regresión se construye utilizando la
       técnica de estimación mínimo cuadrática:

       • Buscar a, b de tal manera que se minimice la cantidad Σi ei2

       Se comprueba que para lograr dicho resultado basta con
       elegir:        S      XY
                        b                         a   y   b x
                            SX 2


       Se obtiene además las siguientes ventajas
       • El error residual medio es nulo
       • La varianza del error residual es mínima para dicha estimación.




02/04/2013                         Biometría I                             20
Unidad IV: Distribución Bidimensional

       Otros modelos de Regresión
                                                ¿recta o parábola?
       Se pueden considerar otros
       tipos de modelos, en función
       del aspecto que presenta el
       diagrama de dispersión
       (regresión no lineal)

       Incluso se puede considerar el     140       150    160       170   180   190        200

       que una variable dependa de
       varias (regresión múltiple)         ¿recta o cúbica?




                                         140       150     160       170   180   190        200


02/04/2013                      Biometría I                                            21
Unidad IV: Distribución Bidimensional

      Modelo de Regresión Lineal Simple
       Ejemplo:
       Dados los siguientes datos:
                   X   6      5     8     8      7     4

                   Y   8      7     7     10     5     6


       a) Construir el diagrama de dispersión
       b) Ajustar una recta de regresión por mínimos cuadrados de
          y sobre x
       c) Hallar el error típico de estimación
       d) Determine el coeficiente de correlación lineal
       e) Determinar la covarianza
       f) Grafique la recta hallada por mínimos cuadrados sobre la
          nube de puntos.
       g) Estime el valor de y cuando x = 2

02/04/2013                        Biometría I                        22
Unidad IV: Distribución Bidimensional

      Modelo de Regresión Lineal Simple
       Solución:
       a) Construir el diagrama de dispersión
         11

         10

             9

             8

             7

             6

             5

             4

             3

             2

             1

             0
                 0   1   2   3      4     5     6     7     8     9




02/04/2013                              Biometría I                      23
Unidad IV: Distribución Bidimensional

      Modelo de Regresión Lineal Simple
       Solución:
       b) Ajustar una recta de regresión por mínimos cuadrados de y
                            ˆ
          sobre x. Se tiene y a bx

         X   Y    XY    X2    Y2          n xi yi xi yi        6(278) (38)(43)       1668 1634     34
                                    b
         6   8    48    36     64          n xi2 ( xi )2        6(254) (38) 2        1524 1444     80

         5   7    35    25     49
                                          34
         8   7    56    64     49   b           0.425
                                          80
         8   10   80    64    100
                                    a     y bx
         7   5    35    49     25
         4   6    24    16     36          38             43
                                    x           6.33, y        7.17   x   6..33, y      7.17
                                           6              6
        38   43   278   254   323
                                    a       7.17    (0.425)(6.33)     7.17       2.69      4.480

                                        
                                        y a bx 4.480 (0.425) x


02/04/2013                              Biometría I                                                24
Unidad IV: Distribución Bidimensional

      Modelo de Regresión Lineal Simple
       Solución:
       c) El error estándar o típico de estimación

                      yi2 a   yi b xi yi         S y/ x
                                                           323 (4.480)(43) (0.425)(278)
       S y/ x                                                           6
                              n

                   323 192.64 118.15             323 310.79      12.21
       S y/ x                                                                 2.035     1.43
                           6                         6             6
       d) El coeficiente de correlación lineal
                      n xi yi xi     yi                        6(278) (38)(43)
        r                                           r
                n xi2 ( xi )2 n    yi2 ( yi )2            6(254) (38) 2 6(323) (43) 2


        r = 0.4029


02/04/2013                                 Biometría I                                         25
Unidad IV: Distribución Bidimensional

      Modelo de Regresión Lineal Simple
       Solución:
       e) Covarianza
                         xi yi           228      38    13
       Cov ( x , y )              x y
                         n                6       6      6
       Cov ( x , y )   46.33     (6.33)(7.17)   46.33   45.386     0.9439


       f)    Ver gráfico

       g) Estime el valor de y cuando x = 2

        y /x 2         4.480      0.425(2)      4.480    0.85     5, 33




02/04/2013                               Biometría I                        26

Más contenido relacionado

La actualidad más candente

probabilidad de Poisson y Bernoulli, y su comparación.
probabilidad de Poisson y Bernoulli, y su comparación.probabilidad de Poisson y Bernoulli, y su comparación.
probabilidad de Poisson y Bernoulli, y su comparación.
Belen Dominguez
 
Probabilidad de las jugadas del poker
Probabilidad de las jugadas del pokerProbabilidad de las jugadas del poker
Probabilidad de las jugadas del poker
pedrotiago90
 
Estadistica mapa conceptual
Estadistica mapa conceptualEstadistica mapa conceptual
Estadistica mapa conceptual
danylopez
 

La actualidad más candente (20)

Guía métodos estadísticos.
Guía métodos estadísticos.Guía métodos estadísticos.
Guía métodos estadísticos.
 
probabilidad de Poisson y Bernoulli, y su comparación.
probabilidad de Poisson y Bernoulli, y su comparación.probabilidad de Poisson y Bernoulli, y su comparación.
probabilidad de Poisson y Bernoulli, y su comparación.
 
Trabajo de estadistica 2 coorte
Trabajo de estadistica 2 coorteTrabajo de estadistica 2 coorte
Trabajo de estadistica 2 coorte
 
Regresion lineal
Regresion linealRegresion lineal
Regresion lineal
 
Cálculo difrencial versión2
Cálculo difrencial versión2Cálculo difrencial versión2
Cálculo difrencial versión2
 
Probabilidad de las jugadas del poker
Probabilidad de las jugadas del pokerProbabilidad de las jugadas del poker
Probabilidad de las jugadas del poker
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Econometria I: modelo de regresión lineal simple
Econometria I: modelo de regresión lineal simple Econometria I: modelo de regresión lineal simple
Econometria I: modelo de regresión lineal simple
 
Simetria y curtosis
Simetria y curtosisSimetria y curtosis
Simetria y curtosis
 
Regresión por Mínimos Cuadrados
Regresión por Mínimos CuadradosRegresión por Mínimos Cuadrados
Regresión por Mínimos Cuadrados
 
Unidad 5 Inferencia estadística
Unidad 5 Inferencia estadísticaUnidad 5 Inferencia estadística
Unidad 5 Inferencia estadística
 
Mapa conceptual, distribuciones muestrales y estimacion
Mapa conceptual, distribuciones muestrales y estimacionMapa conceptual, distribuciones muestrales y estimacion
Mapa conceptual, distribuciones muestrales y estimacion
 
Regresión y Correlación Lineal
Regresión y Correlación LinealRegresión y Correlación Lineal
Regresión y Correlación Lineal
 
Correlacion lineal
Correlacion linealCorrelacion lineal
Correlacion lineal
 
Ejemplos de distribuciones
Ejemplos de distribucionesEjemplos de distribuciones
Ejemplos de distribuciones
 
Distribución normal
Distribución normal Distribución normal
Distribución normal
 
9 distribuciones bidimensionales
9 distribuciones bidimensionales9 distribuciones bidimensionales
9 distribuciones bidimensionales
 
Estadistica mapa conceptual
Estadistica mapa conceptualEstadistica mapa conceptual
Estadistica mapa conceptual
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
EstimacióN Y Prueba De HipóTesis
EstimacióN Y Prueba De HipóTesisEstimacióN Y Prueba De HipóTesis
EstimacióN Y Prueba De HipóTesis
 

Más de Javier Chávez Centeno

Más de Javier Chávez Centeno (20)

Recursividad 2017 jdchc
Recursividad 2017 jdchcRecursividad 2017 jdchc
Recursividad 2017 jdchc
 
02 ads i
02 ads i02 ads i
02 ads i
 
01 ads i
01 ads i01 ads i
01 ads i
 
006 herencia y polimorfismo_jdchc
006 herencia y polimorfismo_jdchc006 herencia y polimorfismo_jdchc
006 herencia y polimorfismo_jdchc
 
007 listas
007 listas007 listas
007 listas
 
005 metodos anonimos jdchc
005 metodos anonimos jdchc005 metodos anonimos jdchc
005 metodos anonimos jdchc
 
004 delegados jdchc
004 delegados jdchc004 delegados jdchc
004 delegados jdchc
 
003 sobrecarga de operadores jdchc
003 sobrecarga de operadores jdchc003 sobrecarga de operadores jdchc
003 sobrecarga de operadores jdchc
 
002 modelo objetos jdchc
002 modelo objetos jdchc002 modelo objetos jdchc
002 modelo objetos jdchc
 
001 ta ds jdchc
001 ta ds jdchc001 ta ds jdchc
001 ta ds jdchc
 
02 representación informacion
02 representación informacion02 representación informacion
02 representación informacion
 
05 software computador jdchc
05 software computador jdchc05 software computador jdchc
05 software computador jdchc
 
06 redes jdchc
06 redes jdchc06 redes jdchc
06 redes jdchc
 
06 ingsoft jdchc rup
06 ingsoft jdchc rup06 ingsoft jdchc rup
06 ingsoft jdchc rup
 
07 ingsoft jdchc uml
07 ingsoft jdchc uml07 ingsoft jdchc uml
07 ingsoft jdchc uml
 
04 perifericos inf jdchc
04 perifericos inf jdchc04 perifericos inf jdchc
04 perifericos inf jdchc
 
03 estructuracomputador inf jdchc
03 estructuracomputador inf jdchc03 estructuracomputador inf jdchc
03 estructuracomputador inf jdchc
 
01 introduccion inf jdchc
01 introduccion inf jdchc01 introduccion inf jdchc
01 introduccion inf jdchc
 
05 ingsoft jdchc
05 ingsoft jdchc05 ingsoft jdchc
05 ingsoft jdchc
 
04 ingsoft jdchc
04 ingsoft jdchc04 ingsoft jdchc
04 ingsoft jdchc
 

Último

PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docx
lupitavic
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 

Último (20)

OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdf
 
origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literario
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 
PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docx
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024
 
Infografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdfInfografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdf
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 

04 regresion

  • 1. UNIDAD IV: DISTRIBUCIÓN BIDIMENSIONAL REGRESIÓN LINEAL Biometría I Universidad de San Antonio Abad del Cusco Semestre 2012 - 2 Lic. Dionicio Cárdenas Cancha
  • 2. Unidad IV: Distribución Bidimensional CONTENIDO Relación entre variables Diagrama de dispersión Covarianza - Relación directa, inversa e incorrelación Correlación lineal - Relación directa, inversa e incorrelación - Grado de relación lineal entre variables Regresión, predicción - Variable dependiente - Variable(s) independiente - Modelo lineal de regresión - Residuo, error 02/04/2013 Biometría I 2
  • 3. Unidad IV: Distribución Bidimensional Qué vamos a estudiar Diferentes formas de describir la relación entre dos variables cuando estas son numéricas. Ejemplos: - Estudiar si hay relación entre la altura y el peso. - Se pretende estudiar si las notas de la asignatura de Estadística II dependen de la asignatura de Estadística I. Variable dependiente o criterio: Estadística II Variable independiente o predictora: Estadística I Para estudiar empíricamente estas relaciones medimos, en una muestra de sujetos, los valores de las variables incluidas en la relación. La información de un sujeto cualquiera de la muestra Si, vendrá dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datos de la investigación. 02/04/2013 Biometría I 3
  • 4. Unidad IV: Distribución Bidimensional Estudio conjunto de dos variables A la derecha tenemos una posible manera de Altura Peso recoger los datos obtenidos observando dos en cm. en Kg. variables en varios individuos de una muestra. 162 61 En cada fila tenemos los datos de un individuo 154 60 Cada columna representa los valores que toma una variable sobre los mismos 180 78 Los individuos no se muestran en ningún orden particular 158 62 171 66 Dichas observaciones pueden ser representadas 169 60 en un diagrama de dispersión. En ellos, cada 166 54 individuo es un punto cuyas ordenadas son los 176 84 valores de las variables. 163 68 ... ... Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra. 02/04/2013 Biometría I 4
  • 5. Unidad IV: Distribución Bidimensional Diagrama de dispersión o nube de puntos Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Variable dependiente y (peso) 100 90 Pesa 76 kg. 80 Peso (kg) 70 Mide 187 cm. 60 Pesa 50 kg. 50 40 Mide 161 cm. 30 140 150 160 170 180 190 200 Altura (cm) Variable independiente x (altura) 02/04/2013 Biometría I 5
  • 6. Unidad IV: Distribución Bidimensional Relación entre variables Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 02/04/2013 Biometría I 6
  • 7. Unidad IV: Distribución Bidimensional Predicción de una variable en función de la otra Aparentemente el peso aumenta 10Kg por cada 10 cm de altura… o sea, el peso aumenta en una unidad por cada unidad de altura. 100 90 80 70 10 kg. 60 50 10 cm. 40 30 140 150 160 170 180 190 200 02/04/2013 Biometría I 7
  • 8. Unidad IV: Distribución Bidimensional Relación directa e inversa 330 100 280 Incorrelación 90 Fuerte relación 80 directa. 230 70 180 60 130 50 80 40 30 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200 Incorrelación. Para valores de X por encima de la Relación directa o creciente. Para los valores media tenemos valores de Y por encima y por de X mayores (o menores) que la media le debajo en proporciones similares. corresponden valores de Y mayores (o menores) también. 80 70 Cierta relación Relación inversa o decreciente. Para los 60 inversa valores de X mayores que la media le corresponden valores de Y menores. 50 40 30 20 10 0 140 150 160 170 180 190 200 02/04/2013 Biometría I 8
  • 9. Unidad IV: Distribución Bidimensional Covarianza de dos variables X e Y La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa. Directa o positiva: S xy 0 1 S xy xi . yi x.y i n Inversa o negativa: S xy 0 El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables. 02/04/2013 Biometría I 9
  • 10. Unidad IV: Distribución Bidimensional Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Tiene el mismo signo que Sxy por tanto de su signo S xy obtenemos el que la posible relación sea directa o r SxS y inversa. r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica, …) 02/04/2013 Biometría I 10
  • 11. Unidad IV: Distribución Bidimensional Propiedades de r Es adimensional (No posee unidades de medida) Sólo toma valores en [-1, 1] Las variables son incorrelacionadas  r = 0 Relación lineal perfecta entre dos variables  r = +1 o r = -1 Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. Relación inversa Relación perfecta directa Variables casi incorrelacionadas perfecta -1 0 +1 02/04/2013 Biometría I 11
  • 12. Unidad IV: Distribución Bidimensional Ejemplos de correlaciones positivas 330 130 120 280 110 230 100 90 180 80 70 130 60 80 50 r=0,1 40 r=0,4 30 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200 100 100 90 90 80 80 70 70 60 60 50 50 40 r=0,8 40 r=0,99 30 30 140 150 160 170 180 190 200 140 150 160 170 180 190 200 02/04/2013 Biometría I 12
  • 13. Unidad IV: Distribución Bidimensional Ejemplos de correlaciones negativas 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 r=-0,5 10 r=-0,7 0 0 140 150 160 170 180 190 200 140 150 160 170 180 190 200 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 r=-0,95 10 r=-0,999 0 0 140 150 160 170 180 190 200 140 150 160 170 180 190 200 02/04/2013 Biometría I 13
  • 14. Unidad IV: Distribución Bidimensional Preguntas frecuentes ¿Si r = 0 entonces las variables son independientes? • En la práctica, casi siempre si, pero no tiene por qué ser cierto en todos los casos. • Lo contrario si es cierto: independencia implica incorrelación. Me ha salido r = 1.2 ¿la relación es «superlineal»? • Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1 ¿A partir de qué valores se considera que hay «buena relación lineal»? • Imposible dar un valor concreto. Para este curso digamos que si |r| > 0.7 hay buena relación lineal y que si |r| > 0.4, hay cierta relación. 02/04/2013 Biometría I 14
  • 15. Unidad IV: Distribución Bidimensional Modelo de Regresión El análisis de regresión sirve para predecir una medida en función de otra medida (o varias) • Y = Variable dependiente (predicha, explicada) • X = Variable independiente (predictora, explicativa) ¿Es posible descubrir una relación? • Y = f(x) + error - f es una función de un tipo determinado (en nuestro caso lineal) - el error es aleatorio, pequeño y no depende de X 02/04/2013 Biometría I 15
  • 16. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Ejemplo: Estudio de altura en grupos familiares Altura del hijo = 85 cm + 0,5 altura del padre (Y = 85 + 0,5 X) • Si el padre mide 200 cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0,5 x 200 = 185 cm. Alto, pero no tanto como el padre • Si el padre mide 120 cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0,5 x 120 = 145 cm Bajo, pero no tanto como el padre 02/04/2013 Biometría I 16
  • 17. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple En el modelo de regresión lineal simple, dada dos variables • Y (dependiente, predicha, explicada) • X (independiente, predictora, explicativa) Buscamos encontrar una función de X (lineal) que nos permita aproximar Y mediante • Y’ = a + bX - b (pendiente de la recta) - a (ordenada en el origen, coeficiente de posición, constante) Y e Y’ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad • e = Y – Y’ se le denomina residuo o error residual 02/04/2013 Biometría I 17
  • 18. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple En el ejemplo se encontró: • Y’ = a + bX b = 0,5 (el hijo gana 0.5 cm por cada cm del padre) a = 85 cm Altura del hijo (cm) 180 150 b = 0,5 120 90 60 30 a =85 cm 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 Altura del padre (cm) 02/04/2013 Biometría I 18
  • 19. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple La relación entre las variables no es exacta. Es natural preguntarse entonces: • Cuál es la mejor recta que sirve para predecir los valores de Y en función de los de X • Qué error (residual) cometemos con dicha aproximación Altura del hijo (cm) 180 150 b = 0,5 120 90 60 30 a =85 cm 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 Altura del padre (cm) 02/04/2013 Biometría I 19
  • 20. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: • Buscar a, b de tal manera que se minimice la cantidad Σi ei2 Se comprueba que para lograr dicho resultado basta con elegir: S XY b a y b x SX 2 Se obtiene además las siguientes ventajas • El error residual medio es nulo • La varianza del error residual es mínima para dicha estimación. 02/04/2013 Biometría I 20
  • 21. Unidad IV: Distribución Bidimensional Otros modelos de Regresión ¿recta o parábola? Se pueden considerar otros tipos de modelos, en función del aspecto que presenta el diagrama de dispersión (regresión no lineal) Incluso se puede considerar el 140 150 160 170 180 190 200 que una variable dependa de varias (regresión múltiple) ¿recta o cúbica? 140 150 160 170 180 190 200 02/04/2013 Biometría I 21
  • 22. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Ejemplo: Dados los siguientes datos: X 6 5 8 8 7 4 Y 8 7 7 10 5 6 a) Construir el diagrama de dispersión b) Ajustar una recta de regresión por mínimos cuadrados de y sobre x c) Hallar el error típico de estimación d) Determine el coeficiente de correlación lineal e) Determinar la covarianza f) Grafique la recta hallada por mínimos cuadrados sobre la nube de puntos. g) Estime el valor de y cuando x = 2 02/04/2013 Biometría I 22
  • 23. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: a) Construir el diagrama de dispersión 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 02/04/2013 Biometría I 23
  • 24. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: b) Ajustar una recta de regresión por mínimos cuadrados de y ˆ sobre x. Se tiene y a bx X Y XY X2 Y2 n xi yi xi yi 6(278) (38)(43) 1668 1634 34 b 6 8 48 36 64 n xi2 ( xi )2 6(254) (38) 2 1524 1444 80 5 7 35 25 49 34 8 7 56 64 49 b 0.425 80 8 10 80 64 100 a y bx 7 5 35 49 25 4 6 24 16 36 38 43 x 6.33, y 7.17 x 6..33, y 7.17 6 6 38 43 278 254 323 a 7.17 (0.425)(6.33) 7.17 2.69 4.480  y a bx 4.480 (0.425) x 02/04/2013 Biometría I 24
  • 25. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: c) El error estándar o típico de estimación yi2 a yi b xi yi S y/ x 323 (4.480)(43) (0.425)(278) S y/ x 6 n 323 192.64 118.15 323 310.79 12.21 S y/ x 2.035 1.43 6 6 6 d) El coeficiente de correlación lineal n xi yi xi yi 6(278) (38)(43) r r n xi2 ( xi )2 n yi2 ( yi )2 6(254) (38) 2 6(323) (43) 2 r = 0.4029 02/04/2013 Biometría I 25
  • 26. Unidad IV: Distribución Bidimensional Modelo de Regresión Lineal Simple Solución: e) Covarianza xi yi 228 38 13 Cov ( x , y ) x y n 6 6 6 Cov ( x , y ) 46.33 (6.33)(7.17) 46.33 45.386 0.9439 f) Ver gráfico g) Estime el valor de y cuando x = 2 y /x 2 4.480 0.425(2) 4.480 0.85 5, 33 02/04/2013 Biometría I 26