1. UNIDAD IV:
DISTRIBUCIÓN BIDIMENSIONAL
REGRESIÓN LINEAL
Biometría I
Universidad de San Antonio Abad del Cusco
Semestre 2012 - 2
Lic. Dionicio Cárdenas Cancha
2. Unidad IV: Distribución Bidimensional
CONTENIDO
Relación entre variables
Diagrama de dispersión
Covarianza
- Relación directa, inversa e incorrelación
Correlación lineal
- Relación directa, inversa e incorrelación
- Grado de relación lineal entre variables
Regresión, predicción
- Variable dependiente
- Variable(s) independiente
- Modelo lineal de regresión
- Residuo, error
02/04/2013 Biometría I 2
3. Unidad IV: Distribución Bidimensional
Qué vamos a estudiar
Diferentes formas de describir la relación entre dos
variables cuando estas son numéricas.
Ejemplos:
- Estudiar si hay relación entre la altura y el peso.
- Se pretende estudiar si las notas de la asignatura de Estadística II
dependen de la asignatura de Estadística I.
Variable dependiente o criterio: Estadística II
Variable independiente o predictora: Estadística I
Para estudiar empíricamente estas relaciones medimos, en una muestra
de sujetos, los valores de las variables incluidas en la relación. La
información de un sujeto cualquiera de la muestra Si, vendrá dada por el
par (Xi, Yi). El conjunto de pares constituye la matriz de datos de la
investigación.
02/04/2013 Biometría I 3
4. Unidad IV: Distribución Bidimensional
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de Altura Peso
recoger los datos obtenidos observando dos en cm. en Kg.
variables en varios individuos de una muestra. 162 61
En cada fila tenemos los datos de un individuo
154 60
Cada columna representa los valores que toma una variable
sobre los mismos 180 78
Los individuos no se muestran en ningún orden particular 158 62
171 66
Dichas observaciones pueden ser representadas 169 60
en un diagrama de dispersión. En ellos, cada 166 54
individuo es un punto cuyas ordenadas son los 176 84
valores de las variables. 163 68
... ...
Nuestro objetivo será intentar reconocer a partir del
mismo si hay relación entre las variables, de qué
tipo, y si es posible predecir el valor de una de ellas
en función de la otra.
02/04/2013 Biometría I 4
5. Unidad IV: Distribución Bidimensional
Diagrama de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
Variable dependiente y (peso)
100
90
Pesa 76 kg.
80
Peso (kg)
70
Mide 187 cm.
60
Pesa 50 kg.
50
40
Mide 161 cm.
30
140 150 160 170 180 190 200
Altura (cm)
Variable independiente x (altura)
02/04/2013 Biometría I 5
6. Unidad IV: Distribución Bidimensional
Relación entre variables
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
02/04/2013 Biometría I 6
7. Unidad IV: Distribución Bidimensional
Predicción de una variable en función de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura… o
sea, el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70 10 kg.
60
50
10 cm.
40
30
140 150 160 170 180 190 200
02/04/2013 Biometría I 7
8. Unidad IV: Distribución Bidimensional
Relación directa e inversa
330 100
280 Incorrelación 90 Fuerte relación
80 directa.
230
70
180
60
130 50
80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200
Incorrelación. Para valores de X por encima de la Relación directa o creciente. Para los valores
media tenemos valores de Y por encima y por de X mayores (o menores) que la media le
debajo en proporciones similares. corresponden valores de Y mayores (o menores)
también.
80
70 Cierta relación Relación inversa o decreciente. Para los
60 inversa valores de X mayores que la media le
corresponden valores de Y menores.
50
40
30
20
10
0
140 150 160 170 180 190 200
02/04/2013 Biometría I 8
9. Unidad IV: Distribución Bidimensional
Covarianza de dos variables X e Y
La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o inversa.
Directa o positiva: S xy 0 1
S xy xi . yi x.y
i n
Inversa o negativa: S xy 0
El signo de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice nada
sobre el grado de relación entre las variables.
02/04/2013 Biometría I 9
10. Unidad IV: Distribución Bidimensional
Coeficiente de correlación lineal de Pearson
El coeficiente de correlación lineal de Pearson de dos
variables, r, nos indica si los puntos tienen una tendencia
a disponerse alineadamente (excluyendo rectas
horizontales y verticales).
Tiene el mismo signo que Sxy por tanto de su signo S xy
obtenemos el que la posible relación sea directa o
r
SxS y
inversa.
r es útil para determinar si hay relación lineal entre dos
variables, pero no servirá para otro tipo de relaciones
(cuadrática, logarítmica, …)
02/04/2013 Biometría I 10
11. Unidad IV: Distribución Bidimensional
Propiedades de r
Es adimensional (No posee unidades de medida)
Sólo toma valores en [-1, 1]
Las variables son incorrelacionadas r = 0
Relación lineal perfecta entre dos variables
r = +1 o r = -1
Cuanto más cerca esté r de +1 o -1 mejor será el
grado de relación lineal.
Relación
inversa Relación
perfecta directa
Variables
casi
incorrelacionadas
perfecta
-1 0 +1
02/04/2013 Biometría I 11
14. Unidad IV: Distribución Bidimensional
Preguntas frecuentes
¿Si r = 0 entonces las variables son independientes?
• En la práctica, casi siempre si, pero no tiene por qué ser cierto en
todos los casos.
• Lo contrario si es cierto: independencia implica incorrelación.
Me ha salido r = 1.2 ¿la relación es «superlineal»?
• Eso es un error de cálculo. Siempre debe tomar un valor entre -1
y +1
¿A partir de qué valores se considera que hay «buena
relación lineal»?
• Imposible dar un valor concreto. Para este curso digamos que si
|r| > 0.7 hay buena relación lineal y que si |r| > 0.4, hay cierta
relación.
02/04/2013 Biometría I 14
15. Unidad IV: Distribución Bidimensional
Modelo de Regresión
El análisis de regresión sirve para predecir una medida
en función de otra medida (o varias)
• Y = Variable dependiente (predicha, explicada)
• X = Variable independiente (predictora, explicativa)
¿Es posible descubrir una relación?
• Y = f(x) + error
- f es una función de un tipo determinado (en nuestro caso
lineal)
- el error es aleatorio, pequeño y no depende de X
02/04/2013 Biometría I 15
16. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
Ejemplo: Estudio de altura en grupos familiares
Altura del hijo = 85 cm + 0,5 altura del padre (Y = 85 + 0,5 X)
• Si el padre mide 200 cm ¿cuánto mide el hijo?
Se espera (predice) 85 + 0,5 x 200 = 185 cm.
Alto, pero no tanto como el padre
• Si el padre mide 120 cm ¿cuánto mide el hijo?
Se espera (predice) 85 + 0,5 x 120 = 145 cm
Bajo, pero no tanto como el padre
02/04/2013 Biometría I 16
17. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
En el modelo de regresión lineal simple, dada dos
variables
• Y (dependiente, predicha, explicada)
• X (independiente, predictora, explicativa)
Buscamos encontrar una función de X (lineal) que nos permita
aproximar Y mediante
• Y’ = a + bX
- b (pendiente de la recta)
- a (ordenada en el origen, coeficiente de posición, constante)
Y e Y’ rara vez coincidirán por muy bueno que sea el modelo de
regresión. A la cantidad
• e = Y – Y’ se le denomina residuo o error residual
02/04/2013 Biometría I 17
18. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
En el ejemplo se encontró:
• Y’ = a + bX
b = 0,5 (el hijo gana 0.5 cm por cada cm del padre)
a = 85 cm
Altura del hijo (cm)
180
150 b = 0,5
120
90
60
30 a =85 cm
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
Altura del padre (cm)
02/04/2013 Biometría I 18
19. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
La relación entre las variables no es exacta. Es natural
preguntarse entonces:
• Cuál es la mejor recta que sirve para predecir los valores de Y
en función de los de X
• Qué error (residual) cometemos con dicha aproximación
Altura del hijo (cm)
180
150 b = 0,5
120
90
60
30 a =85 cm
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
Altura del padre (cm)
02/04/2013 Biometría I 19
20. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
El modelo lineal de regresión se construye utilizando la
técnica de estimación mínimo cuadrática:
• Buscar a, b de tal manera que se minimice la cantidad Σi ei2
Se comprueba que para lograr dicho resultado basta con
elegir: S XY
b a y b x
SX 2
Se obtiene además las siguientes ventajas
• El error residual medio es nulo
• La varianza del error residual es mínima para dicha estimación.
02/04/2013 Biometría I 20
21. Unidad IV: Distribución Bidimensional
Otros modelos de Regresión
¿recta o parábola?
Se pueden considerar otros
tipos de modelos, en función
del aspecto que presenta el
diagrama de dispersión
(regresión no lineal)
Incluso se puede considerar el 140 150 160 170 180 190 200
que una variable dependa de
varias (regresión múltiple) ¿recta o cúbica?
140 150 160 170 180 190 200
02/04/2013 Biometría I 21
22. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
Ejemplo:
Dados los siguientes datos:
X 6 5 8 8 7 4
Y 8 7 7 10 5 6
a) Construir el diagrama de dispersión
b) Ajustar una recta de regresión por mínimos cuadrados de
y sobre x
c) Hallar el error típico de estimación
d) Determine el coeficiente de correlación lineal
e) Determinar la covarianza
f) Grafique la recta hallada por mínimos cuadrados sobre la
nube de puntos.
g) Estime el valor de y cuando x = 2
02/04/2013 Biometría I 22
23. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
Solución:
a) Construir el diagrama de dispersión
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
02/04/2013 Biometría I 23
24. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
Solución:
b) Ajustar una recta de regresión por mínimos cuadrados de y
ˆ
sobre x. Se tiene y a bx
X Y XY X2 Y2 n xi yi xi yi 6(278) (38)(43) 1668 1634 34
b
6 8 48 36 64 n xi2 ( xi )2 6(254) (38) 2 1524 1444 80
5 7 35 25 49
34
8 7 56 64 49 b 0.425
80
8 10 80 64 100
a y bx
7 5 35 49 25
4 6 24 16 36 38 43
x 6.33, y 7.17 x 6..33, y 7.17
6 6
38 43 278 254 323
a 7.17 (0.425)(6.33) 7.17 2.69 4.480
y a bx 4.480 (0.425) x
02/04/2013 Biometría I 24
25. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
Solución:
c) El error estándar o típico de estimación
yi2 a yi b xi yi S y/ x
323 (4.480)(43) (0.425)(278)
S y/ x 6
n
323 192.64 118.15 323 310.79 12.21
S y/ x 2.035 1.43
6 6 6
d) El coeficiente de correlación lineal
n xi yi xi yi 6(278) (38)(43)
r r
n xi2 ( xi )2 n yi2 ( yi )2 6(254) (38) 2 6(323) (43) 2
r = 0.4029
02/04/2013 Biometría I 25
26. Unidad IV: Distribución Bidimensional
Modelo de Regresión Lineal Simple
Solución:
e) Covarianza
xi yi 228 38 13
Cov ( x , y ) x y
n 6 6 6
Cov ( x , y ) 46.33 (6.33)(7.17) 46.33 45.386 0.9439
f) Ver gráfico
g) Estime el valor de y cuando x = 2
y /x 2 4.480 0.425(2) 4.480 0.85 5, 33
02/04/2013 Biometría I 26