2. CONTENIDOS DEL TEMA 2
1. Distribución de Frecuencias Bidimensional
2. Distribuciones Marginales
o Marginal de X
o Marginal de Y
3. Distribuciones Condicionadas
o X condicionada a Y
o Y condicionada a X
4. Covarianza
5. Regresión y correlación
5.1. Recta de regresión de Y sobre X
5.2. Recta de regresión de X sobre Y
5.3. Coeficiente de correlación lineal de Pearson
5.4. Coeficiente de determinación
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 2
texto
3. • Consideremos una población de n individuos a la que
estudiamos 2 caracteres X e Y. Al par formado por éstas
dos variables (X, Y) se le denomina variable estadística
bidimensional.
• Notaremos xi a los valores de X e yj a los valores de Y.
VARIABLE ESTADÍSTICA BIDIMENSIONAL
1. DISTRIBUCIÓN DE FRECUENCIAS BIDIMENSIONAL
La representación de los datos puede hacerse mediante:
1. Pares de datos.
2. Tabla de frecuencias simple.
3. Tabla de frecuencias de doble entrada o bidimensional.
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros
3
4. (x1, y1), (x1, y2),…, (x2, y1),…, (xk, yp)
TABLA DE FRECUENCIAS SIMPLE
nij es la frecuencia absoluta de la
pareja de valores (xi, yj)
xi yj nij
x1 y1 n11
x1 y2 n12
… ... ...
xk yp nkp
n
TABLA DE FRECUENCIAS DE DOBLE ENTRADA
XY y1 y2 ... yp ni.
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
... ... ... ... ... ...
xk nk1 nk2 ... nkp nk.
n.j n.1 n.2 ... n.p n
PARES DE DATOS
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 4
texto
5. EJEMPLO DE TABLAS DE DOBLE ENTRADA
Mujeres Hombres
A favor (s) 8 6
En contra (n) 2 4
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 5
texto
6. EJEMPLO 1
La siguiente tabla representa el peso en kilogramos (X) y la edad (Y )
de 30 niño/as de un colegio de la provincia.
1 ¿Cuantos niño/as tienen 10 años y pesan entre 25 y 30 Kg.?
2 ¿Cuantos niño/as pesan entre 40 y 45 Kg.?
3 ¿Cuantos niño/as tienen 11 años ?
4 ¿Cúantos niño/as tienen más de 11 años y pesan más de 40 Kg?
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros
6
X/Y 9 10 11 12 ni.
(20,25] 1 0 0 0 1
(25,30] 2 1 1 0 4
(30,35] 1 3 4 2 10
(35,40] 0 2 3 5 10
(40,45] 0 0 1 4 5
n.j 4 6 9 11 30
La siguiente tabla representa el peso en kilogramos (X) y la edad (Y )
de 30 niño/as de un colegio de la provincia.
1 ¿Cuantos niño/as tienen 10 años y pesan entre 25 y 30 Kg.?
2 ¿Cuantos niño/as pesan entre 40 y 45 Kg.?
3 ¿Cuantos niño/as tienen 11 años ?
4 ¿Cúantos niño/as tienen más de 11 años y pesan más de 40 Kg?
X/Y 9 10 11 12 ni.
(20,25] 1 0 0 0 1
(25,30] 2 1 1 0 4
(30,35] 1 3 4 2 10
(35,40] 0 2 3 5 10
(40,45] 0 0 1 4 5
n.j 4 6 9 11 30
7. • Son las obtenidas de la distribución bivariante al
considerar de forma independiente cada una de las
variables.
• De una distribución bivariante, obtendremos:
• Marginal de X.
• Marginal de Y.
DISTRIBUCIONES MARGINALES
2. DISTRIBUCIONES MARGINALES
Por tanto, una distribución marginal será una distribución unidimensional,
para la que podemos obtener todas las características que vimos en el
Tema 1.
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros
7
8. EJEMPLO 2
XY 0 1 2 ni.
2 0 1 5 6
4 0 9 0 9
6 8 0 0 8
n.j 8 10 5 23
MARGINAL DE Y
xi ni.
2
4
6
MARGINAL DE X
yj n.j
EJERCICIO PROPUESTO:
Calcular la media para ambas variables
xi ni.
2
4
6
yj n.j
xi ni.
2
4
6
yj n.j
0
1
2
xi ni. xi ni.
2
4
6
yj n.j yj n.j
0
1
2
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 8
6
9
8
8
10
5
6
9
8
23
12
36
48
96
8
10
5
media de la variable x
x=96/23=4.1739
0
10
20
media de la variable y
9. • La distribución condicionada de una variable es la obtenida
de la distribución bivariante al considerar un valor o
valores concretos de la otra variable.
• De una distribución bivariante, obtendremos:
• Distribución de X condicionada a un valor o valores de Y
(Se denota como: X / Y=yj).
• Distribución de Y condicionada a un valor o valores de X
(Se denota como: Y / X=xi).
DISTRIBUCIONES CONDICIONADAS
3. DISTRIBUCIONES CONDICIONADAS
Por tanto, una distribución condicionada será una distribución
unidimensional, para la que podemos obtener todas las características
que vimos en el Tema 1.
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 9
10. EJEMPLO 3
Dada la siguiente tabla de doble entrada.
XY 0 1 2 ni.
2 0 1 5 6
4 0 9 0 9
6 8 0 0 8
n.j 8 10 5 23
xi ni
2 1
4 9
6 0
10
X / Y=1 Y / X=2 X / Y>0
EJERCICIO PROPUESTO:
Calcular la media para las 3 variables
yj nj
yj nj xi ni
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 10
2
4
6
6
9
0
15
11. • Es una medida numérica conjunta bidimensional que indica el
sentido en el que crecen o decrecen las variables por término
medio.
• Se denota por Sxy.
• Si Sxy > 0, indica que las dos variables varían en el mismo sentido.
Relación Directa (las dos crecen o las dos decrecen).
• Si Sxy < 0, indica que las dos variables varían en sentido opuesto.
Relación Inversa (cuando una crece, la otra decrece y
viceversa).
• Si Sxy = 0, no existe relación lineal entre las variables y se dice
que las variables son incorreladas.
COVARIANZA
4. COVARIANZA
Forma práctica
de cálculo = =
= −
1 1
( )
p
k
i j ij
i j
xy
x y n
S x y
n
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 11
12. Relación entre dos variables
A la derecha tenemos una posible manera de recoger los datos
obtenidos observando dos variables en varios individuos de una
muestra.
En cada fila tenemos los datos de un individuo
Cada columna representa los valores que toma una
variable sobre los mismos.
Las individuos no se muestran en ningún orden particular.
Dichas observaciones pueden ser representadas en un
diagrama de dispersión (‘scatterplot’), también llamado nube
de puntos. En ellos, cada individuo es un punto cuyas
coordenadas son los valores de las variables.
Nuestro objetivo será intentar reconocer a partir del mismo si
hay relación entre las variables, de qué tipo, y si es posible
predecir el valor de una de ellas en función de la otra.
Altura
en cm.
Peso en
Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
Correlación
Regresión
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 12
13. Diagrama de dispersión o nube de puntos
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Mide
187
cm.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Representamos las alturas y los pesos de 30 individuos
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 13
14. 30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Aparentemente el peso
aumenta 10Kg por cada 10
cm de altura... es decir, el
peso aumenta en una
unidad por cada unidad de
altura.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
10 cm.
10 kg.
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 14
15. ¿Cómo es la relación entre las variables?
Incorrelación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media
tenemos valores de Y por encima y por
debajo en proporciones similares.
Para los valores de X mayores que la media le
corresponden valores de Y menores. Relación
inversa o decreciente.
- Para los valores de X mayores que la
media le corresponden valores de Y
mayores también.
- Para los valores de X menores que la
media le corresponden valores de Y
menores también.
- Relación directa o creciente entre X e Y.
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 15
16. ¿Es buena o mala la relación entre las variables?
Poca relación
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Fuerte relación
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relación
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Dado un valor de X no podemos
decir gran cosa sobre Y. Mala
relación. Independencia.
Conocido X sabemos que Y se mueve
por una “horquilla estrecha”. Buena
relación.
Lo de “horquilla estrecha” hay que
entenderlo con respecto a la
dispersión que tiene la variable Y
por si sola, cuando no se considera
X.
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 16
17. EJEMPLO 4
Dada la siguiente tabla, calcular e interpretar la covarianza.
Del ejercicio propuesto anteriormente en las distribuciones marginales,
tenemos que las medias son:
= =
4.1739 0.8696
x y
= =
=
1 1
p
k
i j ij
i j
x y n
= =
= − =
1 1
( )
p
k
i j ij
i j
xy
x y n
S x y
n
Para calcular Sxy, solamente nos falta por obtener la doble sumatoria:
xi yj nij xi yj nij
2 1 1
2 2 5
4 1 9
6 0 8
23
xi yj nij xi yj nij
2 1 1 2
2 2 5 20
4 1 9 36
6 0 8 0
23 58
= =
=
1 1
58
p
k
i j ij
i j
x y n
= =
= − = − = −
1 1 58
( ) (4.1739 0.8696) 1.1079
23
p
k
i j ij
i j
xy
x y n
S x y
n
xi yj nij
2 1 1
2 2 5
4 1 9
6 0 8
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 17
18. INTERPRETACIÓN DE LA COVARIANZA
Relación entre independencia e incorrelación.
INDEPENDENCIA INCORRELACIÓN
Es decir, si dos variables son independientes, entonces son incorreladas, pero si las
variables son incorreladas, únicamente podemos afirmar que no existe relación lineal,
pero puede existir otro tipo de relación.
Correlación
lineal negativa
Correlación lineal
positiva
Incorrelación.
Independencia
Incorrelación.
Dependencia
parabólica
Sxy > 0 Sxy < 0 Sxy = 0 Sxy = 0
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 18
19. • El objetivo de la regresión es buscar una función que exprese de
la mejor forma posible la relación entre las variables.
REGRESIÓN
5. REGRESIÓN Y CORRELACIÓN
Ecuación general de una recta: y=a+bx
• El objetivo de la correlación es determinar si la función hallada se
ajusta bien a la nube de puntos, así como el grado de asociación
existente entre las variables.
CORRELACIÓN
REGRESIÓN LINEAL
y: Variable dependiente (es la que queremos predecir)
x: Variable independiente
a: Constante de la recta (es la ordenada en el origen)
b: Pendiente de la recta (indica lo que varía Y cuando X varía una unidad)
RECTA DE REGRESIÓN
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 19
20. 5.1. Recta de regresión de Y sobre X: Y/X
El objetivo es determinar la recta: = +
ŷ a bx
= 2
xy
x
S
b
S
= −
a y bx
Utilizando el Método de Mínimos
Cuadrados, obtenemos:
5.3. Coeficiente de Correlación Lineal de Pearson
Mide el grado de relación lineal existente entre las variables.
= −
1 1
xy
xy xy
x y
S
r r
S S
¿Por qué utilizar el coeficiente de correlación de
Pearson en lugar de la Covarianza?
5.2. Recta de regresión de X sobre Y: X/Y
El objetivo es determinar la recta: ˆ ' '
x a b y
= +
Porque está acotado entre -1 y 1, y la covarianza
no. Esto sí hay que memorizarlo
En Excel
aparece como
y=bx+a
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 20
21. • Si rxy = -1 relación lineal perfecta negativa o inversa (las
variables varían en sentido opuesto).
• Si rxy = 1 relación lineal perfecta positiva o directa (las
variables varían en el mismo sentido).
• Si rxy = 0 ausencia de relación lineal (variables incorreladas).
• Si -1 < rxy < 0 relación lineal negativa o inversa. La relación será
más fuerte cuanto más próximo esté a -1.
• Si 0 < rxy < 1 relación lineal positiva o directa. La relación será
más fuerte cuanto más próximo esté a 1.
• Normalmente se considera el valor de 0.8 en valor absoluto, |0.8|
como límite para considerar un buen ajuste.
INTERPRETACIÓN
Coeficiente de Correlación Lineal de Pearson
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 21
22. 5.4. Coeficiente de Determinación
Representa la proporción de la varianza total de la variable dependiente que
explica regresión. Se suele expresar en porcentaje.
Mide el grado de ajuste de la recta de regresión a la nube de puntos, es decir,
nos informa sobre la bondad del ajuste y la fiabilidad de las predicciones.
REGRESIÓN LINEAL
• Si R2 = 0 la recta no explica en absoluto el comportamiento de
una variable en función de la otra.
• Si 0 < R2 < 1 el ajuste y la fiabilidad de las predicciones serán
mejores cuanto más próximo esté a 1.
• Si R2 = 1 la recta explica perfectamente el comportamiento de
una variable en función de la otra.
INTERPRETACIÓN
1
0
)
( 2
2
2
= R
r
R xy
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 22
23. Coeficiente
correlación
Coeficiente
correlación
Coeficiente
correlación
Coeficiente
correlación
Ejemplos
X Y
1 5
3 9
5 13
6 15
7 17
8 19
11 25
y = 2x + 3
R² = 1
0
5
10
15
20
25
30
0 2 4 6 8 10 12
Y
X
Recta de regresión X Y
1 21
3 17
5 13
6 11
7 9
8 7
11 1
y = -2x + 23
R² = 1
0
5
10
15
20
25
0 2 4 6 8 10 12
Y
X
Recta de regresión
X Y
1 5
3 9
5 10
6 12
7 13
8 21
11 25
y = 2,0286x + 1,6894
R² = 0,9026
0
5
10
15
20
25
30
0 2 4 6 8 10 12
Y
X
Recta de regresión
Coeficiente
correlación
X Y
1 22
3 16
5 10
6 12
7 9
8 6
11 2
y = -1,9427x + 22,379
R² = 0,9488
0
5
10
15
20
25
0 2 4 6 8 10 12
Y
X
Recta de regresión
Coeficiente
correlación
Coeficiente
correlación
Coeficiente
correlación
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 23
24. EJEMPLO 5
Para dos variables, X e Y, disponemos de la siguiente información:
a) ¿Existe relación lineal entre las variables?
b) En caso afirmativo en el apartado anterior, ¿de qué tipo y en
qué grado?
c) ¿Cuánto valdrá la variable Y si X vale 5?
d) ¿Cuánto valdrá la variable X si Y vale 2?
e) ¿En qué grado son fiables las predicciones?
a) ¿Existe relación lineal entre las variables?
rxy = -0.965
7925
.
2
4607
.
0
ˆ +
−
= x
y
9316
.
5
0213
.
2
ˆ +
−
= y
x
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 24
25. c) ¿Cuánto valdrá la variable Y si X vale 5?
¿Qué recta tendremos que utilizar? ¿Y sobre X? ¿X sobre Y?
d) ¿Cuánto valdrá la variable X si Y vale 2?
¿Qué recta tendremos que utilizar? ¿Y sobre X? ¿X sobre Y?
e) ¿En qué grado son fiables las predicciones?
b) En caso afirmativo en el apartado a), ¿de qué tipo y en qué grado?
VARIABLE ESTADÍSTICA BIDIMENSIONAL Inma Armenteros 25