2. ÍNDICE
1. INTRODUCCIÓN
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
3. DISTRUBUCIONES BIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
5. MEDIDAS DE CORRELACIÓN
6. RECTA DE REGRESIÓN. ESTIMACIONES
7. COEFICIENTE DE DETERMINACIÓN
12DISTRIBUCIONESBIDIMENSIONALES
3. 1. INTRODUCCIÓN
ESTADÍSTICA
Es la Ciencia que se encarga de la recopilación, representación y el
uso de los datos sobre una o varias características de interés para, a
partir de ellos, tomar decisiones o extraer conclusiones generales.
Supuesto 1
Desde la organización de una carrera
popular quieren ver el tiempo que
dedican los participantes a preparar
una prueba de 10 Km.
Para ello, de entre los 500
participantes, escogen a un grupo 10.
El número de horas semanales que
dedican a preparar esta prueba son:
3, 10, 5, 7, 8, 7, 4, 9, 6 y 11.
12DISTRIBUCIONESBIDIMENSIONALES
4. 1. INTRODUCCIÓN
VARIABLES
ESTADÍSTICAS
CUALITATIVAS. Referidas
a características que no
podemos expresar
numéricamente.
Ejemplo: el color de los
ojos.
CUANTITATIVAS.
Referidas a características
que podemos expresar
numéricamente.
Ejemplo: el número de
aprobados
DISCRETAS. Cuando la
variable solo toma valores
enteros.
Ejemplo: número de hijos
de las familias españolas.
CONTINUAS. Cuando la
variable puede tomar
cualquier valor.
Ejemplo: tiempo de espera
ante una llamada
telefónica,
12DISTRIBUCIONESBIDIMENSIONALES
5. 1. INTRODUCCIÓN
CONCEPTO DEFINICIÓN SUPUESTO
Población
Es el conjunto de
individuos o entes sujetos
a estudio.
Los 500 participantes
de la carrera.
Muestra
Es el número de datos
que tomamos de la
población para realizar el
estudio.
Los 10 corredores
seleccionados.
Tamaño
muestral
Número de observaciones
de la muestra.
n = 10
Dato
Cada valor observado en
la variable.
3, 10, 5, 7, 8, 7, 4, 9,
6 y 11.
Variable
Característica que
estamos midiendo.
Horas semanales
dedicadas a entrenar.
12DISTRIBUCIONESBIDIMENSIONALES
6. 2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.2. Parámetros de centralización
Los parámetros de centralización o medidas de posición central son
números que nos indican alrededor de qué valor se distribuyen los
valores de la variable estadística observada.
Son:
-Media: es el valor promedio de la distribución.
-Moda: es el valor más repetido de la distribución.
-Mediana: es el valor de la serie que reparte los datos en dos
partes iguales.
2.1. Distribuciones unidimensionales
Son aquellas que solamente estudian una variable estadística.
12DISTRIBUCIONESBIDIMENSIONALES
7. 2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Media aritmética
- Se representa por x.
- Cálculo:
- Para datos sin frecuencias: Si la variable toma los n
valores x1, x2, ..., xn, la media aritmética se calcula mediante
la expresión:
- Para datos con frecuencias: Si la variable toma los
valores o marcas de clase x1, x2, ..., xn, con f1, f2, ..., fn las
frecuencias absolutas correspondientes de la distribución, la
media aritmética se calcula mediante la expresión:
12DISTRIBUCIONESBIDIMENSIONALES
9. 2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Nº de errores Nº de alumnos
0 6
1 7
2 5
3 5
4 2
Supuesto 2
El número de errores ortográficos cometido por un grupo de alumnos
son:
Determina el número medio de errores cometido por los alumnos.
12DISTRIBUCIONESBIDIMENSIONALES
11. 2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.3. Parámetros de dispersión
Son datos que informan de la concentración o dispersión de los datos
respecto de los parámetros de centralización.
Son:
-Recorrido (R): es la diferencia entre el mayor y el menor de los
valores.
-Desviación media (DM): es la media de los valores de las
desviaciones de los datos respecto a la media aritmética
-Varianza (𝝈 𝟐
): es la media aritmética de los cuadrados de las
desviaciones de los valores de la variable respecto de la media
aritmética.
-Desviación típica (𝝈): es la raíz cuadrada con signo positivo de
la varianza.
-Coeficiente de variación (CV): es el cociente entre la
desviación típica y la media aritmética.
12DISTRIBUCIONESBIDIMENSIONALES
13. 2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.4. Estudio conjunto de media aritmética y desviación típica
Para una distribución estadística de comportamiento normal, se
cumple lo siguiente:
-En (𝑥 − 𝜎, 𝑥 + 𝜎) está el 68,26% de los individuos.
-En (𝑥 − 2𝜎, 𝑥 + 2𝜎) está el 95,45% de los individuos.
-En (𝑥 − 3𝜎, 𝑥 + 3𝜎) está el 99,73% de los individuos.
12DISTRIBUCIONESBIDIMENSIONALES
16. 3. DISTRIBUCIONES BIDIMENSIONALES
3.1. Distribuciones bidimensionales
Son aquellas que estudian, de manera simultánea, dos variables
estadísticas.
La variable estadística bidimensional se representa por el símbolo (X,
Y) y cada uno de los individuos de la población viene caracterizado
por la pareja (xi , yj ), en el cual xi representa los datos, valores o
marcas de clase x1, x2, ..., xn de la variable X; e yj representa los
datos, valores o marcas de clase y1, y2, ..., ym de la variable Y.
3.2. Distribuciones condicionadas
Se llama distribución condicionada de la variable X para Y = yj,
y se escribe X/Y= yj, a la distribución que tiene en cuenta todos los
valores de X bajo la condición de que Y tome el valor yj.
Se llama distribución condicionada de la variable Y para X = xi,
y se escribe Y/X= xi, a la distribución que tiene en cuenta todos los
valores de Y bajo la condición de que X tome el valor xi.
12DISTRIBUCIONESBIDIMENSIONALES
17. 3. DISTRIBUCIONES BIDIMENSIONALES
Horas de estudio:
𝑥𝑖
Nota:
𝑦𝑖
21 9
15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5
16 4
Supuesto 3
El tiempo de estudio y la nota
de un grupo de estudiantes
en una determinada materia
es el siguiente:
12DISTRIBUCIONESBIDIMENSIONALES
18. 4. CORRELACIÓN. NUBE DE PUNTOS
4.1. Nube de puntos o diagrama de dispersión
Considerando cada par de valores (x, y) como las coordenadas de un
punto se consigue una gráfica denominada diagrama de dispersión
o nube de puntos.
Nos interesa saber si dos variables están o no relacionadas.
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30 35
NOTA
HORAS DE ESTUDIO
Nube de
puntos del
supuesto 3.
12DISTRIBUCIONESBIDIMENSIONALES
19. 4. CORRELACIÓN. NUBE DE PUNTOS
4.2. Dependencia o correlación
Según la disposición de la nube de puntos, se puede apreciar, de
forma cualitativa, el tipo y grado de relación o dependencia entre
ambas variables. A esa dependencia la llamamos correlación y puede
ser:
- Dependencia funcional, si la nube de puntos se sitúa en la
gráfica de una función, excepto que esta sea constante.
- Dependencia lineal, si la nube de puntos se sitúa sobre una
recta.
12DISTRIBUCIONESBIDIMENSIONALES
20. 4. CORRELACIÓN. NUBE DE PUNTOS
- Correlación o dependencia aleatoria, si la nube de puntos se
sitúa próxima a la gráfica de una función.
- Independencia o ausencia de correlación.
12DISTRIBUCIONESBIDIMENSIONALES
21. 4. CORRELACIÓN. NUBE DE PUNTOS
CORRELACIÓN
CRITERIO 1
FUERTE
La nube se aproxima
a una recta o curva
DÉBIL
La nube no se
aproxima a una
recta o curva
CRITERIO 2
POSITIVA
A medida que crece
una variable lo hace
la otra
NEGATIVA
A medida que crece
una variable decrece
la otra
12DISTRIBUCIONESBIDIMENSIONALES
22. 5. MEDIDAS DE CORRELACIÓN
Nos interesa conocer de una forma cuantitativa si dos variables son
dependientes. La nube de puntos nos aporta una idea previa que
vamos a corroborar con el coeficiente de correlación.
5.1. Coeficiente de correlación lineal de Pearson
La correlación de tipo lineal se mide mediante un coeficiente
universalmente aceptado, llamado coeficiente de correlación lineal
de Pearson, cuyo valor puede calcularse mediante la expresión:
𝜎 𝑥 =
𝑓𝑖 · 𝑥𝑖
2𝑛
𝑖=1
𝑁
− 𝑥 2
𝜎 𝑦 =
𝑓𝑗 · 𝑦𝑖
2𝑚
𝑗=1
𝑁
− 𝑦 2
𝑟 =
𝜎 𝑥𝑦
𝜎 𝑥 · 𝜎 𝑦
𝜎 𝑥𝑦 =
𝑓𝑖𝑗 · 𝑥𝑖 · 𝑦𝑗
𝑁
− 𝑥 · 𝑦
12DISTRIBUCIONESBIDIMENSIONALES
23. 5. MEDIDAS DE CORRELACIÓN
El coeficiente de correlación lineal de Pearson, r, permite analizar el
grado de aproximación de la nube de puntos a una línea recta y
siempre toma valores comprendidos entre -1 y 1.
COEFICIENTEr
Si –1 < r < 0, existe correlación lineal negativa, y será más
fuerte cuanto más se aproxime r a –1.
Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte
cuanto más se aproxime r a 1.
Si r = 1 o r = –1, la correlación es una dependencia lineal.
Si r = 0, no existe correlación lineal o las variables no están
correlacionadas linealmente. Esto no excluye que las variables
estadísticas puedan estar relacionadas por una correlación
curvilínea.
12DISTRIBUCIONESBIDIMENSIONALES
24. 5. MEDIDAS DE CORRELACIÓN
Supuesto 3
x y x^2 y^2 xy
21 9 441 81 189
15 7 225 49 105
10 5 100 25 50
15 2 225 4 30
20 7 400 49 140
30 8 900 64 240
18 8 324 64 144
20 6 400 36 120
25 5 625 25 125
16 4 256 16 64
190 61 3896 413 1207
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
Como 0<0,44<1 existe correlación lineal positiva si que depende el tiempo de
estudio con la nota obtenida. A mayor tiempo invertido, mayor nota.
12DISTRIBUCIONESBIDIMENSIONALES
25. 5. MEDIDAS DE CORRELACIÓN
Supuesto 4
Se ha solicitado a un grupo de 50 individuos información sobre el
número de horas que dedican diariamente a dormir y ver la televisión.
La clasificación de las respuestas ha permitido elaborar la siente
tabla:
Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12DISTRIBUCIONESBIDIMENSIONALES
26. 5. MEDIDAS DE CORRELACIÓN
Supuesto 4
x y f x·f x^2·f y·f y^2·f x·y·f
6 4 3 18 108 12 48 72
7 3 16 112 784 48 144 336
8 3 20 160 1280 60 180 480
9 2 10 90 810 20 40 180
10 1 1 10 100 1 1 10
40 13 50 390 3082 141 413 1078
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
Como r = -0,88, existen una fuerte correlación
lineal negativa. Esto implica que a mayor
número de horas de visionado de la TV se
dormirá un menor número de horas.
12DISTRIBUCIONESBIDIMENSIONALES
27. 6. RECTA DE REGRESIÓN. ESTIMACIONES
6.1. Recta de regresión
En numerosas situaciones el diagrama de dispersión, o nube de
puntos de una variable bidimensional, sugiere la línea curva o recta
que mejor se aproxima a los valores de dicha variable. Esta curva
recibe el nombre de recta de regresión.
Sus ecuaciones son:
- Recta de regresión de Y sobre X:
- Recta de regresión de X sobre Y:
𝑦 − 𝑦 =
𝜎 𝑥𝑦
𝜎 𝑥
2
(𝑥 − 𝑥)
𝑥 − 𝑥 =
𝜎 𝑥𝑦
𝜎 𝑦
2 (𝑦 − 𝑦)
12DISTRIBUCIONESBIDIMENSIONALES
28. 6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
Determinar:
a) Recta de regresión de X
sobre Y.
b) ¿Cuál será el número de
horas que tenemos que
estudiar para obtener un
7,5?
Horas de estudio:
𝑥𝑖
Nota:
𝑦𝑖
21 9
15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5
16 4
12DISTRIBUCIONESBIDIMENSIONALES
29. 6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
𝑥 − 𝑥 =
𝜎 𝑥𝑦
𝜎 𝑦
2
(𝑦 − 𝑦)
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
𝑥 − 19 =
4,8
2,022
(𝑦 − 6,1)
𝑥 = 1,176𝑦 + 11,824
Si la nota y = 7,5 basta con
despejar de la ecuación de la
recta de X sobre Y obtenida:
𝑥 = 1,176 · 7,5 + 11,824 =
20,644 ℎ𝑜𝑟𝑎𝑠
12DISTRIBUCIONESBIDIMENSIONALES
31. 6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
Determinar:
a) Recta de regresión de Y sobre X.
b) ¿Si dormimos 8,5 horas cuál es el tiempo que dedicamos a ver la
TV?
Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12DISTRIBUCIONESBIDIMENSIONALES
32. 6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
𝑦 − 𝑦 =
𝜎 𝑥𝑦
𝜎 𝑥
2
(𝑥 − 𝑥)
𝑦 − 2,82 =
−0,436
0,8942
(𝑥 − 7,8)
𝑦 = −0,545𝑥 + 7,071
Si el nº de horas de sueño x =
8,5 basta con despejar de la
ecuación de la recta de Y
sobre X obtenida:
𝑦 = −0,545 · 8,5 + 7,071 =
2,434 ℎ𝑜𝑟𝑎𝑠 𝑑𝑒 𝑇𝑉
12DISTRIBUCIONESBIDIMENSIONALES
34. 7. COEFICIENTE DE DETERMINACIÓN
7.1. Coeficiente de determinación
El coeficiente de determinación de una variable estadística
bidimensional (X, Y) mide el grado de correlación (dependencia)
entre las variables X e Y, se representa por R2, siempre toma valores
entre 0 y 1 y viene dado por la expresión:
Nos indica la precisión que tiene la recta
de regresión con respecto a los puntos
(X, Y) obtenidos.
Es el cuadrado del coeficiente de Pearson.
𝐶𝑜𝑒𝑓. 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛 = 𝑅2
= 𝑟2
= 1 −
𝜎𝑒
2
𝜎 𝑦
2
12DISTRIBUCIONESBIDIMENSIONALES
35. 7. COEFICIENTE DE DETERMINACIÓN
COEFICIENTE𝑅2
Si R2 = 1, es el caso extremo en el que los residuos son nulos,
entonces el ajuste es perfecto.
Si R2 = 0, en este caso extremo, el ajuste es inadecuado o, quizá,
las variables X e Y son independientes.
Si 0 < R2 < 1, hay que tener en cuenta que para valores próximos
a 0,9 son indicativos de ajustes muy aceptables, mientras que
para valores inferiores a 0,6 tienen escasa fiabilidad y sugieren la
búsqueda de otra línea de ajuste más adecuada.
12DISTRIBUCIONESBIDIMENSIONALES
36. 7. COEFICIENTE DE DETERMINACIÓN
Supuesto 3
y = 1,1736x + 11,841
R² = 0,197
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9 10
HORASDEESTUDIO
NOTA
𝑟 = 0,44 →
𝒓 𝟐 = 𝟎, 𝟐𝟎
Como el valor
obtenido es
próximo a 0 no
hay una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella no
son fiables.
Habría que
buscar una mejor
aproximación.
12DISTRIBUCIONESBIDIMENSIONALES
37. 7. COEFICIENTE DE DETERMINACIÓN
Supuesto 4
𝑟 = −0,88 →
𝒓 𝟐 = 𝟎, 𝟕𝟕
Como el valor
obtenido es
próximo a 1 hay
una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella
son
razonablemente
fiables.
y = -0,545x + 7,071
R² = 0,7725
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORASDETV
HORAS DE SUEÑO
12DISTRIBUCIONESBIDIMENSIONALES