UD12:DISTRIBUCIONES
BIDIMENSIONALES
PROF: ALFONSO NAVARRO
1º BACHILLERATO CCSS
ÍNDICE
1. INTRODUCCIÓN
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
3. DISTRUBUCIONES BIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
5. MEDIDAS DE CORRELACIÓN
6. RECTA DE REGRESIÓN. ESTIMACIONES
7. COEFICIENTE DE DETERMINACIÓN
12DISTRIBUCIONESBIDIMENSIONALES
1. INTRODUCCIÓN
ESTADÍSTICA
Es la Ciencia que se encarga de la recopilación, representación y el
uso de los datos sobre una o varias características de interés para, a
partir de ellos, tomar decisiones o extraer conclusiones generales.
Supuesto 1
Desde la organización de una carrera
popular quieren ver el tiempo que
dedican los participantes a preparar
una prueba de 10 Km.
Para ello, de entre los 500
participantes, escogen a un grupo 10.
El número de horas semanales que
dedican a preparar esta prueba son:
3, 10, 5, 7, 8, 7, 4, 9, 6 y 11.
12DISTRIBUCIONESBIDIMENSIONALES
1. INTRODUCCIÓN
VARIABLES
ESTADÍSTICAS
CUALITATIVAS. Referidas
a características que no
podemos expresar
numéricamente.
Ejemplo: el color de los
ojos.
CUANTITATIVAS.
Referidas a características
que podemos expresar
numéricamente.
Ejemplo: el número de
aprobados
DISCRETAS. Cuando la
variable solo toma valores
enteros.
Ejemplo: número de hijos
de las familias españolas.
CONTINUAS. Cuando la
variable puede tomar
cualquier valor.
Ejemplo: tiempo de espera
ante una llamada
telefónica,
12DISTRIBUCIONESBIDIMENSIONALES
1. INTRODUCCIÓN
CONCEPTO DEFINICIÓN SUPUESTO
Población
Es el conjunto de
individuos o entes sujetos
a estudio.
Los 500 participantes
de la carrera.
Muestra
Es el número de datos
que tomamos de la
población para realizar el
estudio.
Los 10 corredores
seleccionados.
Tamaño
muestral
Número de observaciones
de la muestra.
n = 10
Dato
Cada valor observado en
la variable.
3, 10, 5, 7, 8, 7, 4, 9,
6 y 11.
Variable
Característica que
estamos midiendo.
Horas semanales
dedicadas a entrenar.
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.2. Parámetros de centralización
Los parámetros de centralización o medidas de posición central son
números que nos indican alrededor de qué valor se distribuyen los
valores de la variable estadística observada.
Son:
-Media: es el valor promedio de la distribución.
-Moda: es el valor más repetido de la distribución.
-Mediana: es el valor de la serie que reparte los datos en dos
partes iguales.
2.1. Distribuciones unidimensionales
Son aquellas que solamente estudian una variable estadística.
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Media aritmética
- Se representa por x.
- Cálculo:
- Para datos sin frecuencias: Si la variable toma los n
valores x1, x2, ..., xn, la media aritmética se calcula mediante
la expresión:
- Para datos con frecuencias: Si la variable toma los
valores o marcas de clase x1, x2, ..., xn, con f1, f2, ..., fn las
frecuencias absolutas correspondientes de la distribución, la
media aritmética se calcula mediante la expresión:
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Horas semanales: 𝑥𝑖
3
10
5
7
8
7
4
9
6
11
70
𝑥 =
70
10
= 7 ℎ𝑜𝑟𝑎𝑠 𝑠𝑒𝑚𝑎𝑛𝑎𝑙𝑒𝑠
Supuesto 1
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Nº de errores Nº de alumnos
0 6
1 7
2 5
3 5
4 2
Supuesto 2
El número de errores ortográficos cometido por un grupo de alumnos
son:
Determina el número medio de errores cometido por los alumnos.
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Nº de errores=𝑥𝑖 Nº de alumnos=𝑓𝑖 𝑥𝑖 · 𝑓𝑖
0 6 0
1 7 7
2 5 10
3 5 15
4 2 8
total 25 40
𝑥 =
40
25
= 1,6 𝑒𝑟𝑟𝑜𝑟𝑒𝑠
Supuesto 2
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.3. Parámetros de dispersión
Son datos que informan de la concentración o dispersión de los datos
respecto de los parámetros de centralización.
Son:
-Recorrido (R): es la diferencia entre el mayor y el menor de los
valores.
-Desviación media (DM): es la media de los valores de las
desviaciones de los datos respecto a la media aritmética
-Varianza (𝝈 𝟐
): es la media aritmética de los cuadrados de las
desviaciones de los valores de la variable respecto de la media
aritmética.
-Desviación típica (𝝈): es la raíz cuadrada con signo positivo de
la varianza.
-Coeficiente de variación (CV): es el cociente entre la
desviación típica y la media aritmética.
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Expresiones
𝑅 = 𝑥 𝑚á𝑥 − 𝑥 𝑚í𝑛
𝐷𝑀 =
|𝑥𝑖 − 𝑥𝑛
𝑖=1 |𝑓𝑖
𝑁
𝜎2
=
(𝑥𝑖−𝑥)2 𝑓𝑖
𝑛
𝑖=1
𝑁
ó 𝜎2
=
𝑥2 · 𝑓𝑖
𝑛
𝑖=1
𝑁
− (𝑥)2
𝜎 = 𝜎2 =
𝑥2 · 𝑓𝑖
𝑛
𝑖=1
𝑁
− (𝑥)2
𝐶𝑉 =
𝜎
𝑥
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
2.4. Estudio conjunto de media aritmética y desviación típica
Para una distribución estadística de comportamiento normal, se
cumple lo siguiente:
-En (𝑥 − 𝜎, 𝑥 + 𝜎) está el 68,26% de los individuos.
-En (𝑥 − 2𝜎, 𝑥 + 2𝜎) está el 95,45% de los individuos.
-En (𝑥 − 3𝜎, 𝑥 + 3𝜎) está el 99,73% de los individuos.
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Supuesto 1
Calculo de la desviación típica Horas
semanales: 𝑥𝑖
𝑥𝑖
2
3 9
10 100
5 25
7 49
8 64
7 49
4 16
9 81
6 36
11 121
70 550
𝜎 =
𝑥2 · 𝑓𝑖
𝑛
𝑖=1
𝑁
− 𝑥 2
𝜎 =
550
10
− 72 = 2,45
12DISTRIBUCIONESBIDIMENSIONALES
2. DISTRIBUCIONES UNIDIMENSIONALES. PARÁMETROS
Supuesto 2
Calculo de la desviación típica
𝜎 =
104
25
− 1,62 = 1,265
x f x·f 𝑥2
·f
0 6 0 0
1 7 7 7
2 5 10 20
3 5 15 45
4 2 8 32
total 25 40 104
𝜎 𝑥 =
𝑓𝑖 · 𝑥𝑖
2𝑛
𝑖=1
𝑁
− 𝑥 2
12DISTRIBUCIONESBIDIMENSIONALES
3. DISTRIBUCIONES BIDIMENSIONALES
3.1. Distribuciones bidimensionales
Son aquellas que estudian, de manera simultánea, dos variables
estadísticas.
La variable estadística bidimensional se representa por el símbolo (X,
Y) y cada uno de los individuos de la población viene caracterizado
por la pareja (xi , yj ), en el cual xi representa los datos, valores o
marcas de clase x1, x2, ..., xn de la variable X; e yj representa los
datos, valores o marcas de clase y1, y2, ..., ym de la variable Y.
3.2. Distribuciones condicionadas
Se llama distribución condicionada de la variable X para Y = yj,
y se escribe X/Y= yj, a la distribución que tiene en cuenta todos los
valores de X bajo la condición de que Y tome el valor yj.
Se llama distribución condicionada de la variable Y para X = xi,
y se escribe Y/X= xi, a la distribución que tiene en cuenta todos los
valores de Y bajo la condición de que X tome el valor xi.
12DISTRIBUCIONESBIDIMENSIONALES
3. DISTRIBUCIONES BIDIMENSIONALES
Horas de estudio:
𝑥𝑖
Nota:
𝑦𝑖
21 9
15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5
16 4
Supuesto 3
El tiempo de estudio y la nota
de un grupo de estudiantes
en una determinada materia
es el siguiente:
12DISTRIBUCIONESBIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
4.1. Nube de puntos o diagrama de dispersión
Considerando cada par de valores (x, y) como las coordenadas de un
punto se consigue una gráfica denominada diagrama de dispersión
o nube de puntos.
Nos interesa saber si dos variables están o no relacionadas.
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30 35
NOTA
HORAS DE ESTUDIO
Nube de
puntos del
supuesto 3.
12DISTRIBUCIONESBIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
4.2. Dependencia o correlación
Según la disposición de la nube de puntos, se puede apreciar, de
forma cualitativa, el tipo y grado de relación o dependencia entre
ambas variables. A esa dependencia la llamamos correlación y puede
ser:
- Dependencia funcional, si la nube de puntos se sitúa en la
gráfica de una función, excepto que esta sea constante.
- Dependencia lineal, si la nube de puntos se sitúa sobre una
recta.
12DISTRIBUCIONESBIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
- Correlación o dependencia aleatoria, si la nube de puntos se
sitúa próxima a la gráfica de una función.
- Independencia o ausencia de correlación.
12DISTRIBUCIONESBIDIMENSIONALES
4. CORRELACIÓN. NUBE DE PUNTOS
CORRELACIÓN
CRITERIO 1
FUERTE
La nube se aproxima
a una recta o curva
DÉBIL
La nube no se
aproxima a una
recta o curva
CRITERIO 2
POSITIVA
A medida que crece
una variable lo hace
la otra
NEGATIVA
A medida que crece
una variable decrece
la otra
12DISTRIBUCIONESBIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Nos interesa conocer de una forma cuantitativa si dos variables son
dependientes. La nube de puntos nos aporta una idea previa que
vamos a corroborar con el coeficiente de correlación.
5.1. Coeficiente de correlación lineal de Pearson
La correlación de tipo lineal se mide mediante un coeficiente
universalmente aceptado, llamado coeficiente de correlación lineal
de Pearson, cuyo valor puede calcularse mediante la expresión:
𝜎 𝑥 =
𝑓𝑖 · 𝑥𝑖
2𝑛
𝑖=1
𝑁
− 𝑥 2
𝜎 𝑦 =
𝑓𝑗 · 𝑦𝑖
2𝑚
𝑗=1
𝑁
− 𝑦 2
𝑟 =
𝜎 𝑥𝑦
𝜎 𝑥 · 𝜎 𝑦
𝜎 𝑥𝑦 =
𝑓𝑖𝑗 · 𝑥𝑖 · 𝑦𝑗
𝑁
− 𝑥 · 𝑦
12DISTRIBUCIONESBIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
El coeficiente de correlación lineal de Pearson, r, permite analizar el
grado de aproximación de la nube de puntos a una línea recta y
siempre toma valores comprendidos entre -1 y 1.
COEFICIENTEr
Si –1 < r < 0, existe correlación lineal negativa, y será más
fuerte cuanto más se aproxime r a –1.
Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte
cuanto más se aproxime r a 1.
Si r = 1 o r = –1, la correlación es una dependencia lineal.
Si r = 0, no existe correlación lineal o las variables no están
correlacionadas linealmente. Esto no excluye que las variables
estadísticas puedan estar relacionadas por una correlación
curvilínea.
12DISTRIBUCIONESBIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Supuesto 3
x y x^2 y^2 xy
21 9 441 81 189
15 7 225 49 105
10 5 100 25 50
15 2 225 4 30
20 7 400 49 140
30 8 900 64 240
18 8 324 64 144
20 6 400 36 120
25 5 625 25 125
16 4 256 16 64
190 61 3896 413 1207
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
Como 0<0,44<1 existe correlación lineal positiva  si que depende el tiempo de
estudio con la nota obtenida. A mayor tiempo invertido, mayor nota.
12DISTRIBUCIONESBIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Supuesto 4
Se ha solicitado a un grupo de 50 individuos información sobre el
número de horas que dedican diariamente a dormir y ver la televisión.
La clasificación de las respuestas ha permitido elaborar la siente
tabla:
Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12DISTRIBUCIONESBIDIMENSIONALES
5. MEDIDAS DE CORRELACIÓN
Supuesto 4
x y f x·f x^2·f y·f y^2·f x·y·f
6 4 3 18 108 12 48 72
7 3 16 112 784 48 144 336
8 3 20 160 1280 60 180 480
9 2 10 90 810 20 40 180
10 1 1 10 100 1 1 10
40 13 50 390 3082 141 413 1078
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
Como r = -0,88, existen una fuerte correlación
lineal negativa. Esto implica que a mayor
número de horas de visionado de la TV se
dormirá un menor número de horas.
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
6.1. Recta de regresión
En numerosas situaciones el diagrama de dispersión, o nube de
puntos de una variable bidimensional, sugiere la línea curva o recta
que mejor se aproxima a los valores de dicha variable. Esta curva
recibe el nombre de recta de regresión.
Sus ecuaciones son:
- Recta de regresión de Y sobre X:
- Recta de regresión de X sobre Y:
𝑦 − 𝑦 =
𝜎 𝑥𝑦
𝜎 𝑥
2
(𝑥 − 𝑥)
𝑥 − 𝑥 =
𝜎 𝑥𝑦
𝜎 𝑦
2 (𝑦 − 𝑦)
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
Determinar:
a) Recta de regresión de X
sobre Y.
b) ¿Cuál será el número de
horas que tenemos que
estudiar para obtener un
7,5?
Horas de estudio:
𝑥𝑖
Nota:
𝑦𝑖
21 9
15 7
10 5
15 2
20 7
30 8
18 8
20 6
25 5
16 4
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
𝑥 − 𝑥 =
𝜎 𝑥𝑦
𝜎 𝑦
2
(𝑦 − 𝑦)
MEDIA X 19
MEDIA Y 6,1
DESV. TIP.
X 5,35
DESV. TIP.
Y 2,02
DES. TIP.
XY 4,8
r 0,44
𝑥 − 19 =
4,8
2,022
(𝑦 − 6,1)
𝑥 = 1,176𝑦 + 11,824
Si la nota y = 7,5 basta con
despejar de la ecuación de la
recta de X sobre Y obtenida:
𝑥 = 1,176 · 7,5 + 11,824 =
20,644 ℎ𝑜𝑟𝑎𝑠
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 3
y = 1,1736x + 11,841
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9 10
HORASDEESTUDIO
NOTA
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
Determinar:
a) Recta de regresión de Y sobre X.
b) ¿Si dormimos 8,5 horas cuál es el tiempo que dedicamos a ver la
TV?
Nº horas dormidas
(x)
Nº horas de tv
(y)
Frecuencias
absolutas (f)
6 4 3
7 3 16
8 3 20
9 2 10
10 1 1
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
MEDIA X 7,8
MEDIA Y 2,82
DESV. TIP. X 0,894
DESV. TIP. Y 0,555
DES. TIP. XY -0,436
r -0,88
𝑦 − 𝑦 =
𝜎 𝑥𝑦
𝜎 𝑥
2
(𝑥 − 𝑥)
𝑦 − 2,82 =
−0,436
0,8942
(𝑥 − 7,8)
𝑦 = −0,545𝑥 + 7,071
Si el nº de horas de sueño x =
8,5 basta con despejar de la
ecuación de la recta de Y
sobre X obtenida:
𝑦 = −0,545 · 8,5 + 7,071 =
2,434 ℎ𝑜𝑟𝑎𝑠 𝑑𝑒 𝑇𝑉
12DISTRIBUCIONESBIDIMENSIONALES
6. RECTA DE REGRESIÓN. ESTIMACIONES
Supuesto 4
y = -0,545x + 7,071
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORASDETV
HORAS DE SUEÑO
12DISTRIBUCIONESBIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
7.1. Coeficiente de determinación
El coeficiente de determinación de una variable estadística
bidimensional (X, Y) mide el grado de correlación (dependencia)
entre las variables X e Y, se representa por R2, siempre toma valores
entre 0 y 1 y viene dado por la expresión:
Nos indica la precisión que tiene la recta
de regresión con respecto a los puntos
(X, Y) obtenidos.
Es el cuadrado del coeficiente de Pearson.
𝐶𝑜𝑒𝑓. 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛 = 𝑅2
= 𝑟2
= 1 −
𝜎𝑒
2
𝜎 𝑦
2
12DISTRIBUCIONESBIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
COEFICIENTE𝑅2
Si R2 = 1, es el caso extremo en el que los residuos son nulos,
entonces el ajuste es perfecto.
Si R2 = 0, en este caso extremo, el ajuste es inadecuado o, quizá,
las variables X e Y son independientes.
Si 0 < R2 < 1, hay que tener en cuenta que para valores próximos
a 0,9 son indicativos de ajustes muy aceptables, mientras que
para valores inferiores a 0,6 tienen escasa fiabilidad y sugieren la
búsqueda de otra línea de ajuste más adecuada.
12DISTRIBUCIONESBIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
Supuesto 3
y = 1,1736x + 11,841
R² = 0,197
0
5
10
15
20
25
30
35
0 1 2 3 4 5 6 7 8 9 10
HORASDEESTUDIO
NOTA
𝑟 = 0,44 →
𝒓 𝟐 = 𝟎, 𝟐𝟎
Como el valor
obtenido es
próximo a 0 no
hay una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella no
son fiables.
Habría que
buscar una mejor
aproximación.
12DISTRIBUCIONESBIDIMENSIONALES
7. COEFICIENTE DE DETERMINACIÓN
Supuesto 4
𝑟 = −0,88 →
𝒓 𝟐 = 𝟎, 𝟕𝟕
Como el valor
obtenido es
próximo a 1 hay
una buena
aproximación con
la recta de
regresión. Los
valores obtenidos
a partir de ella
son
razonablemente
fiables.
y = -0,545x + 7,071
R² = 0,7725
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 2 4 6 8 10 12
HORASDETV
HORAS DE SUEÑO
12DISTRIBUCIONESBIDIMENSIONALES

Ud 12 distribuciones bidimensionales

  • 1.
  • 2.
    ÍNDICE 1. INTRODUCCIÓN 2. DISTRIBUCIONESUNIDIMENSIONALES. PARÁMETROS 3. DISTRUBUCIONES BIDIMENSIONALES 4. CORRELACIÓN. NUBE DE PUNTOS 5. MEDIDAS DE CORRELACIÓN 6. RECTA DE REGRESIÓN. ESTIMACIONES 7. COEFICIENTE DE DETERMINACIÓN 12DISTRIBUCIONESBIDIMENSIONALES
  • 3.
    1. INTRODUCCIÓN ESTADÍSTICA Es laCiencia que se encarga de la recopilación, representación y el uso de los datos sobre una o varias características de interés para, a partir de ellos, tomar decisiones o extraer conclusiones generales. Supuesto 1 Desde la organización de una carrera popular quieren ver el tiempo que dedican los participantes a preparar una prueba de 10 Km. Para ello, de entre los 500 participantes, escogen a un grupo 10. El número de horas semanales que dedican a preparar esta prueba son: 3, 10, 5, 7, 8, 7, 4, 9, 6 y 11. 12DISTRIBUCIONESBIDIMENSIONALES
  • 4.
    1. INTRODUCCIÓN VARIABLES ESTADÍSTICAS CUALITATIVAS. Referidas acaracterísticas que no podemos expresar numéricamente. Ejemplo: el color de los ojos. CUANTITATIVAS. Referidas a características que podemos expresar numéricamente. Ejemplo: el número de aprobados DISCRETAS. Cuando la variable solo toma valores enteros. Ejemplo: número de hijos de las familias españolas. CONTINUAS. Cuando la variable puede tomar cualquier valor. Ejemplo: tiempo de espera ante una llamada telefónica, 12DISTRIBUCIONESBIDIMENSIONALES
  • 5.
    1. INTRODUCCIÓN CONCEPTO DEFINICIÓNSUPUESTO Población Es el conjunto de individuos o entes sujetos a estudio. Los 500 participantes de la carrera. Muestra Es el número de datos que tomamos de la población para realizar el estudio. Los 10 corredores seleccionados. Tamaño muestral Número de observaciones de la muestra. n = 10 Dato Cada valor observado en la variable. 3, 10, 5, 7, 8, 7, 4, 9, 6 y 11. Variable Característica que estamos midiendo. Horas semanales dedicadas a entrenar. 12DISTRIBUCIONESBIDIMENSIONALES
  • 6.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS 2.2. Parámetros de centralización Los parámetros de centralización o medidas de posición central son números que nos indican alrededor de qué valor se distribuyen los valores de la variable estadística observada. Son: -Media: es el valor promedio de la distribución. -Moda: es el valor más repetido de la distribución. -Mediana: es el valor de la serie que reparte los datos en dos partes iguales. 2.1. Distribuciones unidimensionales Son aquellas que solamente estudian una variable estadística. 12DISTRIBUCIONESBIDIMENSIONALES
  • 7.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Media aritmética - Se representa por x. - Cálculo: - Para datos sin frecuencias: Si la variable toma los n valores x1, x2, ..., xn, la media aritmética se calcula mediante la expresión: - Para datos con frecuencias: Si la variable toma los valores o marcas de clase x1, x2, ..., xn, con f1, f2, ..., fn las frecuencias absolutas correspondientes de la distribución, la media aritmética se calcula mediante la expresión: 12DISTRIBUCIONESBIDIMENSIONALES
  • 8.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Horas semanales: 𝑥𝑖 3 10 5 7 8 7 4 9 6 11 70 𝑥 = 70 10 = 7 ℎ𝑜𝑟𝑎𝑠 𝑠𝑒𝑚𝑎𝑛𝑎𝑙𝑒𝑠 Supuesto 1 12DISTRIBUCIONESBIDIMENSIONALES
  • 9.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Nº de errores Nº de alumnos 0 6 1 7 2 5 3 5 4 2 Supuesto 2 El número de errores ortográficos cometido por un grupo de alumnos son: Determina el número medio de errores cometido por los alumnos. 12DISTRIBUCIONESBIDIMENSIONALES
  • 10.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Nº de errores=𝑥𝑖 Nº de alumnos=𝑓𝑖 𝑥𝑖 · 𝑓𝑖 0 6 0 1 7 7 2 5 10 3 5 15 4 2 8 total 25 40 𝑥 = 40 25 = 1,6 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 Supuesto 2 12DISTRIBUCIONESBIDIMENSIONALES
  • 11.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS 2.3. Parámetros de dispersión Son datos que informan de la concentración o dispersión de los datos respecto de los parámetros de centralización. Son: -Recorrido (R): es la diferencia entre el mayor y el menor de los valores. -Desviación media (DM): es la media de los valores de las desviaciones de los datos respecto a la media aritmética -Varianza (𝝈 𝟐 ): es la media aritmética de los cuadrados de las desviaciones de los valores de la variable respecto de la media aritmética. -Desviación típica (𝝈): es la raíz cuadrada con signo positivo de la varianza. -Coeficiente de variación (CV): es el cociente entre la desviación típica y la media aritmética. 12DISTRIBUCIONESBIDIMENSIONALES
  • 12.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Expresiones 𝑅 = 𝑥 𝑚á𝑥 − 𝑥 𝑚í𝑛 𝐷𝑀 = |𝑥𝑖 − 𝑥𝑛 𝑖=1 |𝑓𝑖 𝑁 𝜎2 = (𝑥𝑖−𝑥)2 𝑓𝑖 𝑛 𝑖=1 𝑁 ó 𝜎2 = 𝑥2 · 𝑓𝑖 𝑛 𝑖=1 𝑁 − (𝑥)2 𝜎 = 𝜎2 = 𝑥2 · 𝑓𝑖 𝑛 𝑖=1 𝑁 − (𝑥)2 𝐶𝑉 = 𝜎 𝑥 12DISTRIBUCIONESBIDIMENSIONALES
  • 13.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS 2.4. Estudio conjunto de media aritmética y desviación típica Para una distribución estadística de comportamiento normal, se cumple lo siguiente: -En (𝑥 − 𝜎, 𝑥 + 𝜎) está el 68,26% de los individuos. -En (𝑥 − 2𝜎, 𝑥 + 2𝜎) está el 95,45% de los individuos. -En (𝑥 − 3𝜎, 𝑥 + 3𝜎) está el 99,73% de los individuos. 12DISTRIBUCIONESBIDIMENSIONALES
  • 14.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Supuesto 1 Calculo de la desviación típica Horas semanales: 𝑥𝑖 𝑥𝑖 2 3 9 10 100 5 25 7 49 8 64 7 49 4 16 9 81 6 36 11 121 70 550 𝜎 = 𝑥2 · 𝑓𝑖 𝑛 𝑖=1 𝑁 − 𝑥 2 𝜎 = 550 10 − 72 = 2,45 12DISTRIBUCIONESBIDIMENSIONALES
  • 15.
    2. DISTRIBUCIONES UNIDIMENSIONALES.PARÁMETROS Supuesto 2 Calculo de la desviación típica 𝜎 = 104 25 − 1,62 = 1,265 x f x·f 𝑥2 ·f 0 6 0 0 1 7 7 7 2 5 10 20 3 5 15 45 4 2 8 32 total 25 40 104 𝜎 𝑥 = 𝑓𝑖 · 𝑥𝑖 2𝑛 𝑖=1 𝑁 − 𝑥 2 12DISTRIBUCIONESBIDIMENSIONALES
  • 16.
    3. DISTRIBUCIONES BIDIMENSIONALES 3.1.Distribuciones bidimensionales Son aquellas que estudian, de manera simultánea, dos variables estadísticas. La variable estadística bidimensional se representa por el símbolo (X, Y) y cada uno de los individuos de la población viene caracterizado por la pareja (xi , yj ), en el cual xi representa los datos, valores o marcas de clase x1, x2, ..., xn de la variable X; e yj representa los datos, valores o marcas de clase y1, y2, ..., ym de la variable Y. 3.2. Distribuciones condicionadas Se llama distribución condicionada de la variable X para Y = yj, y se escribe X/Y= yj, a la distribución que tiene en cuenta todos los valores de X bajo la condición de que Y tome el valor yj. Se llama distribución condicionada de la variable Y para X = xi, y se escribe Y/X= xi, a la distribución que tiene en cuenta todos los valores de Y bajo la condición de que X tome el valor xi. 12DISTRIBUCIONESBIDIMENSIONALES
  • 17.
    3. DISTRIBUCIONES BIDIMENSIONALES Horasde estudio: 𝑥𝑖 Nota: 𝑦𝑖 21 9 15 7 10 5 15 2 20 7 30 8 18 8 20 6 25 5 16 4 Supuesto 3 El tiempo de estudio y la nota de un grupo de estudiantes en una determinada materia es el siguiente: 12DISTRIBUCIONESBIDIMENSIONALES
  • 18.
    4. CORRELACIÓN. NUBEDE PUNTOS 4.1. Nube de puntos o diagrama de dispersión Considerando cada par de valores (x, y) como las coordenadas de un punto se consigue una gráfica denominada diagrama de dispersión o nube de puntos. Nos interesa saber si dos variables están o no relacionadas. 0 1 2 3 4 5 6 7 8 9 10 0 5 10 15 20 25 30 35 NOTA HORAS DE ESTUDIO Nube de puntos del supuesto 3. 12DISTRIBUCIONESBIDIMENSIONALES
  • 19.
    4. CORRELACIÓN. NUBEDE PUNTOS 4.2. Dependencia o correlación Según la disposición de la nube de puntos, se puede apreciar, de forma cualitativa, el tipo y grado de relación o dependencia entre ambas variables. A esa dependencia la llamamos correlación y puede ser: - Dependencia funcional, si la nube de puntos se sitúa en la gráfica de una función, excepto que esta sea constante. - Dependencia lineal, si la nube de puntos se sitúa sobre una recta. 12DISTRIBUCIONESBIDIMENSIONALES
  • 20.
    4. CORRELACIÓN. NUBEDE PUNTOS - Correlación o dependencia aleatoria, si la nube de puntos se sitúa próxima a la gráfica de una función. - Independencia o ausencia de correlación. 12DISTRIBUCIONESBIDIMENSIONALES
  • 21.
    4. CORRELACIÓN. NUBEDE PUNTOS CORRELACIÓN CRITERIO 1 FUERTE La nube se aproxima a una recta o curva DÉBIL La nube no se aproxima a una recta o curva CRITERIO 2 POSITIVA A medida que crece una variable lo hace la otra NEGATIVA A medida que crece una variable decrece la otra 12DISTRIBUCIONESBIDIMENSIONALES
  • 22.
    5. MEDIDAS DECORRELACIÓN Nos interesa conocer de una forma cuantitativa si dos variables son dependientes. La nube de puntos nos aporta una idea previa que vamos a corroborar con el coeficiente de correlación. 5.1. Coeficiente de correlación lineal de Pearson La correlación de tipo lineal se mide mediante un coeficiente universalmente aceptado, llamado coeficiente de correlación lineal de Pearson, cuyo valor puede calcularse mediante la expresión: 𝜎 𝑥 = 𝑓𝑖 · 𝑥𝑖 2𝑛 𝑖=1 𝑁 − 𝑥 2 𝜎 𝑦 = 𝑓𝑗 · 𝑦𝑖 2𝑚 𝑗=1 𝑁 − 𝑦 2 𝑟 = 𝜎 𝑥𝑦 𝜎 𝑥 · 𝜎 𝑦 𝜎 𝑥𝑦 = 𝑓𝑖𝑗 · 𝑥𝑖 · 𝑦𝑗 𝑁 − 𝑥 · 𝑦 12DISTRIBUCIONESBIDIMENSIONALES
  • 23.
    5. MEDIDAS DECORRELACIÓN El coeficiente de correlación lineal de Pearson, r, permite analizar el grado de aproximación de la nube de puntos a una línea recta y siempre toma valores comprendidos entre -1 y 1. COEFICIENTEr Si –1 < r < 0, existe correlación lineal negativa, y será más fuerte cuanto más se aproxime r a –1. Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte cuanto más se aproxime r a 1. Si r = 1 o r = –1, la correlación es una dependencia lineal. Si r = 0, no existe correlación lineal o las variables no están correlacionadas linealmente. Esto no excluye que las variables estadísticas puedan estar relacionadas por una correlación curvilínea. 12DISTRIBUCIONESBIDIMENSIONALES
  • 24.
    5. MEDIDAS DECORRELACIÓN Supuesto 3 x y x^2 y^2 xy 21 9 441 81 189 15 7 225 49 105 10 5 100 25 50 15 2 225 4 30 20 7 400 49 140 30 8 900 64 240 18 8 324 64 144 20 6 400 36 120 25 5 625 25 125 16 4 256 16 64 190 61 3896 413 1207 MEDIA X 19 MEDIA Y 6,1 DESV. TIP. X 5,35 DESV. TIP. Y 2,02 DES. TIP. XY 4,8 r 0,44 Como 0<0,44<1 existe correlación lineal positiva  si que depende el tiempo de estudio con la nota obtenida. A mayor tiempo invertido, mayor nota. 12DISTRIBUCIONESBIDIMENSIONALES
  • 25.
    5. MEDIDAS DECORRELACIÓN Supuesto 4 Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir y ver la televisión. La clasificación de las respuestas ha permitido elaborar la siente tabla: Nº horas dormidas (x) Nº horas de tv (y) Frecuencias absolutas (f) 6 4 3 7 3 16 8 3 20 9 2 10 10 1 1 12DISTRIBUCIONESBIDIMENSIONALES
  • 26.
    5. MEDIDAS DECORRELACIÓN Supuesto 4 x y f x·f x^2·f y·f y^2·f x·y·f 6 4 3 18 108 12 48 72 7 3 16 112 784 48 144 336 8 3 20 160 1280 60 180 480 9 2 10 90 810 20 40 180 10 1 1 10 100 1 1 10 40 13 50 390 3082 141 413 1078 MEDIA X 7,8 MEDIA Y 2,82 DESV. TIP. X 0,894 DESV. TIP. Y 0,555 DES. TIP. XY -0,436 r -0,88 Como r = -0,88, existen una fuerte correlación lineal negativa. Esto implica que a mayor número de horas de visionado de la TV se dormirá un menor número de horas. 12DISTRIBUCIONESBIDIMENSIONALES
  • 27.
    6. RECTA DEREGRESIÓN. ESTIMACIONES 6.1. Recta de regresión En numerosas situaciones el diagrama de dispersión, o nube de puntos de una variable bidimensional, sugiere la línea curva o recta que mejor se aproxima a los valores de dicha variable. Esta curva recibe el nombre de recta de regresión. Sus ecuaciones son: - Recta de regresión de Y sobre X: - Recta de regresión de X sobre Y: 𝑦 − 𝑦 = 𝜎 𝑥𝑦 𝜎 𝑥 2 (𝑥 − 𝑥) 𝑥 − 𝑥 = 𝜎 𝑥𝑦 𝜎 𝑦 2 (𝑦 − 𝑦) 12DISTRIBUCIONESBIDIMENSIONALES
  • 28.
    6. RECTA DEREGRESIÓN. ESTIMACIONES Supuesto 3 Determinar: a) Recta de regresión de X sobre Y. b) ¿Cuál será el número de horas que tenemos que estudiar para obtener un 7,5? Horas de estudio: 𝑥𝑖 Nota: 𝑦𝑖 21 9 15 7 10 5 15 2 20 7 30 8 18 8 20 6 25 5 16 4 12DISTRIBUCIONESBIDIMENSIONALES
  • 29.
    6. RECTA DEREGRESIÓN. ESTIMACIONES Supuesto 3 𝑥 − 𝑥 = 𝜎 𝑥𝑦 𝜎 𝑦 2 (𝑦 − 𝑦) MEDIA X 19 MEDIA Y 6,1 DESV. TIP. X 5,35 DESV. TIP. Y 2,02 DES. TIP. XY 4,8 r 0,44 𝑥 − 19 = 4,8 2,022 (𝑦 − 6,1) 𝑥 = 1,176𝑦 + 11,824 Si la nota y = 7,5 basta con despejar de la ecuación de la recta de X sobre Y obtenida: 𝑥 = 1,176 · 7,5 + 11,824 = 20,644 ℎ𝑜𝑟𝑎𝑠 12DISTRIBUCIONESBIDIMENSIONALES
  • 30.
    6. RECTA DEREGRESIÓN. ESTIMACIONES Supuesto 3 y = 1,1736x + 11,841 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 7 8 9 10 HORASDEESTUDIO NOTA 12DISTRIBUCIONESBIDIMENSIONALES
  • 31.
    6. RECTA DEREGRESIÓN. ESTIMACIONES Supuesto 4 Determinar: a) Recta de regresión de Y sobre X. b) ¿Si dormimos 8,5 horas cuál es el tiempo que dedicamos a ver la TV? Nº horas dormidas (x) Nº horas de tv (y) Frecuencias absolutas (f) 6 4 3 7 3 16 8 3 20 9 2 10 10 1 1 12DISTRIBUCIONESBIDIMENSIONALES
  • 32.
    6. RECTA DEREGRESIÓN. ESTIMACIONES Supuesto 4 MEDIA X 7,8 MEDIA Y 2,82 DESV. TIP. X 0,894 DESV. TIP. Y 0,555 DES. TIP. XY -0,436 r -0,88 𝑦 − 𝑦 = 𝜎 𝑥𝑦 𝜎 𝑥 2 (𝑥 − 𝑥) 𝑦 − 2,82 = −0,436 0,8942 (𝑥 − 7,8) 𝑦 = −0,545𝑥 + 7,071 Si el nº de horas de sueño x = 8,5 basta con despejar de la ecuación de la recta de Y sobre X obtenida: 𝑦 = −0,545 · 8,5 + 7,071 = 2,434 ℎ𝑜𝑟𝑎𝑠 𝑑𝑒 𝑇𝑉 12DISTRIBUCIONESBIDIMENSIONALES
  • 33.
    6. RECTA DEREGRESIÓN. ESTIMACIONES Supuesto 4 y = -0,545x + 7,071 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 0 2 4 6 8 10 12 HORASDETV HORAS DE SUEÑO 12DISTRIBUCIONESBIDIMENSIONALES
  • 34.
    7. COEFICIENTE DEDETERMINACIÓN 7.1. Coeficiente de determinación El coeficiente de determinación de una variable estadística bidimensional (X, Y) mide el grado de correlación (dependencia) entre las variables X e Y, se representa por R2, siempre toma valores entre 0 y 1 y viene dado por la expresión: Nos indica la precisión que tiene la recta de regresión con respecto a los puntos (X, Y) obtenidos. Es el cuadrado del coeficiente de Pearson. 𝐶𝑜𝑒𝑓. 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖ó𝑛 = 𝑅2 = 𝑟2 = 1 − 𝜎𝑒 2 𝜎 𝑦 2 12DISTRIBUCIONESBIDIMENSIONALES
  • 35.
    7. COEFICIENTE DEDETERMINACIÓN COEFICIENTE𝑅2 Si R2 = 1, es el caso extremo en el que los residuos son nulos, entonces el ajuste es perfecto. Si R2 = 0, en este caso extremo, el ajuste es inadecuado o, quizá, las variables X e Y son independientes. Si 0 < R2 < 1, hay que tener en cuenta que para valores próximos a 0,9 son indicativos de ajustes muy aceptables, mientras que para valores inferiores a 0,6 tienen escasa fiabilidad y sugieren la búsqueda de otra línea de ajuste más adecuada. 12DISTRIBUCIONESBIDIMENSIONALES
  • 36.
    7. COEFICIENTE DEDETERMINACIÓN Supuesto 3 y = 1,1736x + 11,841 R² = 0,197 0 5 10 15 20 25 30 35 0 1 2 3 4 5 6 7 8 9 10 HORASDEESTUDIO NOTA 𝑟 = 0,44 → 𝒓 𝟐 = 𝟎, 𝟐𝟎 Como el valor obtenido es próximo a 0 no hay una buena aproximación con la recta de regresión. Los valores obtenidos a partir de ella no son fiables. Habría que buscar una mejor aproximación. 12DISTRIBUCIONESBIDIMENSIONALES
  • 37.
    7. COEFICIENTE DEDETERMINACIÓN Supuesto 4 𝑟 = −0,88 → 𝒓 𝟐 = 𝟎, 𝟕𝟕 Como el valor obtenido es próximo a 1 hay una buena aproximación con la recta de regresión. Los valores obtenidos a partir de ella son razonablemente fiables. y = -0,545x + 7,071 R² = 0,7725 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 0 2 4 6 8 10 12 HORASDETV HORAS DE SUEÑO 12DISTRIBUCIONESBIDIMENSIONALES