3. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
4. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
5. 1. Introducción (1/2)
OBJETIVO
Resumir las características más importantes de los datos en un
conjunto reducido de números.
Centralización Uniformidad C ∈
R
Dispersión Particularidad D ∈R
Forma Simetrías/concentración F ∈R
Relación Relación entre variables R ∈R
Probabilidades y Estadística I
6. 1. Introducción (2/2)
Datos
ENUNCIADOS GENERALES explícitos
Sea x1, x2, ...., xn un conjunto de n datos Datos
implícitos
ó
Sea X una variable estadística y sean x1’,x2’,...,xk’ sus modalidades
(valores diferentes o marcas de clase).
- Distribución de frecuencias absolutas: {ni }i =1,...k
- Distribución de frecuencias relativas: { f i }i =1,..., k
- Distribución de frecuencias absolutas acumuladas: {N i }i =1,...k
- Distribución de frecuencias absolutas relativas: {Fi }i =1,...k
Probabilidades y Estadística I
7. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
8. 2. Medidas de centralización (1/15)
Una forma de representar de forma sintética (agregada) la información contenida
en una serie numérica
¿Cuál es el centro de los datos?
Criterio Medida Uso
Repeticiones Moda Medidas nominales
Orden Mediana Medidas ordinales
Valor numérico Media Medidas de intervalo
Probabilidades y Estadística I
9. 2. Medidas de centralización (2/15)
Datos
Moda (idea intuitiva) explícitos
2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 Mo= 9
2, 5, 7, 9, 10, 11, 12 Mo no existe
2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 Mo= 4 y 7 (bimodal)
Probabilidades y Estadística I
10. 2. Medidas de centralización (3/15)
Datos
Moda (idea intuitiva) implícitos
1,2
1
0,8
0,6
0,4
0,2
0
0 1 2 3 4
Mo
Probabilidades y Estadística I
11. 2. Medidas de centralización (4/15)
Moda (definición formal)
Sea X una variable estadística y {x’1,x’2,...,x’k} el conjunto finito de
modalidades. Sea {n1,n2,...,nk} su distribución de frecuencias absolutas y
{f1,f2,.…,fk} su distribución de frecuencias relativas.
Se dice que x’p es la moda de la serie cuando
np= max {n1,n2,...nk}
fp= max {f1,f2,.…,fk}
Probabilidades y Estadística I
12. 2. Medidas de centralización (5/15)
(características) Plurimodalidad
Moda
18
15
12
9
6
3
0
0 1 2 3 4
Unimodal
Probabilidades y Estadística I
13. 2. Medidas de centralización (6/15)
Datos
Mediana (idea intuitiva) explícitos
Es el valor que deja a cada lado el 50% de los datos en la serie ordenada
7 datos 3, 4, 5, 6, 8, 8, 10 M=6
8 datos 3, 4, 4, 5, 6, 8, 8, 10 M = 5.5
8 datos 3, 4, 4, 5, 5, 8, 8, 10 M=5
Probabilidades y Estadística I
14. 2. Medidas de centralización (7/15)
Datos
Mediana (idea intuitiva) implícitos
1
0.8
0.6
0.5
0.4
0.2
M
4 5 6 7 8 9
Probabilidades y Estadística I
15. 2. Medidas de centralización (8/15)
Datos
Mediana (definición formal) explícitos
Sea x1, x2, ...., xn una serie de datos y sea x(1) ≤ x(2) ....≤ x(k) la serie ordenada
de menor a mayor.
n +1
x ( j) si =j
2
M=
x( j) + x( j+1) si j < n +1 < j + 1
2 2
Datos
implícitos
Sea X una variable estadística y F(x) su función acumulativa de frecuencias
relativas. Se define la mediana como la solución de la siguiente ecuación
funcional
F(x) = ½
Probabilidades y Estadística I
16. 2. Medidas de centralización (9/15)
Mediana (características)
Es poco sensible a asimetrías
M M
Probabilidades y Estadística I
17. 2. Medidas de centralización (10/15)
Mediana (características)
Es insensible a valores atípicos
M M
Probabilidades y Estadística I
18. 2. Medidas de centralización (11/15)
Media aritmética (idea intuitiva)
Centro de gravedad de los datos
Probabilidades y Estadística I
19. 2. Medidas de centralización (12/15)
Datos
Media aritmética (definición) explícitos
x1 + x 2 + .... + x n
n
k
k ∑ n x' i i
Datos
X = ∑ f i x' i = i =1 implícitos
i =1 n
Probabilidades y Estadística I
20. 2. Medidas de centralización (13/15)
Media aritmética (características)
Cuanto más asimétrica sea más se desplaza la media hacia la cola
Probabilidades y Estadística I
21. 2. Medidas de centralización (14/15)
Media aritmética (características)
Es muy sensible a valores atípicos
Probabilidades y Estadística I
22. 2. Medidas de centralización (15/15)
Media aritmética (características)
Es un operador lineal (equivale a la regla de tres)
a X + bY = a X + bY
Probabilidades y Estadística I
23. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
24. 3. Medidas de dispersión (1/11)
MOTIVACIÓN
Probabilidades y Estadística I
25. 3. Medidas de dispersión (2/11)
Una forma de representar cuánto discrepan los valores de una serie de datos
¿cuánto se alejan de lo uniforme los valores de una serie ?
Criterio Medida Uso
Discrepancia Rango Medidas nominales
Orden Cuartiles/
Medidas ordinales
Percentiles
Distancia media Varianza/
Medidas de intervalo
a la media Desviación típica
Probabilidades y Estadística I
26. 3. Medidas de dispersión (3/11)
Rango (idea intuitiva)
Rango 1 Rango 2
Probabilidades y Estadística I
27. 3. Medidas de dispersión (4/11)
Rango (definición formal)
Sea X una variable estadística y {x’1,x’2,...,x’k} el conjunto finito de
modalidades. Sea {n1,n2,...,nk} su distribución de frecuencias absolutas y
{f1,f2,.…,fk} su distribución de frecuencias relativas.
Rg X = Max X − Min X = x’k − x’1
Probabilidades y Estadística I
28. 3. Medidas de dispersión (5/11)
Cuartiles (idea intuitiva)
Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los datos
(aproximadamente)
25% 25% 25% 25% 25% 25% 25% 25%
min Q1 Q2 Q3 max min Q1 Q2 Q3 max
Rango intercuartílico Probabilidades y Estadística I
29. 3. Medidas de dispersión (6/11)
Datos
Cuartiles (definición formal) explícitos
Sea x1, x2, ...., xn una serie de datos y sea x(1) ≤ x(2) ....≤ x(k) la serie ordenada
de menor a mayor.
i
x ( j ) si j = (n + 1)
4
Qi =
x ( j ) + x ( j +1) si j < i (n + 1) < j + 1
2 4
Datos
implícitos
Sea X una variable estadística y F(x) su función acumulativa de frecuencias
relativas. Se define Qi como la solución de la siguiente ecuación funcional
F(x) = i/4
Probabilidades y Estadística I
30. 3. Medidas de dispersión (7/11)
Percentiles (definición intuitiva)
Son los valores que dividen la muestra en 100 grupos, cada uno con el 1% de los datos
(aproximadamente)
min P25 P50 P75 max
Q1 Q2 Q3
Probabilidades y Estadística I
31. 3. Medidas de dispersión (8/11)
Datos
Percentiles (definición formal) explícitos
Sea x1, x2, ...., xn una serie de datos y sea x(1) ≤ x(2) ....≤ x(k) la serie ordenada
de menor a mayor.
i
x( j=
) si j (n + 1)
100
Pi =
x ( j ) + x ( j +1) si j < i (n + 1) < j + 1
2 100
Datos
implícitos
Sea X una variable estadística y F(x) su función acumulativa de frecuencias
relativas. Se define Qi como la solución de la siguiente ecuación funcional
F(x) = i/100
Probabilidades y Estadística I
32. 3. Medidas de dispersión (9/11)
Datos
Varianza (definición formal) explícitos
Sea x1, x2, ...., xn una serie de datos
( x1 − x ) 2 + ( x2 − x ) 2 + .... + ( xn − x ) 2
σ =
2
n
Datos
implícitos
Sea X una variable estadística y {x’1,x’2,...,x’k} el conjunto finito de
modalidades. Sea {f1,f2,.…,fk} su distribución de frecuencias relativas.
k
Var X = ∑ f i ( x' i − x )
2
i =1
Probabilidades y Estadística I
33. 3. Medidas de dispersión (10/11)
Desviación típica (definición formal)
k
σ =+ ∑ f i (x' i − x )
2
i =1 Detectar
datos
atípicos
( x − 2σ , x + 2σ ) contiene el 75% de los datos
( x − 3σ , x + 3σ ) contiene el 89% de los datos
Probabilidades y Estadística I
34. 3. Medidas de dispersión (11/11)
Varianza (propiedades)
Es un operador cuadrático (Teorema de Pitágoras)
Var (aX+b)= a2Var(X)
COMPARACIÓN DE DISPERSIONES (Coeficiente de variación)
σ
CV =
x
Probabilidades y Estadística I
35. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
36. 4. Medidas de forma (1/6)
Una forma de valorar cuantitativamente la forma del perfil de una distribución de
frecuencias
¿qué valores de una distribución pueden considerarse atípicos?
Gráfico Criterio Medida
Simetría Coeficiente
de Fisher
Apuntamiento Curtosis
Probabilidades y Estadística I
37. 4. Medidas de forma (2/6)
Momento centrado en el origen (definición formal)
Sea x1, x2, ...., xn una serie de datos, se denomina momento centrado en el
origen de orden r, y se representa por ar, a la siguiente expresión algebraica:
x1 + x 2r + .... + x nr
r
ar =
n
Momento centrado en la media (definición formal)
Sea x1, x2, ...., xn una serie de datos, se denomina momento centrado en el
origen de orden r, y se representa por ar, a la siguiente expresión algebraica:
(x1 − x ) r + (x 2 − x ) r + .... + (x n − x ) r
mr =
n
Probabilidades y Estadística I
38. 4. Medidas de forma (3/6)
Momentos (propiedades)
a1 = x
m1= 0
m2 = Var (X)
2
n
n
∑=i 1 x i
xi ∑
2
Var (X) = m2 = a2 – a12 Var(X) i 1 −
==
n n
Probabilidades y Estadística I
39. 4. Medidas de forma (4/6)
Coef. de Fisher (definición formal)
n
m3 ∑ (x i − x)3
γ= = i =1
σ nσ 3
1 3
γ1 < 0 γ1 =0 γ1 > 0
Probabilidades y Estadística I
40. 4. Medidas de forma (5/6)
Curtosis (definición formal)
n
m4 ∑ (x i − x) 4
γ2
= −3
= i =1
−3
σ4 nσ 4
γ2 < 0 γ2 =0 γ2 > 0
Probabilidades y Estadística I
41. 4. Medidas de forma (6/6)
Datos atípicos
No atípico Atípico
Probabilidades y Estadística I
42. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
43. 5. Medidas de relación (1/5)
Una forma de valorar cuantitativamente la relación lineal entre dos variables
Eliminar información redundante. Establecer causalidades
Probabilidades y Estadística I
44. 5. Medidas de relación (2/5)
Momento centrado en el origen (definición formal)
Sea (x1,y1), (x2,y2),...., (xn,yn) una serie de datos bidimensionales que definen la
variable estadística bidimensional (X, Y).
x1 y1 + x2 y2 + .... + xn yn
r h r h r h
arh =
n
Momento centrado en la media (definición formal)
Sea (x1,y1), (x2,y2),...., (xn,yn) una serie de datos bidimensionales que definen la
variable estadística bidimensional (X, Y).
(x1 − X )r (y1 − Y )h + (x2 − X )r (y2 − Y )h + .... + (xn − X )r (yn − Y )h
mr ,h =
n
Probabilidades y Estadística I
45. 5. Medidas de relación (3/5)
Momentos bid. (interrelaciones)
COVARIANZA
Probabilidades y Estadística I
46. 5. Medidas de relación (4/5)
Covarianza
Cov (X, Y) = m11
DEPENDE DE LA MAGNITUD
Probabilidades y Estadística I
47. 5. Medidas de relación (5/5)
Coeficiente de correlación (covarianza normalizada)
cov( X ,Y )
ρ x ,y = −1 ≤ ρ x ,y ≤ 1
σ xσ y
Y Y Y Y
X X X X
ρ x ,y = −1 −1 < ρ x ,y < 0 ρ x ,y = 0
Y
Y
X X
0 < ρ x ,y < 1 ρ x ,y = 1
Probabilidades y Estadística I
48. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
49. 6. Representaciones gráficas (1/5)
Diagrama de caja (idea intuitiva)
Representación gráfica de los cuartiles, de la simetría de la distribución
y datos atípicos
Probabilidades y Estadística I
50. 6. Representaciones gráficas (2/5)
Diagrama de caja (construcción)
Paso 1
Q1 Q2 Q3
Probabilidades y Estadística I
51. 6. Representaciones gráficas (3/5)
Diagrama de caja (construcción)
Paso 2 3×RI 3×RI
1.5×RI RI 1.5×RI
Barrera Barrera Q1 Q2 Q3 Barrera Barrera
externa interna interna externa
Probabilidades y Estadística I
52. 6. Representaciones gráficas (4/5)
Diagrama de caja (construcción)
Paso 2 3×RI 3×RI
1.5×RI RI 1.5×RI
Barrera Barrera Q1 Q2 Q3 Barrera Barrera
externa interna interna externa
Probabilidades y Estadística I
53. 6. Representaciones gráficas (5/5)
Diagrama de caja (construcción)
Paso 3 3×RI 3×RI
1.5×RI RI 1.5×RI
Barrera Barrera Q1 Q2 Q3 Barrera Barrera
externa interna interna externa
Probabilidades y Estadística I
55. Ejercicio test anteriores
a) La distribución es asimétrica a la izquierda y mesocúrtica.
b) La distribución es asimétrica a la izquierda y leptocúrtica.
c) La distribución es asimétrica a la derecha y platicúrtica.
Probabilidades y Estadística I
56. Esquema inicial
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja
7. Transformaciones de datos
Probabilidades y Estadística I
57. 7. Trasformación de datos (1/4)
Una forma de conseguir distribuciones simétricas y unimodales
¿Qué se hace con los datos atípicos?
Probabilidades y Estadística I
58. 7. Trasformación de datos (2/4)
Asimetría positiva Y = Log (X)
Probabilidades y Estadística I
59. 7. Trasformación de datos (3/4)
Asimetría positiva Y= X
Probabilidades y Estadística I
60. 7. Trasformación de datos (4/4)
Asimetría negativa Y= X2
Probabilidades y Estadística I