El documento presenta conceptos básicos de estadística descriptiva univariada como tablas de frecuencias, gráficos y medidas de resumen. Explica que la estadística descriptiva permite condensar grandes grupos de datos y describe técnicas como tablas de frecuencias, gráficos y medidas como la media, desviación estándar y correlación. También presenta ejemplos de cómo aplicar estas técnicas para organizar y resumir datos cualitativos y cuantitativos.
Propositos del comportamiento de fases y aplicaciones
estadística descriptiva
1. Cecilia Larraín R Estadística Descriptiva Página 1
S 1Estadística Descriptiva Univariada
Organización de los datos
La estadística descriptiva, entrega las técnicas que permiten condensar
grandes grupos de datos mediante el uso de tablas de frecuencias,
gráficos y medidas de resumen como media, desviación estándar,
correlación.
d resume
Tabla o distribución de La presentación gráfica
frecuencias puede revelar de un
Es una tabla que constituye vistazo las
el resumen básico de principales
los datos características
de un conjunto
de datos
Descripción estadística de una variable cualitativa
Gráficos
- Sectorial
- Barras
Separadas
- Diagrama
de Pareto
- Pictograma
Medida de resumen
Moda: es el dato o
modalidad de mayor
frecuencia ≡ dato
más representativo
2. Cecilia Larraín R
Ejemplo
Reporte de la inspección final de
defectos de 150 productos para la
línea de armado A12.
DATOS DIRECTOS (brutos)
Rayado Manchado Manchado Manchado
Abollado Astillado Doblado Manchado
Astillado Rayado Manchado Rayado
Astillado Astillado Manchado Manchado
Otros Astillado Astillado Abollado
Manchado Manchado Rayado Astillado
Rayado Rayado Manchado Manchado
Astillado Rayado Abollado Manchado
Doblado Manchado Manchado Astillado
Rayado Manchado Manchado Doblado
Rayado Manchado Doblado Abollado
Manchado Manchado Astillado Manchado
Manchado Manchado Astillado Rayado
Otros Otros Rayado Doblado
Abollado Rayado Manchado Astillado
Manchado Manchado Astillado Manchado
Rayado Manchado Rayado Rayado
Manchado Rayado Manchado Rayado
Otros Astillado Manchado Astillado
Rayado Rayado Abollado Manchado
Doblado Astillado Manchado Rayado
Doblado Manchado Abollado Rayado
Rayado Manchado Rayado Rayado
Manchado Doblado Manchado Rayado
Manchado Manchado Manchado Manchado
Rayado Astillado Astillado Rayado
Abollado Manchado Rayado Manchado
Manchado Manchado Rayado Rayado
Rayado Manchado Manchado Rayado
Rayado Astillado Astillado Astillado
Datos en bruto: Datos registrados en la
secuencia en que fueron recolectados,
antes de ser procesados u ordenados
Estadística Descriptiva
Ejemplo. Defectos_Linea A12
eporte de la inspección final de
defectos de 150 productos para la
Manchado
Manchado
Rayado
Manchado
Abollado
Astillado
Manchado
Manchado
Astillado
Doblado
Abollado
Manchado
Rayado
Doblado
Astillado
Manchado
Rayado
Rayado
Astillado
Manchado
Rayado
Rayado
Rayado
Rayado
Manchado
Rayado
Manchado
Rayado
Rayado
Astillado
: Datos registrados en la
fueron recolectados,
antes de ser procesados u ordenados
Tabla de frecuencias
Defecto del
producto Frecuencia
Abollado 8
Astillado 23
Doblado 12
Manchado 56
Otros 6
Rayado 45
Total 150
¿Cuál es la unidad de observación?
Gráfico de barras separadas
Frecuencia
60
50
40
30
20
10
0
56
12
23
8
Defecto del producto
ManchadoDobladoAstilladoAbollado
El defecto más frecuente en la
línea de armado es Manchado
Moda = manchado
Página 2
Tabla de frecuencias
Porcentaje
5,3
15,3
8,0
37,3
4,0
30,0
100,0
¿Cuál es la unidad de observación?
Gráfico de barras separadas
6
45
Defecto del producto
OtroRayadoManchado
El defecto más frecuente en la
línea de armado es Manchado
3. Cecilia Larraín R
Defectos del
producto
Frecuencia absoluta
Abollado
Astillado 23
Doblado 12
Manchado 56
Rayado
Otros 45
Total 150
Frecuencia absoluta (ni):
Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto
del total de datos. i = 1,2, …,k
Gráfico sectorial:
Círculo dividido en
porciones que
representan las
frecuencias relativas
o porcentajes de una
población o muestra
perteneciente a
diferentes categorías.
Como sabemos, un
círculo contiene 360
grados. Para construir un
gráfico sectorial, se
multiplica por 360 la
frecuencia relativa de
cada categoría, para
obtener la medida del
ángulo correspondiente
¿Cuál es Defecto más frecuente?
Estadística Descriptiva
Frecuencia absoluta
ni
Frecuencia Relativa
fi
8 0,053
23 0,153
12 0,080
56 0,373
6 0,040
45 0,300
150 1,000
): Número de veces que ocurre la modalidad i.
): Es la proporción de la categoría o modalidad respecto
del total de datos. i = 1,2, …,k
Defectos del producto
¿Cuál es Defecto más frecuente?
Abollado
5,33%
Astillado
15,33%
Manchado
37,33%
Rayado
30,00%
Otros
4,00%
Página 3
Porcentaje
%
5,33
15,33
8,00
37,33
4,00
30,00
100%
Número de veces que ocurre la modalidad i. i = 1,2, …,k
): Es la proporción de la categoría o modalidad respecto
Astillado
15,33%
Doblado
8,00%
4. Cecilia Larraín R Estadística Descriptiva Página 4
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los
problemas o las causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las
causas producen la mayoría de los efectos. Se tratar de identificar ese
pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre
él.
Defecto frecuencia % frec. Acum. % acumulado
Manchado 56 37,33 56 37,33
Rayado 45 30,00 101 67,33
Astillado 23 15,33 124 82,67
Doblado 12 8,00 136 90,67
Abollado 8 5,33 144 96,00
Otros 6 4,00 150 100
TOTAL 150 100,0%
Se calculan solamente para el diagrama
Pareto (en este tipo de variable)
5. Cecilia Larraín R Estadística Descriptiva Página 5
Tabla de frecuencias, gráficos y medidas de resumen
para una variable cuantitativa
Tablas y gráficos: Distinguir si la variable es discretas
continua
Si las observaciones en un conjunto de datos cuantitativos son discretos
(contables) o si los valores de la variable asumen sólo unos pocos valores
distintos, puede ser apropiado armar tablas de frecuencia con valores
únicos.
La distribución de frecuencias (tabla)
- La distribución de frecuencias para variables cuantitativas discretas
es similar a la de variables cualitativas. Los valores que toma la
variable se ordenan de de menor a mayor lo que permite registrar en la
tabla las frecuencias acumuladas. La representación gráfica que se
utiliza para este tipo de variables es barras separadas o el gráfico de
varas.
Distribución de frecuencias de la variable X
Nombre de la
variable
X
Frec.
Absoluta
ni
Frec. Relativa
i
i
n
f =
n
Frec. Abs.
Acumulada
Ni
Frec. Relat.
Acumulada
i
i
N
F=
n
x1 n1 f1 N1 = n1 F1
x2 n2 f2 N2 = n1 + n2 F2
x3 n3 f3 N3 = n1 + n2 + n3 F3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
xk nk fk Nk = n Fk = 1
Total n 1
xi= valor que toma la variable. i= 1,2, …,k
6. Cecilia Larraín R Estadística Descriptiva Página 6
Ejemplo: Variable discreta
Tabla –gráficos para variable continua:
Cuando la variable es continua o el número de valores posibles de una
variable discreta sea grande, para construir la tabla de frecuencias,
conviene agrupar los datos intervalos reales. Éstos agrupan todos aquellos
Casos contenidos entre dos valores, conocidos como el límite superior e
inferior.
Números de averías en
Febrero.2011 de 40 centrales
Eléctricas.
0 1 0 0 2
2 1 3 1 1
0 1 1 3 1
2 0 0 0 1
0 0 1 1 0
3 1 1 1 0
0 2 3 4 2
2 0 3 2 2
Tabla de frecuencias
N° de
averías Frecuencia Porcentaje
Porcentaje
acumulado
0 13 32,5 32,5
1 13 32,5 65,0
2 8 20,0 85,0
3 5 12,5 97,5
4 1 2,5 100,0
Total 40 100,0
¿cuál es la unidad de observación?
Gráfico: Varas
N°de averías
43210
Recuento
14
12
10
8
6
4
2
0
1
5
8
1313
Estadísticos (Medidas de resumen)
N°de averías
40
0
1,20
1,00
0a
1,114
,637
,374
-,445
,733
0
4
,00
1,00
2,00
Válidos
Perdidos
n
Media
Mediana
Moda
Desv. típ.
Asimetría
Error típ. de asimetría
Curtosis
Error típ. de curtosis
Mínimo
Máximo
25
50
75
Percentiles
Existen varias modas. Se mostrará el menor de los
valores.
a.
7. Cecilia Larraín R Estadística Descriptiva Página 7
Otros gráficos:
Polígono de frecuencias
Tallo-Hojas
Diagrama de cajas
Estadísticos (medidas de resumen)
Edad (años)
50
0
23,42
22,50
19
4,540
20,616
1,252
1,284
18
18
36
20,00
22,50
25,00
Válidos
Perdidos
n
Media
Mediana
Moda
Desv. típ.
Varianza
Asimetría
Curtosis
Rango
Mínimo
Máximo
25
50
75
Percentiles
Ejemplo:
Edad (en años) de 50
estudiantes seleccionados
de una casa de estudio
superior
21 24 29
18 19 19
25 31 23
22 21 22
25 18 27
19 25 34
20 22 19
19 19 18
28 20 22
23 36 23
26 36 20
25 25 25
23 23 21
21 19 24
21 21 22
27 33 19
23 26
Tabla de frecuencias
Edad
(años) Frecuencia Porcentaje
Porcentaje
acumulado
18 - 21 14 28,0 28,0
21 - 24 17 34,0 62,0
24 - 27 10 20,0 82,0
27 - 30 4 8,0 90,0
30 - 33 1 2,0 92,0
33 - 36 4 8,0 100,0
Total 50 100,0
¿Cuál es la unidad de observación?
Gráfico
Edad
393633302724211815
N°estudiantes
20
15
10
5
0
4
1
4
10
17
14
Histograma
8. Cecilia Larraín R
El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno
representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más
dígitos indicadores para los valores que caen dentro de ese intervalo. En cada renglón,
los valores individuales se representan por un dígito (llamado hoja) a la derecha de la
línea vertical. Si hay algunos
colocan en tallos alto y bajo separados. En este caso, hay 4 puntos
de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y
desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med
19,518,016,515,0
N°alumnos 20
15
10
5
0
14
0
Estadística Descriptiva
Polígono de frecuencias
El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno
representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más
valores que caen dentro de ese intervalo. En cada renglón,
los valores individuales se representan por un dígito (llamado hoja) a la derecha de la
Si hay algunos datos muy alejados del resto (llamados datos
colocan en tallos alto y bajo separados. En este caso, hay 4 puntos atípicos
de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y
desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med
Edad
37,536,034,533,031,530,028,527,025,524,022,521,0
4
1
4
10
17
Página 8
El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno
representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más
valores que caen dentro de ese intervalo. En cada renglón,
los valores individuales se representan por un dígito (llamado hoja) a la derecha de la
datos atípicos), se
ípicos. La columna
de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y
desde el fondo de la tabla, deteniéndose en el renglón que contiene a la mediana.
39,037,5
0
9. Cecilia Larraín R Estadística Descriptiva Página 9
Medidas de Resumen
Entre las medidas que permiten resumir información proveniente de una
población o muestra, podemos considerar: medidas de tendencia posición,
de dispersión o variabilidad, de forma y de asociación
Medidas de posición: Tendencia Central - Percentiles
Tendencia Central: Moda - Promedio - Mediana
Son índices de localización central, empleados en la descripción de las
distribuciones de frecuencias. Las más usadas son la moda, la mediana y el
promedio.
Moda (Mo) : Es el valor de la variable que ocurre más frecuentemente
Promedio Aritmético (o media Aritmética)
La media aritmética o promedio aritmético :
En general se utiliza letras mayúsculas para denotar a las variables, y
letras minúsculas para los valores que toma las variables (datos).
Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores
que posee dicha variable. El promedio aritmético se obtiene sumando los
valores de X y dividiendo luego por el número de datos.
n
i
1 2 3 n i =1
x
x +x +x ...+x total
x = =
n n n
=
∑
Observación: En Estadística Descriptiva, la media de la población se define
de la misma forma pero se utiliza el símbolo µµµµ para denotarla:
µµµµ
N
i
1 2 3 Ni 1
x
x +x +x ...+x
N N
total
N
=
= = =
∑
n ≡ tamaño de la muestra
N ≡ tamaño de la población
10. Cecilia Larraín R Estadística Descriptiva Página 10
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el cálculo de la mediana la variable debe ser por lo menos ordinal
En datos no agrupados (directos), con n impar, el valor central es la
mediana.
Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el
valor 9.
Se puede observar que la mediana es el valor que ocupa el lugar
1+ n
2
En datos no agrupados con n par, el valor de la mediana será el punto
medio entre los dos valores centrales.
Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el
valor 12.
Es preciso ordenar los datos de menor a mayor para hacer el cálculo.
Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de
estudio superior
EDAD Estadísticos
Media 23,42
Mediana 22,5
Moda 19
Cuenta 50
¿Cuál de las tres medidas de
tendencia central representa
mejor los datos?
11. Cecilia Larraín R Estadística Descriptiva Página 11
Ejemplo: Si los datos de una variable discreta están ya tabulados.
"X: Número de avería diarias en un taller
Xi
Frec. abs.
ni Xi ⋅ ni
Frec. abs. acum.
Ni
0
1
2
3
4
5
40
30
10
6
3
1
0
30
20
18
12
5
40
60
Total n = 90
¿Cuál de las tres medidas de tendencia central representa mejor los
datos?
Promedio:
k
i i
i 1
xn
85
x = = 0,944
n 90
=
=
∑
Moda = 0
Me es el valor que ocupa el
lugar
1+ n
= 45,5
2
Mediana = 1 avería.
Interpretación:
12. Cecilia Larraín R Estadística Descriptiva Página 12
Comparación entre x , Me y Mo
Desde un punto de vista descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son distintas:
Estadísticos de tendencia central Observaciones
Media
aritmética
x
n
i
i =1
x
total
x = =
n n
∑
- El nivel de medición de la
variable X sea por lo menos en
escala de intervalos.
- La media es muy sensible
cuando existen datos atípicos
o extremos.
- Es preferible utilizar el promedio
aritmético como medida de
resumen si los datos son
homogéneos.
Mediana
Me
Es un valor tal que, ordenados
en magnitud los n datos de
una variable X, el 50% es
menor o igual que ella, y el
50% es mayor o igual.
- La mediana utiliza menos
información que la media, ya
que solo tiene en cuenta el
orden de los datos y no su
magnitud, por lo tanto, para
poder calcular la mediana el
nivel de medición de la variable
X debe ser por lo menos en
escala ordinal.
- La mediana se ve menos
alterada por los datos atípicos o
extremos.
Moda
Mo
Es el valor de la variable que
ocurre más frecuentemente
- Para el cálculo de la moda la
variable puede tener cualquier
nivel de medición, luego es la
única medida de tendencia
central que se puede calcular si
el nivel de medición de la
variable X es en escala nominal.
X ≠≠≠≠ Mediana ⇒⇒⇒⇒ asimetría, lo que sugiere heterogeneidad en los datos.
∴∴∴∴ en este caso la Mediana es la medida de tendencia central
adecuada para resumir los datos.
13. Cecilia Larraín R Estadística Descriptiva Página 13
Simétrica
X = Me = Mo
Asimetría positiva
Mo < Me < X
Asimetría Negativa
X < Me < Mo
Existen varias maneras de de medir asimetría:
• X ≠ Mediana ⇒ asimetría
• Gráficos: Histograma – Polígono de frecuencias – tallo hojas- caja
• Coeficiente pearsoniano de asimetría SK
3(media - mediana)
SK = ; en general -3 SK 3
desviación estándar
≤ ≤
Si SK > 0, la distribución es asimétrica positiva o a la derecha.
Si SK = 0, la distribución es simétrica.
Si SK < 0, la distribución es asimétrica negativa o a la izquierda.
• Coeficiente de asimetría de Pearson AP
Se basa en el hecho de que en una distribución simétrica, la media coincide con la
moda.
P
Promedio - Moda
A =
Desviación estándar
Si AP > 0, la distribución es asimétrica positiva o a la derecha.
Si AP = 0, la distribución es simétrica.
Si AP < 0, la distribución es asimétrica negativa o a la izquierda.
Este coeficiente no es muy bueno para medir asimetrías leves.
• Coeficiente de asimetría de Fisher
x
32.527.522.517.512.57.52.5
Simétrica
10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
X
32.527.522.517.512.57.52.5
10
8
6
4
2
0
14. Cecilia Larraín R Estadística Descriptiva Página 14
Cuartiles – Quintiles – Deciles - PERCENTILES
Son medidas estadísticas que dividen una serie ordenada de observaciones
en 4, 5, 10, 100 partes iguales.
Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada
parte le corresponde un 25%.
| 25%
| 25%
| 25%
| 25%
|
Mín Q1 Q2 Q3 Máx
Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada
parte le corresponde un 20%.
| 20%
| 20%
| 20%
| 20%
| 20%
|
Mín q1 q2 q3 q4 Máx
Si dividimos en 10 partes iguales tenemos los deciles (Dk)
Los Percentiles Pp son los valores que dividen un conjunto de datos
ordenados de menor a mayor en 100 partes con igual
(aproximadamente) número de datos.
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín Máx
Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes
iguales, los percentiles (Pp).
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín. Máx.
Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se
encuentra el (100 – p)% de los datos.
15. Cecilia Larraín R Estadística Descriptiva Página 15
Recordemos se dividimos la serie de datos ordenada en dos partes iguales,
tenemos la mediana (Me)
Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75
q1 = D2 = P20
q2 =
q3 =
q4 =
Cálculo de Percentiles (datos directos)
Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por
14 alumnos en un examen de Física II. (0 – 100 puntos)
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos
Puntaje
Cálculo percentiles Pp
En la definición de percentil en un conjunto de datos “es el valor tal que el p% de
los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual
a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas
formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el
método AEMPIRAL explicado en la página 22 de texto “Probabilidad y
Estadística”. Douglas C. Montgomery y George C. Runger (1996)
1ro
) Se ordenan los n datos de menor a mayor
2do
) Pp es el valor que ocupa el lugar j =
np
100
. El método AEMPIRAL asigna la
media de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que
ocupa la posición siguiente a la parte entera de j cuando j =
np
100
es un número
decimal
16. Cecilia Larraín R
¿Entre qué valores e encuentra
- Determine el percentil 7
Gráfico de caja
Es un gráfico que suministra información sobre los valores mínimo y máximo,
los cuartiles Q1 = P25, Q
y la simetría de la distribución.
bisagras de Tukey. De determinan de la manera siguiente:
Q1 = P25 ≡ mediana entre el mínimo y la mediana de la variable
Q3 = P75 ≡ mediana entre el mediana de la variable y el máximo
Ejemplo: Edad (página 7)
Bisagras de Tukey
18 19 22 23
18 20 22 24
18 20 22 24
19 20 22 25
19 21 22 25
19 21 23 25
19 21 23 25
19 21 23 25
19 21 23 25
19 21 23 26
Estadística Descriptiva
e encuentra el 25% de los mejores puntajes?
Determine el percentil 75 e interprete.
Es un gráfico que suministra información sobre los valores mínimo y máximo,
, Q2 o mediana Q3 = P75 la existencia de valores atípicos
y la simetría de la distribución. Los cuartiles 1 y 3 se les d
. De determinan de la manera siguiente:
mediana entre el mínimo y la mediana de la variable
mediana entre el mediana de la variable y el máximo
Ejemplo: Edad (página 7)
Percentiles
20,00 22,50 25,00Edad
25 50 75
Percentiles
Se sabe que un dato es atípico, si su
valor no se encuentra en el
(Q1 – 1,5⋅⋅⋅⋅RI , Q3
RI = Q3 – Q
26
27
27
28
29
31
33
34
36
36
3636
34
33
Edad
40
30
20
10
0
Página 16
% de los mejores puntajes?
Es un gráfico que suministra información sobre los valores mínimo y máximo,
la existencia de valores atípicos
1 y 3 se les denominan
Se sabe que un dato es atípico, si su
en el intervalo
+ 1,5⋅⋅⋅⋅RI)
Q1
17. Cecilia Larraín R Estadística Descriptiva Página 17
Cálculo de percentiles datos tabulados en intervalos (datos
secundarios ≡ no se dispone de los datos directos):
Los valores que toman los percentiles cuando tenemos la información
agrupada (intervalos reales) en una tabla de frecuencias de una variable
cuantitativa son aproximados.
Mediante interpolación lineal en el gráfico de frecuencias acumulada
(ojiva) se llega a la fórmula del percentil.
Puntaje en un test de aptitud
DISTRIBUCIÓN DE FRECUENCIA ACUMULADA
Puntaje
X
Frec. Abs. Acumulada
Ni
< 15 0
< 20 8
< 25 15
< 30 29
< 35 35
< 40 38
< 45 40
Puntaje
X
N°de
sujetos
ni
Frecuencias acumuladas
Ni
(absoluta)
Fi
(relativa)
15 – 20 8 8 0,200
20 – 25 7 15 0,375
j 25 – 30 14 29 0,725
30 – 35 6 35 0,875
35 – 40 3 38 0,950
40 – 45 2 40 1,000
n = 40
n = 40
lugar
np
100
=
n 50
20
100
⋅
=
el percentil 50 o
mediana
aproximadamente se
encuentra en el lugar 20,
observando la columna Ni
de frec. acumuladas o el
gráfico ojiva, el valor que
ocupa el lugar 20 se
encuentra en el tercer
intervalo.
P50 = Me ∈ [25, 30)
18. Cecilia Larraín R Estadística Descriptiva Página 18
OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)
Puntaje
P50 ∈ [25, 30) ← 25 es el límite inferior del intervalo j
30 – 25 = 5 es la amplitud del intervalo j
intervalo j
Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j
frec. abs. acumulada anterior al intervalo j es 15
La fórmula que entrega la interpolación lineal para el cálculo de percentiles
con datos agrupados en intervalos reales es:
j-1
p inf j
j
np
100 - N
P = lim +am plitud
nj
Aplicando la fórmula de percentil para datos agrupados
50
20 15
P 25 5 26,79
14
puntos
−
= + ⋅ =
Interpretación …………………………….
- Suponga que al 15% de los puntajes más altos pasan a una segunda
etapa,
- ¿a partir de qué puntaje se va a realizar el corte para seleccionar a
dichos sujetos?
- Determine e interprete el valor del percentil 5.
Interpolando
Linealmente, se
obtiene
Se utiliza
cuando no se
tienen los
datos de cada
unidad de
observación
19. Cecilia Larraín R Estadística Descriptiva Página 19
MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)
Las medidas de tendencia central (promedio, mediana, moda) y los
percentiles, dan información incompleta, acerca de las observaciones.
Ejemplo: Los puntajes (X) obtenidos en una Test por 2 grupos de
alumnos son los siguientes:
Grupo 1 4 3 5 6 4 5 5 7 5 6
Grupo 2 1 4 3 5 6 8 2 7 5 9
En ambos casos el promedio aritmético o media aritmética es 5 (x = 5),
pero sus gráficos son distintos
Diagramas de puntos
Los diagramas de ambos grupos muestran que los puntajes se distribuyen
simétricamente respecto al 5, pero en el grupo 1 existe una menor
dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero
la variabilidad de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersión de los datos obtenidos por
los sujetos o las unidades de medición. Cuando los datos están con baja
dispersión se dice que es homogéneo. Cuando están altamente dispersos
se dice que es heterogéneo.
Las medidas de dispersión más utilizadas son las siguientes:
• Amplitud o rango o recorrido,
• Rango intercuartílico
• Desviación estándar - varianza
• Coeficiente de variación.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor. Rango = valor máximo – valor mínimo
20. Cecilia Larraín R Estadística Descriptiva Página 20
Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer
cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos
Q3 = P75 Q1 = P25
RI se usa con mayor frecuencia acompañando a la mediana cuando la
presencia de valores extremos hace poco recomendable el uso del
promedio.
Defectos. No permite hacer una interpretación precisa de un valor dentro de
una distribución.
No interviene en relaciones matemáticas importantes en la inferencia
estadística.
Desviación estándar o desviación típica
(medida de dispersión asociada al promedio aritmético)
Es la raíz cuadrada de la media de las desviaciones al cuadrado.
Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con
nivel de medición en escala de intervalos o de razón, se define la
desviación estándar o desviación típica como el promedio de las
desviaciones di de los valores xi respecto a su promedio aritmético.
Desviación estándar:
n
2
i
i =1
(x - x)
s =
n
∑
La desviación estándar toma valores no
negativos y mide la dispersión: a mayor
desviación estándar mayor dispersión.
El cuadrado de la desviación estándar s2
, se denomina varianza.
Las desviaciones
di = (xi - x )
se elevan al cuadrado para
convertirlas en positivas,
además recuerde que
n
i
i =1
(x - x)∑ = 0
y se extrae la raíz cuadrada
para que la medida resultante
tenga la misma unidad de
medición de la variable.
21. Cecilia Larraín R Estadística Descriptiva Página 21
n
2
i
2 i 1
Varianza s
(x x)
n
=
−
=
∑
Del ejemplo Puntaje de un Test:
Grupo 1 Grupo 2
x x - x 2
(x - x) x x - x 2
(x - x)
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60
Grupo n Promedio
Desviación
estándar
Varianza
1 10
50
5 ptos
10
= 12
= 1,0954 ptos
10
(1,0954)2
2 10
50
5 ptos
10
= 60
= 2,4495 ptos
10
(2,4495)2
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen
mayor dispersión o variabilidad.
Ventajas de la desviación estándar
- Permite una interpretación precisa de los valores dentro de una
distribución.
- La desviación como el promedio pertenece a un sistema matemático
que permite su uso en métodos estadísticos más avanzados.
22. Cecilia Larraín R Estadística Descriptiva Página 22
i=1
2n
in
2 i=1
i
2
2
n
i=1
i
x
x -
n
=
n-1
(x -x)
n -1
s
=
∑
∑
∑
Propiedades de la desviación estándar (demostración tarea)
- Si se suman a todos los valores de la variable un valor constante, el
promedio queda aumentado en ese valor, pero la desviación estándar
permanece igual.
- Si se multiplica cada valor original por una constante, tanto el
promedio como la desviación estándar queda amplificados por ese
valor.
- La desviación estándar de una constante es cero.
Observaciones:
−Notación de la varianza poblacional
N
2
i
2 i 1
(x µ)
σ
N
=
−
=
∑
µ media de la población, N tamaño de la población
- En algunos textos de Estadística la fórmula de la varianza
(s2
) de la muestra (la muestra es representativa) viene dada por:
2
2
i
n
i=1=
(x -x)
n -1
s
∑
Si los datos se encuentran tabulados (en tabla de frecuencias ←
tenemos datos secundarios) las fórmulas de la varianza y desviación
estándar son:
k
2
i i
2 i 1
x
(x x) n
n - 1
Varianza s =
−
=
∑
llamada varianza corregida o cuasivarianza y
se utiliza en Inferencia Estadística como la
estimación de la varianza poblacional σσσσ2
, es
la fórmula que vamos a utilizar en este
curso como varianza muestral.
23. Cecilia Larraín R Estadística Descriptiva Página 23
k
2
i i
i 1
Desviación estándar: s
(x -x) n
n - 1
=
=
∑
xi es el valor de la variable discreta en una tabla o la marca de clase en el
intervalo i (datos agrupados en intervalos reales)
Ejemplo: Cierto tipo de resistencias de película de óxido metálico son
agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se
contó el número de resistencias que no cumplían con las especificaciones,
resultando la siguiente tabla
X = N°de resistencia defectuosas en cada paquete
X ni i ix n⋅ 2
i i(x - x) n⋅
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150
150
x =
60
125,00
2 125
s =
59
= 2,119 ← varianza
Desviación estándar s = varianza
= 2,119 1,456=
2
k
i ik
2 i=1
i ii
2 i=1
2
k
i=1
i
x n
x n -n
n
= =
n-1
(x -x)
n -1
Varianza: Datos tabulados
s
⋅
⋅⋅∑
∑
∑
24. Cecilia Larraín R Estadística Descriptiva Página 24
2
k
i ik
2 i=1
i ii
i=1
2
k
i=1
i
x n
x n -n
n
= =
n -1
(x -x)
n -1
Desviación estandar: Datos tabulados
s
⋅
⋅⋅∑
∑
∑
Del ejemplo de resistencia de película de óxido metálico:
i
2
i ii
x n = 150 ; x n = 500∑ ∑
2
(150)
500
60 1,456
59
s
−
= =
Coeficiente de variación (CV):
Es una medida relativa de variabilidad
X
X
CV =
|x|
s
Se utiliza para comparar la dispersión de variables que
aparecen en unidades distintas de medición o que toman valores de
magnitudes muy diferentes, ya que no depende de la unidad de
medición de las variables.
Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10
sujetos
sujeto 1 2 3 4 5 6 7 8 9 10
Peso (Y) 78 75 70 68 44 66 72 95 70 74
Estatura (X) 172 175 168 178 159 166 176 180 179 171
Para analizar cuál distribución de datos es más homogénea, se debe determinar
los coeficientes de variación de cada variable
Variable Media Desv. típ. CV
Peso (Y) 71,20 12,541
Estatura (X) 172,40 6,620
Interpretación:
25. Cecilia Larraín R Estadística Descriptiva Página 25
Ejercicios
1. Se realizó un estudio sobre los costos operacionales (Y), en millones de
dólares anuales, en empresas de dos rubros distintos( A ; B ). Se
tomaron muestras de 25 empresas de cada rubro, obteniéndose:
Rubro
A
5,3
4,4
4,4
8,2
2,8
1,5
7,5
6,2
8,5
4,8
4,2
7,2
3,9
6,4
5,3
5,4
2,7
7,1
8,2
5,9
3,9
6,4
4,2
7,5
5,2
Rubro
B
3,5
6,1
4,5
4,0
4,1
4,8
3,6
5,4
5,2
3,5
4,6
5,4
2,9
4,3
4,0
4,8
4,7
2,6
5,5
5,4
2,9
3,5
5,9
3,8
4,9
Rubro A
Frecuencia Tallo & Hoja
1,00 1 . 5
2,00 2 . 78
2,00 3 . 99
5,00 4 . 22448
5,00 5 . 23349
3,00 6 . 244
4,00 7 . 1255
3,00 8 . 225
Multiplicar por 10
-1
Rubro B
Frecuencia Tallo & Hoja
3,00 2 . 699
0,00 3 .
5,00 3 . 55568
4,00 4 . 0013
6,00 4 . 567889
4,00 5 . 2444
2,00 5 . 59
1,00 6 . 1
Multiplicar por 10
-1
a. Compare la dispersión de los costos de operación, entre los dos rubros.
Rubro n y s CV
A
B
Comentarios:
b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del
rubro B?
c. Según estimaciones, realizadas en las empresas del rubro A, los costos
operacionales aumentarán en un 3%. Determine e interprete la nueva
mediana y la nueva varianza.
2. Los datos que se muestran a continuación son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
26. Cecilia Larraín R Estadística Descriptiva Página 26
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
Gráfico de cajas
ALEACION
21
DUREZA
74
72
70
68
66
64
62
60
58
9
Informe: dureza Brinell
ALEACION n Media Desv. típ. C. V. Mín. Máx.
1 10 64,670 1,787
2
Percentiles
ALEACION 25 50 75 RI 1,5·RI Valor de dato atípico
1 63,5 64,6 65,1
2 63,9 66,0 68,9
Interpretación: ___________________
27. Cecilia Larraín R Estadística Descriptiva Página 27
2. Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100
respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos
muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes
de fragmentarse, cuando son sometidos a la tensión:
Muestra 1 Muestra 2
minutos minutos
2.1. En base a la información contenida en los gráficos, determine que
distribución es más homogénea y qué tipo de acero resistió en mejor forma la
tensión aplicada. Justifique utilizando medidas de resumen adecuadas.
2.2. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en
{RB, RM, RA}
Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos
Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos
Resistencia media (RM) : en otro caso.
Muestre gráficamente la distribución de las barras de acuerdo a la nueva
clasificación.
2.3. Determine e interprete el valor del percentil 60 para ambas muestras.
28. Cecilia Larraín R Estadística Descriptiva Página 28
Descripción conjunta de dos variables cuantitativas
Es frecuente que se pueda determinar el grado de relación entre 2 (o más)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir
una variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables están
relacionadas, es necesario calcular un coeficiente de correlación.
Coeficiente de correlación lineal poblacional : ρ
Coeficiente de correlación lineal muestral: r
Un coeficiente de correlación para variables cuantitativas: es un
número que indica el grado de asociación y la dirección de esa
asociación. Indica cómo varía o cambia una característica cuando la
otra característica o variable asociada cambia.
Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer
predicciones. La predicción sólo es posible basándose en el conocimiento
de la relación que hay entre 2 variables.
Un coeficiente de correlación lineal (con variables por lo menos ordinales)
nos proporciona 3 datos principales:
- La existencia o no de una relación entre las variables estudiadas.
- La dirección de la relación.
- El grado de esta relación.
Como por ejemplo:
• estatura y peso
• el ingreso familiar y los gastos en educación
Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan
alguna forma de relación)
Tabla de datos:
Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal
entre las variables.
Sujeto 1 2 3 n
Variable X x1 x2 x3 … xn
Variable Y y1 y2 y3 … yn
La tabla contiene n
pares ordenados
29. Cecilia Larraín R Estadística Descriptiva Página 29
Ejemplos
Una correlación lineal positiva perfecta
X Y
2 4
4 6
5 7
6 8
7 9
8 10
9 11
10 12
12 14
13 15
a) Una correlación lineal elevada positiva (+0,76) (relación directa)
X Y
13 11
12 14
10 11
10 7
8 9
6 11
6 3
5 7
3 6
2 1
En general, personas con alto puntaje en x también tendrán alto puntaje en y.
b) Una baja correlación lineal positiva (+0,14)
X Y
13 7
12 11
10 3
8 7
7 2
6 12
6 6
4 2
3 9
1 6
r = 1
30. Cecilia Larraín R Estadística Descriptiva Página 30
c) Un caso de alta correlación lineal negativa (-0,70) (relación inversa)
X Y
12 7
10 3
9 8
8 5
7 7
7 12
6 10
5 9
4 13
2 11
El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto,
con la dirección de relación entre dos cosas, ya sea directa o inversa.
Significado de la correlación
El valor de de la correlación puede variar desde -1 (lo que indica
correlación negativa perfecta), pasando por el 0 (que indica
independencia completa o ninguna relación), hasta +1 (que significa
perfecta correlación positiva)
La magnitud se relaciona con la intensidad o estrechez de la relación.
Coeficiente de correlación lineal de Pearson
yx
xy
ss
s
r =
n
i i
i 1
xy
(x -x)(y -y)
n-1
s =
=
∑
X e Y variables cuantitativas
; -1 < r < 1
covarianza de una muestra (representativa de la
población objeto), indica la dirección de la relación.
31. Cecilia Larraín R Estadística Descriptiva Página 31
COVARIANZA
n n
i in n
i=1 i=1
i i i i
i=1 i=1
xy
x y
(x -x)(y -y) x y -
n
=
n-1 n-1
s
=
∑ ∑
∑ ∑
Ejemplo:
sujeto x y (x - x ) (y - y ) (x - x )2
(y - y )2
(x - x )(y - y )
1 13 11 5,5 3 30,25 9 16,5
2 12 14 4,5 6 20,25 36 27
3 10 11 2,5 3 6,25 9 7,5
4 10 7 2,5 -1 6,25 1 -2,5
5 8 9 0,5 1 0,25 1 0,5
6 6 11 -1,5 3 2,25 9 -4,5
7 6 3 -1,5 -5 2,25 25 7,5
8 5 7 -2,5 -1 6,25 1 2,5
9 3 6 -4,5 -2 20,25 4 9
10 2 1 -5,5 -7 30,25 49 38,5
Total 75 80 124,5 144 102
promedio x =7,5 y = 8,0
Desviación estándar de X:
2
x
(x - x) 124,5
= 3,719
n - 1 9
s = =
∑
Desviación estándar de Y:
2
y
(y - y) 144
= 4,000
n - 1 9
s = =
∑
Covarianza de (x,y): xy
(x -x)(y -y)
102
= = 11,333
n - 1 9
s =
∑
Coeficiente de correlación lineal de Pearson: xy
11,333
r = 0,762
(3,719)(4,000)
=
Interpretación: _________________________________________
Covarianza positiva
Interpretación: si hubiese
relación lineal, esta sería
directa
32. Cecilia Larraín R Estadística Descriptiva Página 32
Ejercicios
Ejercicio VI-1
Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere
investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de
experiencia”. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo.
Los datos de años de experiencia y medición de productividad son los siguientes:
Empleado 01 02 03 04 05 06 07 08 09 10
Años de experiencia 4 6 10 2 12 6 5 10 13 9
Productividad 80 82 88 81 92 85 83 86 91 90
a. Realice el diagrama de dispersión y calcular el coeficiente r de Pearson.
b. Interprete los resultados.
Ejercicio VI-2
El tiempo de respuestas (en nanosegundos) de un circuito lógico en frío (X) y el tiempo de
respuesta tras una hora de uso intensivo (Y), para una muestra de 12 máquinas es el
siguiente:
Máquina 1 2 3 4 5 6 7 8 9 10 11 12
Tiempo de respuesta en frío (X) 6 5 8 14 7 4 5 9 6 5 7 6
Tiempo de respuesta tras una hora
de uso (Y)
4 8 15 8 9 6 9 6 11 7 5 9
a. Se desea pronosticar el tiempo que tardará un determinado circuito lógico tras una hora
de funcionamiento intensivo, utilizando información del tiempo de respuesta en frío.
Para un pronóstico fiable, las variables deben estar fuertemente relacionadas, utilizando
una mediada estadística adecuada, ¿qué concluiría usted?
b. Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo
(Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5⋅⋅⋅⋅RI)
Detecte los posibles valores atípico en Y.
(Qk ≡ cuartil k RI ≡ Amplitud (rango) intercuartílica)