Antologia estadistica descriptiva

U
Un
ni
id
da
ad
d 1
1
Distribuciones de frecuencia
Conceptos de estadística y su clasificación
Estadística:
Es la ciencia que se encarga de recolectar, organizar, analizar e
interpretar información.
Estadística descriptiva:
Comprende aquellos métodos usados para organizar y describir la
información recabada.
Estadística inferencial:
Comprende aquellos métodos y técnicas usados para hacer
generalizaciones, predicciones o estimaciones sobre poblaciones a partir
de una muestra.
Recopilación de datos
Millones de datos numéricos se captan todos los dias en negocios, los
cuales representan miles de artículos. Por ejemplo, los números
representan costos en dólares de artículos producídos, lugares
geográficos de establecimientos de venta al menudeo, pesos de
embarques y clasificaciones de subordinados en revisiones anuales.

Todos estos datos no deben ser analizados de la misma manera
estadística porque las entidades representadas por los números son
diferentes. Por esta razón, el investigador de negocios necesita saber el
nivel de medición de datos representado por los números que se
analicen.
Lo correcto del análisis de datos es que depende del nivel de medida de
los datos recolectados. El fenómeno representado por los números
determina el nivel de medición de datos, los cuales se clasifican en
cuatro niveles:
1. Nominal
2. Ordinal
3. Intervalo
4. De razón
a. Nivel nominal:
Los números que representan datos de nivel nominal se pueden usar
sólo para clasificar o asignar categorías. Los números de
identificación de empleados son un ejemplo de datos nominales. Los
números se emplean sólo para diferenciar empleados y no para hacer
una exposición del valor de ellos. Algunas otras variables que
producen datos de nivel nominal son el sexo, religión, grupo étnico,
ubicación geográfica y lugar de nacimiento. Los números de seguro
social, números telefónicos, números de identificación de empleados
y números de código postal.
b. Nivel ordinal:
Además de las posibilidades del nivel nominal, la medición del nivel
ordinal se puede usar para clasificar u ordenar objetos. Por ejemplo,
con el uso de datos ordinales, la supervisora puede evaluar tres
empleados al clasificar su productividad con los números del 1 al 3,
con datos ordinales, la supervisora podría identificar al empleado más
productivo, al menos productivo y a quien esta entre los anteriores.
Algunas escalas del cuestionario tipo Likert son consideradas como de
nivel ordinal. Por ejemplo:
Este material didáctico de computadora es:
_____ _______ ________________ ______ ________________
No útil poco útil moderadamente útil muy útil extremadamente útil
1 2 3 4 5

Los fondos mutuos como inversiones se clasifican a veces en
términos de riesgo al usar medidas de riesgo por incumplimiento,
monetario y de tasas de interés. Estas medidas de riesgo se aplican a
inversiones cuando se clasifican como de alto, medio y bajo riesgo.
Ahora bien, si al alto riesgo se le asigna un 3 de calificación, al riesgo
medio 2 y al bajo 1; por otra parte, si a un fondo se le asigna un 3 en
lugar de 2, lleva más riesgo, y así sucesivamente. No obstante, las
diferencias en riesgo entre las categorías 1, 2 y 3 no son
necesariamente iguales, por lo que estas medidas de riesgo son sólo
medidas de nivel ordinal.
c. Nivel de intervalo:
En este nivel las distancias entre números consecutivos tienen
significado y los datos son siempre numéricos. Las distancias
representadas por las diferencias entre números consecutivos son
iguales; esto es, los datos de intervalo tienen intervalos iguales. Un
ejemplo de medición de intervalo es la temperatura Fahrenheit. Con
números de temperatura Fahrenheit, las temperaturas se pueden
clasificar y las cantidades de calor entre lecturas consecutivas, por
ejemplo 


22
21
20 , , son las mismas.
d. Nivel de razón:
Los datos de razón tienen las mismas propiedades que los datos de
intervalo pero los datos de razón tienen un cero absoluto y la razón
entre los dos números es significativa. La noción de cero absoluto
significa que cero es fijo, y el valor cero en los datos representa la
ausencia de la característica en estudio. La altura, peso, tiempo,
volumen y la temperatura en grados Kelvin son ejemplos de datos de
razón.
Distribución de frecuencia

El objeto de la organización de datos es acomodar un conjunto de datos
en forma útil para revelar sus características esenciales y simplificar
ciertos análisis.
Frecuencia.
La frecuencia de una medida o de una categoría, es el número de veces
que aparecen en una colección de datos.
Tablas de frecuencia agrupadas.
Una tabla de frecuencia agrupada se usa comúnmente para resumir
grandes cantidades de datos que contienen relativamente pocas
repeticiones.
Ejemplos
1. El hospital San Javier quiere saber si su servicio en la sala de
emergencias es adecuado. Para lo cual se registra el número de
personas que ocupan la sala de emergencias cada día durante un
periodo de 12 días con los resultados siguientes:
Día 1 2 3 4 5 6 7 8 9 10 11 12
# Pacientes 7 43 8 22 13 28 36 18 23 21 15 53
Para simplificar los datos, el gerente construye 6 agrupamientos o
clases.
Clase f
1 10 2
11 20 3
21 30 4
31 40 1
41 50 1
51 60 1
Total 12
Límites de clase:
Para las clases 1 – 10 a 1 se le llama límite inferior de clase y a 10
límite superior de clase
Amplitud de clase o (ancho de clase) “W ”
Es la distancia entre cualquiera de dos limites superiores consecutivos o
entre cualquiera de dos limites inferiores consecutivos.

10
10
20 


W o 10
31
41 


W
2. La siguiente es una tabla de frecuencias agrupadas para el peso en
libras de 18 recién nacidos, calcular W
Clase F
3.0 4.4 1
4.5 5.9 1
6.0 7.4 7
7.5 8.9 8
9.0 10.4 1
Total 12
5
1
3
5
4 .
. 


W
5
1
9
5
4
7 .
.
. 


W
Elección de clases para tablas de frecuencias agrupadas.
Para construir una tabla de frecuencias agrupadas debemos responder
a las siguientes preguntas:
a. Cuantas clases deben usarse
b. Cual debe ser la amplitud de la clase
c. En que valor debe empezar la primera clase.
Respuestas.
a. Puede usarse un número entre 5 y 15 inclusive o por la regla de
Sturges.
1
3
3 
 )
(log
. n
C
#

n de medidas

n
log logaritmo de n en base 10
“Al valor de C se redondea al entero más cercano”
b.
C
R
w  R = rango m
M
R 
 C = # de clases
“ w se toma como el mínimo entero mayor que
C
R
”
c. El valor será el de la medida más pequeña

3. El profesor Smith puso un examen final consistente en 100
preguntas a su grupo de contabilidad. Los datos siguientes
representan el número de respuestas correctas en cada examen.
Construya una tabla de frecuencias agrupadas con los siguientes
resultados.
17 15 78 21 10 32 7 65 18 87
4 22 34 42 9 9 82 79 98 4
44 64 62 77 2 81 45 37 83 44
77 13 41 16 17 13 82 37 5 54
7 67 88 41 61 22 92 16 67 85
Respuesta:
7
6
6
1
50
3
3 


 .
)
(log
.
C 14
7
13
7
2
98




 .
C
R
w
Clase f
2 15 12
16 29 8
30 43 7
44 57 4
58 71 6
72 85 9
86 99 4
Total 50
4. Los datos adjuntos representan el número de clientes que visitan
una tienda en un periodo de 22 días. Construya una tabla de
frecuencia agrupada para los siguientes datos:
28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 49
Respuesta:
6
5
5
1
22
3
3 


 .
)
(log
.
C 4
6
28
52




C
R
w

Clase f
28 31 4
32 35 5
36 39 2
40 43 3
44 47 2
48 51 5
Total 21
Observamos que el dato 52 no esta incluido en ninguna clase,
para remediar esto hacemos a 5

W y tenemos la siguiente tabla.
Clase f
28 32 5
33 37 5
38 42 3
43 47 3
48 52 6
53 57 0
Total 22
En este caso la ultima clase esta vacía. Para remediar esta situación
empezamos la 1ª clase con un valor menor, digamos 26
teniendo la siguiente tabla.
Clase F
26 30 3
31 35 6
36 40 2
41 45 4
46 50 6
51 55 1
Total 22
Marca de clase.
Al punto medio de cada clase se denomina marca de clase y se denota
por X , cuando los datos se condensan en una tabla de frecuencias
agrupadas se pierde información y no sabemos el valor exacto de las
medidas que caen en cada clase; por eso lo mejor que podemos hacer
es permitir que cada una de las medidas de una clase dada esté
representada por la marca de esa clase.

2
2
1 l
l
X

 donde 1
l = límite inferior de clase y 
2
l límite superior de
clase
5. Ejemplo para el ejercicio anterior:
Clase f X
26 30 3 28
31 35 6 33
36 40 2 38
41 45 4 43
46 50 6 48
51 55 1 53
Total 22
6. Los datos siguientes representan los totales de efectivo (en dólares)
gastados en un fin de semana por 25 estudiantes. Construya una
tabla de frecuencias agrupadas con su marca de clase.
39.78 28.30 28.31 17.95 44.47
46.65 31.47 33.45 29.17 48.39
87.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25
Respuesta:
6
6
5
1
25
3
3 


 .
)
(log
.
C 12
63
11
6
89
17
71
87




 .
.
.
C
R
w
Clase F X
17.89 29.88 8 23.885
29.89 41.88 7 35.885
41.89 53.88 8 47.885
53.89 65.88 1 59.885
65.89 77.88 0 71.885
77.89 89.88 1 83.885
Total 25
Frecuencia relativas.
A veces es útil expresar cada valor o clase de una tabla de frecuencia
como una fracción o porcentaje del total de las medidas.

7. Para el ejercicio anterior la tabla de frecuencia relativa quedaría
como:
Clase f X Fr
17.89 29.88 8 23.885 .32
29.89 41.88 7 35.885 .28
41.89 53.88 8 47.885 .32
53.89 65.88 1 59.885 .04
65.89 77.88 0 71.885 0
77.89 89.88 1 83.885 .04
Total 25
Frecuencia acumulada.
La frecuencia acumulada de cualquier medida o clase, es la suma de las
frecuencias de esa misma medida o clase y de las frecuencias de todas
las demás de menor valor.
8. Para el caso del profesor Smith la tabla de frecuencia acumulada
quedaría:
Clase f fa
2 15 12 12
16 29 8 20
30 43 7 27
44 57 4 31
58 71 6 37
72 85 9 46
86 99 4 50
Total 50
9. Para el caso de los clientes de la tienda la tabla de frecuencia
acumulada quedaría:
Clase f fa
26 30 3 3
31 35 6 9
36 40 2 11
41 45 4 15
46 50 6 21
51 55 1 22
Total 22
Tabla de frecuencia relativa acumulada.

10. Para el caso del profesor Smith la tabla de frecuencia relativa
acumulada quedaría:
Clase f fr fra
2 15 12 .24 .24
16 29 8 .16 .40
30 43 7 .14 .54
44 57 4 .08 .62
58 71 6 .12 .74
72 85 9 .18 .92
86 99 4 .08 1
Total 50 1
a. Una calificación de 57 aciertos es el porcentil 62
b. EL porcentil numérico 50 esta entre las calificaciones 30 y 43
c. El porcentil 74 es la calificación 71
d. El septuagésimo quinto porcentil esta entre las calificaciones 72
y 85.
Estadística descriptiva
Medidas de tendencia central
La primera característica de un conjunto de datos que deseamos medir
es el centro o la tendencia central. El propósito es resumir un conjunto
de datos de tal forma que nos de un panorama en general. Dicha
medida sirve como representante del resto de la información,
proporcionando una idea del valor central de un conjunto de datos. Las
medidas de tendencia central más comunes son: Media, Mediana, Moda
y Rango medio
Media.
La media o promedio aritmético de un conjunto de números se
encuentra sumando los números y dividiendo después la suma entre n
que representa el número de datos o medidas.
Media muestral Media poblacional
n
x
x


N
x




Ejemplos
1. Los 10 puntajes siguientes representan el número de puntos
anotados en 10 juegos de básquetbol por el jugador A: 6, 10, 3, 7,
6, 6, 8, 5, 9, 10 la medida es:
7
10
70




n
x
x
El valor 7 representa el número central o medio de los puntos
anotados en 10 juegos por el jugador A
2. Los totales anuales en miles de millones de dólares para las
exportaciones agrícolas de México de 1974 a 1983 son: 21.9 21.9
23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7 Determine la
media si los datos constituyen una población.
18
31
10
8
311
.
.




N
x

3. Suponga que tenemos la muestra siguiente de edades en año de
alumnos recién ingresados a la universidad 18, 18, 18, 18, 19, 19,
19, 20, 20, 21 calcule la media.
19
10
190




n
x
x
Se puede obtener el mismo resultado utilizando tablas de
frecuencia
X f xf
18 4 72
19 3 57
20 2 40
21 1 21
Total 10 190
19
10
190





f
fx
x
Desventajas de la media

La media se ve afectada por los valores extremos del final de una
distribución. Como depende del valor de cada medida, los valores
extremos pueden llevarla a representar defectuosamente los datos.
4. Suponga que un corredor de maratón ha corrido en seis de los
maratones más grandes del país quedando en las posiciones
siguientes 3, 5, 4, 6, 2, 85 (el orden es el de los maratones)
calculen la media.
5
17
6
105
.




n
x
x
Mediana
La mediana es el puntaje medio ordenado. Por lo que tenemos que
ordenar en primer lugar los datos de menor a mayor. Si n es impar, la
mediana es la medida en el lugar
2
1

n
. Si n es par, la mediana es el
promedio de las medidas en los lugares 1
2
2

n
n
,
5. Suponga que en los últimos 7 juegos los vaqueros de Dallas
anotaron los números siguientes de puntos: 6, 10, 3, 21, 0, 35,
14, calcula la mediana
7

n 4
2
1
7


 0, 3, 6, 10, 14, 21, 35 Así la
mediana es 10
6. Si aumentamos 42 a los datos anteriores calculen la nueva
mediana.
8

n 4
2
8
2



n
5
1
4
1
2




n
0, 3, 6, 10, 14, 21, 35, 42
Así el promedio entre los lugares 4 y 5 es: 12
2
14
10


Moda

La moda si se da es la medida más frecuente, La moda no se ve
afectada por medidas extremas.
7. Con las medidas 1, 2, 2, 2, 3, 8 la moda es 2
8. Con las medidas 1, 2, 2, 2, 3, 7, 8 la moda es 2
9. Suponga que los tipos de sangre para un grupo de 12 estudiantes
son: A, A, B, A, AB, O, O, B, O, A, B, AB la moda es A
Para estos datos no tiene sentido usar la media o la mediana para
localizar una observación central, la moda es la única medida de
tendencia central que tiene sentido aquí.
Rango Medio
El rango medio es el promedio de las medidas mayor y menor.
2
n
M
Rm


10. Los siguientes son los números de torceduras necesarias para
romper ocho barras de hierro forjadas de una aleación: 32, 38, 45,
44, 27, 36, 40 y 38 determine el rango medio.
36
2
27
45



Rm
Medidas de colocación
Punto de Posición.
Un punto de posición para una distribución, es aquel valor para el cual
una porción especifica de la distribución queda “en o debajo de el”, la
mediana, los porcentiles, cuartiles y deciles son ejemplos.
En el caso de la mediana 50% de la distribución o de los datos son
menores o igual que la mediana y otro 50% es mayor o igual que la
mediana.
Porcentiles

El n-ésimo porcentil, denotado con n
P es el valor para el cual al menos
%
n de la distribución caen en o debajo de el y al menos  %
n

100 caen
en o por arriba de el. Un conjunto de datos tiene 99 puntos porcentiles
que lo dividen en 100 partes, cada parte contiene 1% de las medidas y
se denotan por 99
2
1 P
P
P .........
,
,
Ejemplos:
1. Encontrar el vigésimo quinto porcentil 25
P de la muestra en el
siguiente diagrama.
3 4 4 6 9
4 3 6 7 8 9
5 0 1 1 5 7 7 8 9
6 0 0 4 4 7
7 1 5 8 8 8 9
8 4 6 8 8
8
32
25
32 
 *
.
n al menos 8 valores en o debajo de él
24
32
75 
*
. al menos 24 valores en o por encima de
Los datos 48 y 49 cumplen con las 2 condiciones anteriores por lo
que se saca su promedio.
5
48
2
49
48
25 .



P
2. Encontrar el P30 con los datos del ejercicio anterior.
(.30) (32) = 9.6 ~ 10
(.70) (32) = 22.4 ~ 23
El número 50 satisface ambas condiciones :. 50
30 
P
Cuartiles.
Son números que dividen en 4 partes a un conjunto ordenado de
medidas y se denotan por 3
2
1 Q
Q
Q ,
, donde 25
1 P
Q  , 50
2 P
Q  , 75
3 P
Q 
Deciles.
Son números que dividen en 10 partes a un conjunto ordenado de
medidas y se denotan por 9
3
2
1 D
D
D
D ,......
,
, donde 10
1 P
D  , 40
4 P
D  , 70
7 P
D 

3. Los siguientes datos representan el dinero que se les descuenta a
12 trabajadores para su fondo de ahorro: 80.6 89.9 101.4
102.6 115.0 120.1 123.4 126.3 131.8 138.6 151.6
160.5 determine
a) los cuartiles 3
2
1 Q
Q
Q ,
,
b) el segundo decil.
a. (.25) (12) = 3 102
2
6
102
4
101
1 


.
.
Q
(.75) (12) = 9
2
Q es la mediana 75
121
2
4
123
1
120
2 .
.
.



Q
(.75) (12) = 9 2
135
2
6
138
8
131
3 .
.
.



Q
(.25) (12) = 3
b. (.2) (12) = 2.4 ~ 3 4
101
2 .

D
(.8) (12) = 9.6 ~ 10
Medidas de dispersión o variabilidad
Es usual que las medidas de tendencia central solas no describan
apropiadamente una característica en estudio.
1. Supongan que David y Ricardo lanzan, cada uno 25 flechas a un
blanco. Sus puntajes son los siguientes.
Puntaje Frec. David Frec. Ricardo
10 2 0
9 3 0
8 4 5
7 7 8
6 2 5
5 1 4
4 1 3
3 1 0
2 2 0
1 2 0

Calculen la media para David y Ricardo.
David y Ricardo tienen la misma media 6.32. Pero gráficamente el
desempeño de David difiere con el de Ricardo. Es decir los puntajes
de David son más variables.
Rango.
El rango se define como la diferencia entre la medida máxima y la
medida mínima. m
M
R 

2. Las edades en años en un grupo familiar son 30, 21, 7, 4, 32, 10
El rango es:
28
4
32 


R
Desviación de un valor.
En estadística la cantidad  
x
x  se llama el valor de desviación y
representa la distancia dirigida entre la media y una medida de un
conjunto de datos.
3. Calcule la desviación de los datos siguientes. 1, 4, 6, 6, 8
5
5
25




n
x
x
Fre. David
0
2
4
6
8
10 9 8 7 6 5 4 3 2 1
Fre. David
Frec. Ricardo

x x
x 
1 1-5=-4
4 4-5=-1
6 6-5= 1
6 6-5=1
8 8-5=3
Suma 0
Suma de Cuadrados.
Podríamos pensar que el promedio de todas las desviaciones
proporciona una medida de dispersión de todas las medidas con
respecto a la media, pero esto no ocurre pues  
 
 0
x
x . Par evitar
este problema elevamos al cuadrado cada desviación antes de sumar,
al resultado se le llama suma de cuadrados.
 
 

2
x
x
SS  
 

2

x
SS
Muestra Población
4. Encontrar la SS de la muestra siguiente: 62, 80, 83, 72, 73
74

x           266
74
73
74
72
74
83
74
80
74
62
2
2
2
2
2











SS
Formula Alterna
 
n
x
x
SS
2
2 
 

 
N
x
x
SS
2
2 
 

Muestra Población
5. Calcula la SS de los datos anteriores.
x 2
x
62 3,844
80 6,400
83 6,889
72 5,184
73 5,329
Suma 370 27,646
  266
380
27
646
27
5
370
646
27
2




 ,
,
,
SS

Varianza
La varianza de una población se define como el promedio de los
cuadrados de las desviaciones de los valores y se denota por σ²
 
1
1
2
2






n
x
x
n
SS
S
 
N
x
N
SS  


2
2


Muestra Población
6. Encuentre
2
 para los datos del ejercicio anterior suponga que los
datos constituyen una población.
2
53
5
266
2
.



N
SS

7. Calcule la varianza muestral para los datos del ejercicio de David y
Ricardo.
Varianza de David
x f xf 2
x f
x2
1 2 2 1 2
2 2 4 4 8
3 1 2 9 9
4 1 4 16 16
5 1 5 25 25
6 2 12 36 72
7 7 49 49 343
8 4 32 64 256
9 3 27 81 243
10 2 20 100 200
158 1,174
   
31
7
24
25
158
1174
1
2
2
2
2
.








n
n
x
x
S
La varianza de David es 7.31

En el caso de Ricardo
x f xf 2
x f
x2
1 0 0 1 0
2 0 0 4 0
3 0 0 9 0
4 3 12 16 48
5 4 20 25 100
6 5 30 36 180
7 8 56 49 392
8 5 40 64 320
9 0 0 81 0
10 0 0 100 0
158 1,040
   
72
1
24
25
158
1040
1
2
2
2
2
.








n
n
x
x
S
La varianza de Ricardo es 1.72
Así, Ricardo sería el ganador por tener la varianza más pequeña,
lo que concuerda con la grafica.
Desviación estándar
Se define como la raíz cuadrada de la varianza
Muestral Poblacional
2
S
S  2

 
1


n
SS
S
N
SS


 
1
2




n
x
x
S
 
N
x
 

2



 
1
2
2



 
n
n
x
x
S
 
N
N
x
x
 


2
2

8. Calcula  para el ejercicio anterior.
La desviación estándar de David es 70
2
31
7 .
. 


La desviación estándar de Ricardo es 31
1
72
1 .
. 


9. Los siguientes datos representan el promedio de millas por galón
diario por 5 días para los coches A y B en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
a) Encuentre la media y el rango para cada coche
b) ¿Cuál coche parece haber logrado un rendimiento más
consistente si la consistencia se determina examinando las
varianzas, explique?
a) 20
15
35 


A
R 20
15
35 


B
R
b)
5
62
4
250
1
2
.




n
SS
SA 52
4
208
1
2




n
SS
SB
 El auto B es más consistente
x x
x   2
x
x 
x x
x   2
x
x 
20 -5 25 15 -10 100
25 0 0 27 2 4
30 5 25 25 0 0
15 -10 100 23 -2 4
35 10 100 35 10 100
250 208

Antologia estadistica descriptiva

Recomendados

Recomendados

Más contenido relacionado

Similar a Antologia estadistica descriptiva

Similar a Antologia estadistica descriptiva (20)

Último

Último (20)

Antologia estadistica descriptiva