Análisis descriptivos de datos (4).pptx

Estadística y Probabilidad
Clase presencial: Análisis descriptivo de datos

Instrucción o nota
TEMAS A DESARROLLAR:
• Análisis de información: Población y muestra. Clasificación de
variables.
• Representación de la información: Representación de la
información mediante tablas de frecuencias y de doble entrada.
• Medidas de análisis descriptivo de datos univariados Medidas de
resumen. Medidas de tendencia central. Medidas de dispersión.
Medidas de posición.
• Representación gráfica de la información: Representación de la
información mediante gráficos.
• Medidas de análisis descriptivo de datos bivariados: Medidas de
resumen. Medidas de tendencia central. Medidas de dispersión.
Medidas de posición.
Bibliografía:
• Estadística Matus, R. 2006
• Estadística Spiegel, Murray R. 2009
• Estadística descriptiva Monroy Saldívar, Salvador 2008
• Estadística y muestreo Martínez Bencardino, Ciro 2012
• Probabilidad y estadística para ciencias químicobiológicas
Marques de Cantú, María José 1991
• Probabilidad y estadística para ingeniería y ciencias Sheldon
M., Ross 2002

La Estadística es la Ciencia de la
Sistematización, recogida, ordenación y
presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con
objeto de
Deducir las leyes que rigen esos fenómenos,
Y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener
conclusiones.
Estadística descriptiva: Describe,
analiza y representa un grupo de datos
utilizando métodos numéricos y
gráficos que resumen y presentan la
información contenida en ellos.
Estadística inferencial: Apoyándose en
el cálculo de probabilidades y a partir
de datos muestrales, efectúa
estimaciones, decisiones, predicciones u
otras generalizaciones sobre un
conjunto mayor de datos.

Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de
explicar condiciones o situaciones, apoyando la toma de decisiones.
Definición de Estadística
Tipos de Estadística
Descriptiva Inferencial
Se ocupa de recolectar, organizar y
presentar los datos para su posterior
análisis.
Métodos y procedimientos para deducir
características de la población a partir de una
muestra.

Población y muestra
Población (N)
Es el conjunto sobre el que estamos interesados en obtener
conclusiones (hacer inferencia). Corresponde al universo del que se
desea medir alguna característica particular. Normalmente es
demasiado grande para poder abarcarla.
Ejemplo: Deseamos medir el rendimiento de los alumnos de INACAP de la
carrera de Informática, por lo que la población son todos los estudiantes de
dicha carrera.

Población y muestra
Muestra (n)
Es un subconjunto suyo al que tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones). Corresponde a un subconjunto
de elementos de la población
 Debería ser “representativo”
 Esta formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).
Ejemplo: Tomando el ejemplo de población, una muestra de ellos son los
cursos.

Conceptos Básicos
Variable:
Corresponde a una característica
observable que varía entre los
diferentes individuos de una
población. La información que
disponemos de cada individuo es
resumida en variables.
Dato:
Corresponde a una característica o
atributo en particular. Son medidas
recopiladas en forma grupal o no
agrupadas.
Observación:
Son distintas
características,
propiedades o atributos
observadas en un mismo
sujeto u objeto.
Nº de
ficha
Sexo Edad Hipert Fuma Diabetes
001 1 72 0 1 1
002 0 67 0 0 0
003 0 46 0 0 0
Variables Dato

Variable
Cuantitativa Cualitativa
Ejemplo:
Se desea realizar un estudio con los
estudiantes que ingresan a primer año de
construcción en INACAP. Para ello se
consideraron las variables: tipo de colegio
de procedencia, nivel socioeconómico,
ingreso familiar (en miles de $) y el número
de integrantes de su grupo familiar.
Ingreso Familiar (m$)
N° de integrantes
Nivel socioeconómico
(Bajo-Medio-Alto)
Colegio de procedencia
(Municipal-Particular-
Subvencionado)
Clasificación de las Variables

7
Cuantitativa
Discreta
Continua
Variable: Estatura en metros.
Ejemplo N°1
1 1,4 1,6 1,8
1,7
Variable: Cantidad de hijos por familia.
0 8
4 6
7, 5
ERROR!!
Ejemplo N°2
Cuantitativa Discreta
Cuantitativa Continua
Variable
Cualitativa

Variable
Cualitativa
Cuantitativa
Discreta
Continua
Nominal
Ordinal
Existe relación
de
orden en sus
categorías.
No existe relación
de orden en sus
categorías.
Ejemplo:
Población
Profesores de INACAP
(Alto – Medio – Bajo)
Cualitativa Ordinal
a) Variable: Nivel socioeconómico.
b) Variable: Género.
(Masculino – Femenino)
Cualitativa Nominal
c) Variable: Tipo de contrato.
(Plazo fijo – Indefinido)
Cualitativa Nominal

Caso 1:
En una clínica privada ubicada en la comuna de Providencia, se desea
estudiar el sueldo mensual (en miles de $) de sus trabajadores.
Población
Variable
Clasificación
En los siguientes casos identifique la población, la variable y clasifíquela:
Caso 2:
En la fábrica Polystel se desea medir el tiempo que cada trabajador demora
en confeccionar un pantalón.
Población
Variable
Clasificación
Trabajadores de la clínica privada.
Sueldo mensual (en miles de $).
Cuantitativa continua.
Tiempo en la confección de un pantalón.
Trabajadores de una fábrica textil que confeccionan pantalones.
Ejercicio

Caso 3:
INACAP desea analizar el número de estudiantes de la carrera de
Contabilidad que aprobaron la asignatura de Matemática Financiera.
Población
Variable
Clasificación
Caso 4:
En la Municipalidad de Providencia se estudia las marcas de automóviles
inscritos en dicha Municipalidad.
Población
Variable
Clasificación
Alumnos de la carrera de Contabilidad.
Número de alumnos que aprobaron Matemática Financiera.
Cuantitativa discreta.
Autos inscritos en la Municipalidad de Providencia.
Marca de un automóvil.
Cualitativa nominal.

Caso 5: En INACAP se desea estudiar las carreras que los alumnos siguen.
Población
Variable
Clasificación
Caso 6:
En una cooperativa se desea estudiar el nivel de educación que tienen
sus socios.
Población
Variable
Clasificación
Alumnos de INACAP.
Carrera que estudia un alumno.
Cualitativa nominal.
Socios de la cooperativa.
Nivel educacional.
Cualitativa ordinal.

Organización y presentación de datos
Tablas de Frecuencias
y
Gráficos Estadísticos

Presentación ordenada de datos
Género Frecuencia
Hombre 4
Mujer 6
0
1
2
3
4
5
6
7
Hombre Mujer
Las tablas de frecuencias y las representaciones gráficas son dos
maneras equivalentes de presentar la información. Las dos exponen
ordenadamente la información recogida en una muestra.

Datos desordenados y ordenados en tablas
 Variable: Género
 Modalidades:
 H = Hombre
 M = Mujer
 Muestra:
M H H M M H M M M H
 equivale a
HHHH MMMMMM
Variable
Género
Frecuencia
Absoluta
Frecuencia Relativa
(Porcentaje)
Hombre 4 4/10 = 0,4 = 40%
Mujer 6 6/10 = 0,6 = 60%
n=10
tamaño muestral

Tablas de Frecuencia
Sexo del encuestado
636 41,9 41,9
881 58,1 58,1
1517 100,0 100,0
Hombre
Mujer
Total
Válidos
Frecuencia Porcentaje
Porcentaje
válido
Número de hijos
419 27,6 27,8 27,8
255 16,8 16,9 44,7
375 24,7 24,9 69,5
215 14,2 14,2 83,8
127 8,4 8,4 92,2
54 3,6 3,6 95,8
24 1,6 1,6 97,3
23 1,5 1,5 98,9
17 1,1 1,1 100,0
1509 99,5 100,0
8 ,5
1517 100,0
0
1
2
3
4
5
6
7
Ocho o más
Total
Válidos
No contesta
Perdidos
Total
Porcentaje
válido
Porcentaje
acumulado
Frecuencias Absolutas: Contabilizan el número de individuos
de cada modalidad
Frecuencias Relativas (porcentajes): Contabilizan el número de
individuos de cada modalidad, pero dividido por el total
Frecuencias Acumuladas: Sólo tienen sentido para variables
ordinales y numéricas
Exponen la información recogida en la muestra, de forma resumida sin que se pierda nada de información.
¿Qué porcentaje de individuos tiene a lo más
de 3 hijos?
Solución: 83,8%
¿Entre 4 y 6 hijos?
Solución:
8,4% + 3,6% + 1,6% = 13,6%.
Nivel de felicidad
467 30,8 31,1 31,1
872 57,5 58,0 89,0
165 10,9 11,0 100,0
1504 99,1 100,0
13 ,9
1517 100,0
Muy feliz
Bastante feliz
No demasiado feliz
Total
Válidos
No contesta
Perdidos
Total
Porcentaje
válido
Porcentaje
acumulado

Ejemplo
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
Porcent.
(válido)
Porcent.
acum.
• ¿Cuántos individuos tienen menos de 2 hijos?
419 + 255
674 individuos
• ¿Qué porcentaje de individuos tiene 6 hijos o menos?
97,3%
• ¿Qué cantidad de hijos es tal que al menos el 50% de la
población tiene una cantidad inferior o igual?
2 hijos

Distribución de Frecuencias
Intervalo de clase
Marca de clase
8 - 12 10
12 - 16 14
Se indica por Li al límite
inferior del intervalo y
por Ls al límite superior.
Notación Definición
Marca de Clase
Es el punto medio de cada intervalo (clase) y representa el
valor de cada intervalo.
Amplitud
Es la diferencia entre el límite superior e inferior del
intervalo
Recorrido o rango
Corresponde a la diferencia entre el mayor y el menor
valor de los datos en estudio.
Frecuencia absoluta
Corresponde al número de observaciones que pertenecen
al intervalo de clase.
Frecuencia Relativa
Es la razón entre la frecuencia absoluta en cada intervalo y
el total de la muestra.
Frecuencia Absoluta
Acumulada
Corresponde a la suma de las frecuencias absolutas
anteriores, más la frecuencia en cuestión.
Frecuencia Relativa
Acumulada
Corresponde a la suma de las frecuencias relativas
anteriores, más la frecuencia en cuestión.
La distribución de frecuencias es una tabla resumen de los datos originales, donde se fijan intervalos de clase.
Para la construcción de la distribución de frecuencias, se deben conocer los siguientes conceptos:
A
hi
i
f
i
F
R
i
H
i
X`

Importante tener en cuenta
 Definir el propósito de la tabla.
 Escribir un titulo que indique QUÉ se presenta en la tabla,
CÓMO, CUÁNDO y DÓNDE.
 Asignar escalas de clasificación en filas y columnas.
 Las tablas, habitualmente deben ser enumeradas cuando
hay mas de una en el texto.
Tabla 1. Motivo de la consulta médica,
durante la primera semana de 2011 en la Clínica X
Motivo Consulta Número de
pacientes
Bronquitis 29
Otitis 23
Heridas 17
Fracturas 12
Vacunas 9
TOTAL 90
Qué
Cómo Dónde
Cuándo

Para hacer más clara y evidente la información que nos dan las tablas se utilizan los
gráficos. Existen múltiples tipos de gráficos, siendo los más frecuentemente usados: Gráfico
de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la
ojiva y el pictograma.
Representaciones Gráficas
La información contenida en las tablas de
frecuencias resulta más accesible y fácil de
interpretar si se representan por medio de
gráficos estadísticos.

Gráfico circular o de torta
– Se utiliza para representar la frecuencia
relativa (hi).
– Se aplica para cualquier tipo de variable,
pero de preferencia se aplica a variables
cualitativas.
Nivel de Educación fi hi
Básico 16 8%
Medio 50 25%
Universitario 112 56%
Postgrado 22 11%
Básico
8%
Medio
25%
Universitario
56%
Postgrado
11%
Nivel de Educación de los Trabajadores de una
Empresa

Histograma
Duración de una
llamada en minutos
fi hi Fi Hi
6 - 9 4 1,00% 4 1,00%
9 - 12 17 4,25% 21 5,25%
12 - 15 41 10,25% 62 15,50%
15 - 18 98 24,50% 160 40,00%
18 - 21 84 21,00% 244 61,00%
21 - 24 76 19,00% 320 80,00%
24 - 27 56 14,00% 376 94,00%
27 - 30 18 4,50% 394 98,50%
30 - 33 5 1,25% 399 99,75%
33 - 36 1 0,25% 400 100,00%
- Se utiliza para representar la distribución de frecuencias absolutas
o relativas en una variable cuantitativa continua.
- Esta formado por rectángulos unidos a otros, cuyos vértices de la
base coinciden con los limites de los intervalos.
4
17
41
98
84
76
56
18
5
1
0
20
40
60
80
100
120
6 - 9 9 - 12 12 - 15 15 - 18 18 - 21 21 - 24 24 - 27 27 - 30 30 - 33 33 - 36
N°
de
llamadas
Tiempo en minutos
Distribución del tiempo de las
llamadas al extranjero

Polígono de Frecuencias
- Se utiliza para representar la distribución de frecuencias
absolutas o relativas de una variable cuantitativa continua. Es
útil cuando se quiere comparar dos distribuciones en un mismo
gráfico.
Duración de una
llamada en minutos
fi hi Fi Hi
6 - 9 4 1,00% 4 1,00%
9 - 12 17 4,25% 21 5,25%
12 - 15 41 10,25% 62 15,50%
15 - 18 98 24,50% 160 40,00%
18 - 21 84 21,00% 244 61,00%
21 - 24 76 19,00% 320 80,00%
24 - 27 56 14,00% 376 94,00%
27 - 30 18 4,50% 394 98,50%
30 - 33 5 1,25% 399 99,75%
33 - 36 1 0,25% 400 100,00%
4
17
41
98
84
76
56
18
5 1
0
20
40
60
80
100
120
0 3 6 9 12 15 18 21 24 27 30 33 36 39
N°
de
llamadas
Tiempo en minutos
Distribución del tiempo de duración de las
llamadas

¿Histograma / gráfico de barras?
15
10
5
3
1
2
0
2
4
6
8
10
12
14
16
18
Perro Gato Pájaro Pez Reptil Roedor
N°
de
Hogares
Tipo de mascota
¿Qué clase de mascota posee en su hogar?
Tipo mascota N° de
Hogares
Perro 15
Gato 10
Pájaro 5
Pez 3
Reptil 1
Roedor 2

Gráfico de barras múltiples
– Se utiliza para representar la asociación de dos o más variables cualitativas o cuantitativas discretas.
– Sirve para mostrar dos o más conjuntos de datos al mismo tiempo y así facilitar la comparación entre ellos.
Ejemplo: Se realizó una encuesta a 120 profesores de un colegio, en la que se les preguntó el estado civil y el ciclo de
enseñanza a la cual pertenecían (enseñanza básica o media). Los resultados se presentan en la siguiente tabla adjunta.
Estado Civil
Profesores enseñanza
básica
media
Casado 24 22
Soltero 16 17
Viudo 5 8
Separado 13 15
Total 58 62
Se pide:
a) Construya un gráfico para presentar
visualmente los resultados obtenidos.
b) Interprete el gráfico, indicando al menos tres
aspectos.

a)
Respuesta:
Casado Soltero Viudo Separado
básica
24 16 5 13
media
22 17 8 15
0
5
10
15
20
25
30
N°
de
profesores
Ciclo según Estado Civil de los profesores
del colegio
b) Se puede señalar que el estado civil más frecuente (46) entre los profesores del colegio es casado, en cambio la minoría
de ellos (13) es viudo. En la enseñanza básica y media hay más profesores solteros que separados. Más de la mitad de
los profesores (79) son casados o solteros.

Gráfico de línea
– Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente es el tiempo.
– Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la variable.
Ejemplo: El Liceo Politécnico BLANCA FLOR DEL CAMPO desea estudiar la evolución de la matrícula durante los últimos
años, en términos de los alumnos matriculados por género. Los resultados están detallados en la tabla adjunta.
Se pide:
a) Construya un gráfico para observar la variación de la matrícula por año.
b) Interprete el gráfico, indicando al menos tres aspectos.
Año Masculino Femenino
2005 322 319
2006 321 319
2007 321 320
2008 320 319
2009 318 321
2010 316 320

a) Respuesta:
b) Los estudiantes varones muestran una tendencia descendente en la matricula anual, en cambio en las mujeres no se
observa la tendencia en la matricula anual. A partir del año 2009 y 2010 se matriculan más mujeres que varones.
2005 2006 2007 2008 2009 2010
Masculino 322 321 321 320 318 316
Femenino 319 319 320 319 321 320
313
314
315
316
317
318
319
320
321
322
323
N°
de
alumnos
Matricula anual por género

Gráfico de dispersión
– Un diagrama de dispersión es una representación gráfica de un sistema de ejes coordenados X e Y. Cada eje representa una
variable.
El conjunto de todos los puntos se denomina nube de puntos.
– El propósito del diagrama de dispersión es mostrar, de manera intuitiva, si existe o no relación entre las variables.
Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos, de un
grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla.
Altura en cm. Peso en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
0
10
20
30
40
50
60
70
80
90
150 155 160 165 170 175 180 185
Peso
(kg)
Altura (cm)
Relación altura y peso de los
individuos

1* | 69
2* | 23677
3* | 1122235555679
4* | 2455568
5* | 178
Ahora es fácil observar, por ejemplo que:
1) La persona con menor edad tiene 16 años
2) La persona de mayor edad tiene 58 años
3) Existen tres personas con 45 años, etc.
Consiste en mantener la decena del dato y clasificar la unidad numérica. Las unidades, por cada decena, son puestas en
orden ascendente.
Gráfico de Tallos y hojas

Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja, que representa los datos entre el
percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote inferior indica los valores
contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote superior representa los datos contenidos
entre el percentil 75 y el valor máximo de la serie de datos.
20
40
60
80
100
X1 X2
X3 X4
X5 X6
Y
Gráfico de Cajas y bigotes o Box Plot

Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con agua potable
por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m3).
Ejercicio
5
16
50
74
79
56
13
6
1
0
10
20
30
40
50
60
70
80
90
7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3
Se pide:
1.- Identificar población y variable (clasificarla).
2.- Completar Histograma (títulos).
3.- Interpretar Histograma.

5
16
50
74
79
56
13
6
1
0
10
20
30
40
50
60
70
80
90
7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3
Cantidad
de
Hogares
Rango consumo (en m3)
Distribución del consumo promedio mensual
de agua potable en Maipú
Respuesta:
1.- Identificar población y variable (clasificarla).
Población Hogares de la comuna de Maipú.
Variable
Consumo promedio mensual de agua potable
en m3.
Clasificación Cuantitativa continua.
2.- Completar Histograma (títulos).

Interpretación :
Se observa que el rango con la mayor cantidad de hogares consumen mensualmente en promedio sobre 24,8 y hasta
29,1 m3 de agua, en cambio el rango con la menor cantidad de hogares tiene un consumo mensual promedio sobre 42
y hasta 46,3 m3 de agua. Además el consumo promedio mensual de agua potable de los hogares se distribuye (varía)
desde 7,6 y hasta 46,3 m3 .
5
16
50
74
79
56
13
6
1
0
10
20
30
40
50
60
70
80
90
7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3
Cantidad
de
Hogares
Rango consumo (en m3)
Distribución del consumo promedio mensual
de agua potable en Maipú
3.- Interpretar Histograma.

33,67 54,00 53,00 134,00 178,00 39,33 61,33 186,00 35,00 62,00
55,50 155,00 47,00 71,50 72,00 60,67 119,00 152,00 110,00 58,00
134,00 61,00 53,67 135,00 54,00 83,00 86,50 156,00 59,50 164,00
55,50 64,50 93,00 146,00 64,33 163,00 131,00 41,33 35,67 66,67
188,00 60,00 58,67 155,00 68,00 89,50 39,00 66,67 199,00 44,00
92,00 170,00 135,00 192,00 61,00 82,00 66,00 61,33 55,50 176,00
40,33 187,00 42,00 91,50 53,50 57,67 33,33 173,00 188,00 58,00
60,50 116,00 53,33 66,67 135,00 45,33 142,00 178,00 90,00 151,00
97,00 55,67 80,00 56,67 105,00 161,00 189,00 53,67 75,00 65,50
89,00 42,00 174,00 52,67 123,00 45,00 58,00 84,50 44,33 51,33
37,33 199,00 33,67 112,00 171,00 120,00 98,50 54,67 59,33 65,00
103,00 59,00 64,33 142,00 128,00 73,00 55,50 61,00 35,00 144,00
38,00 76,50 142,00 61,33 76,00 91,00 193,00 91,50 92,00 118,00
116,00 146,00 61,00 129,00 56,50 117,00 51,00 61,00 71,50 160,00
70,50 34,33 65,00 163,00 90,50 66,67 169,00 41,67 40,67 133,00
64,00 79,00 61,67 125,00 34,67 122,00 167,00 103,00 84,50 53,33
69,00 63,50 111,00 51,00 35,33 61,00 67,50 65,50 40,00 66,67
84,00 42,67 188,00 35,33 57,00 64,67 169,00 67,50 34,67 63,00
97,50 165,00 99,50 55,00 143,00 82,00 177,00 66,50 34,33 88,50
64,00 186,00 149,00 205,80 125,00 90,50 145,00 50,00 64,67 34,33
Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa en un día.
TABLA DE DISTRIBUCION DE FRECUENCIAS

¿Cómo resumiría los datos anteriores?
Población
Variable
Clasificación
Ventas realizadas por la tienda en un día.
Monto de una venta, en miles de pesos.
Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la
población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones correspondientes.

¿Cómo se elabora la tabla de frecuencias?
Cantidad de datos (n) 200
N° de Intervalos 9
Valor Mínimo 33,33
Valor Máximo 205,8
Rango 172,47
Amplitud del intervalo 19,17
=CONTAR(rango matriz)
=REDONDEAR(1+3,3∙LOG10(n);0)
=MIN(rango matriz)
=MAX(rango matriz)
=MAX - MIN
=REDONDEAR.MAS(rango /N° de intervalos; 2 )
Se utilizará la misma cantidad de
decimales que tienen los datos.
Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como se
indica a continuación:

Li Ls
33,33 52,5
52,50 71,67
71,67 90,84
90,84 110,01
110,01 129,18
129,18 148,35
148,35 167,52
167,52 186,69
186,69 205,86
El último limite superior debe ser igual o
mayor al dato máximo.
La cantidad de filas que
tendrá la tabla es el número
de intervalos.
Luego se calcula el límite inferior (Li) y superior (Ls) de cada intervalo.
Cantidad de datos (n) 200
Cantidad de Intervalos 9
Valor Menor 33,33
Valor Mayor 205,8
Rango 172,47
Amplitud del intervalo 19,17

Representa el número de datos u
observaciones que pertenecen a
un intervalo.
Frecuencia Absoluta fi
Li Ls fi
33,33 52,5 34
52,5 71,67 68
71,67 90,84 20
90,84 110,01 14
110,01 129,18 14
129,18 148,35 15
148,35 167,52 13
167,52 186,69 12
186,69 205,86 10
Interpretación: Se observan 12 ventas cuyo monto está
sobre $167.520 y hasta $186.690.
[ ]
] ]
] ]
] ]
] ]
] ]
] ]
] ]
] ]

Frecuencia Relativa hi
Li Ls fi hi
33,33 52,5 34 17%
52,5 71,67 68 34%
71,67 90,84 20 10%
90,84 110,01 14 7%
110,01 129,18 14 7%
129,18 148,35 15 7,5%
148,35 167,52 13 6,5%
167,52 186,69 12 6%
186,69 205,86 10 5%
]
]
Para determinar las frecuencias relativas, se divide cada frecuencia
absoluta por el total de datos y el resultado se expresa en %.
200
Observación: Siempre la suma de la frecuencia absoluta debe ser igual a la cantidad de datos y la
suma de la frecuencia relativa debe ser igual al 100% .
100%
Interpretación: El 6,5,% de las ventas fueron por un monto
sobre $148.350 y hasta $167.520.
Representa el porcentaje de las observaciones que pertenecen a un
intervalo.

Se obtiene sumando F2 con f3
Se obtiene sumando F1 con f2
Frecuencia Absoluta Acumulada Fi
Corresponde a la suma acumulada de la frecuencia
absoluta.
Li Ls fi hi Fi
33,33 52,5 34 17% 34
52,5 71,67 68 34% 102
71,67 90,84 20 10% 122
90,84 110,01 14 7% 136
110,01 129,18 14 7% 150
129,18 148,35 15 7,5% 165
148,35 167,52 13 6,5% 178
167,52 186,69 12 6% 190
186,69 205,86 10 5% 200
Interpretación: 165 ventas fueron por
un monto de a lo más $148.350.
Se repite f1

INTERVALOS DE LA VARIABLE Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Acumulada
Límite inferior límite superior
Li Ls fi hi Fi Hi
33,33 52,5 34 17% 34 17%
52,5 71,67 68 34% 102 51%
71,67 90,84 20 10% 122 61%
90,84 110,01 14 7% 136 68%
110,01 129,18 14 7% 150 75%
129,18 148,35 15 7,5% 165 82,5%
148,35 167,52 13 6,5% 178 89%
167,52 186,69 12 6% 190 95%
186,69 205,86 10 5% 200 100%
Tabla de Frecuencia

1) Identifique población y variable (clasifíquela).
2) Complete tabla de frecuencias.
3) Interprete f2 , F3 , h3 , H5 .
Ejercicio:
Sueldo, en m$ Cantidad de empleados
360 – 400 35
400 – 440 80
440 – 480 104
480 – 520 140
520 – 560 13
560 – 600 28
La siguiente tabla corresponde a los sueldos (en miles de $) que paga en la actualidad una
empresa comercial .
Se pide:

Respuesta: Población
Variable
Clasificación
Empleados de la empresa.
Sueldo en miles de pesos.
Sueldo, en m$ fi hi Fi Hi
360 – 400 35 8,75% 35 8,75%
400 – 440 80 20% 115 28,75%
440 – 480 104 26% 219 54,75%
480 – 520 140 35% 359 89,75%
520 – 560 13 3,25% 372 93%
560 – 600 28 7% 400 100%
400 100%
f2 :
F3 :
h3 :
H5 :
1)
2)
3)
80 trabajadores tienen un sueldo superior a $400.000 y hasta $440.000.
219 trabajadores tienen un sueldo máximo de $480.000.
El 26% de los trabajadores tienen un sueldo sobre $440.000 y hasta $480.000.
El 93% de los trabajadores tienen un sueldo de a lo más $560.000.

Medidas de
Tendencia Central
Aquellos valores hacia los cuales tienden a aglomerarse los datos de una
muestra. La mayoría de ellas trata de ubicar el centro de la distribución.

Medidas de Tendencia Central
Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la
distribución de datos. Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una idea acerca
del comportamiento de la variable, por ejemplo el promedio de un conjunto de datos. Entre las medidas de tendencia
central más importantes están:
- Media aritmética.
- Moda.
- Mediana.

La Media o promedio para Datos No Agrupados
Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X1,X2,....Xn. Entonces el promedio se define como la
suma de los datos dividida por el total de la muestra y se denota por:
n
x
X
n
i
i


 1
La Media o Promedio
X
Ejemplo: Se tienen las notas de 20 alumnos de un curso. Éstas son:
6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8
3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2
20
2
,
6
8
,
5
1
,
6
7
,
5
9
,
5
8
,
4
0
,
5
7
,
3
8
,
5
8
,
3
8
,
3
2
,
4
7
,
5
0
,
6
0
,
5
5
,
4
8
,
5
2
,
6
1
,
5
8
,
6 



















X
295
,
5
20
9
,
105


X La nota promedio del curso fue de 5,3

Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca de clase por la frecuencia de cada intervalo. Se
suman los resultados de cada multiplicación y se dividen por el número total de datos.
La Media o Promedio para Datos Agrupados en intervalos
Proteínas
(g/l)
Frecuencia
Absoluta
fi
Marca de Clase
xi fi* xi
40 – 45 2 42,5 85
45 – 50 6 47,5 285
50 – 55 12 52,5 630
55 – 60 13 57,5 747,5
60 – 65 5 62,5 312,5
65 – 70 2 67,5 135
Total 40 2195
Proteínas totales del plasma en prematuros
normales de 15 días de edad
Ejemplo:
40
)
5
,
67
2
(
)
5
,
62
5
(
)
5
,
57
13
(
)
5
,
52
12
(
)
5
,
47
6
(
)
5
,
42
2
( x
x
x
x
x
x
X






n
i
x
fi
X
k
i



 1
´
El promedio de concentración de proteínas en el
plasma, en niños prematuros normales, es de
54,9 gramos.
gramos
X 9
,
54
40
195
.
2



Ventajas y Desventajas de la Media Aritmética
Ventajas
• El concepto de media aritmética es familiar para mucha gente e intuitivamente claro.
• Es un valor único que generalmente representan mejor a una distribución. Ya que en su cálculo se
consideran todos los datos.
Desventajas
• Puede verse afectada por la presencia de valores extremos o atípicos que no son representativos del
conjunto de datos. En estos casos podría resultar más representativo calcular la media sin tomar en cuenta
el valor extremo.
• Puede ser poco representativa en distribuciones que presentan mucha asimetría.

Es aquel valor que más se repite en una muestra y se denota por Mo.
La moda es el estadístico de centralización adecuado si la variable está medida
en escala nominal:
También se utiliza la moda si la variable está medida en escala ordinal o
numérica discreta:
La Moda para Datos No Agrupados
Si la variable es continua, formalmente la moda
no existe, pues es muy difícil que al sacar una
muestra de números reales dos o mas de ellos
coincidan.
La Moda
3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2
5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8
Ejemplo: Considere las siguientes notas de un curso de 20 alumnos
La nota más frecuente en el curso fue 5,0
Sexo Frecuencia Porcentaje
Masculino 63 18,42%
Femenino 279 81,58%
Total 342 100%
Distribución del número de hijos en mujeres
post menopáusica
Número hijos Frecuencia Porcentaje
0 14 4,17%
1 83 24,70%
2 193 57,44%
3 46 13,69%
Total 336 100%
Distribución trabajadores por género

Moda para Datos Agrupados en intervalos
Li : Límite inferior del intervalo que contiene la frecuencia mas alta
Δ1 : Diferencia entre la frecuencia mas alta y la del intervalo anterior
Δ2 : Diferencia entre la frecuencia mas alta y la del intervalo siguiente
A : Amplitud del intervalo
Ejemplo:
Li : 24 años A : 4
Δ1 : 15-10=5 Δ2 : 15-12=3
A
Li *
2
1
1
Mo 











La moda o dato más frecuente de edad en
este grupo de datos, es de 26,5 años.
Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia
5
,
26
4
*
3
5
5
24
Mo 









EDAD fi
16 – 20 8
20 – 24 10
24 – 28 15
28 – 32 12
32 – 36 5

Ventajas y Desventajas de la Moda
Ventajas
• No se ve afectada por la presencia de valores extremos bajos o altos.
• Puede también aplicarse a datos cualitativos.
Desventajas
• Puede no existir o puede que exista más de una moda (bimodal: 2 modas; polimodal: más de 2 modas).
Esto significa que pierde utilidad y dificulta su interpretación.

Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor de la variable que deja por debajo de sí
al 50% de las observaciones. La mediana corresponde al percentil 50 o Cuartil 2, (Mediana=P50=Q2). Notemos que la mediana es tanto un
estadígrafo de posición y de centralización.
Mediana para Datos No Agrupados
La Mediana

• Si n es par:
Mediana Datos No Agrupados
55
• Si n es impar:
Ejemplo: 5 7 7 10 12 18 25
Ejemplo: 5 7 7 10 12 18 25 32
2
X
Me
1)
(n 

10
2
X
Me
4
4
1)
(7




X
X
El valor que divide la muestra en dos partes iguales, es 10
La mediana es igual al promedio de las dos posiciones centrales
Como la cantidad de datos es par, entonces la mediana corresponde al promedio de los datos centrales, por lo tanto la
mediana es 11.

Mediana para Datos agrupados en intervalos
Dividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia absoluta acumulada igual o mayor a n/2.


























 A
fi
Fi
n
Li
Me
anterior
*
)
(
2
Donde:
Li : Límite inferior del intervalo de la clase mediana
n : Número total de observaciones
Fianterior : Frecuencia acumulada hasta el intervalo anterior a que
contiene la mediana.
fi : Frecuencia absoluta de la clase mediana.
A : Amplitud de la clase mediana.
n/2 : Muestra/2. Clase mediana
EDAD fi Fi
15 – 25 40 40
25 – 35 67 107
35 – 45 143 250
45 – 55 180 430
55 – 65 270 700
65 – 75 275 975
1
,
57
10
*
270
430
5
,
487
55 











 


Me
Li : 55
n : 975
Fianterior : 430
fi : 270
A : 10
n/2 : 975/2= 487,5
Ejemplo: Distribución por edad de 975 individuos
El 50% de los individuos tiene 57,1 años o menos
El valor que divide la muestra en dos partes iguales, es 57,1

Ventajas y Desventajas de la Mediana
Ventajas
• La más importante es que no se ve afectada como la media, por datos con valores extremos. Por lo que al
existir valores extremos la mediana es más representativa que la media aritmética.
• La facilidad para entenderla conceptualmente.
Desventajas
• El ordenar los datos en forma creciente para calcular su valor, puede implicar un mayor tiempo, si se trabaja
con una gran número de datos y no se cuenta con un ordenador.

Ejercicio
Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de
personas con problemas respiratorios durante el mes de julio del 2011, considerado el mes
más crítico en cuanto a niveles de contaminación. El estudio se basó en una muestra de 14
policlínicos de Santiago. Calcule e interprete las medidas de tendencia central.
28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15

Respuestas
Interpretación:
Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios durante en mes de julio
del 2011.
Media = 23,2
Interpretación:
El número más frecuente de atenciones en los policlínicos a personas con problemas respiratorios en mes de julio del
2011 fue 15.
Moda = 15
Interpretación:
Al menos el 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2011 a personas con problemas
respiratorios.
Mediana = 20,5

Las medidas de posición no centrales permiten conocer otros valores característicos de la
distribución, que no son los valores centrales, los que nos ayudan a ubicar un dato dentro
de la distribución. Entre las medidas de posición, están:
• Cuartiles
• Quintiles
• Deciles
• Percentiles
Medidas de Posición no central

Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales,
cada una de ellas con un 25% de las observaciones.
• Cuartiles

Los quintiles son valores que
dividen a la muestra ordenada en
forma ascendente en 5 partes
iguales, cada una de ellas con un
20% de las observaciones.
• Quintiles

Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes
iguales, cada una de ellas con un 10% de las observaciones.
• Deciles

Percentiles
Si los datos se encuentren tabulados se deben seguir los siguientes pasos:
1. Calcular frecuencias acumuladas simples ( )
2. Determinar el intervalo, en el cual el primer supere a
: Límite inferior del intervalo que contiene al percentil
: Total de observaciones
: Frecuencia acumulada del intervalo anterior
: Frecuencia absoluta del intervalo que contiene al percentil
: Amplitud del intervalo
Fi






100
*n
k
LI
Fi
A
f
F
n
k
LI
P
i
ianterior
k 














 100
*
n
Fianterior
fi
A

Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene
rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que
NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de
indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión.
Alumno Calificaciones Promedio
DIEGO 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0
NATALIA 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0
Medidas de Dispersión
Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto de
datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir
en términos de variación.

Se define el rango o recorrido de los datos como la distancia que existe entre el dato de
mayor valor (máximo) y el de menor valor (mínimo).
Para el ejemplo anterior:
Rango(Calificaciones de Natalia)=7,0 -1,0 = 6
Rango(Calificaciones de Diego)= 4,0 – 4,0 = 0
Se puede observar que mientras mas heterogénea es la colección de datos mayor es el valor
del rango. Sin embargo el Rango puede exagerar el grado de heterogeneidad del los datos,
para prevenir este hecho se prefiere usar como medida de variabilidad otro tipo de Rango,
denominado Rango intercuartílico.
Rango o Recorrido
Xmín
Xmáx
Rango 


Rango Intercuartílico
Dado que el rango puede exagerar el grado de heterogeneidad del los
datos, para prevenir este hecho se prefiere usar como medida de
variabilidad el rango intercuartílico, que corresponde a la distancia
entre primer y tercer cuartil. Esta medida, no es tan sensible a valores
extremos.
En esta salida se han destacado en
negritas los tres cuartiles,
C1=31 años
C2=35 años
C3=45 años
Ejemplo: A continuación se presentan los estadígrafos de resumen de la variable edad, medida en un grupo de 30
pacientes
RIC= C3-C1
RIC= 45-31=14

Varianza
Varianza: Datos no agrupados
Ejemplo: Consideremos las calificaciones de 2 alumnos: Natalia y Diego
Nota
Desvío de las
notas, respecto
del promedio
2 2 - 4= -2
3 3 - 4= -1
7 7 - 4= 3
4 4 - 4= 0
6 6 - 4= 2
5 5 - 4= 1
1 1 - 4= -3
Total 28
67
,
4
6
28
6
9
1
4
0
9
1
4
1
7
3
1
2
0
)
3
(
)
1
(
)
2
(
2
2
2
2
2
2
2
2
2




















S
S
Mide la dispersión de los datos con respecto a su media, su calculo es la media de las diferencias cuadráticas de cada
observación con su media. Es representada como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la
variabilidad de los datos alrededor de la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca
dispersión.
S2
=
X1- X
( )
2
+ X2- X
( )
2
+...+ Xn- X
( )
2
n-1

Desviación estándar: Datos Agrupados
 
1
*
´
2



n
fi
X
i
X
S
Proteínas totales del plasma en prematuros normales de 15 días de edad
La mayoría de las concentraciones de proteínas en el plasma, están entre
54,9 -5,99 y 54,9 + 5,99, es decir entre 48,41 y 60,39.
            88
,
35
1
40
2
*
4
,
54
5
,
67
5
*
4
,
54
5
,
62
13
*
4
,
54
5
,
57
12
*
4
,
54
5
,
52
6
*
4
,
54
5
,
47
2
*
4
,
54
5
,
42
:
2
2
2
2
2
2
2














S
Varianza
S= 35,88 = 5,99
S = S2
ó
Proteínas (g/l) Frecuencia
Absoluta (fi)
Marca de
Clase (X´i)
fi * X´i
40 – 45 2 42,5 85 -12,4 153,76 307,52
45 – 50 6 47,5 285 -7,4 54,76 328,56
50 – 55 12 52,5 630 -2,4 5,76 69,12
55 – 60 13 57,5 747,5 2,6 6,76 87,88
60 – 65 5 62,5 312,5 7,6 57,76 288,8
65 – 70 2 67,5 135 12,6 158,76 317,52
Total 40 2175 437,56 1399,4
X
i
´ 
X  2
X
i
´ 
X   fi
.
X
i
´
2

X

Coeficiente de Variación
Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel de
dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los datos. Se
calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100.
%
0
10
X
S
CV 

Para el ejemplo de las calificaciones de
Natalia, encontramos : %
55
%
100
4
2
,
2



CV
Es decir un 55% de variabilidad o dispersión, que es alto:.

0 1
Datos más dispersos
(más heterogéneos)
Homogéneo: Uniforme, semejante, similar, idéntico.
Heterogéneo: Diverso, variado, mezclado, distinto.
Observación: Expresado en porcentaje el coeficiente de variación toma valores desde 0% al
100%.
Datos menos dispersos
(más homogéneos)
Coeficiente de Variación

El Box Plot es un gráfico muy útil que reúne los
conceptos de centralización, simetría y variabilidad,
el cual permite comparar el comportamiento de la
variable.
Box Plot o gráfico de cajas y bigotes
Valores
Outlier
o
atípicos

Box Plot o gráfico de cajas y bigotes

Interpretación
• El rango de edad de este grupo de pacientes, está entre 16 y 58 años.
•La edad promedio es de 36,13 años.
•El 25% de las personas tiene 31 años o menos.
•El 50% de las personas tiene 35 años o menos.
•La mayoría de las edades se concentra entre 36,13±10,5, es decir, entre 25,6 y 46,6 años.
•La varianza es de 109,4
•Los datos presentan una asimetría positiva.
•Los datos tienen una variabilidad de 28,9%, es decir una variabilidad moderada.

Estadística y probabilidad
Clase presencial: Análisis descriptivo de datos

Análisis descriptivos de datos (4).pptx

Recomendados

Recomendados

Más contenido relacionado

Similar a Análisis descriptivos de datos (4).pptx

Similar a Análisis descriptivos de datos (4).pptx (20)

Último

Último (20)

Análisis descriptivos de datos (4).pptx

Notas del editor