SlideShare una empresa de Scribd logo
1 de 75
Estadística y Probabilidad
Clase presencial: Análisis descriptivo de datos
Instrucción o nota
TEMAS A DESARROLLAR:
• Análisis de información: Población y muestra. Clasificación de
variables.
• Representación de la información: Representación de la
información mediante tablas de frecuencias y de doble entrada.
• Medidas de análisis descriptivo de datos univariados Medidas de
resumen. Medidas de tendencia central. Medidas de dispersión.
Medidas de posición.
• Representación gráfica de la información: Representación de la
información mediante gráficos.
• Medidas de análisis descriptivo de datos bivariados: Medidas de
resumen. Medidas de tendencia central. Medidas de dispersión.
Medidas de posición.
Bibliografía:
• Estadística Matus, R. 2006
• Estadística Spiegel, Murray R. 2009
• Estadística descriptiva Monroy Saldívar, Salvador 2008
• Estadística y muestreo Martínez Bencardino, Ciro 2012
• Probabilidad y estadística para ciencias químicobiológicas
Marques de Cantú, María José 1991
• Probabilidad y estadística para ingeniería y ciencias Sheldon
M., Ross 2002
La Estadística es la Ciencia de la
Sistematización, recogida, ordenación y
presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con
objeto de
Deducir las leyes que rigen esos fenómenos,
Y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener
conclusiones.
Estadística descriptiva: Describe,
analiza y representa un grupo de datos
utilizando métodos numéricos y
gráficos que resumen y presentan la
información contenida en ellos.
Estadística inferencial: Apoyándose en
el cálculo de probabilidades y a partir
de datos muestrales, efectúa
estimaciones, decisiones, predicciones u
otras generalizaciones sobre un
conjunto mayor de datos.
Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de
explicar condiciones o situaciones, apoyando la toma de decisiones.
Definición de Estadística
Tipos de Estadística
Descriptiva Inferencial
Se ocupa de recolectar, organizar y
presentar los datos para su posterior
análisis.
Métodos y procedimientos para deducir
características de la población a partir de una
muestra.
Población y muestra
Población (N)
Es el conjunto sobre el que estamos interesados en obtener
conclusiones (hacer inferencia). Corresponde al universo del que se
desea medir alguna característica particular. Normalmente es
demasiado grande para poder abarcarla.
Ejemplo: Deseamos medir el rendimiento de los alumnos de INACAP de la
carrera de Informática, por lo que la población son todos los estudiantes de
dicha carrera.
Población y muestra
Muestra (n)
Es un subconjunto suyo al que tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones). Corresponde a un subconjunto
de elementos de la población
 Debería ser “representativo”
 Esta formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).
Ejemplo: Tomando el ejemplo de población, una muestra de ellos son los
cursos.
Conceptos Básicos
Variable:
Corresponde a una característica
observable que varía entre los
diferentes individuos de una
población. La información que
disponemos de cada individuo es
resumida en variables.
Dato:
Corresponde a una característica o
atributo en particular. Son medidas
recopiladas en forma grupal o no
agrupadas.
Observación:
Son distintas
características,
propiedades o atributos
observadas en un mismo
sujeto u objeto.
Nº de
ficha
Sexo Edad Hipert Fuma Diabetes
001 1 72 0 1 1
002 0 67 0 0 0
003 0 46 0 0 0
Variables Dato
Variable
Cuantitativa Cualitativa
Ejemplo:
Se desea realizar un estudio con los
estudiantes que ingresan a primer año de
construcción en INACAP. Para ello se
consideraron las variables: tipo de colegio
de procedencia, nivel socioeconómico,
ingreso familiar (en miles de $) y el número
de integrantes de su grupo familiar.
Ingreso Familiar (m$)
N° de integrantes
Nivel socioeconómico
(Bajo-Medio-Alto)
Colegio de procedencia
(Municipal-Particular-
Subvencionado)
Clasificación de las Variables
7
Cuantitativa
Discreta
Continua
Variable: Estatura en metros.
Ejemplo N°1
1 1,4 1,6 1,8
1,7
Variable: Cantidad de hijos por familia.
0 8
4 6
7, 5
ERROR!!
Ejemplo N°2
Cuantitativa Discreta
Cuantitativa Continua
Variable
Cualitativa
Clasificación de las Variables
Clasificación de las Variables
Variable
Cualitativa
Cuantitativa
Discreta
Continua
Nominal
Ordinal
Existe relación
de
orden en sus
categorías.
No existe relación
de orden en sus
categorías.
Ejemplo:
Población
Profesores de INACAP
(Alto – Medio – Bajo)
Cualitativa Ordinal
a) Variable: Nivel socioeconómico.
b) Variable: Género.
(Masculino – Femenino)
Cualitativa Nominal
c) Variable: Tipo de contrato.
(Plazo fijo – Indefinido)
Cualitativa Nominal
Caso 1:
En una clínica privada ubicada en la comuna de Providencia, se desea
estudiar el sueldo mensual (en miles de $) de sus trabajadores.
Población
Variable
Clasificación
En los siguientes casos identifique la población, la variable y clasifíquela:
Caso 2:
En la fábrica Polystel se desea medir el tiempo que cada trabajador demora
en confeccionar un pantalón.
Población
Variable
Clasificación
Trabajadores de la clínica privada.
Sueldo mensual (en miles de $).
Cuantitativa continua.
Tiempo en la confección de un pantalón.
Cuantitativa continua.
Trabajadores de una fábrica textil que confeccionan pantalones.
Ejercicio
Caso 3:
INACAP desea analizar el número de estudiantes de la carrera de
Contabilidad que aprobaron la asignatura de Matemática Financiera.
Población
Variable
Clasificación
Caso 4:
En la Municipalidad de Providencia se estudia las marcas de automóviles
inscritos en dicha Municipalidad.
Población
Variable
Clasificación
Alumnos de la carrera de Contabilidad.
Número de alumnos que aprobaron Matemática Financiera.
Cuantitativa discreta.
Autos inscritos en la Municipalidad de Providencia.
Marca de un automóvil.
Cualitativa nominal.
Caso 5: En INACAP se desea estudiar las carreras que los alumnos siguen.
Población
Variable
Clasificación
Caso 6:
En una cooperativa se desea estudiar el nivel de educación que tienen
sus socios.
Población
Variable
Clasificación
Alumnos de INACAP.
Carrera que estudia un alumno.
Cualitativa nominal.
Socios de la cooperativa.
Nivel educacional.
Cualitativa ordinal.
Organización y presentación de datos
Tablas de Frecuencias
y
Gráficos Estadísticos
Presentación ordenada de datos
Género Frecuencia
Hombre 4
Mujer 6
0
1
2
3
4
5
6
7
Hombre Mujer
Las tablas de frecuencias y las representaciones gráficas son dos
maneras equivalentes de presentar la información. Las dos exponen
ordenadamente la información recogida en una muestra.
Datos desordenados y ordenados en tablas
 Variable: Género
 Modalidades:
 H = Hombre
 M = Mujer
 Muestra:
M H H M M H M M M H
 equivale a
HHHH MMMMMM
Variable
Género
Frecuencia
Absoluta
Frecuencia Relativa
(Porcentaje)
Hombre 4 4/10 = 0,4 = 40%
Mujer 6 6/10 = 0,6 = 60%
n=10
tamaño muestral
Tablas de Frecuencia
Sexo del encuestado
636 41,9 41,9
881 58,1 58,1
1517 100,0 100,0
Hombre
Mujer
Total
Válidos
Frecuencia Porcentaje
Porcentaje
válido
Número de hijos
419 27,6 27,8 27,8
255 16,8 16,9 44,7
375 24,7 24,9 69,5
215 14,2 14,2 83,8
127 8,4 8,4 92,2
54 3,6 3,6 95,8
24 1,6 1,6 97,3
23 1,5 1,5 98,9
17 1,1 1,1 100,0
1509 99,5 100,0
8 ,5
1517 100,0
0
1
2
3
4
5
6
7
Ocho o más
Total
Válidos
No contesta
Perdidos
Total
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Frecuencias Absolutas: Contabilizan el número de individuos
de cada modalidad
Frecuencias Relativas (porcentajes): Contabilizan el número de
individuos de cada modalidad, pero dividido por el total
Frecuencias Acumuladas: Sólo tienen sentido para variables
ordinales y numéricas
Exponen la información recogida en la muestra, de forma resumida sin que se pierda nada de información.
¿Qué porcentaje de individuos tiene a lo más
de 3 hijos?
Solución: 83,8%
¿Entre 4 y 6 hijos?
Solución:
8,4% + 3,6% + 1,6% = 13,6%.
Nivel de felicidad
467 30,8 31,1 31,1
872 57,5 58,0 89,0
165 10,9 11,0 100,0
1504 99,1 100,0
13 ,9
1517 100,0
Muy feliz
Bastante feliz
No demasiado feliz
Total
Válidos
No contesta
Perdidos
Total
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Ejemplo
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
Porcent.
(válido)
Porcent.
acum.
• ¿Cuántos individuos tienen menos de 2 hijos?
419 + 255
674 individuos
• ¿Qué porcentaje de individuos tiene 6 hijos o menos?
97,3%
• ¿Qué cantidad de hijos es tal que al menos el 50% de la
población tiene una cantidad inferior o igual?
2 hijos
Distribución de Frecuencias
Intervalo de clase
Marca de clase
8 - 12 10
12 - 16 14
Se indica por Li al límite
inferior del intervalo y
por Ls al límite superior.
Notación Definición
Marca de Clase
Es el punto medio de cada intervalo (clase) y representa el
valor de cada intervalo.
Amplitud
Es la diferencia entre el límite superior e inferior del
intervalo
Recorrido o rango
Corresponde a la diferencia entre el mayor y el menor
valor de los datos en estudio.
Frecuencia absoluta
Corresponde al número de observaciones que pertenecen
al intervalo de clase.
Frecuencia Relativa
Es la razón entre la frecuencia absoluta en cada intervalo y
el total de la muestra.
Frecuencia Absoluta
Acumulada
Corresponde a la suma de las frecuencias absolutas
anteriores, más la frecuencia en cuestión.
Frecuencia Relativa
Acumulada
Corresponde a la suma de las frecuencias relativas
anteriores, más la frecuencia en cuestión.
La distribución de frecuencias es una tabla resumen de los datos originales, donde se fijan intervalos de clase.
Para la construcción de la distribución de frecuencias, se deben conocer los siguientes conceptos:
A
hi
i
f
i
F
R
i
H
i
X`
Importante tener en cuenta
 Definir el propósito de la tabla.
 Escribir un titulo que indique QUÉ se presenta en la tabla,
CÓMO, CUÁNDO y DÓNDE.
 Asignar escalas de clasificación en filas y columnas.
 Las tablas, habitualmente deben ser enumeradas cuando
hay mas de una en el texto.
Tabla 1. Motivo de la consulta médica,
durante la primera semana de 2011 en la Clínica X
Motivo Consulta Número de
pacientes
Bronquitis 29
Otitis 23
Heridas 17
Fracturas 12
Vacunas 9
TOTAL 90
Qué
Cómo Dónde
Cuándo
Para hacer más clara y evidente la información que nos dan las tablas se utilizan los
gráficos. Existen múltiples tipos de gráficos, siendo los más frecuentemente usados: Gráfico
de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la
ojiva y el pictograma.
Representaciones Gráficas
La información contenida en las tablas de
frecuencias resulta más accesible y fácil de
interpretar si se representan por medio de
gráficos estadísticos.
Gráfico circular o de torta
– Se utiliza para representar la frecuencia
relativa (hi).
– Se aplica para cualquier tipo de variable,
pero de preferencia se aplica a variables
cualitativas.
Nivel de Educación fi hi
Básico 16 8%
Medio 50 25%
Universitario 112 56%
Postgrado 22 11%
Básico
8%
Medio
25%
Universitario
56%
Postgrado
11%
Nivel de Educación de los Trabajadores de una
Empresa
Histograma
Duración de una
llamada en minutos
fi hi Fi Hi
6 - 9 4 1,00% 4 1,00%
9 - 12 17 4,25% 21 5,25%
12 - 15 41 10,25% 62 15,50%
15 - 18 98 24,50% 160 40,00%
18 - 21 84 21,00% 244 61,00%
21 - 24 76 19,00% 320 80,00%
24 - 27 56 14,00% 376 94,00%
27 - 30 18 4,50% 394 98,50%
30 - 33 5 1,25% 399 99,75%
33 - 36 1 0,25% 400 100,00%
- Se utiliza para representar la distribución de frecuencias absolutas
o relativas en una variable cuantitativa continua.
- Esta formado por rectángulos unidos a otros, cuyos vértices de la
base coinciden con los limites de los intervalos.
4
17
41
98
84
76
56
18
5
1
0
20
40
60
80
100
120
6 - 9 9 - 12 12 - 15 15 - 18 18 - 21 21 - 24 24 - 27 27 - 30 30 - 33 33 - 36
N°
de
llamadas
Tiempo en minutos
Distribución del tiempo de las
llamadas al extranjero
Polígono de Frecuencias
- Se utiliza para representar la distribución de frecuencias
absolutas o relativas de una variable cuantitativa continua. Es
útil cuando se quiere comparar dos distribuciones en un mismo
gráfico.
Duración de una
llamada en minutos
fi hi Fi Hi
6 - 9 4 1,00% 4 1,00%
9 - 12 17 4,25% 21 5,25%
12 - 15 41 10,25% 62 15,50%
15 - 18 98 24,50% 160 40,00%
18 - 21 84 21,00% 244 61,00%
21 - 24 76 19,00% 320 80,00%
24 - 27 56 14,00% 376 94,00%
27 - 30 18 4,50% 394 98,50%
30 - 33 5 1,25% 399 99,75%
33 - 36 1 0,25% 400 100,00%
4
17
41
98
84
76
56
18
5 1
0
20
40
60
80
100
120
0 3 6 9 12 15 18 21 24 27 30 33 36 39
N°
de
llamadas
Tiempo en minutos
Distribución del tiempo de duración de las
llamadas
¿Histograma / gráfico de barras?
15
10
5
3
1
2
0
2
4
6
8
10
12
14
16
18
Perro Gato Pájaro Pez Reptil Roedor
N°
de
Hogares
Tipo de mascota
¿Qué clase de mascota posee en su hogar?
Tipo mascota N° de
Hogares
Perro 15
Gato 10
Pájaro 5
Pez 3
Reptil 1
Roedor 2
Gráfico de barras múltiples
– Se utiliza para representar la asociación de dos o más variables cualitativas o cuantitativas discretas.
– Sirve para mostrar dos o más conjuntos de datos al mismo tiempo y así facilitar la comparación entre ellos.
Ejemplo: Se realizó una encuesta a 120 profesores de un colegio, en la que se les preguntó el estado civil y el ciclo de
enseñanza a la cual pertenecían (enseñanza básica o media). Los resultados se presentan en la siguiente tabla adjunta.
Estado Civil
Profesores enseñanza
básica
Profesores enseñanza
media
Casado 24 22
Soltero 16 17
Viudo 5 8
Separado 13 15
Total 58 62
Se pide:
a) Construya un gráfico para presentar
visualmente los resultados obtenidos.
b) Interprete el gráfico, indicando al menos tres
aspectos.
a)
Respuesta:
Casado Soltero Viudo Separado
Profesores enseñanza
básica
24 16 5 13
Profesores enseñanza
media
22 17 8 15
0
5
10
15
20
25
30
N°
de
profesores
Ciclo según Estado Civil de los profesores
del colegio
b) Se puede señalar que el estado civil más frecuente (46) entre los profesores del colegio es casado, en cambio la minoría
de ellos (13) es viudo. En la enseñanza básica y media hay más profesores solteros que separados. Más de la mitad de
los profesores (79) son casados o solteros.
Gráfico de línea
– Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente es el tiempo.
– Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la variable.
Ejemplo: El Liceo Politécnico BLANCA FLOR DEL CAMPO desea estudiar la evolución de la matrícula durante los últimos
años, en términos de los alumnos matriculados por género. Los resultados están detallados en la tabla adjunta.
Se pide:
a) Construya un gráfico para observar la variación de la matrícula por año.
b) Interprete el gráfico, indicando al menos tres aspectos.
Año Masculino Femenino
2005 322 319
2006 321 319
2007 321 320
2008 320 319
2009 318 321
2010 316 320
a) Respuesta:
b) Los estudiantes varones muestran una tendencia descendente en la matricula anual, en cambio en las mujeres no se
observa la tendencia en la matricula anual. A partir del año 2009 y 2010 se matriculan más mujeres que varones.
2005 2006 2007 2008 2009 2010
Masculino 322 321 321 320 318 316
Femenino 319 319 320 319 321 320
313
314
315
316
317
318
319
320
321
322
323
N°
de
alumnos
Matricula anual por género
Gráfico de dispersión
– Un diagrama de dispersión es una representación gráfica de un sistema de ejes coordenados X e Y. Cada eje representa una
variable.
El conjunto de todos los puntos se denomina nube de puntos.
– El propósito del diagrama de dispersión es mostrar, de manera intuitiva, si existe o no relación entre las variables.
Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos, de un
grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla.
Altura en cm. Peso en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
0
10
20
30
40
50
60
70
80
90
150 155 160 165 170 175 180 185
Peso
(kg)
Altura (cm)
Relación altura y peso de los
individuos
1* | 69
2* | 23677
3* | 1122235555679
4* | 2455568
5* | 178
Ahora es fácil observar, por ejemplo que:
1) La persona con menor edad tiene 16 años
2) La persona de mayor edad tiene 58 años
3) Existen tres personas con 45 años, etc.
Consiste en mantener la decena del dato y clasificar la unidad numérica. Las unidades, por cada decena, son puestas en
orden ascendente.
Gráfico de Tallos y hojas
Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja, que representa los datos entre el
percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote inferior indica los valores
contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote superior representa los datos contenidos
entre el percentil 75 y el valor máximo de la serie de datos.
20
40
60
80
100
X1 X2
X3 X4
X5 X6
Y
Gráfico de Cajas y bigotes o Box Plot
Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con agua potable
por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m3).
Ejercicio
5
16
50
74
79
56
13
6
1
0
10
20
30
40
50
60
70
80
90
7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3
Se pide:
1.- Identificar población y variable (clasificarla).
2.- Completar Histograma (títulos).
3.- Interpretar Histograma.
5
16
50
74
79
56
13
6
1
0
10
20
30
40
50
60
70
80
90
7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3
Cantidad
de
Hogares
Rango consumo (en m3)
Distribución del consumo promedio mensual
de agua potable en Maipú
Respuesta:
1.- Identificar población y variable (clasificarla).
Población Hogares de la comuna de Maipú.
Variable
Consumo promedio mensual de agua potable
en m3.
Clasificación Cuantitativa continua.
2.- Completar Histograma (títulos).
Interpretación :
Se observa que el rango con la mayor cantidad de hogares consumen mensualmente en promedio sobre 24,8 y hasta
29,1 m3 de agua, en cambio el rango con la menor cantidad de hogares tiene un consumo mensual promedio sobre 42
y hasta 46,3 m3 de agua. Además el consumo promedio mensual de agua potable de los hogares se distribuye (varía)
desde 7,6 y hasta 46,3 m3 .
5
16
50
74
79
56
13
6
1
0
10
20
30
40
50
60
70
80
90
7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3
Cantidad
de
Hogares
Rango consumo (en m3)
Distribución del consumo promedio mensual
de agua potable en Maipú
3.- Interpretar Histograma.
33,67 54,00 53,00 134,00 178,00 39,33 61,33 186,00 35,00 62,00
55,50 155,00 47,00 71,50 72,00 60,67 119,00 152,00 110,00 58,00
134,00 61,00 53,67 135,00 54,00 83,00 86,50 156,00 59,50 164,00
55,50 64,50 93,00 146,00 64,33 163,00 131,00 41,33 35,67 66,67
188,00 60,00 58,67 155,00 68,00 89,50 39,00 66,67 199,00 44,00
92,00 170,00 135,00 192,00 61,00 82,00 66,00 61,33 55,50 176,00
40,33 187,00 42,00 91,50 53,50 57,67 33,33 173,00 188,00 58,00
60,50 116,00 53,33 66,67 135,00 45,33 142,00 178,00 90,00 151,00
97,00 55,67 80,00 56,67 105,00 161,00 189,00 53,67 75,00 65,50
89,00 42,00 174,00 52,67 123,00 45,00 58,00 84,50 44,33 51,33
37,33 199,00 33,67 112,00 171,00 120,00 98,50 54,67 59,33 65,00
103,00 59,00 64,33 142,00 128,00 73,00 55,50 61,00 35,00 144,00
38,00 76,50 142,00 61,33 76,00 91,00 193,00 91,50 92,00 118,00
116,00 146,00 61,00 129,00 56,50 117,00 51,00 61,00 71,50 160,00
70,50 34,33 65,00 163,00 90,50 66,67 169,00 41,67 40,67 133,00
64,00 79,00 61,67 125,00 34,67 122,00 167,00 103,00 84,50 53,33
69,00 63,50 111,00 51,00 35,33 61,00 67,50 65,50 40,00 66,67
84,00 42,67 188,00 35,33 57,00 64,67 169,00 67,50 34,67 63,00
97,50 165,00 99,50 55,00 143,00 82,00 177,00 66,50 34,33 88,50
64,00 186,00 149,00 205,80 125,00 90,50 145,00 50,00 64,67 34,33
Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa en un día.
TABLA DE DISTRIBUCION DE FRECUENCIAS
¿Cómo resumiría los datos anteriores?
Población
Variable
Clasificación
Ventas realizadas por la tienda en un día.
Monto de una venta, en miles de pesos.
Cuantitativa continua.
Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la
población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones correspondientes.
¿Cómo se elabora la tabla de frecuencias?
Cantidad de datos (n) 200
N° de Intervalos 9
Valor Mínimo 33,33
Valor Máximo 205,8
Rango 172,47
Amplitud del intervalo 19,17
=CONTAR(rango matriz)
=REDONDEAR(1+3,3∙LOG10(n);0)
=MIN(rango matriz)
=MAX(rango matriz)
=MAX - MIN
=REDONDEAR.MAS(rango /N° de intervalos; 2 )
Se utilizará la misma cantidad de
decimales que tienen los datos.
Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como se
indica a continuación:
Li Ls
33,33 52,5
52,50 71,67
71,67 90,84
90,84 110,01
110,01 129,18
129,18 148,35
148,35 167,52
167,52 186,69
186,69 205,86
El último limite superior debe ser igual o
mayor al dato máximo.
La cantidad de filas que
tendrá la tabla es el número
de intervalos.
Luego se calcula el límite inferior (Li) y superior (Ls) de cada intervalo.
Cantidad de datos (n) 200
Cantidad de Intervalos 9
Valor Menor 33,33
Valor Mayor 205,8
Rango 172,47
Amplitud del intervalo 19,17
Representa el número de datos u
observaciones que pertenecen a
un intervalo.
Frecuencia Absoluta fi
Li Ls fi
33,33 52,5 34
52,5 71,67 68
71,67 90,84 20
90,84 110,01 14
110,01 129,18 14
129,18 148,35 15
148,35 167,52 13
167,52 186,69 12
186,69 205,86 10
Interpretación: Se observan 12 ventas cuyo monto está
sobre $167.520 y hasta $186.690.
[ ]
] ]
] ]
] ]
] ]
] ]
] ]
] ]
] ]
Frecuencia Relativa hi
Li Ls fi hi
33,33 52,5 34 17%
52,5 71,67 68 34%
71,67 90,84 20 10%
90,84 110,01 14 7%
110,01 129,18 14 7%
129,18 148,35 15 7,5%
148,35 167,52 13 6,5%
167,52 186,69 12 6%
186,69 205,86 10 5%
]
]
Para determinar las frecuencias relativas, se divide cada frecuencia
absoluta por el total de datos y el resultado se expresa en %.
200
Observación: Siempre la suma de la frecuencia absoluta debe ser igual a la cantidad de datos y la
suma de la frecuencia relativa debe ser igual al 100% .
100%
Interpretación: El 6,5,% de las ventas fueron por un monto
sobre $148.350 y hasta $167.520.
Representa el porcentaje de las observaciones que pertenecen a un
intervalo.
Se obtiene sumando F2 con f3
Se obtiene sumando F1 con f2
Frecuencia Absoluta Acumulada Fi
Corresponde a la suma acumulada de la frecuencia
absoluta.
Li Ls fi hi Fi
33,33 52,5 34 17% 34
52,5 71,67 68 34% 102
71,67 90,84 20 10% 122
90,84 110,01 14 7% 136
110,01 129,18 14 7% 150
129,18 148,35 15 7,5% 165
148,35 167,52 13 6,5% 178
167,52 186,69 12 6% 190
186,69 205,86 10 5% 200
Interpretación: 165 ventas fueron por
un monto de a lo más $148.350.
Se repite f1
INTERVALOS DE LA VARIABLE Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Acumulada
Límite inferior límite superior
Li Ls fi hi Fi Hi
33,33 52,5 34 17% 34 17%
52,5 71,67 68 34% 102 51%
71,67 90,84 20 10% 122 61%
90,84 110,01 14 7% 136 68%
110,01 129,18 14 7% 150 75%
129,18 148,35 15 7,5% 165 82,5%
148,35 167,52 13 6,5% 178 89%
167,52 186,69 12 6% 190 95%
186,69 205,86 10 5% 200 100%
Tabla de Frecuencia
1) Identifique población y variable (clasifíquela).
2) Complete tabla de frecuencias.
3) Interprete f2 , F3 , h3 , H5 .
Ejercicio:
Sueldo, en m$ Cantidad de empleados
360 – 400 35
400 – 440 80
440 – 480 104
480 – 520 140
520 – 560 13
560 – 600 28
La siguiente tabla corresponde a los sueldos (en miles de $) que paga en la actualidad una
empresa comercial .
Se pide:
Respuesta: Población
Variable
Clasificación
Empleados de la empresa.
Sueldo en miles de pesos.
Cuantitativa continua.
Sueldo, en m$ fi hi Fi Hi
360 – 400 35 8,75% 35 8,75%
400 – 440 80 20% 115 28,75%
440 – 480 104 26% 219 54,75%
480 – 520 140 35% 359 89,75%
520 – 560 13 3,25% 372 93%
560 – 600 28 7% 400 100%
400 100%
f2 :
F3 :
h3 :
H5 :
1)
2)
3)
80 trabajadores tienen un sueldo superior a $400.000 y hasta $440.000.
219 trabajadores tienen un sueldo máximo de $480.000.
El 26% de los trabajadores tienen un sueldo sobre $440.000 y hasta $480.000.
El 93% de los trabajadores tienen un sueldo de a lo más $560.000.
Medidas de
Tendencia Central
Aquellos valores hacia los cuales tienden a aglomerarse los datos de una
muestra. La mayoría de ellas trata de ubicar el centro de la distribución.
Medidas de Tendencia Central
Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la
distribución de datos. Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una idea acerca
del comportamiento de la variable, por ejemplo el promedio de un conjunto de datos. Entre las medidas de tendencia
central más importantes están:
- Media aritmética.
- Moda.
- Mediana.
La Media o promedio para Datos No Agrupados
Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X1,X2,....Xn. Entonces el promedio se define como la
suma de los datos dividida por el total de la muestra y se denota por:
n
x
X
n
i
i


 1
La Media o Promedio
X
Ejemplo: Se tienen las notas de 20 alumnos de un curso. Éstas son:
6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8
3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2
20
2
,
6
8
,
5
1
,
6
7
,
5
9
,
5
8
,
4
0
,
5
7
,
3
8
,
5
8
,
3
8
,
3
2
,
4
7
,
5
0
,
6
0
,
5
5
,
4
8
,
5
2
,
6
1
,
5
8
,
6 



















X
295
,
5
20
9
,
105


X La nota promedio del curso fue de 5,3
Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca de clase por la frecuencia de cada intervalo. Se
suman los resultados de cada multiplicación y se dividen por el número total de datos.
La Media o Promedio para Datos Agrupados en intervalos
Proteínas
(g/l)
Frecuencia
Absoluta
fi
Marca de Clase
xi fi* xi
40 – 45 2 42,5 85
45 – 50 6 47,5 285
50 – 55 12 52,5 630
55 – 60 13 57,5 747,5
60 – 65 5 62,5 312,5
65 – 70 2 67,5 135
Total 40 2195
Proteínas totales del plasma en prematuros
normales de 15 días de edad
Ejemplo:
40
)
5
,
67
2
(
)
5
,
62
5
(
)
5
,
57
13
(
)
5
,
52
12
(
)
5
,
47
6
(
)
5
,
42
2
( x
x
x
x
x
x
X






n
i
x
fi
X
k
i



 1
´
El promedio de concentración de proteínas en el
plasma, en niños prematuros normales, es de
54,9 gramos.
gramos
X 9
,
54
40
195
.
2


Ventajas y Desventajas de la Media Aritmética
Ventajas
• El concepto de media aritmética es familiar para mucha gente e intuitivamente claro.
• Es un valor único que generalmente representan mejor a una distribución. Ya que en su cálculo se
consideran todos los datos.
Desventajas
• Puede verse afectada por la presencia de valores extremos o atípicos que no son representativos del
conjunto de datos. En estos casos podría resultar más representativo calcular la media sin tomar en cuenta
el valor extremo.
• Puede ser poco representativa en distribuciones que presentan mucha asimetría.
Es aquel valor que más se repite en una muestra y se denota por Mo.
La moda es el estadístico de centralización adecuado si la variable está medida
en escala nominal:
También se utiliza la moda si la variable está medida en escala ordinal o
numérica discreta:
La Moda para Datos No Agrupados
Si la variable es continua, formalmente la moda
no existe, pues es muy difícil que al sacar una
muestra de números reales dos o mas de ellos
coincidan.
La Moda
3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2
5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8
Ejemplo: Considere las siguientes notas de un curso de 20 alumnos
La nota más frecuente en el curso fue 5,0
Sexo Frecuencia Porcentaje
Masculino 63 18,42%
Femenino 279 81,58%
Total 342 100%
Distribución del número de hijos en mujeres
post menopáusica
Número hijos Frecuencia Porcentaje
0 14 4,17%
1 83 24,70%
2 193 57,44%
3 46 13,69%
Total 336 100%
Distribución trabajadores por género
Moda para Datos Agrupados en intervalos
Li : Límite inferior del intervalo que contiene la frecuencia mas alta
Δ1 : Diferencia entre la frecuencia mas alta y la del intervalo anterior
Δ2 : Diferencia entre la frecuencia mas alta y la del intervalo siguiente
A : Amplitud del intervalo
Ejemplo:
Li : 24 años A : 4
Δ1 : 15-10=5 Δ2 : 15-12=3
A
Li *
2
1
1
Mo 











La moda o dato más frecuente de edad en
este grupo de datos, es de 26,5 años.
Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia
5
,
26
4
*
3
5
5
24
Mo 









EDAD fi
16 – 20 8
20 – 24 10
24 – 28 15
28 – 32 12
32 – 36 5
Ventajas y Desventajas de la Moda
Ventajas
• No se ve afectada por la presencia de valores extremos bajos o altos.
• Puede también aplicarse a datos cualitativos.
Desventajas
• Puede no existir o puede que exista más de una moda (bimodal: 2 modas; polimodal: más de 2 modas).
Esto significa que pierde utilidad y dificulta su interpretación.
Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor de la variable que deja por debajo de sí
al 50% de las observaciones. La mediana corresponde al percentil 50 o Cuartil 2, (Mediana=P50=Q2). Notemos que la mediana es tanto un
estadígrafo de posición y de centralización.
Mediana para Datos No Agrupados
La Mediana
• Si n es par:
Mediana Datos No Agrupados
55
• Si n es impar:
Ejemplo: 5 7 7 10 12 18 25
Ejemplo: 5 7 7 10 12 18 25 32
2
X
Me
1)
(n 

10
2
X
Me
4
4
1)
(7




X
X
El valor que divide la muestra en dos partes iguales, es 10
La mediana es igual al promedio de las dos posiciones centrales
Como la cantidad de datos es par, entonces la mediana corresponde al promedio de los datos centrales, por lo tanto la
mediana es 11.
Mediana para Datos agrupados en intervalos
Dividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia absoluta acumulada igual o mayor a n/2.


























 A
fi
Fi
n
Li
Me
anterior
*
)
(
2
Donde:
Li : Límite inferior del intervalo de la clase mediana
n : Número total de observaciones
Fianterior : Frecuencia acumulada hasta el intervalo anterior a que
contiene la mediana.
fi : Frecuencia absoluta de la clase mediana.
A : Amplitud de la clase mediana.
n/2 : Muestra/2. Clase mediana
EDAD fi Fi
15 – 25 40 40
25 – 35 67 107
35 – 45 143 250
45 – 55 180 430
55 – 65 270 700
65 – 75 275 975
1
,
57
10
*
270
430
5
,
487
55 











 


Me
Li : 55
n : 975
Fianterior : 430
fi : 270
A : 10
n/2 : 975/2= 487,5
Ejemplo: Distribución por edad de 975 individuos
El 50% de los individuos tiene 57,1 años o menos
El valor que divide la muestra en dos partes iguales, es 57,1
Ventajas y Desventajas de la Mediana
Ventajas
• La más importante es que no se ve afectada como la media, por datos con valores extremos. Por lo que al
existir valores extremos la mediana es más representativa que la media aritmética.
• La facilidad para entenderla conceptualmente.
Desventajas
• El ordenar los datos en forma creciente para calcular su valor, puede implicar un mayor tiempo, si se trabaja
con una gran número de datos y no se cuenta con un ordenador.
Ejercicio
Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de
personas con problemas respiratorios durante el mes de julio del 2011, considerado el mes
más crítico en cuanto a niveles de contaminación. El estudio se basó en una muestra de 14
policlínicos de Santiago. Calcule e interprete las medidas de tendencia central.
28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15
Respuestas
Interpretación:
Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios durante en mes de julio
del 2011.
Media = 23,2
Interpretación:
El número más frecuente de atenciones en los policlínicos a personas con problemas respiratorios en mes de julio del
2011 fue 15.
Moda = 15
Interpretación:
Al menos el 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2011 a personas con problemas
respiratorios.
Mediana = 20,5
Las medidas de posición no centrales permiten conocer otros valores característicos de la
distribución, que no son los valores centrales, los que nos ayudan a ubicar un dato dentro
de la distribución. Entre las medidas de posición, están:
• Cuartiles
• Quintiles
• Deciles
• Percentiles
Medidas de Posición no central
Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales,
cada una de ellas con un 25% de las observaciones.
• Cuartiles
Los quintiles son valores que
dividen a la muestra ordenada en
forma ascendente en 5 partes
iguales, cada una de ellas con un
20% de las observaciones.
• Quintiles
Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes
iguales, cada una de ellas con un 10% de las observaciones.
• Deciles
Percentiles
Si los datos se encuentren tabulados se deben seguir los siguientes pasos:
1. Calcular frecuencias acumuladas simples ( )
2. Determinar el intervalo, en el cual el primer supere a
: Límite inferior del intervalo que contiene al percentil
: Total de observaciones
: Frecuencia acumulada del intervalo anterior
: Frecuencia absoluta del intervalo que contiene al percentil
: Amplitud del intervalo
Fi






100
*n
k
LI
Fi
A
f
F
n
k
LI
P
i
ianterior
k 














 100
*
n
Fianterior
fi
A
Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene
rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que
NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de
indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión.
Alumno Calificaciones Promedio
DIEGO 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0
NATALIA 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0
Medidas de Dispersión
Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto de
datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir
en términos de variación.
Se define el rango o recorrido de los datos como la distancia que existe entre el dato de
mayor valor (máximo) y el de menor valor (mínimo).
Para el ejemplo anterior:
Rango(Calificaciones de Natalia)=7,0 -1,0 = 6
Rango(Calificaciones de Diego)= 4,0 – 4,0 = 0
Se puede observar que mientras mas heterogénea es la colección de datos mayor es el valor
del rango. Sin embargo el Rango puede exagerar el grado de heterogeneidad del los datos,
para prevenir este hecho se prefiere usar como medida de variabilidad otro tipo de Rango,
denominado Rango intercuartílico.
Rango o Recorrido
Xmín
Xmáx
Rango 

Rango Intercuartílico
Dado que el rango puede exagerar el grado de heterogeneidad del los
datos, para prevenir este hecho se prefiere usar como medida de
variabilidad el rango intercuartílico, que corresponde a la distancia
entre primer y tercer cuartil. Esta medida, no es tan sensible a valores
extremos.
En esta salida se han destacado en
negritas los tres cuartiles,
C1=31 años
C2=35 años
C3=45 años
Ejemplo: A continuación se presentan los estadígrafos de resumen de la variable edad, medida en un grupo de 30
pacientes
RIC= C3-C1
RIC= 45-31=14
Varianza
Varianza: Datos no agrupados
Ejemplo: Consideremos las calificaciones de 2 alumnos: Natalia y Diego
Nota
Desvío de las
notas, respecto
del promedio
2 2 - 4= -2
3 3 - 4= -1
7 7 - 4= 3
4 4 - 4= 0
6 6 - 4= 2
5 5 - 4= 1
1 1 - 4= -3
Total 28
67
,
4
6
28
6
9
1
4
0
9
1
4
1
7
3
1
2
0
)
3
(
)
1
(
)
2
(
2
2
2
2
2
2
2
2
2




















S
S
Mide la dispersión de los datos con respecto a su media, su calculo es la media de las diferencias cuadráticas de cada
observación con su media. Es representada como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la
variabilidad de los datos alrededor de la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca
dispersión.
S2
=
X1- X
( )
2
+ X2- X
( )
2
+...+ Xn- X
( )
2
n-1
Desviación estándar: Datos Agrupados
 
1
*
´
2



n
fi
X
i
X
S
Proteínas totales del plasma en prematuros normales de 15 días de edad
La mayoría de las concentraciones de proteínas en el plasma, están entre
54,9 -5,99 y 54,9 + 5,99, es decir entre 48,41 y 60,39.
            88
,
35
1
40
2
*
4
,
54
5
,
67
5
*
4
,
54
5
,
62
13
*
4
,
54
5
,
57
12
*
4
,
54
5
,
52
6
*
4
,
54
5
,
47
2
*
4
,
54
5
,
42
:
2
2
2
2
2
2
2














S
Varianza
S= 35,88 = 5,99
S = S2
ó
Proteínas (g/l) Frecuencia
Absoluta (fi)
Marca de
Clase (X´i)
fi * X´i
40 – 45 2 42,5 85 -12,4 153,76 307,52
45 – 50 6 47,5 285 -7,4 54,76 328,56
50 – 55 12 52,5 630 -2,4 5,76 69,12
55 – 60 13 57,5 747,5 2,6 6,76 87,88
60 – 65 5 62,5 312,5 7,6 57,76 288,8
65 – 70 2 67,5 135 12,6 158,76 317,52
Total 40 2175 437,56 1399,4
X
i
´ 
X  2
X
i
´ 
X   fi
.
X
i
´
2

X
Coeficiente de Variación
Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel de
dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los datos. Se
calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100.
%
0
10
X
S
CV 

Para el ejemplo de las calificaciones de
Natalia, encontramos : %
55
%
100
4
2
,
2



CV
Es decir un 55% de variabilidad o dispersión, que es alto:.
0 1
Datos más dispersos
(más heterogéneos)
Homogéneo: Uniforme, semejante, similar, idéntico.
Heterogéneo: Diverso, variado, mezclado, distinto.
Observación: Expresado en porcentaje el coeficiente de variación toma valores desde 0% al
100%.
Datos menos dispersos
(más homogéneos)
Coeficiente de Variación
El Box Plot es un gráfico muy útil que reúne los
conceptos de centralización, simetría y variabilidad,
el cual permite comparar el comportamiento de la
variable.
Box Plot o gráfico de cajas y bigotes
Valores
Outlier
o
atípicos
Box Plot o gráfico de cajas y bigotes
Interpretación
• El rango de edad de este grupo de pacientes, está entre 16 y 58 años.
•La edad promedio es de 36,13 años.
•El 25% de las personas tiene 31 años o menos.
•El 50% de las personas tiene 35 años o menos.
•La mayoría de las edades se concentra entre 36,13±10,5, es decir, entre 25,6 y 46,6 años.
•La varianza es de 109,4
•Los datos presentan una asimetría positiva.
•Los datos tienen una variabilidad de 28,9%, es decir una variabilidad moderada.
Estadística y probabilidad
Clase presencial: Análisis descriptivo de datos

Más contenido relacionado

Similar a Análisis descriptivos de datos (4).pptx

Terminos basicos estadistica
Terminos basicos estadisticaTerminos basicos estadistica
Terminos basicos estadisticaagustin rojas
 
clase1 estadistica .ppt
clase1 estadistica .pptclase1 estadistica .ppt
clase1 estadistica .pptYOLAZARROLDAN
 
Clase1 - Estadística Preceptores
Clase1 - Estadística PreceptoresClase1 - Estadística Preceptores
Clase1 - Estadística PreceptoresAlejandra Camors
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística DescriptivaEduardo Lysak
 
Estadística y probabilidades
Estadística y probabilidadesEstadística y probabilidades
Estadística y probabilidadesCristian Quintero
 
Clase10 analisisdedatos
Clase10 analisisdedatosClase10 analisisdedatos
Clase10 analisisdedatoscesar vallejo
 
Semana de la estadistica 8vo
Semana de la estadistica 8voSemana de la estadistica 8vo
Semana de la estadistica 8voRosa E Padilla
 
Estadística nuevo 2015
Estadística nuevo 2015Estadística nuevo 2015
Estadística nuevo 2015gladysutil
 
Clase1 estadística preceptores
Clase1 estadística preceptoresClase1 estadística preceptores
Clase1 estadística preceptoresAlejandra Camors
 
DOSSIER DE ESTADISTICA EDUCATIVA.pdf
DOSSIER DE ESTADISTICA EDUCATIVA.pdfDOSSIER DE ESTADISTICA EDUCATIVA.pdf
DOSSIER DE ESTADISTICA EDUCATIVA.pdfCarlosQuisbert9
 
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...Leonel Delgado Eraso
 
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...Leonel Delgado Eraso
 
2011 - II : Clase Nº 01 Estadística Descriptiva I
2011 - II : Clase Nº 01 Estadística Descriptiva I2011 - II : Clase Nº 01 Estadística Descriptiva I
2011 - II : Clase Nº 01 Estadística Descriptiva IMANUEL GARCIA
 
Estadística para la investigación pedagógica
Estadística para la investigación pedagógicaEstadística para la investigación pedagógica
Estadística para la investigación pedagógicaJoanny Ibarbia Pardo
 

Similar a Análisis descriptivos de datos (4).pptx (20)

Terminos basicos estadistica
Terminos basicos estadisticaTerminos basicos estadistica
Terminos basicos estadistica
 
clase1 estadistica .ppt
clase1 estadistica .pptclase1 estadistica .ppt
clase1 estadistica .ppt
 
Clase1 - Estadística Preceptores
Clase1 - Estadística PreceptoresClase1 - Estadística Preceptores
Clase1 - Estadística Preceptores
 
ESTADISTICA 1.ppt
ESTADISTICA 1.pptESTADISTICA 1.ppt
ESTADISTICA 1.ppt
 
Estadística Descriptiva
Estadística DescriptivaEstadística Descriptiva
Estadística Descriptiva
 
Odonto 2da clase tablas y gráficos
Odonto 2da clase tablas y gráficosOdonto 2da clase tablas y gráficos
Odonto 2da clase tablas y gráficos
 
Estadística y probabilidades
Estadística y probabilidadesEstadística y probabilidades
Estadística y probabilidades
 
Clase10 analisisdedatos
Clase10 analisisdedatosClase10 analisisdedatos
Clase10 analisisdedatos
 
Semana de la estadistica 8vo
Semana de la estadistica 8voSemana de la estadistica 8vo
Semana de la estadistica 8vo
 
Estadística nuevo 2015
Estadística nuevo 2015Estadística nuevo 2015
Estadística nuevo 2015
 
Estadistica 2020
Estadistica 2020Estadistica 2020
Estadistica 2020
 
Clase1 estadística preceptores
Clase1 estadística preceptoresClase1 estadística preceptores
Clase1 estadística preceptores
 
Estadistica ii
Estadistica iiEstadistica ii
Estadistica ii
 
DOSSIER DE ESTADISTICA EDUCATIVA.pdf
DOSSIER DE ESTADISTICA EDUCATIVA.pdfDOSSIER DE ESTADISTICA EDUCATIVA.pdf
DOSSIER DE ESTADISTICA EDUCATIVA.pdf
 
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
 
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
Calidonauta 72003-1-distribucion-de-frecuencias-sus-graficas-calidad-estadist...
 
3eso quincena11
3eso quincena113eso quincena11
3eso quincena11
 
dispersion.pdf
dispersion.pdfdispersion.pdf
dispersion.pdf
 
2011 - II : Clase Nº 01 Estadística Descriptiva I
2011 - II : Clase Nº 01 Estadística Descriptiva I2011 - II : Clase Nº 01 Estadística Descriptiva I
2011 - II : Clase Nº 01 Estadística Descriptiva I
 
Estadística para la investigación pedagógica
Estadística para la investigación pedagógicaEstadística para la investigación pedagógica
Estadística para la investigación pedagógica
 

Último

Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosCesarFernandez937857
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.José Luis Palma
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoFundación YOD YOD
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleJonathanCovena1
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 

Último (20)

Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos Básicos
 
Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.Clasificaciones, modalidades y tendencias de investigación educativa.
Clasificaciones, modalidades y tendencias de investigación educativa.
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Heinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativoHeinsohn Privacidad y Ciberseguridad para el sector educativo
Heinsohn Privacidad y Ciberseguridad para el sector educativo
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
Introducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo SostenibleIntroducción:Los objetivos de Desarrollo Sostenible
Introducción:Los objetivos de Desarrollo Sostenible
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 

Análisis descriptivos de datos (4).pptx

  • 1. Estadística y Probabilidad Clase presencial: Análisis descriptivo de datos
  • 2. Instrucción o nota TEMAS A DESARROLLAR: • Análisis de información: Población y muestra. Clasificación de variables. • Representación de la información: Representación de la información mediante tablas de frecuencias y de doble entrada. • Medidas de análisis descriptivo de datos univariados Medidas de resumen. Medidas de tendencia central. Medidas de dispersión. Medidas de posición. • Representación gráfica de la información: Representación de la información mediante gráficos. • Medidas de análisis descriptivo de datos bivariados: Medidas de resumen. Medidas de tendencia central. Medidas de dispersión. Medidas de posición. Bibliografía: • Estadística Matus, R. 2006 • Estadística Spiegel, Murray R. 2009 • Estadística descriptiva Monroy Saldívar, Salvador 2008 • Estadística y muestreo Martínez Bencardino, Ciro 2012 • Probabilidad y estadística para ciencias químicobiológicas Marques de Cantú, María José 1991 • Probabilidad y estadística para ingeniería y ciencias Sheldon M., Ross 2002
  • 3. La Estadística es la Ciencia de la Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de Deducir las leyes que rigen esos fenómenos, Y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.
  • 4. Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de explicar condiciones o situaciones, apoyando la toma de decisiones. Definición de Estadística Tipos de Estadística Descriptiva Inferencial Se ocupa de recolectar, organizar y presentar los datos para su posterior análisis. Métodos y procedimientos para deducir características de la población a partir de una muestra.
  • 5. Población y muestra Población (N) Es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Corresponde al universo del que se desea medir alguna característica particular. Normalmente es demasiado grande para poder abarcarla. Ejemplo: Deseamos medir el rendimiento de los alumnos de INACAP de la carrera de Informática, por lo que la población son todos los estudiantes de dicha carrera.
  • 6. Población y muestra Muestra (n) Es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). Corresponde a un subconjunto de elementos de la población  Debería ser “representativo”  Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). Ejemplo: Tomando el ejemplo de población, una muestra de ellos son los cursos.
  • 7. Conceptos Básicos Variable: Corresponde a una característica observable que varía entre los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables. Dato: Corresponde a una característica o atributo en particular. Son medidas recopiladas en forma grupal o no agrupadas. Observación: Son distintas características, propiedades o atributos observadas en un mismo sujeto u objeto. Nº de ficha Sexo Edad Hipert Fuma Diabetes 001 1 72 0 1 1 002 0 67 0 0 0 003 0 46 0 0 0 Variables Dato
  • 8. Variable Cuantitativa Cualitativa Ejemplo: Se desea realizar un estudio con los estudiantes que ingresan a primer año de construcción en INACAP. Para ello se consideraron las variables: tipo de colegio de procedencia, nivel socioeconómico, ingreso familiar (en miles de $) y el número de integrantes de su grupo familiar. Ingreso Familiar (m$) N° de integrantes Nivel socioeconómico (Bajo-Medio-Alto) Colegio de procedencia (Municipal-Particular- Subvencionado) Clasificación de las Variables
  • 9. 7 Cuantitativa Discreta Continua Variable: Estatura en metros. Ejemplo N°1 1 1,4 1,6 1,8 1,7 Variable: Cantidad de hijos por familia. 0 8 4 6 7, 5 ERROR!! Ejemplo N°2 Cuantitativa Discreta Cuantitativa Continua Variable Cualitativa Clasificación de las Variables
  • 10. Clasificación de las Variables Variable Cualitativa Cuantitativa Discreta Continua Nominal Ordinal Existe relación de orden en sus categorías. No existe relación de orden en sus categorías. Ejemplo: Población Profesores de INACAP (Alto – Medio – Bajo) Cualitativa Ordinal a) Variable: Nivel socioeconómico. b) Variable: Género. (Masculino – Femenino) Cualitativa Nominal c) Variable: Tipo de contrato. (Plazo fijo – Indefinido) Cualitativa Nominal
  • 11. Caso 1: En una clínica privada ubicada en la comuna de Providencia, se desea estudiar el sueldo mensual (en miles de $) de sus trabajadores. Población Variable Clasificación En los siguientes casos identifique la población, la variable y clasifíquela: Caso 2: En la fábrica Polystel se desea medir el tiempo que cada trabajador demora en confeccionar un pantalón. Población Variable Clasificación Trabajadores de la clínica privada. Sueldo mensual (en miles de $). Cuantitativa continua. Tiempo en la confección de un pantalón. Cuantitativa continua. Trabajadores de una fábrica textil que confeccionan pantalones. Ejercicio
  • 12. Caso 3: INACAP desea analizar el número de estudiantes de la carrera de Contabilidad que aprobaron la asignatura de Matemática Financiera. Población Variable Clasificación Caso 4: En la Municipalidad de Providencia se estudia las marcas de automóviles inscritos en dicha Municipalidad. Población Variable Clasificación Alumnos de la carrera de Contabilidad. Número de alumnos que aprobaron Matemática Financiera. Cuantitativa discreta. Autos inscritos en la Municipalidad de Providencia. Marca de un automóvil. Cualitativa nominal.
  • 13. Caso 5: En INACAP se desea estudiar las carreras que los alumnos siguen. Población Variable Clasificación Caso 6: En una cooperativa se desea estudiar el nivel de educación que tienen sus socios. Población Variable Clasificación Alumnos de INACAP. Carrera que estudia un alumno. Cualitativa nominal. Socios de la cooperativa. Nivel educacional. Cualitativa ordinal.
  • 14. Organización y presentación de datos Tablas de Frecuencias y Gráficos Estadísticos
  • 15. Presentación ordenada de datos Género Frecuencia Hombre 4 Mujer 6 0 1 2 3 4 5 6 7 Hombre Mujer Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.
  • 16. Datos desordenados y ordenados en tablas  Variable: Género  Modalidades:  H = Hombre  M = Mujer  Muestra: M H H M M H M M M H  equivale a HHHH MMMMMM Variable Género Frecuencia Absoluta Frecuencia Relativa (Porcentaje) Hombre 4 4/10 = 0,4 = 40% Mujer 6 6/10 = 0,6 = 60% n=10 tamaño muestral
  • 17. Tablas de Frecuencia Sexo del encuestado 636 41,9 41,9 881 58,1 58,1 1517 100,0 100,0 Hombre Mujer Total Válidos Frecuencia Porcentaje Porcentaje válido Número de hijos 419 27,6 27,8 27,8 255 16,8 16,9 44,7 375 24,7 24,9 69,5 215 14,2 14,2 83,8 127 8,4 8,4 92,2 54 3,6 3,6 95,8 24 1,6 1,6 97,3 23 1,5 1,5 98,9 17 1,1 1,1 100,0 1509 99,5 100,0 8 ,5 1517 100,0 0 1 2 3 4 5 6 7 Ocho o más Total Válidos No contesta Perdidos Total Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Frecuencias Absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias Relativas (porcentajes): Contabilizan el número de individuos de cada modalidad, pero dividido por el total Frecuencias Acumuladas: Sólo tienen sentido para variables ordinales y numéricas Exponen la información recogida en la muestra, de forma resumida sin que se pierda nada de información. ¿Qué porcentaje de individuos tiene a lo más de 3 hijos? Solución: 83,8% ¿Entre 4 y 6 hijos? Solución: 8,4% + 3,6% + 1,6% = 13,6%. Nivel de felicidad 467 30,8 31,1 31,1 872 57,5 58,0 89,0 165 10,9 11,0 100,0 1504 99,1 100,0 13 ,9 1517 100,0 Muy feliz Bastante feliz No demasiado feliz Total Válidos No contesta Perdidos Total Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
  • 18. Ejemplo Número de hijos 419 27,8 27,8 255 16,9 44,7 375 24,9 69,5 215 14,2 83,8 127 8,4 92,2 54 3,6 95,8 24 1,6 97,3 23 1,5 98,9 17 1,1 100,0 1509 100,0 0 1 2 3 4 5 6 7 Ocho+ Total Frec. Porcent. (válido) Porcent. acum. • ¿Cuántos individuos tienen menos de 2 hijos? 419 + 255 674 individuos • ¿Qué porcentaje de individuos tiene 6 hijos o menos? 97,3% • ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual? 2 hijos
  • 19. Distribución de Frecuencias Intervalo de clase Marca de clase 8 - 12 10 12 - 16 14 Se indica por Li al límite inferior del intervalo y por Ls al límite superior. Notación Definición Marca de Clase Es el punto medio de cada intervalo (clase) y representa el valor de cada intervalo. Amplitud Es la diferencia entre el límite superior e inferior del intervalo Recorrido o rango Corresponde a la diferencia entre el mayor y el menor valor de los datos en estudio. Frecuencia absoluta Corresponde al número de observaciones que pertenecen al intervalo de clase. Frecuencia Relativa Es la razón entre la frecuencia absoluta en cada intervalo y el total de la muestra. Frecuencia Absoluta Acumulada Corresponde a la suma de las frecuencias absolutas anteriores, más la frecuencia en cuestión. Frecuencia Relativa Acumulada Corresponde a la suma de las frecuencias relativas anteriores, más la frecuencia en cuestión. La distribución de frecuencias es una tabla resumen de los datos originales, donde se fijan intervalos de clase. Para la construcción de la distribución de frecuencias, se deben conocer los siguientes conceptos: A hi i f i F R i H i X`
  • 20. Importante tener en cuenta  Definir el propósito de la tabla.  Escribir un titulo que indique QUÉ se presenta en la tabla, CÓMO, CUÁNDO y DÓNDE.  Asignar escalas de clasificación en filas y columnas.  Las tablas, habitualmente deben ser enumeradas cuando hay mas de una en el texto. Tabla 1. Motivo de la consulta médica, durante la primera semana de 2011 en la Clínica X Motivo Consulta Número de pacientes Bronquitis 29 Otitis 23 Heridas 17 Fracturas 12 Vacunas 9 TOTAL 90 Qué Cómo Dónde Cuándo
  • 21. Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos. Existen múltiples tipos de gráficos, siendo los más frecuentemente usados: Gráfico de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el pictograma. Representaciones Gráficas La información contenida en las tablas de frecuencias resulta más accesible y fácil de interpretar si se representan por medio de gráficos estadísticos.
  • 22. Gráfico circular o de torta – Se utiliza para representar la frecuencia relativa (hi). – Se aplica para cualquier tipo de variable, pero de preferencia se aplica a variables cualitativas. Nivel de Educación fi hi Básico 16 8% Medio 50 25% Universitario 112 56% Postgrado 22 11% Básico 8% Medio 25% Universitario 56% Postgrado 11% Nivel de Educación de los Trabajadores de una Empresa
  • 23. Histograma Duración de una llamada en minutos fi hi Fi Hi 6 - 9 4 1,00% 4 1,00% 9 - 12 17 4,25% 21 5,25% 12 - 15 41 10,25% 62 15,50% 15 - 18 98 24,50% 160 40,00% 18 - 21 84 21,00% 244 61,00% 21 - 24 76 19,00% 320 80,00% 24 - 27 56 14,00% 376 94,00% 27 - 30 18 4,50% 394 98,50% 30 - 33 5 1,25% 399 99,75% 33 - 36 1 0,25% 400 100,00% - Se utiliza para representar la distribución de frecuencias absolutas o relativas en una variable cuantitativa continua. - Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los intervalos. 4 17 41 98 84 76 56 18 5 1 0 20 40 60 80 100 120 6 - 9 9 - 12 12 - 15 15 - 18 18 - 21 21 - 24 24 - 27 27 - 30 30 - 33 33 - 36 N° de llamadas Tiempo en minutos Distribución del tiempo de las llamadas al extranjero
  • 24. Polígono de Frecuencias - Se utiliza para representar la distribución de frecuencias absolutas o relativas de una variable cuantitativa continua. Es útil cuando se quiere comparar dos distribuciones en un mismo gráfico. Duración de una llamada en minutos fi hi Fi Hi 6 - 9 4 1,00% 4 1,00% 9 - 12 17 4,25% 21 5,25% 12 - 15 41 10,25% 62 15,50% 15 - 18 98 24,50% 160 40,00% 18 - 21 84 21,00% 244 61,00% 21 - 24 76 19,00% 320 80,00% 24 - 27 56 14,00% 376 94,00% 27 - 30 18 4,50% 394 98,50% 30 - 33 5 1,25% 399 99,75% 33 - 36 1 0,25% 400 100,00% 4 17 41 98 84 76 56 18 5 1 0 20 40 60 80 100 120 0 3 6 9 12 15 18 21 24 27 30 33 36 39 N° de llamadas Tiempo en minutos Distribución del tiempo de duración de las llamadas
  • 25. ¿Histograma / gráfico de barras? 15 10 5 3 1 2 0 2 4 6 8 10 12 14 16 18 Perro Gato Pájaro Pez Reptil Roedor N° de Hogares Tipo de mascota ¿Qué clase de mascota posee en su hogar? Tipo mascota N° de Hogares Perro 15 Gato 10 Pájaro 5 Pez 3 Reptil 1 Roedor 2
  • 26. Gráfico de barras múltiples – Se utiliza para representar la asociación de dos o más variables cualitativas o cuantitativas discretas. – Sirve para mostrar dos o más conjuntos de datos al mismo tiempo y así facilitar la comparación entre ellos. Ejemplo: Se realizó una encuesta a 120 profesores de un colegio, en la que se les preguntó el estado civil y el ciclo de enseñanza a la cual pertenecían (enseñanza básica o media). Los resultados se presentan en la siguiente tabla adjunta. Estado Civil Profesores enseñanza básica Profesores enseñanza media Casado 24 22 Soltero 16 17 Viudo 5 8 Separado 13 15 Total 58 62 Se pide: a) Construya un gráfico para presentar visualmente los resultados obtenidos. b) Interprete el gráfico, indicando al menos tres aspectos.
  • 27. a) Respuesta: Casado Soltero Viudo Separado Profesores enseñanza básica 24 16 5 13 Profesores enseñanza media 22 17 8 15 0 5 10 15 20 25 30 N° de profesores Ciclo según Estado Civil de los profesores del colegio b) Se puede señalar que el estado civil más frecuente (46) entre los profesores del colegio es casado, en cambio la minoría de ellos (13) es viudo. En la enseñanza básica y media hay más profesores solteros que separados. Más de la mitad de los profesores (79) son casados o solteros.
  • 28. Gráfico de línea – Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente es el tiempo. – Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la variable. Ejemplo: El Liceo Politécnico BLANCA FLOR DEL CAMPO desea estudiar la evolución de la matrícula durante los últimos años, en términos de los alumnos matriculados por género. Los resultados están detallados en la tabla adjunta. Se pide: a) Construya un gráfico para observar la variación de la matrícula por año. b) Interprete el gráfico, indicando al menos tres aspectos. Año Masculino Femenino 2005 322 319 2006 321 319 2007 321 320 2008 320 319 2009 318 321 2010 316 320
  • 29. a) Respuesta: b) Los estudiantes varones muestran una tendencia descendente en la matricula anual, en cambio en las mujeres no se observa la tendencia en la matricula anual. A partir del año 2009 y 2010 se matriculan más mujeres que varones. 2005 2006 2007 2008 2009 2010 Masculino 322 321 321 320 318 316 Femenino 319 319 320 319 321 320 313 314 315 316 317 318 319 320 321 322 323 N° de alumnos Matricula anual por género
  • 30. Gráfico de dispersión – Un diagrama de dispersión es una representación gráfica de un sistema de ejes coordenados X e Y. Cada eje representa una variable. El conjunto de todos los puntos se denomina nube de puntos. – El propósito del diagrama de dispersión es mostrar, de manera intuitiva, si existe o no relación entre las variables. Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos, de un grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla. Altura en cm. Peso en Kg. 162 61 154 60 180 78 158 62 171 66 169 60 166 54 176 84 163 68 0 10 20 30 40 50 60 70 80 90 150 155 160 165 170 175 180 185 Peso (kg) Altura (cm) Relación altura y peso de los individuos
  • 31. 1* | 69 2* | 23677 3* | 1122235555679 4* | 2455568 5* | 178 Ahora es fácil observar, por ejemplo que: 1) La persona con menor edad tiene 16 años 2) La persona de mayor edad tiene 58 años 3) Existen tres personas con 45 años, etc. Consiste en mantener la decena del dato y clasificar la unidad numérica. Las unidades, por cada decena, son puestas en orden ascendente. Gráfico de Tallos y hojas
  • 32. Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja, que representa los datos entre el percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote inferior indica los valores contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote superior representa los datos contenidos entre el percentil 75 y el valor máximo de la serie de datos. 20 40 60 80 100 X1 X2 X3 X4 X5 X6 Y Gráfico de Cajas y bigotes o Box Plot
  • 33. Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con agua potable por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m3). Ejercicio 5 16 50 74 79 56 13 6 1 0 10 20 30 40 50 60 70 80 90 7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3 Se pide: 1.- Identificar población y variable (clasificarla). 2.- Completar Histograma (títulos). 3.- Interpretar Histograma.
  • 34. 5 16 50 74 79 56 13 6 1 0 10 20 30 40 50 60 70 80 90 7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3 Cantidad de Hogares Rango consumo (en m3) Distribución del consumo promedio mensual de agua potable en Maipú Respuesta: 1.- Identificar población y variable (clasificarla). Población Hogares de la comuna de Maipú. Variable Consumo promedio mensual de agua potable en m3. Clasificación Cuantitativa continua. 2.- Completar Histograma (títulos).
  • 35. Interpretación : Se observa que el rango con la mayor cantidad de hogares consumen mensualmente en promedio sobre 24,8 y hasta 29,1 m3 de agua, en cambio el rango con la menor cantidad de hogares tiene un consumo mensual promedio sobre 42 y hasta 46,3 m3 de agua. Además el consumo promedio mensual de agua potable de los hogares se distribuye (varía) desde 7,6 y hasta 46,3 m3 . 5 16 50 74 79 56 13 6 1 0 10 20 30 40 50 60 70 80 90 7,6 - 11,9 11,9 - 16,2 16,2 - 20,5 20,5 - 24,8 24,8 - 29,1 29,1 - 33,4 33,4 - 37,7 37,7 - 42 42 - 46,3 Cantidad de Hogares Rango consumo (en m3) Distribución del consumo promedio mensual de agua potable en Maipú 3.- Interpretar Histograma.
  • 36. 33,67 54,00 53,00 134,00 178,00 39,33 61,33 186,00 35,00 62,00 55,50 155,00 47,00 71,50 72,00 60,67 119,00 152,00 110,00 58,00 134,00 61,00 53,67 135,00 54,00 83,00 86,50 156,00 59,50 164,00 55,50 64,50 93,00 146,00 64,33 163,00 131,00 41,33 35,67 66,67 188,00 60,00 58,67 155,00 68,00 89,50 39,00 66,67 199,00 44,00 92,00 170,00 135,00 192,00 61,00 82,00 66,00 61,33 55,50 176,00 40,33 187,00 42,00 91,50 53,50 57,67 33,33 173,00 188,00 58,00 60,50 116,00 53,33 66,67 135,00 45,33 142,00 178,00 90,00 151,00 97,00 55,67 80,00 56,67 105,00 161,00 189,00 53,67 75,00 65,50 89,00 42,00 174,00 52,67 123,00 45,00 58,00 84,50 44,33 51,33 37,33 199,00 33,67 112,00 171,00 120,00 98,50 54,67 59,33 65,00 103,00 59,00 64,33 142,00 128,00 73,00 55,50 61,00 35,00 144,00 38,00 76,50 142,00 61,33 76,00 91,00 193,00 91,50 92,00 118,00 116,00 146,00 61,00 129,00 56,50 117,00 51,00 61,00 71,50 160,00 70,50 34,33 65,00 163,00 90,50 66,67 169,00 41,67 40,67 133,00 64,00 79,00 61,67 125,00 34,67 122,00 167,00 103,00 84,50 53,33 69,00 63,50 111,00 51,00 35,33 61,00 67,50 65,50 40,00 66,67 84,00 42,67 188,00 35,33 57,00 64,67 169,00 67,50 34,67 63,00 97,50 165,00 99,50 55,00 143,00 82,00 177,00 66,50 34,33 88,50 64,00 186,00 149,00 205,80 125,00 90,50 145,00 50,00 64,67 34,33 Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa en un día. TABLA DE DISTRIBUCION DE FRECUENCIAS
  • 37. ¿Cómo resumiría los datos anteriores? Población Variable Clasificación Ventas realizadas por la tienda en un día. Monto de una venta, en miles de pesos. Cuantitativa continua. Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones correspondientes.
  • 38. ¿Cómo se elabora la tabla de frecuencias? Cantidad de datos (n) 200 N° de Intervalos 9 Valor Mínimo 33,33 Valor Máximo 205,8 Rango 172,47 Amplitud del intervalo 19,17 =CONTAR(rango matriz) =REDONDEAR(1+3,3∙LOG10(n);0) =MIN(rango matriz) =MAX(rango matriz) =MAX - MIN =REDONDEAR.MAS(rango /N° de intervalos; 2 ) Se utilizará la misma cantidad de decimales que tienen los datos. Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como se indica a continuación:
  • 39. Li Ls 33,33 52,5 52,50 71,67 71,67 90,84 90,84 110,01 110,01 129,18 129,18 148,35 148,35 167,52 167,52 186,69 186,69 205,86 El último limite superior debe ser igual o mayor al dato máximo. La cantidad de filas que tendrá la tabla es el número de intervalos. Luego se calcula el límite inferior (Li) y superior (Ls) de cada intervalo. Cantidad de datos (n) 200 Cantidad de Intervalos 9 Valor Menor 33,33 Valor Mayor 205,8 Rango 172,47 Amplitud del intervalo 19,17
  • 40. Representa el número de datos u observaciones que pertenecen a un intervalo. Frecuencia Absoluta fi Li Ls fi 33,33 52,5 34 52,5 71,67 68 71,67 90,84 20 90,84 110,01 14 110,01 129,18 14 129,18 148,35 15 148,35 167,52 13 167,52 186,69 12 186,69 205,86 10 Interpretación: Se observan 12 ventas cuyo monto está sobre $167.520 y hasta $186.690. [ ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ]
  • 41. Frecuencia Relativa hi Li Ls fi hi 33,33 52,5 34 17% 52,5 71,67 68 34% 71,67 90,84 20 10% 90,84 110,01 14 7% 110,01 129,18 14 7% 129,18 148,35 15 7,5% 148,35 167,52 13 6,5% 167,52 186,69 12 6% 186,69 205,86 10 5% ] ] Para determinar las frecuencias relativas, se divide cada frecuencia absoluta por el total de datos y el resultado se expresa en %. 200 Observación: Siempre la suma de la frecuencia absoluta debe ser igual a la cantidad de datos y la suma de la frecuencia relativa debe ser igual al 100% . 100% Interpretación: El 6,5,% de las ventas fueron por un monto sobre $148.350 y hasta $167.520. Representa el porcentaje de las observaciones que pertenecen a un intervalo.
  • 42. Se obtiene sumando F2 con f3 Se obtiene sumando F1 con f2 Frecuencia Absoluta Acumulada Fi Corresponde a la suma acumulada de la frecuencia absoluta. Li Ls fi hi Fi 33,33 52,5 34 17% 34 52,5 71,67 68 34% 102 71,67 90,84 20 10% 122 90,84 110,01 14 7% 136 110,01 129,18 14 7% 150 129,18 148,35 15 7,5% 165 148,35 167,52 13 6,5% 178 167,52 186,69 12 6% 190 186,69 205,86 10 5% 200 Interpretación: 165 ventas fueron por un monto de a lo más $148.350. Se repite f1
  • 43. INTERVALOS DE LA VARIABLE Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada Límite inferior límite superior Li Ls fi hi Fi Hi 33,33 52,5 34 17% 34 17% 52,5 71,67 68 34% 102 51% 71,67 90,84 20 10% 122 61% 90,84 110,01 14 7% 136 68% 110,01 129,18 14 7% 150 75% 129,18 148,35 15 7,5% 165 82,5% 148,35 167,52 13 6,5% 178 89% 167,52 186,69 12 6% 190 95% 186,69 205,86 10 5% 200 100% Tabla de Frecuencia
  • 44. 1) Identifique población y variable (clasifíquela). 2) Complete tabla de frecuencias. 3) Interprete f2 , F3 , h3 , H5 . Ejercicio: Sueldo, en m$ Cantidad de empleados 360 – 400 35 400 – 440 80 440 – 480 104 480 – 520 140 520 – 560 13 560 – 600 28 La siguiente tabla corresponde a los sueldos (en miles de $) que paga en la actualidad una empresa comercial . Se pide:
  • 45. Respuesta: Población Variable Clasificación Empleados de la empresa. Sueldo en miles de pesos. Cuantitativa continua. Sueldo, en m$ fi hi Fi Hi 360 – 400 35 8,75% 35 8,75% 400 – 440 80 20% 115 28,75% 440 – 480 104 26% 219 54,75% 480 – 520 140 35% 359 89,75% 520 – 560 13 3,25% 372 93% 560 – 600 28 7% 400 100% 400 100% f2 : F3 : h3 : H5 : 1) 2) 3) 80 trabajadores tienen un sueldo superior a $400.000 y hasta $440.000. 219 trabajadores tienen un sueldo máximo de $480.000. El 26% de los trabajadores tienen un sueldo sobre $440.000 y hasta $480.000. El 93% de los trabajadores tienen un sueldo de a lo más $560.000.
  • 46. Medidas de Tendencia Central Aquellos valores hacia los cuales tienden a aglomerarse los datos de una muestra. La mayoría de ellas trata de ubicar el centro de la distribución.
  • 47. Medidas de Tendencia Central Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la distribución de datos. Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una idea acerca del comportamiento de la variable, por ejemplo el promedio de un conjunto de datos. Entre las medidas de tendencia central más importantes están: - Media aritmética. - Moda. - Mediana.
  • 48. La Media o promedio para Datos No Agrupados Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X1,X2,....Xn. Entonces el promedio se define como la suma de los datos dividida por el total de la muestra y se denota por: n x X n i i    1 La Media o Promedio X Ejemplo: Se tienen las notas de 20 alumnos de un curso. Éstas son: 6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8 3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2 20 2 , 6 8 , 5 1 , 6 7 , 5 9 , 5 8 , 4 0 , 5 7 , 3 8 , 5 8 , 3 8 , 3 2 , 4 7 , 5 0 , 6 0 , 5 5 , 4 8 , 5 2 , 6 1 , 5 8 , 6                     X 295 , 5 20 9 , 105   X La nota promedio del curso fue de 5,3
  • 49. Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca de clase por la frecuencia de cada intervalo. Se suman los resultados de cada multiplicación y se dividen por el número total de datos. La Media o Promedio para Datos Agrupados en intervalos Proteínas (g/l) Frecuencia Absoluta fi Marca de Clase xi fi* xi 40 – 45 2 42,5 85 45 – 50 6 47,5 285 50 – 55 12 52,5 630 55 – 60 13 57,5 747,5 60 – 65 5 62,5 312,5 65 – 70 2 67,5 135 Total 40 2195 Proteínas totales del plasma en prematuros normales de 15 días de edad Ejemplo: 40 ) 5 , 67 2 ( ) 5 , 62 5 ( ) 5 , 57 13 ( ) 5 , 52 12 ( ) 5 , 47 6 ( ) 5 , 42 2 ( x x x x x x X       n i x fi X k i     1 ´ El promedio de concentración de proteínas en el plasma, en niños prematuros normales, es de 54,9 gramos. gramos X 9 , 54 40 195 . 2  
  • 50. Ventajas y Desventajas de la Media Aritmética Ventajas • El concepto de media aritmética es familiar para mucha gente e intuitivamente claro. • Es un valor único que generalmente representan mejor a una distribución. Ya que en su cálculo se consideran todos los datos. Desventajas • Puede verse afectada por la presencia de valores extremos o atípicos que no son representativos del conjunto de datos. En estos casos podría resultar más representativo calcular la media sin tomar en cuenta el valor extremo. • Puede ser poco representativa en distribuciones que presentan mucha asimetría.
  • 51. Es aquel valor que más se repite en una muestra y se denota por Mo. La moda es el estadístico de centralización adecuado si la variable está medida en escala nominal: También se utiliza la moda si la variable está medida en escala ordinal o numérica discreta: La Moda para Datos No Agrupados Si la variable es continua, formalmente la moda no existe, pues es muy difícil que al sacar una muestra de números reales dos o mas de ellos coincidan. La Moda 3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2 5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8 Ejemplo: Considere las siguientes notas de un curso de 20 alumnos La nota más frecuente en el curso fue 5,0 Sexo Frecuencia Porcentaje Masculino 63 18,42% Femenino 279 81,58% Total 342 100% Distribución del número de hijos en mujeres post menopáusica Número hijos Frecuencia Porcentaje 0 14 4,17% 1 83 24,70% 2 193 57,44% 3 46 13,69% Total 336 100% Distribución trabajadores por género
  • 52. Moda para Datos Agrupados en intervalos Li : Límite inferior del intervalo que contiene la frecuencia mas alta Δ1 : Diferencia entre la frecuencia mas alta y la del intervalo anterior Δ2 : Diferencia entre la frecuencia mas alta y la del intervalo siguiente A : Amplitud del intervalo Ejemplo: Li : 24 años A : 4 Δ1 : 15-10=5 Δ2 : 15-12=3 A Li * 2 1 1 Mo             La moda o dato más frecuente de edad en este grupo de datos, es de 26,5 años. Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia 5 , 26 4 * 3 5 5 24 Mo           EDAD fi 16 – 20 8 20 – 24 10 24 – 28 15 28 – 32 12 32 – 36 5
  • 53. Ventajas y Desventajas de la Moda Ventajas • No se ve afectada por la presencia de valores extremos bajos o altos. • Puede también aplicarse a datos cualitativos. Desventajas • Puede no existir o puede que exista más de una moda (bimodal: 2 modas; polimodal: más de 2 modas). Esto significa que pierde utilidad y dificulta su interpretación.
  • 54. Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor de la variable que deja por debajo de sí al 50% de las observaciones. La mediana corresponde al percentil 50 o Cuartil 2, (Mediana=P50=Q2). Notemos que la mediana es tanto un estadígrafo de posición y de centralización. Mediana para Datos No Agrupados La Mediana
  • 55. • Si n es par: Mediana Datos No Agrupados 55 • Si n es impar: Ejemplo: 5 7 7 10 12 18 25 Ejemplo: 5 7 7 10 12 18 25 32 2 X Me 1) (n   10 2 X Me 4 4 1) (7     X X El valor que divide la muestra en dos partes iguales, es 10 La mediana es igual al promedio de las dos posiciones centrales Como la cantidad de datos es par, entonces la mediana corresponde al promedio de los datos centrales, por lo tanto la mediana es 11.
  • 56. Mediana para Datos agrupados en intervalos Dividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia absoluta acumulada igual o mayor a n/2.                            A fi Fi n Li Me anterior * ) ( 2 Donde: Li : Límite inferior del intervalo de la clase mediana n : Número total de observaciones Fianterior : Frecuencia acumulada hasta el intervalo anterior a que contiene la mediana. fi : Frecuencia absoluta de la clase mediana. A : Amplitud de la clase mediana. n/2 : Muestra/2. Clase mediana EDAD fi Fi 15 – 25 40 40 25 – 35 67 107 35 – 45 143 250 45 – 55 180 430 55 – 65 270 700 65 – 75 275 975 1 , 57 10 * 270 430 5 , 487 55                 Me Li : 55 n : 975 Fianterior : 430 fi : 270 A : 10 n/2 : 975/2= 487,5 Ejemplo: Distribución por edad de 975 individuos El 50% de los individuos tiene 57,1 años o menos El valor que divide la muestra en dos partes iguales, es 57,1
  • 57. Ventajas y Desventajas de la Mediana Ventajas • La más importante es que no se ve afectada como la media, por datos con valores extremos. Por lo que al existir valores extremos la mediana es más representativa que la media aritmética. • La facilidad para entenderla conceptualmente. Desventajas • El ordenar los datos en forma creciente para calcular su valor, puede implicar un mayor tiempo, si se trabaja con una gran número de datos y no se cuenta con un ordenador.
  • 58. Ejercicio Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de personas con problemas respiratorios durante el mes de julio del 2011, considerado el mes más crítico en cuanto a niveles de contaminación. El estudio se basó en una muestra de 14 policlínicos de Santiago. Calcule e interprete las medidas de tendencia central. 28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15
  • 59. Respuestas Interpretación: Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios durante en mes de julio del 2011. Media = 23,2 Interpretación: El número más frecuente de atenciones en los policlínicos a personas con problemas respiratorios en mes de julio del 2011 fue 15. Moda = 15 Interpretación: Al menos el 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2011 a personas con problemas respiratorios. Mediana = 20,5
  • 60. Las medidas de posición no centrales permiten conocer otros valores característicos de la distribución, que no son los valores centrales, los que nos ayudan a ubicar un dato dentro de la distribución. Entre las medidas de posición, están: • Cuartiles • Quintiles • Deciles • Percentiles Medidas de Posición no central
  • 61. Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales, cada una de ellas con un 25% de las observaciones. • Cuartiles
  • 62. Los quintiles son valores que dividen a la muestra ordenada en forma ascendente en 5 partes iguales, cada una de ellas con un 20% de las observaciones. • Quintiles
  • 63. Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes iguales, cada una de ellas con un 10% de las observaciones. • Deciles
  • 64. Percentiles Si los datos se encuentren tabulados se deben seguir los siguientes pasos: 1. Calcular frecuencias acumuladas simples ( ) 2. Determinar el intervalo, en el cual el primer supere a : Límite inferior del intervalo que contiene al percentil : Total de observaciones : Frecuencia acumulada del intervalo anterior : Frecuencia absoluta del intervalo que contiene al percentil : Amplitud del intervalo Fi       100 *n k LI Fi A f F n k LI P i ianterior k                 100 * n Fianterior fi A
  • 65. Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión. Alumno Calificaciones Promedio DIEGO 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0 NATALIA 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0 Medidas de Dispersión Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto de datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir en términos de variación.
  • 66. Se define el rango o recorrido de los datos como la distancia que existe entre el dato de mayor valor (máximo) y el de menor valor (mínimo). Para el ejemplo anterior: Rango(Calificaciones de Natalia)=7,0 -1,0 = 6 Rango(Calificaciones de Diego)= 4,0 – 4,0 = 0 Se puede observar que mientras mas heterogénea es la colección de datos mayor es el valor del rango. Sin embargo el Rango puede exagerar el grado de heterogeneidad del los datos, para prevenir este hecho se prefiere usar como medida de variabilidad otro tipo de Rango, denominado Rango intercuartílico. Rango o Recorrido Xmín Xmáx Rango  
  • 67. Rango Intercuartílico Dado que el rango puede exagerar el grado de heterogeneidad del los datos, para prevenir este hecho se prefiere usar como medida de variabilidad el rango intercuartílico, que corresponde a la distancia entre primer y tercer cuartil. Esta medida, no es tan sensible a valores extremos. En esta salida se han destacado en negritas los tres cuartiles, C1=31 años C2=35 años C3=45 años Ejemplo: A continuación se presentan los estadígrafos de resumen de la variable edad, medida en un grupo de 30 pacientes RIC= C3-C1 RIC= 45-31=14
  • 68. Varianza Varianza: Datos no agrupados Ejemplo: Consideremos las calificaciones de 2 alumnos: Natalia y Diego Nota Desvío de las notas, respecto del promedio 2 2 - 4= -2 3 3 - 4= -1 7 7 - 4= 3 4 4 - 4= 0 6 6 - 4= 2 5 5 - 4= 1 1 1 - 4= -3 Total 28 67 , 4 6 28 6 9 1 4 0 9 1 4 1 7 3 1 2 0 ) 3 ( ) 1 ( ) 2 ( 2 2 2 2 2 2 2 2 2                     S S Mide la dispersión de los datos con respecto a su media, su calculo es la media de las diferencias cuadráticas de cada observación con su media. Es representada como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los datos alrededor de la media: es grande cuando hay mucha dispersión y pequeña cuando hay poca dispersión. S2 = X1- X ( ) 2 + X2- X ( ) 2 +...+ Xn- X ( ) 2 n-1
  • 69. Desviación estándar: Datos Agrupados   1 * ´ 2    n fi X i X S Proteínas totales del plasma en prematuros normales de 15 días de edad La mayoría de las concentraciones de proteínas en el plasma, están entre 54,9 -5,99 y 54,9 + 5,99, es decir entre 48,41 y 60,39.             88 , 35 1 40 2 * 4 , 54 5 , 67 5 * 4 , 54 5 , 62 13 * 4 , 54 5 , 57 12 * 4 , 54 5 , 52 6 * 4 , 54 5 , 47 2 * 4 , 54 5 , 42 : 2 2 2 2 2 2 2               S Varianza S= 35,88 = 5,99 S = S2 ó Proteínas (g/l) Frecuencia Absoluta (fi) Marca de Clase (X´i) fi * X´i 40 – 45 2 42,5 85 -12,4 153,76 307,52 45 – 50 6 47,5 285 -7,4 54,76 328,56 50 – 55 12 52,5 630 -2,4 5,76 69,12 55 – 60 13 57,5 747,5 2,6 6,76 87,88 60 – 65 5 62,5 312,5 7,6 57,76 288,8 65 – 70 2 67,5 135 12,6 158,76 317,52 Total 40 2175 437,56 1399,4 X i ´  X  2 X i ´  X   fi . X i ´ 2  X
  • 70. Coeficiente de Variación Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel de dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los datos. Se calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100. % 0 10 X S CV   Para el ejemplo de las calificaciones de Natalia, encontramos : % 55 % 100 4 2 , 2    CV Es decir un 55% de variabilidad o dispersión, que es alto:.
  • 71. 0 1 Datos más dispersos (más heterogéneos) Homogéneo: Uniforme, semejante, similar, idéntico. Heterogéneo: Diverso, variado, mezclado, distinto. Observación: Expresado en porcentaje el coeficiente de variación toma valores desde 0% al 100%. Datos menos dispersos (más homogéneos) Coeficiente de Variación
  • 72. El Box Plot es un gráfico muy útil que reúne los conceptos de centralización, simetría y variabilidad, el cual permite comparar el comportamiento de la variable. Box Plot o gráfico de cajas y bigotes Valores Outlier o atípicos
  • 73. Box Plot o gráfico de cajas y bigotes
  • 74. Interpretación • El rango de edad de este grupo de pacientes, está entre 16 y 58 años. •La edad promedio es de 36,13 años. •El 25% de las personas tiene 31 años o menos. •El 50% de las personas tiene 35 años o menos. •La mayoría de las edades se concentra entre 36,13±10,5, es decir, entre 25,6 y 46,6 años. •La varianza es de 109,4 •Los datos presentan una asimetría positiva. •Los datos tienen una variabilidad de 28,9%, es decir una variabilidad moderada.
  • 75. Estadística y probabilidad Clase presencial: Análisis descriptivo de datos

Notas del editor

  1. Locución (1): Presentación de la asignatura
  2. Locución (1): Presentación de la asignatura