2. 1.1 Conceptos de estadística y su clasificación.
¿Qué es la estadística?
Se suele pensar en una relación de datos numéricos
presentada de forma ordenada y sistemática. Esta idea es la
consecuencia del concepto popular que existe sobre el
término y que cada vez está más extendido debido a la
influencia de nuestro entorno, ya que hoy día es casi
imposible que cualquier medio de difusión, periódico, radio,
televisión, etc, no nos aborde diariamente con cualquier tipo
de información estadística sobre accidentes de tráfico, índices
de crecimiento de población, turismo, tendencias políticas,
etc.
2
3. 1.1 Conceptos de estadística y su clasificación.
"ESTADISTICA" se derivó de la palabra "ESTADO". La
función de los gobiernos entre otras cosas es llevar los
registros de población, nacimientos, cosechas,
impuestos y toda la información que engloba el estado.
La estadística es una ciencia aplicada de las
matemáticas y es una valiosa herramienta para la toma
de decisiones. Permite el estudio de fenómenos
mediante la descripción del mismo a través de
inferencias mediante distribuciones probabilísticas.
3
4. 1.1 Conceptos de estadística y su clasificación.
La Estadística se ocupa de los métodos y
procedimientos para recoger, clasificar, resumir,
hallar regularidades y analizar los datos, siempre
y cuando la variabilidad e incertidumbre sea una
causa intrínseca de los mismos; así como de
realizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones y en
su caso formular predicciones.
4
5. 1.1 Conceptos de estadística y su clasificación.
Podríamos por tanto clasificar la Estadística:
A. Estadística descriptiva: Describe, analiza y representa un
grupo de datos utilizando métodos numéricos y gráficos
que resumen y presentan la información contenida en
ellos.
B. Estadística inferencial: Apoyándose en el cálculo de
probabilidades y a partir de datos de muestras, efectúa
estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos.
5
6. 1.2 Recopilación de datos
Al recoger datos relativos a las características de un grupo de
individuos u objetos, sean alturas y pesos de estudiantes de una
universidad o tuercas defectuosas producidas en una fábrica, suele ser
imposible o nada práctico observar todo el grupo, en especial si es muy
grande. En vez de examinar el grupo entero, llamado población o
universo, se examina una pequeña parte del grupo, llamada muestra.
Una población puede ser finita o infinita.
6
7. 1.2 Recopilación de datos
POBLACION .- Agregado de unidades elementales, que poseen
alguna característica o propiedades comunes.
El estudio de toda la población constituye un CENSO.
Una población puede ser finita o infinita.
En relación al tamaño de la población, ésta puede ser:
Finita, como es el caso del número de personas que llegan al
servicio de urgencia de un hospital en un día; y se conoce el
tamaño N de la población.
Infinita, si por ejemplo estudiamos el mecanismo aleatorio que
describe la secuencia de caras y cruces obtenida en el lanzamiento
repetido de una moneda al aire.
7
8. 1.2 Recopilación de datos
MUESTRA .- Es una parte de la población. Se espera que la muestra sea
representativa de la población, es decir reproduzca las características
más importantes. El proceso de obtener la muestra de denomina
MUESTREO.
MUESTRA ALEATORIA .- cuando la muestra a sido obtenida empleando
algún procedimiento del azar: sorteo, extracción al azar, números
aleatorios, etc.
8
9. 1.3 Distribución de frecuencias.
Una distribución de frecuencias o tabla de frecuencias es una
ordenación en forma de tabla de los datos estadísticos, asignando a
cada dato su frecuencia correspondiente.
Tipos de frecuencia:
• Frecuencia absoluta
• La frecuencia absoluta es el número de veces que aparece un
determinado valor en un estudio estadístico.
• Se representa por fi.
• La suma de las frecuencias absolutas es igual al número total de datos, que
se representa por N.
9
10. 1.3 Distribución de frecuencias.
• Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma
mayúscula) que se lee suma o sumatoria.
• Frecuencia relativa
• La frecuencia relativa es el cociente entre la frecuencia absoluta de un
determinado valor y el número total de datos.
• Se puede expresar en tantos por ciento y se representa por ni.
• La suma de las frecuencias relativas es igual a 1.
10
11. 1.3 Distribución de frecuencias.
• Frecuencia acumulada
• La frecuencia acumulada es la suma de las frecuencias absolutas de todos los
valores inferiores o iguales al valor considerado.
• Se representa por Fi.
• Frecuencia relativa acumulada
• La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada
de un determinado valor y el número total de datos. Se puede expresar en
tantos por ciento.
11
12. 1.3 Distribución de frecuencias.
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes
temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30,
30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de menor a
mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia
absoluta.
12
14. 1.3 Distribución de frecuencias.
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si
las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados
clases. A cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la
clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
14
15. 1.3 Distribución de frecuencias.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa
a todo el intervalo para el cálculo de algunos parámetros.
Construcción de una tabla de datos agrupados
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20,
11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
15
16. 1.3 Distribución de frecuencias.
2º Se restan y se busca un número entero un poco mayor que la diferencia y que
sea divisible por el número de intervalos de queramos poner.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase
pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en
el siguiente intervalo.
16
17. 1.3 Distribución de frecuencias.
Cuando se tenga dudas en determinar el numero de intervalos de clases, es de
gran utilidad utilizar el método sugerido por Hebert A. Sturges, el cual establece
que: K= 1+3,322 log(n) = numero de intervalos. En este curso se utilizará este
método siempre y cuando el mismo sea aplicable.
Determinamos la amplitud o tamaño de los intervalos través de la siguiente
formula:
17
21. 1.3 Distribución de frecuencias.
21
Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de
decidir el precio de sus habitaciones, el gerente investiga los
precios por habitación de 40 hoteles de la misma categoría de esta
ciudad. Los datos obtenidos (en miles de pesos) fueron:
3.3 3.3 3.7 3.8 3.9 3.9 3.9 4.0 4.1 4.2
4.2 4.3 4.3 4.3 4.3 4.4 4.4 4.5 4.5 4.5
4.5 4.7 4.7 4.7 4.7 4.8 4.9 5.0 5.0 5.1
5.1 5.3 5.3 5.4 5.6 5.8 5.8 6.0 6.1 6.1
33. 1.3.1 Polígonos de frecuencia, histogramas y ojivas.
33
El alcalde de la ciudad de San Pedro Sula ha seguido de cerca el proyecto de Reparación de calles y zona
peatonales del municipio para certificar que los plazos se cumplen según lo acordado. Quiere revisar los
resultados de los ingresos que reciben las familias que viven en la zona que se está llevando a cabo la primera
parte del proyecto.
El departamento de mercadeo revisa los datos de la pregunta sobre el ingreso del cabeza de familia y la
computadora le reporta los siguientes datos:
34. 1.4 Medidas de tendencia central para un conjunto
de datos y datos agrupados.
34
MEDIDAS DE TENDENCIA CENTRAL
La estadística busca entre otras cosas, describir las
características típicas de conjuntos de datos y, como hay
varias formas de hacerlo, existen y se utilizan varios
tipos de promedios. Se les llama medidas de tendencia
central porque generalmente la acumulación más alta
de datos se encuentra en los valores intermedios.
35. 1.4.1 Media, Media ponderada.
35
Media
La media es la sumatoria de los n valores, entre los n valores.
La fórmula para calcular es la siguiente:
Para un grupo de datos agrupados:
Donde:
Equis testada = es la media,
Sumatoria de x = la suma de todos y cada uno
de los valores,
n = el número total de valores.
36. 1.4.1 Media, Media ponderada.
36
Para una distribución de frecuencias:
Es la sumatoria del producto de la frecuencia por su marca de clase,
entre los N valores.
Donde:
Equis testada = la media de la distribución de
frecuencias,
Sumatoria fx = es la suma del producto de la frecuencia
por la marca de clase,
N = el número total de valores.
37. 1.4.1 Media, Media ponderada.
37
Ejemplo:
Un entrenador de pista debe decidir a cuál de dos corredores debe elegir para la próxima
competencia de 100 metros planos. El entrenador basará su decisión en los resultados de cinco
carreras entre los dos corredores, realizadas con intervalos de descanso de 15 minutos. A
continuación se dan los tiempos registrados en las cinco carreras (en segundos):
38. 1.4.1 Media, Media ponderada.
38
Media ponderada
Se denomina media ponderada de un conjunto de números al resultado de multiplicar cada uno de
ellos por un valor particular para cada uno de los mismos, llamado su peso, obteniendo a
continuación la suma de estos productos, y dividiendo el resultado de esta suma de productos entre
la suma de los pesos más la masa, según la característica de cada número inicial. Este "peso"
depende de la importancia o significancia de cada uno de los valores.
Para una serie de datos:
X = { x1, x2, ..., xn}
a la que corresponden los pesos:
W = { w1, w2, ..., wn}
la media ponderada se calcula como:
40. 1.4.2 Mediana
40
Mediana.
Es la medida de tendencia central que divide al conjunto de datos, considerando que están
ordenados de menor a mayor, en dos partes iguales.
Pasos para calcularla:
Si la n es impar
a) Se ordenan los datos de menor a mayor, o viceversa.
b) Se calcula el subíndice (n + 1) / 2
c) En los datos ordenados se busca el dato x (n + 1)/2 es decir, aquel cuyo subíndice
corresponda al subíndice calculado.
si la n es par
a) Se ordenan los datos de menor a mayor, o viceversa.
b) Se toman los datos centrales con subíndice centrales n/2 y n/ 2 + 1, se suman xn/2 y xn/2 +
1 y se divide entre 2.
42. 1.4.3 Moda
42
Moda
Otra de las medidas utilizadas es la moda, que es el valor que ocurre con mayor
frecuencia en cualquier distribución de datos, ya sean cualitativos y
cuantitativas.
Retomando el ejemplo del apartado 1.4.2 , el dato que ocurre con mayor
frecuencia es el 51.
La moda es 51.
43. 1.4.4 Relación entre media, mediana y moda.
43
La media, moda y mediana pertenecen a las Medidas de Tendencia Central, es decir
son medidas obtenidas a partir de la organización de un grupo de datos numéricos, y
las tres aunque son distintas en definición, tienden a ubicarse en el centro del grupo
de datos. Es decir, son medidas que nos dan una idea general respecto del vago
comportamiento dentro de un mismo grupo de datos.
MEDIA: Resume en un valor las características de una variable teniendo en cuenta a
todos los casos. TRADUCCIÓN: Es el promedio de un grupo de datos.
44. 1.4.4 Relación entre media, mediana y moda.
44
La relación que pueden tener, es que si tu moda, mediana, y media es la
misma se dice que los datos siguen una distribución normal, es decir que
tienen un comportamiento regular y puedes analizarlos estadísticamente
de una manera mas cómoda.
Ejemplo:
Supongamos que 7 amigos comieron 2,3,3,3,4,4,6 tortillas
respectivamente: la media (promedio) es 3.7, la mediana (el valor de en
medio) es 3, y la moda (valor que mas se repite) es también 3.
45. 1.5 Medidas de dispersión para un conjunto de datos y datos agrupados.
45