El documento describe la historia y desarrollo de la estadística. La estadística se divide en descriptiva e inferencial. La estadística descriptiva se usa para resumir y visualizar datos, mientras que la inferencial se usa para hacer modelos e inferencias sobre una población. El documento luego detalla hitos importantes en el desarrollo de la estadística en un país, incluyendo los primeros censos de población y leyes estadísticas.
2.
La estadística es una ciencia formal que estudia la recolección, análisis e
interpretación de datos de una muestra representativa y para explicar
condiciones regulares o irregulares de algún fenómeno o estudio
aplicado, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
La estadística descriptiva, se dedica a la descripción, visualización y
resumen de datos originados a partir de los fenómenos de estudio.
La estadística inferencial, se dedica a la generación de los
modelos, inferencias y predicciones asociadas a los fenómenos en cuestión
teniendo en cuenta la aleatoriedad de las observaciones. Se usa para
modelar patrones en los datos y extraer inferencias acerca de la población
bajo estudio. Estas inferencias pueden tomar la forma de respuestas a
preguntas si/no (prueba de hipótesis)
3.
4.
El primer testimonio de la actividad estadística data de 1778, cuando se
realizó el Primer Censo de Población levantado por las autoridades
eclesiásticas que incluían los registros parroquiales de nacimientos,
matrimonios y defunciones.
En 1821 José Cecilio del Valle figura como primer intelectual preocupado
por la estructuración estadística en el istmo centroamericano, por lo cual es
considerado “El Padre de la Estadística”.
15 de noviembre de 1823, reconociéndola como la Primera Ley
Estadística. En honor a este hecho desde los años sesenta se celebra cada
año el Día del Estadístico.
El 13 de julio de 1825 fue conformada la Primera Comisión Nacional de
Estadística, la cual marcó el inicio de la recolección de información para la
gestión de gobierno incluyendo la elaboración de las primeras nóminas y
establecimientos comerciales e industriales.
En 1880 de levantar el Segundo Censo de Población del país. En 1886, esta
Oficina fue elevada a la categoría de Dirección General de Estadística,
llevando a cabo en 1893 y en 1921 el III y IV Censos Generales de Población
respectivamente.
5.
El V Censo de Población se realizo en 1940
En 1944, la Dirección de Estadística pasa a jurisdicción del Ministerio de
Economía y Trabajo, creado por la junta Revolucionaria de Gobierno.
En 1950 se llevan a cabo el VI Censo de Población, I Censo
Agropecuario y el I Censo de Vivienda Urbana
En 1958 se emite la Tercera Ley Estadística, que creó el Sistema
Estadístico Nacional. Esta Ley estuvo vigente hasta 1985, cuando fue
promulgada la Ley Orgánica del Instituto Nacional de
Estadística, (Decreto Ley 3-85) convirtiéndose la institución en un ente
descentralizado y semiautónomo.
Censos de población de 1960 en adelante.
En 1958 se emite la Tercera Ley Estadística, que creó el Sistema
Estadístico Nacional. Esta Ley estuvo vigente hasta 1985, cuando fue
promulgada la Ley Orgánica del Instituto Nacional de
Estadística, (Decreto Ley 3-85) convirtiéndose la institución en un ente
descentralizado y semiautónomo.
6.
Es la representación estructurada, en forma de tabla, de toda la
información que se ha recogido sobre la variable que se estudia.
En estadística, se le llama distribución de frecuencias a la agrupación
de datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría.
Esto proporciona un valor añadido a la agrupación de datos. La
distribución de frecuencias presenta las observaciones clasificadas de
modo que se pueda ver el número existente en cada clase. Estas
agrupaciones de datos suelen estar agrupadas en forma de tablas.
Una distribución de frecuencias es un formato tabular en la que se
organizan los datos en clases, es decir, en grupos de valores que
describen una característica de los [datos] y muestra el número de
observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias puede representar gráficamente en un histograma
(Diagrama De Barras). Normalmente en el eje vertical se coloca las
frecuencias y en el horizontal los intervalos de valores
7. Tipos de frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un
estudio estadístico. Se representa por ni. La suma de las frecuencias absolutas es igual
al número total de datos, que se representa por N. Para indicar resumidamente estas
sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria. Puesto
que es mentira se hace el intercambio en la ínterfaz de la frecuencia absoluta.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor
y el número total de datos. Se puede expresar en tantos por ciento y se representa por fi.
La suma de las frecuencias relativas es igual a 1, siempre y cuando no sea igual que 7 o
por debajo de los 7 primeros números sucesivos.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores
inferiores o iguales al valor considerado. Se representa por Fa.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Ejemplo:
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas
máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27
8.
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables
toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos
que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia
correspondiente. Límites de la clase. Cada clase está delimitada por el límite inferior de la clase y el
límite superior de la clase.
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. La marca de clase
es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo
de algunos parámetros.
Construcción de una tabla de datos agrupados:
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 3
4, 32, 35, 28, 38, 41, 48, 15, 32, 13.
Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el
número de intervalos queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al
intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo.
9.
Las medidas de posición nos facilitan información sobre la serie de
datos que estamos analizando. Estas medidas permiten conocer
diversas características de esta serie de datos.
Las medidas de posición son de dos tipos:
a) Medidas de posición central: informan sobre los valores medios de la
serie de datos.
b) Medidas de posición no centrales: informan de como se distribuye el
resto de los valores de la serie.
a) Medidas de posición central
Las principales medidas de posición central son las siguientes:
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden
calcular diversos tipos de media, siendo las más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el número
de veces que se repite. La suma de todos estos productos se divide por
el total de datos de la muestra:
Xm =
(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
---------------------------------------------------------------------------------------
10.
b) Media geométrica: se eleva cada valor al número de veces que se
ha repetido. Se multiplican todo estos resultados y al producto fiinal se
le calcula la raíz "n" (siendo "n" el total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la
media aritmética o la media geométrica. La media geométrica se
suele utilizar en series de datos como tipos de interés anuales, inflación,
etc., donde el valor de cada año tiene un efecto multiplicativo sobre el
de los años anteriores. En todo caso, la media aritmética es la medida
de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los
valores de la serie, por lo que no se pierde ninguna información. Sin
embargo, presenta el problema de que su valor (tanto en el caso de la
media aritmética como geométrica) se puede ver muy influido por
valores extremos, que se aparten en exceso del resto de la serie. Estos
valores anómalos podrían condicionar en gran medida el valor de la
media, perdiendo ésta representatividad.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en
el centro de la muestra (un 50% de valores son inferiores y otro 50% son
superiores).
No presentan el problema de estar influido por los valores extremos,
pero en cambio no utiliza en su cálculo toda la información de la serie
de datos (no pondera cada valor por el número de veces que se ha
repetido).
3.- Moda: es el valor que más se repite en la muestra.