2. Introducción a la Estadistica
La estadística es una ciencia formal que estudia la recolección, análisis e interpretación
de datos de una muestra representativa y para explicar condiciones regulares o irregulares
de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional.
La estadística se divide en dos grandes áreas:
La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos
originados a partir de los fenómenos de estudio.
La estadística inferencial, se dedica a la generación de los modelos, inferencias y
predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad
de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias
acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de
respuestas a preguntas si/no (prueba de hipótesis)
3. Ambas ramas la Descriptiva e Inferencial comprenden la Estadística Aplicada.
La palabra Estadística también comprende aplicar un Algoritmo Estadístico a un Conjunto como
Estadística Económica, Estadística Criminales entre otros.
4. Antecedentes Históricos en Guatemala
El primer testimonio de la actividad estadística data de 1778, cuando se realizó el Primer
Censo de Población levantado por las autoridades eclesiásticas que incluían los registros
parroquiales de nacimientos, matrimonios y defunciones.
En 1821 José Cecilio del Valle figura como primer intelectual preocupado por la
estructuración estadística en el istmo centroamericano, por lo cual es considerado “El
Padre de la Estadística”.
15 de noviembre de 1823, reconociéndola como la Primera Ley Estadística. En honor
a este hecho desde los años sesenta se celebra cada año el Día del Estadístico.
El 13 de julio de 1825 fue conformada la Primera Comisión Nacional de Estadística, la cual
marcó el inicio de la recolección de información para la gestión de gobierno incluyendo la
elaboración de las primeras nóminas y establecimientos comerciales e industriales.
En 1880 de levantar el Segundo Censo de Población del país. En 1886, esta Oficina fue
elevada a la categoría de Dirección General de Estadística, llevando a cabo en 1893 y en
1921 el III y IV Censos Generales de Población respectivamente.
5. El V Censo de Población se realizo en 1940
En 1944, la Dirección de Estadística pasa a jurisdicción del Ministerio de Economía
y Trabajo, creado por la junta Revolucionaria de Gobierno.
En 1950 se llevan a cabo el VI Censo de Población, I Censo Agropecuario y el I Censo
de Vivienda Urbana
En 1958 se emite la Tercera Ley Estadística, que creó el Sistema Estadístico
Nacional. Esta Ley estuvo vigente hasta 1985, cuando fue promulgada la Ley
Orgánica del Instituto Nacional de Estadística, (Decreto Ley 3-85) convirtiéndose la
institución en un ente descentralizado y semiautónomo.
Censos de población de 1960 en adelante.
En 1958 se emite la Tercera Ley Estadística, que creó el Sistema Estadístico
Nacional. Esta Ley estuvo vigente hasta 1985, cuando fue promulgada la Ley
Orgánica del Instituto Nacional de Estadística, (Decreto Ley 3-85) convirtiéndose la
institución en un ente descentralizado y semiautónomo.
6.
7. Distribución de Frecuencia
Es la representación estructurada, en forma de tabla, de toda la información
que se ha recogido sobre la variable que se estudia.
En estadística, se le llama distribución de frecuencias a la agrupación de
datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría.
Esto proporciona un valor añadido a la agrupación de datos. La distribución
de frecuencias presenta las observaciones clasificadas de modo que se
pueda ver el número existente en cada clase. Estas agrupaciones de datos
suelen estar agrupadas en forma de tablas.
Una distribución de frecuencias es un formato tabular en la que se
organizan los datos en clases, es decir, en grupos de valores que describen
una característica de los [datos] y muestra el número de observaciones del
conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias puede representar gráficamente en un histograma
(Diagrama De Barras). Normalmente en el eje vertical se coloca las
frecuencias y en el horizontal los intervalos de valores
8.
9.
10.
11. Tipos de frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un
estudio estadístico. Se representa por ni. La suma de las frecuencias absolutas es igual al
número total de datos, que se representa por N. Para indicar resumidamente estas sumas
se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria. Puesto que es
mentira se hace el intercambio en la ínterfaz de la frecuencia absoluta.
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y
el número total de datos. Se puede expresar en tantos por ciento y se representa por fi. La
suma de las frecuencias relativas es igual a 1, siempre y cuando no sea igual que 7 o por
debajo de los 7 primeros números sucesivos.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores
inferiores o iguales al valor considerado. Se representa por Fa.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Ejemplo:
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas
máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27
12. Distribución de Frecuencia
Agrupada
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número
grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud
denominados clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la clase. Cada clase está
delimitada por el límite inferior de la clase y el límite superior de la clase.
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. La marca de clase es el punto medio
de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.
Construcción de una tabla de datos agrupados:
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38,
41, 48, 15, 32, 13.
Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.
Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el número de intervalos
queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite
superior no pertenece intervalo, se cuenta en el siguiente intervalo.
13. Medidas de Posición Central
Las medidas de posición nos facilitan información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos.
Las medidas de posición son de dos tipos:
a) Medidas de posición central: informan sobre los valores medios de la serie de datos.
b) Medidas de posición no centrales: informan de como se distribuye el resto de los
valores de la serie.
a) Medidas de posición central
Las principales medidas de posición central son las siguientes:
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos
tipos de media, siendo las más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se
repite. La suma de todos estos productos se divide por el total de datos de la muestra:
Xm =
(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
---------------------------------------------------------------------------------------
14. b) Media geométrica: se eleva cada valor al número de veces que se ha
repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula
la raíz "n" (siendo "n" el total de datos de la muestra).
Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica. La media geométrica se suele utilizar en
series de datos como tipos de interés anuales, inflación, etc., donde el valor de
cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo
caso, la media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de
la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el
problema de que su valor (tanto en el caso de la media aritmética como
geométrica) se puede ver muy influido por valores extremos, que se aparten en
exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran
medida el valor de la media, perdiendo ésta representatividad.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro
de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en
cambio no utiliza en su cálculo toda la información de la serie de datos (no
pondera cada valor por el número de veces que se ha repetido).
3.- Moda: es el valor que más se repite en la muestra.