Este documento describe los principales métodos para organizar datos estadísticos, incluyendo la organización de datos cualitativos y cuantitativos, así como distribuciones de frecuencias simples y por intervalos. Explica conceptos clave como frecuencia, porcentajes y porcentajes acumulados. Concluye que actualmente los datos suelen almacenarse en bases de datos informáticas después de ser codificados y organizados sistemáticamente.
1. ORGANIZACIÓN
DE DATOS
BACHILLER: RAFAEL AGUILERA
C.I: 26.785.145
REPUBLICA BOLIVARIANA DEVENEZUELA
MINISTERIO DEL PODER POPULAR PARA LA EDUCACION
INSTITUTO UNIVERSITARIO POLITECNICO “SANTIAGO MARIÑO”
ESCUELA DE INGENIERIA INDUSTRIAL
ESTADISTICA
2. Introducción
■ Por ejemplo un caso extremo de estudio que involucra a la estadística es la realización
de un censo, a pesar de la ayuda de procedimientos complejos diseñados para tal fin,
constituye siempre una tarea gigantesca resumir y describir las enormes cantidades de
datos que se generan de los proyectos de investigación. Usando los principios más
elementales de la estadística descriptiva, es posible describir las características de los
datos con bastante claridad y precisión, de modo que las tendencias o generalidades
se puedan descubrir más rápidamente y comunicar con mayor facilidad. Primero, es
menester clarificar que dependiendo del nivel de medición de la variable se posibilitará
su organización.
3. Organización de datos
■ Siendo el dato el material que se debe procesar, es
decir, la materia prima de la estadística, el primer paso
es entonces la recolección de datos, para lo cual se
emplean diferentes técnicas, como la entrevista
personal, el cuestionario, la observación, etc. El
segundo paso es la organización y ordenamiento de
los datos, lo que se hace a través de tablas, las cuales
pueden ser por medio de una distribución de
frecuencias simples o una distribución de frecuencias
con intervalos, en ambos casos agrupando todos
aquellos que corresponden a una mismo dato nominal
o variable y expresando en una columna el número de
veces que aparece esa variable.
■ LA FRECUENCIA es el número de veces que aparece
cada variable o dato nominal.
4. Por ejemplo ■ Se desea hacer una tabla que muestre las
calificaciones en Matemáticas de un grupo escolar.
Se ve que hubieron dos alumnos que sacaron 10 de
calificación, siete estudiantes sacaron 9, etc.; se
dice entonces que la frecuencia del dato nominal
10 es de dos; la frecuencia de la variable 9 es siete,
etc. Una distribución de frecuencias es el resultado
de organizar los datos recolectados en grupos,
mostrando la frecuencia de cada uno. Esta puede
ser simple o por intervalos.
5. Las variables estadísticas pueden ser de dos
tipos
■ Cualitativas: son aquellas en la que los resultados posibles no son valores numéricos. Por ejemplo:
color del pelo, tipo de ropa preferida, lugar de veraneo, etc.
■ Cuantitativas: aquellas cuyo resultado es un número. A
su vez, las hay de dos tipos:
– Cuantitativas discretas: cuando se toman valores
aislados. Por ejemplo: número de amigos de tu
pandilla, número de veces que vas al cine al mes,
número de coches que tiene tu familia.
– Cuantitativas continuas: cuando, entre dos
valores cualesquiera, puede haber valores
intermedios. Es decir, se toman todos los valores
de un determinado intervalo. Por ejemplo: peso de
las personas, nivel sobre el mar en que se
encuentra tu ciudad, medida del perímetro
torácico.
6. Organización de los datos cualitativos
■ En este caso la agrupación de los datos es muy sencilla y se hace de acuerdo a las modalidades
que presente las variable en estudio. mediante un conteo se determina el número de datos
(también llamado frecuencia) correspondiente a las diferentes categorías de la variable. este
procedimiento es valido para cualquier cantidad de datos. Ejemplo de Organización de los
datos cualitativos.
■ 1) En un estudio sobre las personas que ejercen cargos directivos en una empresa, se
realizaron 15 entrevistas y en relación al Genero se obtuvo la siguiente información:
f,f,m,m,f,m,m,m,f,f,m,f,f,m,f
■ Genero Personas Masculino 7 Femenino 8 total 15 EJEMPLOS DE DATOS CUALITATIVOS
Agrupando los datos de acuerdo a su categoría se obtiene. El procedimiento utilizado es
intuitivo y una vez resumida la información de esta manera se facilita la interpretación.
7. Ejemplos de datos cualitativos
■ Agrupando los datos de acuerdo a su categoría se obtiene.
■ El procedimiento utilizado es intuitivo y una vez resumida la información de esta manera se
facilita la interpretación.
8. Organización de los datos cuantitativos
■ Procedimiento similar, pero más laborioso, al utilizado con los datos cualitativos. vamos a
utilizar la información correspondiente a la edad de 15 estudiantes.
■ 12,14,10,15,16,12,14,18,20,19,19,18,12,15,17 un primer intento de organizar esos datos puede
consistir en ordenarlos de menor a mayor tal como se presenta a continuación
10,12,12,12,14,14,15,15,16,17,18,18, 19,19,20 este ordenamiento de los datos nos permite saber
que la edad mínima es 10 y la máxima es 20.
■ Otra cosa que podemos hacer, dado que algunos datos se repiten, es agruparlos formando una
columna donde aparezcan los valores diferentes de la edad, ordenados de menor a mayor y al
lado de cada edad el numero de niños que tienen esa edad.
■ Edad estudiantes 10 1 12 3 14 2 15 2 16 1 17 1 18 2 19 2
9. Operaciones con organización de datos
■ Es la operación estadística, definida como el conjunto de actividades, incluidas las
preparatorias, que conducen a la obtención y/o difusión de resultados estadísticos sobre un
determinado sector o tema o territorio. También se incluyen en el ámbito de esta definición
los trabajos de infraestructura y de normalización estadística que posibilitan la
coordinación, homogeneización e integración de las estadísticas, así como la recopilación
de resultados y la confección de síntesis.
■ Se define como operación estadística, a efectos del Inventario, el conjunto de actividades,
incluidas las preparatorias, que partiendo de una recogida de datos individuales conducen a
la obtención y/o difusión de resultados estadísticos agregados, en forma de tablas o de
índices, sobre un determinado tema relativo a la realidad demográfica, social, económica,
ecológica, etc. de la nación o sobre un determinado territorio de ella.
11. ■ Una de nuestras soluciones está orientada al respaldo
basado en el uso de la nube. Esta solución permite
administrar los respaldos y la recuperación de la
información de manera sencilla, ágil y rápida. Ideal para
empresas que están llevando sus servicios a la nube
tecnológica. La principal ventaja de este servicio es que
genera importantes ahorros para los clientes, ya que
“dada su naturaleza” no implica incurrir en gastos de
hardware.
■ Otra alternativa es mantener la información siempre en
el sitio del cliente. De esta manera, posibilita el respaldo
de un mayor volumen de información, en pequeños
lapsos de tiempo y necesitando un menor espacio de
almacenamiento en el servidor, gracias a la de-
duplicación en el origen de los datos. Mediante ella es
posible respaldar equipos de escritorio y notebooks,
máquinas virtuales, oficinas remotas, sistemas de
almacenamiento compartido y aplicaciones
empresariales.
12. Ejemplos de cada organización de datos
■ La frecuencia es el número de veces que aparece cada variable o dato nominal.
■ Por ejemplo, se desea hacer una tabla que muestre las calificaciones en Matemáticas
de un grupo escolar.
■ Se ve que hubieron dos alumnos que sacaron 10 de calificación, siete estudiantes
sacaron 9, etc.;
■ se dice entonces que la frecuencia del dato nominal 10 es de dos; la frecuencia de la
variable 9 es siete, etc
■ Una distribución de frecuencias es el resultado de organizar los datos recolectados en
grupos, mostrando la frecuencia de cada uno. Esta puede ser simple o por intervalos.
13. Distribución de frecuencias simple
■ Organizar los datos recolectados, ya sea de menor a
mayor o viceversa, de manera que se muestre la
frecuencia de cada uno de ellos, es hacer una distribución
de frecuencias simple. El primer paso es localizar el dato
menor y el dato mayor dentro del conjunto de datos
recolectados aún en desorden, en el caso que los datos
sean de carácter numérico. Una vez conseguido lo
anterior, en una primera columna se escriben todos los
números que van desde el menor hasta el mayor, incluidos
éstos. Luego, se cuenta cuántas veces aparece el primer
valor nominal, para lo cual se aconseja ir marcando con
una línea ( / ) cada vez que se cuente uno. El proceso debe
repetirse para cada variable. Finalmente se cuentan el
número de marcas que se hayan registrado para cada
valor nominal y se procede a construir la tabla definitiva.
14. Ejemplo
■ Ordenar y construir una tabla de frecuencias simple del siguiente conjunto de datos
recolectados. 24 20 32 32 29 21 21 22 33 30 27 26 23 24 20 25 26 32 28 22 29 29 33 35 31 28 32 35
33 32 27 21 33 29 25 24.
■ Solución:
■ Primer paso: Se localizan los números más chico y más grande: son el 20 y el 35.
■ Segundo paso: Se hace una lista completa de números desde el 20 hasta el 35: 20 24 28 32 21 25
29 33 22 26 30 34 23 27 31 35
■ Tercer paso: Se cuenta cuántos datos nominales 20 aparecen y por cada uno que aparezca se
pone una “rayita” ( / ). Se hace lo mismo para cada valor: 20 // 24 /// 28 // 32 ///// 21 /// 25 // 29 ////
33 //// 22 // 26 // 30 / 34 23 / 27 // 31 / 35 //
■ A manera de comprobación, para tener la seguridad de que no se escapó alguno o no se
contaron de más, la suma de todas las “rayitas” ( / ) debe ser igual al número de datos
nominales del conjunto inicial. En este caso existen 36 datos nominales y 36 “rayitas”, lo que
significa que el conteo fue correcto.
15. Ejemplo
■ Cuarto paso: Se elabora la tabla definitiva.
■ En una tabla son indispensables
■ • Los encabezados de columna,
■ • las líneas horizontales que delimitan la tabla por la parte superior y por la parte inferior,
■ • la línea horizontal que delimita por su paste inferior a los encabezados y
■ • las líneas verticales que delimitan las columnas.
16. Distribución de frecuencias por
intervalos
■ Los datos recolectados pueden también organizarse por intervalos. Por ejemplo, al realizar
un censo en una ciudad, podría interesar cuántas personas tienen 0, 1 ó 2 hijos, cuántas 3, 4
ó 5 hijos, cuántas 6, 7 u 8 hijos, etc. Cada intervalo se llama también clase. El ancho de
clase o longitud del intervalo es la resta de el límite superior menos el límite inferior de
cada clase o intervalo. Así, en el ejemplo anterior, el intervalo de 0 a 2 hijos tiene un ancho
de 2 - 0 = 2. No debe confundirse el ancho de la clase con el número de datos nominales
que contiene el intervalo.
■ Cuando se trabaja con variables discretas, el ancho de clase o longitud del intervalo es la
resta de el límite superior menos el límite inferior de cada clase o intervalo, mientras que el
número de datos es la resta de el límite superior menos el límite inferior de cada clase o
intervalo más 1. Por ejemplo, si se elabora una tabla para analizar cuántas personas tienen
0, 1 ó 2 hijos, cuántas 3, 4 ó 5 hijos, cuántas 6, 7 u 8 hijos, etc.,
17. ■ El ancho de clase sería mientras que el núm 20 2 − = ero de datos que contenga el intervalo
sería de 201 3 −+= . Da lo mismo hacerlo con cualquier renglón. Cuando se trabaja con
variables continuas, el ancho de clase o longitud del intervalo es, igual que antes, la resta de
el límite superior menos el límite inferior de cada clase o intervalo, mientras que el número
de datos posibles que pudiera contener el intervalo no es posible conocerlos porque caben
todos los valores intermedios. Por ejemplo, si se elabora una tabla para analizar cuántas
personas pesan de 20kilos a 30 kilos, cuántas de 30 kilos a 40 kilos, etc.
■ El ancho de clase sería 30 20 10 − = mientras que el número de datos que contenga el
intervalo no es posible determinarlo, ya que pueden darse pesos como 21.4, o bien 24.76,
etc. Da lo mismo hacerlo con cualquier renglón. Aquí se presenta el conflicto de que si una
persona pesa 40 kg. ¿en qué fila debe contarse, en la segunda o en la tercera, porque en
ambas está el valor de 40? Lo anterior se suele resolver incluyendo un extremo sí y el otro
no en cada fila. Simbólicamente significaría que de esta manera el valor 40 ya no está
incluido en la segunda fila y sí en la tercera. A la organización de los datos recolectados en
tablas por intervalos se le llama distribución de frecuencias por intervalos. La característica
más importante es que el ancho de cada clase o longitud del intervalo debe ser el mismo
para cada intervalo.
18. Frecuencias acumuladas
■ Muchas veces resulta de gran utilidad tener información sobre la frecuencia que a partir del
inicio de la tabla se tiene hasta cierto dato nominal determinado. A lo anterior de se le conoce
con el nombre de frecuencias acumuladas (fa) y se añade en una columna en la misma tabla.
■ Ejemplo 1: En los datos del ejemplo de la página 128, sus frecuencias acumuladas son:
■ PORCENTAJESY PORCENTAJES ACUMULADOS Otras dos informaciones muy útiles dentro
de la etapa de organización de datos es calcular el porcentaje de cada variable conforme a su
frecuencia, lo mismo que su porcentaje acumulado, ya sea en una distribución de frecuencias
simple o por intervalos. Para calcular el porcentaje basta hacer una regla de tres, en donde el
100% es el número N de datos recolectados, o sea el total de las frecuencias, esto es N = F 100
%
■ Donde: n = número total de datos recolectados o frecuencia total f = frecuencia particular del
dato nominal del que se desea saber su porcentaje % = porcentaje correspondiente al dato
nominal de frecuencia f. O bien, despejando, se obtiene que
N = F
100 %
19. Conclusión
■ Actualmente los datos suelen ser analizados con ordenador, por lo que deben ser almacenados en
archivos informáticos. Las bases de datos contienen datos provenientes de un número de
observaciones más o menos grande respecto de un conjunto de variables que puede llegar a ser
bastante grande. La generación de una base de datos supone la codificación previa de las
observaciones, la introducción (grabación) de los datos en archivos informáticos, la depuración de
los datos ya grabados (detección y tratamiento de los errores de grabación y valores faltantes), y
eventualmente la realización de transformaciones y tratamiento de ficheros que faciliten su
posterior tratamiento estadístico.
■ Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy difícil en
general, obtener conclusiones de los datos presentados de esta manera. Para poder obtener una
precisa y rápida información con propósitos de descripción o análisis, estos deben organizarse de
una manera sistemática; es decir, se requiere que los datos sean clasificados. Esta clasificación u
organización puede muy bien hacerse antes de la recopilación de los datos.