Este documento describe los principios básicos de la organización de datos estadísticos. Explica cómo organizar los datos en tablas de frecuencia que agrupan datos similares y cuentan su frecuencia. También describe cómo calcular medidas como las frecuencias absolutas, relativas y porcentajes, y cómo representar gráficamente los datos usando diagramas de barras, sectores y polígonos de frecuencias. El objetivo final es sintetizar grandes cantidades de datos para descubrir tendencias.
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
Organización de datos estadísticos
1. INSTITUTO UNIVERSITARIO POLITECNICO
«SANTIAGO MARIÑO»
SEDE – BARCELONA
INGENIERIA ELECTRICA
ESTADISTICA
Organización De Datos
PROFESOR: ALUMNO :
PEDRO BELTRAN JOSE MATA
C.I.: 20.764.840
2. INTRODUCCIÒN
La estadística con frecuencia se realiza con la intención de llegar a establecer
conclusiones o a obtener resultados, esto demanda muchas veces estudiar centenares de
cifras de cosas, objetos, personas o grupos.
Por ejemplo un caso extremo de estudio que involucra a la estadística es la
realización de un censo, a pesar de la ayuda de procedimientos complejos diseñados para
tal fin, constituye siempre una tarea gigantesca resumir y describir las enormes cantidades
de datos que se generan de los proyectos de investigación.
Usando los principios más elementales de la estadística descriptiva, es posible
describir las características de los datos con bastante claridad y precisión, de modo que las
tendencias o generalidades se puedan descubrir más rápidamente y comunicar con mayor
facilidad. Dependiendo del nivel de medición de la variable se posibilitará su organización
3. Organización de los Datos
Siendo el dato el material que se debe procesar, es decir, la materia prima de la
estadística, el primer paso es entonces la recolección de datos, para lo cual se emplean
diferentes técnicas, como la entrevista personal, el cuestionario, la observación, etc. El
segundo paso es la organización y ordenamiento de los datos, lo que se hace a través de
tablas, las cuales pueden ser por medio de una distribución de frecuencias simples o una
distribución de frecuencias con intervalos, en ambos casos agrupando todos aquellos que
corresponden a una mismo dato nominal o variable y expresando en una columna el
número de veces que aparece esa variable.
Tipos de Organización de Datos
Distribución de Frecuencia Simple
Distribución de Frecuencia Por Intervalos
4. Distribución Frecuencia
Tabla de Frecuencia Diagrama estadístico
Al ordenar los datos
correspondidos a un cierto estudio es
usual agruparlos en grupos o
categorías para lo cual generalmente
se utilizan tablas de frecuencia. Hay
4 categorías de frecuencias en esta
tabla.
Diagrama de sectores circulares.
Diagrama de barras simples.
Diagrama de barras apiladas
Diagrama de barras compuestas
Frecuencia Absoluta (fi)
Frecuencia Absoluta Acumulada (Fi)
Frecuencia Relativa (pi)
Frecuencia Relativa Porcentual (Pa)
5. Frecuencia Absoluta (fi): Es número de veces que aparece una determinada modalidad de una
variable (X) es lo que se conoce como la frecuencia absoluta (fi) de esa modalidad o valor. De
las frecuencias absolutas se pueden obtener las frecuencias relativas o
proporciones (pi):
pi= ni / n
- Las frecuencias relativas también pueden expresarse como porcentajes (%i) con tan sólo
multiplicar su valor por 100:
%i = pi ·100
Ejemplo: para la variable categórica “Estado civil” (X), habiendo sido recogidos datos para
una muestra de 50 personas de la ciudad de Castellón (n = 50):
X: {0, 0, 1, 2, 2, 0, 1, 3, 2, 0, 1, 0, 1, 2, 0, 2, 1, 1, 0, 1, 0...}
Codificación: [0: soltero/a; 1: casado/a; 2: separado/a o divorciado/a; 3: viudo/a]
Xi Frec. Absoluta
(fi)
Frec. Relativa
(hi)
Porcentaje (%i)
0 15 0,3 30
1 20 0,4 40
2 11 0,22 22
3 4 0,08 8
N= 50 1,00 100
6. La Frecuencia Absoluta Acumulada (Fi): Es el resultado de ir sumando las frecuencias
absolutas de las observaciones o valores de una población o muestra. Esta se representa por las
siglas Fi.
Para calcular la frecuencia absoluta acumulada, hay que calcular primero la frecuencia
absoluta (fi) de la población o muestra. Para ello, los datos se ordenan de menor a mayor y se
colocan en una tabla.
Una vez hecho esto, la frecuencia absoluta acumulada se obtiene de ir sumando las
frecuencias absolutas de una clase o grupo de la muestra con la anterior (primer grupo +
segundo grupo, primer grupo + segundo grupo + tercer grupo y así sucesivamente hasta llegar a
acumular del primer grupo al último).
Fi = f1+f2+….+ fi
F1=f1
F2= f1+f2 = 4+9 = 13
F3=f1+f2+f3 = 4+9+12= 25
7. La Frecuencia Relativa (hi): Es una medida estadística que se calcula como el cociente de la
frecuencia absoluta de algún valor de la población/muestra (fi) entre el total de valores que
componen la población/muestra (N).
Para calcular la frecuencia relativa antes es necesario calcular la frecuencia absoluta. Sin
ella no podríamos obtener la frecuencia relativa. La frecuencia relativa se representa con las
letras hi y su fórmula de cálculo es la siguiente:
ℎ𝑖 =
𝑓𝑖
𝑁
N = es el total de la frecuencia
Absoluta
Fi= frecuencia absoluta
ℎ1 =
15
50
= 0,3
ℎ2 =
20
50
= 0,4
8. La Frecuencia Relativa Acumulada (Ni): Es el cociente entre la frecuencia acumulada de un
determinado valor y el número total de datos.
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31,
34, 33, 33, 29, 29.
n1 -
n4 -
Xi fi Fi Ni
27 1 1 0,032
28 2 3 0,097
29 6 9 0,290
30 7 16 0,0516
31 8 24 0,774
32 3 27 0,871
33 3 30 0,968
34 1 31 1
N= 31
𝑁𝑖 =
𝐹𝑖
𝑁(𝑓𝑖)
𝑁1 =
1
31
= 0,032
𝑁4 =
16
31
= 0,0516
9. Porcentaje y porcentajes Acumulados: Otras dos informaciones muy útiles dentro de la etapa
de organización de datos es calcular el porcentaje de cada variable conforme a su frecuencia, lo
mismo que su porcentaje acumulado, ya sea en una distribución de frecuencias simple o por
intervalos. Para calcular el porcentaje basta hacer una regla de tres, en donde el 100% es el
número N de datos recolectados, o sea el total de las frecuencias, esto es:
𝑛
100
=
𝑓
%
Donde:
n = numero total de datos recolectados o frecuencia total
f = frecuencia particular del dato nominal del que se desea saber su porcentaje
% = porcentaje correspondiente al dato nominal de frecuencia f.
O bien, despejamos, se obtiene que:
% =
100 ∗ 𝑓
𝑛
10. X f fa % %a
20 2 2 5,555 5,55
21 3 5 8,333 13,88
22 2 7 5,555 19,44
23 1 8 2,777 22,22
24 3 11 8,333 30,55
25 2 13 5,555 36,11
26 2 15 5,555 41,66
27 2 17 5,555 47,22
28 2 19 5,555 52,77
29 4 23 11,111 63,88
30 1 24 2,777 66,66
31 1 25 2,777 69,44
32 5 30 13,888 83,33
33 4 34 11,111 94,44
34 0 34 0 94,44
35 2 36 5,555 99,99
Por Ejemplo: En la tabla del ejemplo 1, añadir una columna
que exprese los porcentajes de cada dato nominal y otra de sus
porcentajes acumulados. Solución: Para obtener el porcentaje
del primer dato 𝑥 = 20 , se plantea una regla de tres simple, en
donde el número total de datos es el 100%:
36
100
=
2
%
Donde:
% =
100∗2
36
→ % = 5, 5
Se hace lo mismo con los demás datos, de manera que la tabla
se completa de la siguiente forma:
11. Representación Gráfica de una Distribución de Frecuencias
1. Para variables categóricas:
El diagrama de barras: Las modalidades de la variable se sitúan sobre el eje X (abscisas). La
altura de las barras es proporcional a la frecuencia absoluta de cada una de las modalidades
de la variable. El eje de ordenadas puede aparecer expresado en frecuencias absolutas, en
frecuencias relativas o en porcentajes. Los diagramas de barras pueden representarse también
de forma horizontal.
Ejemplo para la variable procedente de la siguiente pregunta de un test: “¿Cómo es su vida?”
12. El diagrama de sectores (pastel, tarta): el área de cada sector es proporcional a la frecuencia o
% de la modalidad a la que representa.
El pictograma: es una variación gráfica de los
diagramas de barras.
13. 2. Para variables cuasi-cuantitativas y cuantitativas discretas:
El diagrama de barras: se representa de forma análoga a como se hace para las variables
categóricas. Señalar que el hueco entre las barras sirve para resaltar que hay valores que no son
posibles para la variable representada. A diferencia de las variables categóricas, para este tipo de
variables tiene sentido representar no sólo las frecuencias absolutas, las relativas y los
porcentajes, sino también las respectivas acumuladas.
Ejemplo para la variable “Nº de hijos”:
14. • Polígono de frecuencias: polígono que resulta de unir con una línea los valores de las
frecuencias o %s (ya sean acumulados o no) correspondientes a las modalidades de la variable.
Los polígonos de frecuencias facilitan la superposición gráfica, por
ejemplo, para comparar dos variables para un mismo conjunto de casos, o
bien, para comparar las distribuciones de frecuencias de una variable
condicionada a los valores de una segunda variable
Ejemplo de polígono de frecuencias superpuesto para la distribución de
frecuencias absolutas de la variable “Calificaciones examen” condicionada
a la variable “Sexo”, cuyos datos se presentaron en un ejemplo anterior al
introducir el concepto de distribución de frecuencias condicionada:
15. Un ejemplo: En el que se aprecia más este hecho es el siguiente con los datos de un estudio que se hizo en los
EEUU sobre las características de los diferentes modelos de coches existentes en el mercado en el momento en
que se realizó el estudio. En concreto, a continuación se muestra la información correspondiente a la
distribución de frecuencias de la variable “Nº de cilindros” condicionada a la variable “País de origen del
vehículo”, así como los correspondientes gráficos de polígonos de frecuencias superpuestos expresados en
frecuencias absolutas y en porcentajes:
País de origen
TotalEE.UU. Europa Japón
Número de 3 cilindros 4 4
cilindros 4 cilindros 72 66 69 207
5 cilindros 3 3
6 cilindros 74 4 6 84
8 cilindros 107 107
Total 253 73 79 405
120
100
80
60
40
20
0
100,0%
80,0%
60,0%
40,0%
20,0%
0,0%
3 cilindros 4 cilindros 5 cilindros 6 cilindros 8cilindros 3 cilindros 4 cilindros 5 cilindros 6 cilindros 8 cilindros
País de origen
EE.UU.
Europa
Japón
País de origen
EE.UU.
Europa
Japón
Frecuencia
Porcentaje
16. 3. Para variables cuantitativas continuas
Histograma: similar al diagrama de barras, si bien, las barras son consecutivas dada la
continuidad de la variable. Cada barra representa ahora, no a un valor, sino a un intervalo de
valores. A la hora de definir los intervalos de valores se debe tener en cuenta que ninguno de los
datos recogidos para la variable se quede fuera de los intervalos. Los intervalos deber ser
exhaustivos y excluyentes.
Ejemplo para las puntuaciones obtenidas por un grupo de sujetos en una escala de impulsividad:
También es posible dibujar
polígonos de frecuencias para las
variables cuantitativas continuas
uniendo con una línea los valores
de las frecuencias o % (ya sean
acumulados o no)
correspondientes a los intervalos
de valores creados.
17. Propiedades de las Distribuciones de Frecuencias
Si bien la representación gráfica de una distribución de frecuencias puede adoptar múltiples
formas, existen algunos patrones de distribución que, por lo particular de los mismos y/o por su
importancia, han sido denominados de un modo concreto.
A modo de ejemplo, las dos siguientes presentadas en forma gráfica para dos variables
concretas:
La distribución rectangular o uniforme:
La distribución normal:
18. Sobre estos dos patrones y otros que caracterizan en su conjunto a la distribución de
frecuencias de algunas variables se profundizará en un tema posterior. Ahora bien, a la hora de
describir una distribución de frecuencias podemos atender, más que a la forma en su conjunto, a
diferentes facetas particulares de la misma. Así, los 3 temas que siguen a éste se centran en
algunas de estas facetas que permiten sintetizar la información contenida en una distribución de
frecuencias. Se trata de facetas como las dos siguientes, las cuales se presentan aquí
simplemente a título introductorio y a través de ejemplos gráficos que permitan captar el
significado de las mismas:
La posición de la distribución
Ejemplo de la diferente posición de las dos distribuciones de frecuencias de una misma variable,
“Altura (cm)”, medida en dos grupos de sujetos distintos:
19. La dispersión o variabilidad de la distribución
Ejemplo de la diferente dispersión de las dos distribuciones de frecuencias de una misma
variable, “Altura (cm)”, medida en dos grupos de sujetos distintos -que, en cambio, comparten
una posición muy similar:
20. CONCLUSIÓN
Es preciso señalar que el objetivo principal de la organización de los datos es indicar las
propiedades de los mismos conociendo además sus particularidades. Si se hace una mirada hacia
atrás, es importante señalar que la estadística descriptiva se puede analizar a través de
descripciones gráficas (tabulaciones o ya sea representaciones gráficas) y descripciones
numéricas (medidas calculadas con los datos muéstrales) y para analizar dichos datos se toman
en cuenta dos tipos de clasificación:
Procedimiento de análisis exploratorio. Palabras clave: etapa inicial, conocimiento ligero,
relevante, utiliza diagrama o medidas simples
Procedimiento de análisis clásico. Palabras clave: conocimiento definido, resultados de
datos concisos, se utilizan tablas y estadígrafos.
En conclusión los procesamientos de la organización datos se pueden hallar a través de
una recolección de forma directa e indirecta a través de diferentes medios. Este proceso consiste
en recolectar datos para luego organizarlos y clasificarlos ya sea en tabulaciones o gráficos, para
luego ser analizados de forma veraz y lo más cercano a la realidad.
21. Bibliografía
Luiscarlys Maican, 2017, Organización de Datos, es.slideshere.net
https://es.slideshare.net/LuiscarlysMaican/organizacion-de-datos-estadstica-79758764
Moises Betancort, 27 de ago. de 2009, Organización de Datos, es.slideshere.net
https://es.slideshare.net/moibemo/tema-2-organizacin-de-los-datos
J. Gabriel Molina y María F. Rodrigo, Curso 2009-2010, Organización y representación gráfica de los
datos, ocw.uv.es
http://ocw.uv.es/ciencias-de-la-salud/pruebas-1/1-3/t_02nuevo2.pdf
Johanna Garcia, 20 de jul. de 2014, organización de los datos, es.slideschere.net
https://es.slideshare.net/johannagarcia52035/conclusiones-de-unidad-2-organizacin-de-los-datos