Este documento introduce los conceptos básicos de la estadística descriptiva. Explica que la estadística estudia la recolección, análisis e interpretación de datos para explicar patrones en fenómenos aleatorios. Discute las ramas de la estadística, variables, escalas de medición, presentación de datos en tablas y gráficos, y usos comunes de la estadística.
2. Historia
Proviene del griego y significa ciencia del Estado
Origen de la ciencia estuvo ligado a la actividad del
gobierno o del poder político
En sus comienzos tenía como función registrar
características o acontecimientos de interés para los
gobernantes de un territorio concreto
La estadística moderna tiene su origen en el Cálculo de las
probabilidades que nace en el siglo XVII como teoría
Matemática de los juegos de azar y la Estadística o ciencia
del Estado que estudia la descripción de los datos.
Actualmente y conjuntamente con el computador se
convierte en un instrumento de análisis poderoso para todo
tipo de investigación
3. ¿Ramas de la estadística?
La Estadística es la ciencia, con base matemática, referente a
la recolección, análisis e interpretación de datos, que busca
explicar condiciones regulares en fenómenos de tipo aleatorio.
•Sistematización, recogida, ordenación y presentación de los
datos referentes a un fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con objeto de
deducir las leyes que rigen esos fenómenos,
•y poder de esa forma hacer previsiones sobre los mismos, tomar
decisiones u obtener conclusiones.
Descriptiva
Probabilidad
Inferencia
4. Áreas de Aplicación de la Estadística
• El uso de la Estadística es muy amplio. Resulta difícil
nombrar un área en la cual no se emplee.
• Los métodos estadísticos han encontrado aplicación en:
– Gobierno
– Negocios
– Ciencias Sociales
– Ingeniería
– Ciencias Física y Naturales
– Control de Calidad
– Procesos de Manufactura
– Muchos otros campos de la actividad intelectual.
7. Población
Se clasifica en dos categorías:
Finita: Es aquella que incluye una cantidad limitada contable
de observaciones, individuos o medidas. Siempre que sea
posible alcanzar (contar) el número total de todas las posibles
mediciones, se considera como finita la población.
Infinita: Es aquella que incluye un gran conjunto de
observaciones o mediciones que no pueden alcanzarse por
conteo. Al menos, hipotéticamente, no existe límite en cuanto
al número de observaciones que el experimento puede
generar.
8. Tipos de Variables
• Cualitativas: son datos que solo
toman valores asociados a las
cualidades o atributos,
clasificándolos en una de varias
categorías, es decir, no son
valores numéricos. Ej:
• Sexo: f/m
• Tipo de especie: Oreochromis
niloticus, Prochilodus
magdalenae, Caquetaia
kraussii, Lutjanus synagris,
Scomberomorus brasiliensis,
etc.
• Color de ojos: negro, azul,
marrón, …
• Estación del año: verano,
invierno
• Cuantitativas (Discretos y
continuos): provienen de
variables que pueden
medirse, contarse,
cuantificarse o expresarse
numéricamente. Ejemplos:
• Peso
• Edad
• Altura
• Presión
• Humedad
• Intensidad de un sismo
• Cantidad de animales
9. Escalas de medida para variables
cuantitativas
• Escala de Intervalos: valores numéricos de las variables y además
de las relaciones de orden (>, <, , ), se pueden establecer
distancias, es decir, tienen sentido las operaciones de suma y
resta. Tiene dos propiedades:
• Existe una unidad de medida que se mantiene constante para
todos los valores que toma la variable.
• Existe un valor patrón u origen relativo que no significa la
ausencia de valor en la variable.
• Ejemplo: temperatura, nivel de ruido, movimientos sísmicos.
• Escala de razón o proporción: es la más completa y general de
todas las escalas. Se caracteriza porque los valores de la variable
son números entre los cuales, además de las relaciones de orden
(>, <, , ) y distancia (+,-), se pueden establecer múltiplos y
proporciones.
• Ejemplos: peso, altura, volumen…
10. Escalas de medida para variables
cualitativas
•Escala nominal: los datos se pueden agrupar en
categorías que no mantienen una relación de orden
entre si, por lo tanto no están definidas las operaciones
lógicas (>, <, , ) sino solo las de igualdad o diferencia.
•Ejemplos: color de ojos, sexo, profesión, estado civil,
religión.
•Escala ordinal: existe un cierto orden o jerarquía entre
las categorías (>, <, , ).
•Ejemplos: grados militares, organigrama de una
empresa, escalafón de los profesores universitarios,
grados de disnea, estadiaje de un tumor.
11. Categóricas
nominal Sexo: macho, hembra
ordinal
Nivel socioeconómico:
Bajo, Medio y Alto
Numéricas
de
intervalo
Temperatura, calificación de
examen, etc.
Estatura, peso, distancia, etc.
de razón
o relación
Variables
Escala de
medición Ejemplos
12. POBLACIÓN CONTINUO DISCRETO NOMINAL ORDINAL
Ratas de
Laboratorio
Peso
edad
Número de
crías por rata
Color: negro,
blanco, gris
Calidad del
nido:
excelente,
bueno,
regular, malo
Automóviles Peso
longitud
Número de
defectos
Colores Tamaño
Algunas poblaciones pueden proporcionar
los cuatro tipos de datos
13. PRESENTACION GRAFICA
Género Frec.
Hombre 4
Mujer 6
0
1
2
3
4
5
6
7
Hombre Mujer
Las dos exponen ordenadamente la información recogida en una
muestra.
Los gráficos tienen que dar una visión general y no una imagen
detallada de un conjunto de datos.
Las presentaciones detalladas se deben reservar para las tablas.
Una tabla, gráfico o expresión matemática que dé las probabilidades con
que una variable aleatoria toma diferentes valores, se llama distribución
de la variable aleatoria.
Las tablas estadísticas o de frecuencias y las representaciones gráficas son
dos maneras equivalentes de presentar la información.
14. FORMAS DE PRESENTACION DE LA INFORMACION
Textual
Introduce las cifras o datos dentro del texto. Es
muy usada en artículos de periódicos o revistas y en
informes.
Semitabular
También es muy usada en informes y revistas o
periódicos. En este caso, los datos o cifras se
presentan separados del texto, después de dar una
breve explicación sobre el tema.
Tabular Cuadro No 1
TITULO
(nota introductoria)
Columna Matriz Encabezados
Columna Matriz Cuerpo Cuerpo
Nota al pie
FUENTE:
¿Qué son los datos?,
¿cuándo y dónde se
recolectaron, cómo y
bajo que criterios de
clasificación
Las tablas deben tener notas explicativas al pie de ser necesario, p.ej., para precisar
la prueba de hipótesis empleada.
16. Tabla de Frecuencias: Tipo I
Cuando hay pocas observaciones e
inexistencia de valores repetidos, no se
precisan tablas. Solo hay que anotarlas de
manera ordenada en filas o columnas, por
ejemplo si tenemos una muestra de animales
encontrados en los últimos 5 meses:
5
8
16
38
45
5 8 16 38 45
17. Tabla de Frecuencias: Tipo II
Cuando hay muchas observaciones,
pero la variable toma pocos valores
repetidos Se presentan en tablas con
dos columnas . Por ejemplo, si se
investiga por el número de animales de
corral que hay por granjas en una zona,
se obtiene la siguiente tabla:
Podemos observar que la variable
toma valores comprendidos entre 1
y 4, por lo que precisaremos una
tabla en la que resumamos estos
datos quedando la siguiente tabla:
2 1 2 2 1 2 4 2 1 1
2 3 2 1 1 1 3 4 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 1 4 1
1 3 4 3 2 2 2 1 3 3
# de animales # de granjas
1 16
2 20
3 9
4 5
Total 50
18. Tabla de Frecuencias: Tipo III
Cuando Hay muchas observaciones y la variable
toma muchos valores distintos; se hace necesario
agrupar en intervalos los valores de la variable.
Durante un periodo de tiempo se realizaron 34
mediciones diarias de los niveles de emisión de
oxido de azufre (en toneladas) en una planta
industrial, obteniéndose los siguientes datos:
La variable estadística tiene un recorrido = max –
min = 16.5 – 7.8 = 8.7, por lo que sí queremos hacer
una tabla con estos datos tendremos que tomar
intervalos. Si se dispone de n datos muestrales, se
suele usar la regla de “Sturges”:
k = [3.3 * log n] + 1
Ejemplo: Para n = 34, usar:
k = [3, 3 · log 34] + 1 = [3. 3 * 1.5] + 1 = 4.9 + 1 = 6
clases
Amplitud = 8.7/ 6 = 1.45. Por lo que tomaremos
intervalos de amplitud 1.5
Con estas recomendaciones tendremos la siguiente
tabla:
Observación Nivel Observación Nivel
1 10,6 18 12,4
2 12,5 19 9,1
3 11,1 20 7,8
4 9,2 21 11,3
5 11,5 22 12,3
6 9,9 23 9,7
7 11,9 24 12,0
8 11,6 25 11,8
9 14,9 26 12,7
10 12,5 27 11,4
11 12,5 28 9,3
12 12,3 29 8,6
13 12,2 30 8,5
14 10,8 31 10,1
15 16,5 32 12,4
16 15,0 33 11,1
17 10,3 34 10,2
Clases Número de
emisiones
7.5 - 9.0 3
9.1 - 10.6 9
10.7 - 12.2 10
12.3 - 13.8 9
13.9 - 15.4 2
15.5 - 17.0 1
Total 34
20. Tabla de Frecuencias
Para descubrir como se “reparten” los datos entre las clases,
consideraremos las frecuencias (que representan el número de
repeticiones de un dato u observación).. Los datos cuantitativos discretos
se organizan en tablas, llamadas Tablas de Distribución de
Frecuencias. tipos de frecuencias:
a)frecuencias absolutas: es el número de veces que aparece dicho
valor de la variable y se representa por fi.
b)frecuencias relativas: es el cociente entre la frecuencia absoluta y el
tamaño de la muestra. La denotaremos por fri
c) frecuencias absoluta acumulada: es el número de veces que ha
aparecido en la muestra un valor menor o igual que el de la variable y lo
representaremos por fa, se puede acumular, en la tabla estadística) en
orden ascendente (fa↑) o descendente (fa↓)
d) frecuencia relativa acumulada: al igual que en el caso anterior se
calcula como el cociente entre la frecuencia absoluta acumulada dividido
por el tamaño de la muestra (N) y la denotaremos por fra.
21. Tabla de Frecuencias
Consideremos el ejemplo de las 34 observaciones de los niveles de emisión
de azufre en una planta industrial. La Tabla de Distribución de Frecuencia
será:
Niveles de
Azufre
Frecuencia
absoluta
Frecuencia
absoluta
acumulada
Frecuencia
relativa
Frecuencia
relativa
acumulada
7.5 - 9.0 3 3 0,09 0,09
9.1 - 10.6 9 12 0,26 0,35
10.7 - 12.2 10 22 0,29 0,65
12.3 - 13.8 9 31 0,26 0,91
13.9 - 15.4 2 33 0,06 0,97
15.5 - 17.0 1 34 0,03 1,00
Total 34 1,00
Frecuencia / Total
Suma parcial de
las frecuencias
relativas
Suma de las
Frecuencias absolutas
La suma debe ser 1Suma parcial de las
frecuencias Este valor
siempre es 1
+
+
22. Ejemplo 1
•¿Cuántas granjas tienen
menos de 2 animales?
–frec. Granjas sin animales
+
frec. Granjas con1 animal
= 419 + 255
= 674 granjas
•¿Qué porcentaje de granjas
tiene 6 animales o menos?
–97,3%
•¿Qué número de animales es
tal que al menos el 50% de
las granjas tiene una cantidad
inferior o igual a ese valor?
–2 animales
Número de
animales
Frecuencia
absoluta
Frecuencia
relativa
Frecuencia
relativa
acumulada
0 419 27.8 27.8
1 255 16.9 44.7
2 375 24.9 69.5
3 215 14.2 83.8
4 127 8.4 92.2
5 54 3.6 95.8
6 24 1.6 97.3
7 23 1.5 98.9
ocho + 17 1.1 100.0
Total 1509 100.0
Número de animales por granjas
>50%
23. Representaciones Gráficas
1. La información contenida en las tablas de frecuencias resulta más
accesible y fácil de interpretar si se representan por medio de
gráficos estadísticos.
2. Son de los medios más conocidos para la presentación y análisis de
la información estadística
3. Permiten una visión clara, rápida y atractiva, de manera que es
posible:
a. Explorar los datos.
b. Visualizar la forma de la distribución de los datos
c. Observar patrones o tendencias.
d. Agrupar información por factores.
e. Observar relaciones
f. Comparar distribuciones
g. Comparar medidas estadísticas
4. Debe constar de un sistema de coordenadas, escala, título de
escala, título, fuente y leyenda
5. No existen reglas estrictas para su elaboración
24. GRÁFICOS. Diagrama de barras
Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o
cuantitativa discreta ( o sea, no agrupada en intervalos) y, ocasionalmente, en la representación de
series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean
absolutas o relativas (%), y el otro para la escala de clasificación utilizada. La orientación del gráfico
puede ser: Vertical o Horizontal, pueden ser comparativos o bi direccionales (Pirámides de
población).
Se suelen usar para:
Comparar magnitudes de varias categorías.
Ver la evolución en el tiempo de una magnitud concreta
25. Está formado por rectángulos, cuyas bases corresponden con los intervalos de clase y sus
áreas son iguales o proporcionales a sus frecuencias. Este gráfico se usa para representar una
distribución de frecuencias de una variable cuantitativa continua. Habitualmente se representa la
frecuencia observada en el eje Y, y en el eje X la variable (los intervalos o las marcas de clase
que son los puntos medios de cada intervalo). No existe separación entre las barras
GRÁFICOS. Histograma
Construcción de un histograma
Paso 1.Determinar el rango de los datos. Rango es igual al dato mayor menos el
dato menor.
Paso 2. Obtener todos los números de clases, existen varios criterios para
determinar el número de clases (o barras) -por ejemplo la regla de Sturgess-. Sin
embargo ninguno de ellos es exacto. Algunos autores recomiendan de cinco a
quince clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio
usado frecuentemente es que el número de clases debe ser aproximadamente a
la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (
número de artículos) es mayor que cinco, por lo que se seleccionan seis clases.
Paso 3. Establecer la longitud de clase: es igual al rango dividido por el número
de clases.
Paso 4. Construir los intervalos de clases: Los intervalos resultan de dividir el
rango de los datos en relación al resultado del PASO 2 en intervalos iguales.
Paso 5. Graficar el histograma: En caso de que las clases sean todas de la
misma amplitud, se hace un gráfico de barras, las bases de las barras son los
intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos
medios de la base superior de los rectángulos se obtiene el polígono de
frecuencias.
26. Es una línea poligonal que une los vértices superiores de las barras de un
diagrama de barras, o los puntos medios de las bases superiores de los
rectángulos de un histograma. Se utiliza, al igual que el histograma, para
representar distribuciones de frecuencias de variables cuantitativas
continuas, pero como no se utilizan barras en su confección sino
segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa
cuando se quiere mostrar en el mismo gráfico más de una distribución.
GRÁFICOS. Polígono de frecuencia
27. Es un polígono de frecuencia acumuladas, es decir, que en ella se permite
ver cuántas observaciones se encuentran por encima o debajo de ciertos
valores, en lugar de solo exhibir los números asignados a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que
el dato que se está comparando tendrá una pendiente negativa (hacia
abajo y a la derecha) y en cambio la que se asigna a valores menores,
tendrá una pendiente positiva.
GRÁFICOS. Ojiva
28. Se usa, fundamentalmente, para representar distribuciones de frecuencias
relativas (%) de una variable cualitativa o cuantitativa discreta. En este
gráfico se hace corresponder la medida del ángulo de cada sector con la
frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo
representan el 100 % de los datos clasificados, a cada 1% le corresponderán
3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría
con multiplicar el por ciento correspondiente por 3,6º (por simple regla de
tres).
GRÁFICOS. Diagrama de sectores o gráfico circular
Son útiles cuando las categorías son pocas. Si el gráfico tuviera muchas
variables, no aportaría casi información y sería prácticamente
incomprensible
29. Es un gráfico que usa puntos conectados por líneas para mostrar cómo
cambia el valor de algo (mientras pasa el tiempo o mientras algo más
pasa). Mayormente se utiliza para representar series de datos que han
sido recolectados en un tiempo específico. Los datos se representan en
una gráfica en intervalos de tiempo y se dibuja una línea conectando los
puntos resultantes.
GRÁFICOS. Gráfico de líneas
30. Los pictogramas son gráficos similares a los gráficos de barras, pero
empleando un dibujo en una determinada escala para expresar la unidad de
medida de los datos. Se utiliza un dibujo relacionado con el tema, para
representar cierta cantidad de frecuencias. Este tipo de gráfica atrae la
atención por los dibujos, pero la desventaja es que se lee en forma
aproximada.
GRÁFICOS. Pictogramas
31. Gráfico de Tallo y Hoja
Es una gráfica usada para datos cuantitativos.. Representa una forma
alternativa de visualizar los datos. Ej.: 50, 57, 59, 60, 65, 66, 67, 68, 69, 69, 70,
70, 71, 71, 72, 72, 73, 74, 74, 75, 76, 77, 77, 78, 78, 79, 79, 79, 80, 80, 81, 82,
83, 83, 83, 84, 84, 84, 85, 86, 90, 91, 92, 93, 93, 94, 95, 97, 101, 102
5 : 079
6 : 0567899
7 : 001122344567788999
8 : 001233344456
9 : 01233457
10 : 12
El uso del “Tallo y Hoja” es exactamente igual al del Histograma, la única
diferencia está en que del “Tallo y Hoja” se pueden recuperar los datos
muestrales, pero de un histograma no se puede hacer. En este ejemplo el “Tallo
y Hoja” es asimétrico a la izquierda, no tiene mucha variabilidad ni “datos
perdidos o alejados”.
Ramas Hojas
32. Consideraciones respecto a los gráficos El título debe
indicar:
Qué?,
Quiénes?
Dónde?, y
Cuándo?
El gráfico debe mantener
una adecuada proporción
de alto y ancho
Si se representa una
medición cuantitativa,
se recomienda que el
eje empiece en cero.
Los ejes deben llevar un título que
identifique lo que están representando
Señalar la
fuente de
donde se
obtuvo el
gráfico o los
datos
37. Análisis de datos Univariado
Cuál es el nivel
de escala de la
variable
Razón o Intervalo
Nominal
Ordinal
1.Descriptiva
Tendencia central
Dispersión
2. Inferencial
a. Media
b. Desviación
estándar
a. Mediana
b. Rango
intercuartílico
a. Moda
b. Frecuencias relativas
y absolutas por
categoría
Prueba z
Prueba t
Prueba Kolmogorov-
Smirmov
Prueba ChiCuadrada