Este documento describe los diferentes tipos de variables estadísticas y medidas utilizadas para analizar datos. Explica que existen variables cualitativas y cuantitativas, y describe medidas de tendencia central como la media, mediana y moda. También cubre medidas de posición, dispersión, asimetría, curtosis y frecuencias. El autor proporciona definiciones detalladas de estos conceptos estadísticos fundamentales.
Deusto Ingeniería 24 (Año 2023) - Universidad de Deusto
Tipos de Variables Estadísticos.pdf
1. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
1
Tipos de Variables
Estadísticos
Por:
Segundo Silva Maguiña
2 S
2. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
2
1. Marco Teórico:
Para soluciones de situaciones referidos a estadística, debemos tener el
concepto de la estadística.
1.1. Estadística:
La estadística es una disciplina científica que se ocupa de la obtención,
orden y análisis de un conjunto de datos con el fin de obtener explicaciones
y predicciones sobre fenómenos observados.
La estadística consiste en métodos, procedimientos y fórmulas que
permiten recolectar información para luego analizarla y extraer de ella
conclusiones relevantes. Se puede decir que es la Ciencia de los Datos y
que su principal objetivo es mejorar la comprensión de los hechos a partir
de la información disponible.
El origen de la palabra estadística se suele atribuir al economista Gottfried
Achenwall (prusiano, 1719-1772) que entendía la estadística como “ciencia
de las cosas que pertenecen al Estado”.
Conviene saber que la estadística NO es una rama de las matemáticas.
Utiliza herramientas de las matemáticas del mismo modo que lo hace la
física, la ingeniería o la economía, pero eso no las hace ser parte de las
matemáticas. Es cierto que tienen una relación estrecha, pero la estadística
y las matemáticas son disciplinas diferentes.
1.2. Transversalidad de la estadística:
Una de las características fundamentales de la estadística es su
transversalidad. Su metodología es aplicable al estudio de diversas
disciplinas tales como: biología, física, economía, sociología, etc.
La estadística ayuda a obtener conclusiones relevantes para el estudio de
todo tipo de agentes como: humanos, animales, plantas, etc. Generalmente
lo hace a través de muestras estadísticas.
1.3. Ramas de la estadística:
La estadística se puede subdividir en dos grandes ramas: descriptiva e
inferencial.
a) Estadística descriptiva:
Se refiere a los métodos de recolección, organización, resumen y
presentación de un conjunto de datos. Se trata principalmente de describir
las características fundamentales de los datos y para ellos se suelen utilizar
indicadores, gráficos y tablas.
a.1) Variables Estadísticas:
Una variable estadística es el conjunto de valores que puede tomar cierta
característica de la población sobre la que se realiza el estudio estadístico y
3. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
3
sobre la que es posible su medición. Estas variables pueden ser: la edad, el
peso, las notas de un examen, los ingresos mensuales, las horas de sueño
de un paciente en una semana, el precio medio del alquiler en las viviendas
de un barrio de una ciudad, etc.
Las variables estadísticas se pueden clasificar por diferentes criterios.
Según su medición existen dos tipos de variables:
• Cualitativa (o categórica): son las variables que pueden tomar como
valores cualidades o categorías.
Ejemplos:
Sexo (hombre, mujer)
Salud (buena, regular, mala)
• Cuantitativas (o numérica): variables que toman valores numéricos.
Ejemplos:
Número de casas (1, 2,). Discreta.
• Edad (12,5; 24,3; 35;). Continua.
a.2) Medidas de posición central:
Las medidas de tendencia central (o de centralización) son medidas que
tienden a localizar en qué punto se encuentra la parte central de un
conjunto ordenado de datos de una variable cuantitativa.
1) Media:
Definimos media (también llamada promedio o media aritmética) de un
conjunto de datos (X1, X2, …, XN) al valor característico de una serie de
datos resultado de la suma de todas las observaciones dividido por el
número total de datos.
Siendo: X1, X2, X3, … XN El conjunto de observaciones
Es decir:
Visto desde un punto de vista más conceptual, la media aritmética es el
centro de los datos en el sentido numérico, ya que intenta equilibrarlos por
4. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
4
exceso y por defecto. Es decir, si sumamos todas las diferencias de los
datos a la media da cero.
2) Mediana:
La mediana (Me(X)) es el elemento de un conjunto de datos ordenados (X1,
X2, XN) que deja a izquierda y derecha la mitad de valores.
Si el conjunto de datos no está ordenado, la mediana es el valor del
conjunto tal que el 50% de los elementos son menores o iguales y el otro
50% mayores o iguales.
3) Moda:
La moda (Mo(X)) es el valor más repetido del conjunto de datos, es decir, el
valor cuya frecuencia relativa es mayor. En un conjunto puede haber más
de una moda.
4) Media geométrica:
La media geométrica (MG) de un conjunto de números estrictamente
positivos (X1, X2, …, XN) es la raíz N-ésima del producto de los N
elementos.
Todos los elementos del conjunto tienen que ser mayores que cero. Si algún
elemento fuese cero (Xi=0), entonces la MG sería 0 aunque todos los demás
valores estuviesen alejados del cero.
5. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
5
5) Media armónica:
La media armónica (H) de un conjunto de elementos no nulos (X1, X2,…,XN) es el
recíproco de la suma de los recíprocos (donde 1/Xi es el recíproco de Xi))
multiplicado por el número de elementos del conjunto (N).
6) Media cuadrática:
La media cuadrática o RMS (Root Mean Square) de un conjunto de valores (X1,
X2,…,XN) es una medida de posición central. Esta se define como la raíz
cuadrada del promedio de los elementos al cuadrado.
7) Media Ponderada:
La media ponderada (MP) es una medida de centralización. Consiste
en otorgar a cada observación del conjunto de datos (X1,X2,…,XN)
unos pesos (p1,p2,…,pN) según la importancia de cada elemento.
6. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
6
• Relación entre medias:
Existe una relación de orden entre cuatro tipos de media. En esta relación
se excluye la media ponderada porque depende de los pesos. Sean:
➢ H la media armónica
➢ MG la media geométrica
➢ x la media aritmética
➢ RMS la media cuadrática
Entonces:
En esta relación, solamente se cumple la igualdad cuando todos los datos sean
iguales, es decir si: x1 = x2 = x3 = … = xN.
a.3) Medidas de posición no central:
Las medidas de posición no central (o medidas de tendencia no central) permiten
conocer puntos característicos de una serie de valores, que no necesariamente
tienen que ser centrales. La intención de estas medidas es dividir el conjunto de
observaciones en grupos con el mismo número de valores.
1) Cuartiles:
Los cuartiles son los tres valores que dividen una serie de datos ordenada en
cuatro porciones iguales. El primer cuartil (Q1) deja a la izquierda el 25% de los
datos. El segundo (Q2) deja a izquierda y derecha el 50% y coincide con la
mediana. El tercero (Q3) deja a la derecha el 25% de valores. Los tres cuartiles
son:
2) Percentiles:
El percentil es una medida de posición no central. Los percentiles Pi son los 99
puntos que dividen una serie de datos ordenada en 100 partes iguales, es decir,
que contienen el mismo número de elementos cada una. El percentil 50 es la
mediana.
7. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
7
Sea (X1, X2,…,XN) una muestra de N elementos. El percentil Pi es:
Donde Pi es la posición del percentil buscado en la serie ordenada de datos. Los
percentiles están pensados para conjuntos de elementos de más de cien
elementos.
a.4) Medidas de dispersión:
Las medidas de dispersión o medidas de variabilidad muestran la variabilidad de
un conjunto de datos, indicando la mayor o menor concentración de datos
respecto a las medias de centralización.
1) Rango:
El rango (R) o recorrido estadístico es la diferencia entre el valor máximo y el
mínimo de un conjunto de elementos.
2) Rango intercuartílico:
El rango intercuartílico (IQR) (o rango intercuartil) es una estimación estadística de
la dispersión de una distribución de datos. Consiste en la diferencia entre el tercer
y el primer cuartil. Mediante esta medida se eliminan los valores extremadamente
alejados. El rango intercuartílico es altamente recomendable cuando la medida de
tendencia central utilizada es la mediana (ya que este estadístico es insensible a
posibles irregularidades en los extremos).
En una distribución, encontramos la mitad de los datos, el 50 %, ubicados dentro
del rango intercuartílico. Conforme aumente el IQR, indicará que la dispersión será
mayor.
3) Varianza:
La varianza (S2) mide la dispersión de los datos de una muestra respecto a la
media, calculando la media de los cuadrados de las distancias de todos los datos.
8. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
8
Al elevar las diferencias al cuadrado se garantiza que las diferencias absolutas
respecto a la media no se anulan entre si. Además, resaltan los valores alejados.
4) Desviación típica:
La desviación típica es la medida de dispersión (S) asociada a la
media. Mide el promedio de las desviaciones de los datos respecto a
la media en las mismas unidades de los datos.
El cuadrado de la desviación típica es la varianza.
5) Coeficiente de variación de Pearson:
El coeficiente de variación de Pearson (r) mide la variación de los datos respecto a
la media, sin tener en cuenta las unidades en la que están.
El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es próximo al
0, significa que existe poca variabilidad en los datos y es una muestra muy
compacta. En cambio, si tienden a 1 es una muestra muy dispersa.
Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien para
tenerlo en tanto por cien.
a.5) Asimetría y curtosis:
La asimetría y curtosis informan sobre la forma de la distribución de una variable.
Estas medidas permiten saber las características de su asimetría y homogeneidad
sin necesidad de representarlos gráficamente.
1) Asimetría:
La asimetría es la medida que indica la simetría de la distribución de una variable
respecto a la media aritmética, sin necesidad de hacer la representación gráfica.
Los coeficientes de asimetría indican si hay el mismo número de elementos a
izquierda y derecha de la media.
9. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
9
Existen tres tipos de curva de distribución según su asimetría:
• Asimetría negativa: la cola de la distribución se alarga para valores
inferiores a la media.
• Simétrica: hay el mismo número de elementos a izquierda y derecha de la
media. En este caso, coinciden la media, la mediana y la moda. La
distribución se adapta a la forma de la campana de Gauss, o distribución
normal.
• Asimetría positiva: la cola de la distribución se alarga para valores
superiores a la media.
2) Curtosis:
La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o
achatada está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de
manera que, a mayor grado de curtosis, más escarpada (o apuntada) será la
forma de la curva.
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada
elemento del conjunto y la media, dividido entre la desviación típica elevado
también a la cuarta potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el
coeficiente de curtosis será:
10. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
10
a.6) Frecuencias:
La frecuencia es una medida que sirve para comparar la aparición de un elemento
Xi en un conjunto de elementos (X1, X2,…, XN). Mediante tablas de distribuciones
de frecuencia se puede presentar organizadamente el recuento de datos.
Las frecuencias de cada elemento se pueden expresar tanto absolutas (número
total de apariciones) como relativas (proporción de apariciones).
1) Frecuencia absoluta:
La frecuencia absoluta (ni) de un valor Xi es el número de veces que el valor está
en el conjunto (X1, X2,…, XN).
La suma de las frecuencias absolutas de todos los elementos diferentes del
conjunto debe ser el número total de sujetos N. Si el conjunto tiene k números (o
categorías) diferentes, entonces:
2) Frecuencia absoluta acumulada:
La frecuencia absoluta acumulada (Ni) de un valor Xi del conjunto (X1, X2,…, XN)
es la suma de las frecuencias absolutas de los valores menores o iguales a Xi, es
decir:
3) Frecuencia relativa:
La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi en
el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa es la
frecuencia absoluta dividida por el número total de elementos N:
Las frecuencias relativas son valores entre 0 y 1, 0 ≤ fi ≤ 1. La suma de las
frecuencias relativas de todos los sujetos da 1. Supongamos que en el conjunto
tenemos k números (o categorías) diferentes, entonces:
11. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
11
Si se multiplica la frecuencia relativa por cien se obtiene el porcentaje (tanto por
cien %).
4) Frecuencia relativa acumulada:
Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como la proporción
de valores iguales o menores a Xi en el conjunto de datos (X1, X2,…, XN). Es
decir, la frecuencia relativa acumulada es la frecuencia absoluta acumulada
dividida por el número total de sujetos N:
La frecuencia relativa acumulada de cada valor siempre es mayor que la
frecuencia relativa. De hecho, la frecuencia relativa acumulada de un elemento es
la suma de las frecuencias relativas de los elementos menores o iguales a él, es
decir:
a.7) Gráficos:
Un gráfico (o gráfica) es el recurso de representar los datos numéricos por medio
de líneas, diagramas, dibujos, etc. La representación gráfica es un importante
suplemento al análisis y estudio estadístico.
Los gráficos llaman la atención del lector y hacen que de un vistazo éste tenga
una mayor comprensión de los datos. Un buen gráfico puede captar al lector para
que a continuación lea todo el estudio. Si un estudio se compone únicamente de
texto y tablas, posiblemente no todos los lectores lean el estudio.
1) Gráfico lineal:
El gráfico lineal (gráfico de líneas o diagrama lineal) se compone de una serie de
datos representados por puntos, unidos por segmentos lineales. Mediante este
gráfico se puede comprobar rápidamente el cambio de tendencia de los datos.
El diagrama lineal se suele utilizar con variables cuantitativas, para ver su
comportamiento en el transcurso del tiempo. Por ejemplo, en las series temporales
mensuales, anuales, trimestrales, etc.
12. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
12
2) Diagrama:
Un diagrama es un tipo de representación gráfica que sirve para representar un
conjunto de datos. Según la RAE (Real Academia Española), un diagrama es un
dibujo geométrico que sirve para demostrar una proposición, resolver un problema
o representar de una manera gráfica la ley de variación de un fenómeno.
Existen diferentes tipos de diagramas, de los que se pueden destacar los
siguientes:
a) Diagrama de barras:
El diagrama de barras es un gráfico que se utiliza para representar datos de
variables cualitativas o discretas. Está formado por barras rectangulares cuya
altura es proporcional a la frecuencia de cada uno de los valores de la variable.
b) Diagrama circular:
El diagrama circular (también llamado diagrama de sectores o diagrama de pastel)
sirve para representar variables cualitativas o discretas. Se utiliza para representar
la proporción de elementos de cada uno de los valores de la variable.
13. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
13
Consiste en partir el círculo en porciones proporcionales a la frecuencia relativa.
Entiéndase como porción la parte del círculo que representa a cada valor que
toma la variable.
c) Diagrama de Pareto:
El diagrama de Pareto (también llamado diagrama ABC) fue creado por Vilfredo
Pareto, para representar datos cualitativos. El italiano comprobó que el 20% de la
población italiana acaparaban el 80% de riquezas y propiedades.
El principio de Pareto afirma que el 20% de las causas vitales originan alrededor
del 80% de los efectos. O visto desde el punto de vista matemático, que el 20% de
las categorías representan el 80% de las observaciones.
El diagrama de Pareto se construye siguiendo estos dos pasos:
1.Ordenar los datos por frecuencia relativa o absoluta.
2. Representar cada una de las categorías de la variable mediante un rectángulo
proporcional a su frecuencia (como en el diagrama de barras).
14. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
14
d) Histograma:
Un histograma es una representación gráfica de datos agrupados mediante
intervalos. Los datos provienen de variables cuantitativas continuas. Gracias a él
puedes hacerte rápidamente una idea de la distribución de los datos o muestra.
Un histograma es un conjunto de rectángulos que representan las frecuencias
absolutas de cada uno de los intervalos. Los intervalos abarcan todo el conjunto
sin cortarse, de manera que un elemento está solo en un intervalo.
e) Polígono de frecuencias:
El polígono de frecuencias es un gráfico que permite la rápida visualización de las
frecuencias de cada una de las categorías del estudio.
Normalmente se utiliza el polígono de frecuencias con frecuencias absolutas, pero
también se utiliza con frecuencias relativas.
15. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
15
b) Estadística inferencial:
Se trata de un paso más allá de la mera descripción. Se refiere a los
métodos utilizados para poder hacer predicciones, generalizaciones y
obtener conclusiones a partir de los datos analizados teniendo en cuenta el
grado de incertidumbre existente.
b.1) Estadística paramétrica:
Se caracteriza porque asume que los datos tienen una determinada
distribución o se especifican determinados parámetros que deberían
cumplirse. Así, por ejemplo, en un análisis paramétrico podemos trabajar
bajo el supuesto de que la población se distribuye como una Normal (hay
que justificar nuestro supuesto) y luego sacar conclusiones bajo el supuesto
que esta condición se cumple.
b.2) Estadística no paramétrica:
En ella no es posible asumir ningún tipo de distribución subyacente en los
datos ni tampoco un parámetro específico. Un ejemplo de este tipo de
análisis es la prueba binomial.
1.4. Ejemplo de uso de la estadística en economía:
La estadística es ampliamente utilizada en el análisis económico. Nos
ayuda a comprobar la aplicación de la teoría económica en la práctica.
Algunos ejemplos del uso de estadística en Economía son:
• Elaboración de indicadores macroeconómicos agregados.
• Predicciones acerca del comportamiento futuro de la demanda.
• Testear la validez de hipótesis basadas en la teoría económica.
• Calcular la tasa de paro.
• Organizar y presentar datos económicos como: evolución de los
precios, PIB, etc.
Ejemplo:
Se tiene la siguiente situación de calificaciones de 70 alumnos del 5to grado de
secundaria del Colegio Pedro Pablo Atusparia de la Ciudad de Huaraz, como
sigue:
12 13 15 11 12 17 16 19 13 14
11 15 16 17 18 14 13 12 13 13
16 17 17 09 17 15 13 11 19 15
20 16 18 14 15 11 16 08 13 13
14 15 13 17 17 15 17 18 18 16
13 13 16 18 12 15 13 11 16 16
13 15 16 17 17 12 15 14 14 11
Realizar la secuencia estadística e interprete los resultados
16. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
16
Solución
1. Rango:
Hallamos el máximo valor, menos el mínimo valor:
R máximo – R mínimo = 20 – 08 = 12
2. Intervalos:
Hallamos la cantidad de intervalos mediante la expresión de sturges:
K = 1 + 3.332Log N = 1 + 3.3322 Log 70 = 1+3.332x1.85 = 1+6.15 = 7.15 = 7
3. Amplitud:
Hallamos la amplitud del Intervalo: A = 12/ 7 = 1.71 = 2
4. Nuevo Rango:
Hallamos el nuevo Rango, se hace: N R = K x A = 7 x 2 = 14
5. Exceso:
Hallamos el exceso: E = 14 – 12 = 2 lo repartimos 1 al menor dato y 1 al mayo
dato: Menor Dato: 8 - 1 = 7 Mayor Dato: 20 +1 = 21
6. Tabla de Frecuencias:
Elaboramos la tabla de frecuencia.
Intervalo Xi f fr F Fr
[ 07 -------------- 09) 8 1 0.01 1 0.01
[ 09 ------------- 11) 10 1 0.01 2 0.03
[ 11-------------- 13) 12 11 0.16 13 0.19
[ 13 ------------- 15) 14 19 0.27 32 0.46
[ 15 ------------ 17) 16 20 0.29 52 0.74
[ 17 ------------ 19) 18 15 0.22 67 0.96
[ 19 ------------ 21) 20 3 0.04 70 1.00
70 1.00
7. Gráfica:
0
5
10
15
20
25
07:09 09:11 11:13 13:15 15:17 17:19 22:41
Notas
17. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
17
8. Interpretación:
a) Medidas de posición central:
1) Media:
X= 1x8 + 1x10 + 11x12 + 19x14 + 20x16 + 15x18 + 3x20 =
70
X = 8 + 10 + 132 + 266 + 320 + 270 + 60 = 1066 = 15
70 70
La nota representativa de los 70 alumnos, es 15
2) Mediana:
8-9-10-11-12-13-14-15-16-17-18-19-20 = 14
El 14 es el medio de las notas de calificación
3) Moda:
Es 16 ya que la mayoría de alumnos tienden a tener esa nota
4) Medidas de posición no central:
La curtosis es apuntalado ya que la mayoría esta en la nota 16
5) Medidas de dispersión:
El Rango es de 12, ya que los números se mueven entre esa unidad.
Trabajo 12
Semana 18
calculamos la media aritmética
Representamos los datos en una tabla de frecuencias y lo
expresamos en un gráfico estadístico
1. Que entiende por:
a) Medidas de posición central:
b) Media:
c) Mediana:
d) Moda
e) Media geométrica
f) Media armónica
g) Media cuadrática
h) Media Ponderada
i) Medidas de posición no central
j) Cuartiles
k) Percentiles:
l) Medidas de dispersión:
18. Tipos de Variables Estadísticos Por: Segundo Silva Maguiña
18
m) Rango:
n) Rango:
o) Rango intercuartílico
p) Varianza
q) Desviación típica:
r) Coeficiente de variación de Pearson:
s) Asimetría y curtosis:
t) Frecuencia absoluta:
u) Frecuencia absoluta acumulada:
v) Frecuencia relativa:
w) Frecuencia relativa acumulada:
x) Gráfico lineal:
y) Diagrama de barras:
z) Diagrama circular
aa) Diagrama de Pareto
bb) Histograma:
• Frecuencias de Polígono
• Estadística inferencial:
• Estadística paramétrica:
• Estadística no paramétrica:
1. Se tiene las siguientes calificaciones de 40 alumnos del Quinto grado del
Colegio Pedro Pablo Atusparia en el área de matemática. Hallar la secuencia
estadística e interprete los resultados.
08, 09, 08, 11, 15, 10, 11, 17, 16, 17, 06, 08, 14, 13, 15, 11,15, 13, 14, 14
12, 11, 12, 08, 14, 16, 14, 17, 18, 17, 14, 15, 17, 18, 16, 17, 12, 09, 08, 09
2. Se tiene el siguiente contagio de Covi 19 en la ciudad de Huaraz en el mes de
Julio, desde el día 1 hasta el día 30. Hacer la secuencia estadística e interprete los
resultados.
12, 13, 16, 14, 16, 16, 17, 20, 13, 11, 15, 17, 18, 14, 20
14, 15, 18, 15, 12, 13, 18, 20, 21, 13, 15, 18, 16,16, 17