SlideShare una empresa de Scribd logo
1 de 103
Descargar para leer sin conexión
ESTADISTICA DESCRIPTIVA
COMPETENCIA: RESUELVE PROBLEMAS DE GESTIÓN DE DATOS
E INCERTIDUMBRE
ESTADISTICA DESCRIPTIVA
OBJETIVOS:
✓ Exponer el ámbito de aplicación y la importancia de la estadística.
✓ Diferenciar entre una variable cualitativa y una variable cuantitativa.
✓ Distinguir entre una variable discreta y una variable continua.
✓ Diferenciar entre niveles de medición nominal, ordinal, por intervalo y de razón.
✓ Aplicar la metodología en la elaboración de tablas de distribución de frecuencias.
✓ Seleccionar y elaborar gráficos que visualicen la información de las tablas.
✓ Analizar y obtener conclusiones sobre la información contenida en las tablas y gráficas.
ESTADISTICA DESCRIPTIVA
CONCEPTO:
Una definición clara y sencilla señala que, la estadística es la ciencia que recoge, organiza, presenta,
analiza e interpreta datos con el fin de propiciar una toma de decisiones más eficaz.
Es un sistema o método usado para la recolección, organización, análisis y descripción numérica de la
información. La estadística estudia el comportamiento de hechos o fenómenos de grupo.
IMPORTANCIA Y AMBITO:
En nuestra vida cuotidiana, cuando revisamos periódicos, revistas, internet, al mirar los noticieros en
televisión, nos encontramos con tablas, gráficos, medidas, análisis e interpretaciones que nos dan
cuenta de lo que pasa en nuestro contexto y en distintos lugares del planeta. Podemos enterarnos, que
está ocurriendo en el campeonato nacional de futbol, qué equipos ocupan las primeras posiciones en
la tabla, cuáles ocupan las últimas posiciones; en el ámbito artístico, cuáles son las preferencias
musicales de los jóvenes de 10 a 15 años, o de 16 a 25 años, por supuesto, se encontrarán
diferencias; en el ámbito profesional, cuáles son las tendencias de estudios universitarios más
demandadas, cuáles son las profesiones más rentables; en los dispositivos tecnológicos, cuáles son las
necesidades actuales de equipos, las preferencias de un grupos de jóvenes, las necesidades de los
universitarios, de las amas de casa, de los hombres y mujeres de negocios, etc.
Pero la estadística no solo es útil para el desempeño de la vida cuotidiana y de los negocios; sino que
ésta va más allá de ellos, las diferentes ciencias se han desarrollado mediante la utilización de la
estadística como: las médicas, que nos da cuenta de la evolución de las enfermedades, la eficacia de
los medicamentos y tratamientos, el porcentaje de éxito en determinado tipo de cirugía, la frecuencia
de las enfermedades, sus índices de mortalidad, etc.; las ciencias sociales la cual involucra a los
ámbitos: educativo, que nos permite conocer los índices de estudio escolarizado, alfabetismo,
analfabetismo; la psicología, que contribuye al conocimiento del comportamiento de los individuos y
sus aptitudes, la sociología en la evolución y desarrollo de las culturas y sociedades, la economía
contribuye con estudios tanto microeconómicos como macroeconómicos; y más ámbitos tales como
demografía, administración pública, historia, geografía, antropología, etc.
VARIABLE:
Una variable es una característica de los elementos que es de interés.
Como se observa en los ejemplos de: edad, número de hijos, estatura, estado civil, grupo sanguíneo; se
tienen variables de dos clases de datos, los cuantitativos y cualitativos.
DATOS CUNATITATIVOS: Son expresados numéricamente y nos dan una idea de cantidad, dimensión,
duración, distancia, etc.
DATOS CUALITATIVOS: Son conocidos también como datos de atributo, agrupan a una población o
muestra en características semejantes, pero no tienen medidas numéricas; se encuentran
comprendidas por etiquetas o nombres que identifican el atributo de cada elemento, Como en el caso
de la variable estado civil, el dato de respuesta podría ser: soltero, casado, viudo, divorciado, etc.
De acuerdo a la naturaleza de los datos se debe escoger el método apropiado para resumir la
información, determinar las medidas adecuadas y realizar sus correspondientes análisis. Para ello es
necesario clasificar a las variables en dos tipos:
VARIABLES CUANTITATIVAS: Se encuentran en este grupo aquellas que pueden medirse, cuantificarse,
permiten una descripción o representación numérica. Estas variables atendiendo a los valores que
pueden tomar se clasifican en variables discretas y continuas.
a) Variable discreta: Se refiere a aquella que sólo puede tomar valores enteros, esto es: 1, 2, 3, etc.,
tal es el caso del número de hijos por familia, número de televisores en un hogar, etc.
b) Variable continua: Toma todos los valores posibles en un intervalo, es decir, se admiten valores
fraccionarios, como el número de años de una persona: 20 años, tres meses, cinco días, valor
pagado por impuesto a la renta de un profesional o empresa, etc.
VARIABLES CUALITATIVAS: Estas variables agrupan cualidades o atributos, en la que los casos de
estudio pueden formarse dos grupos como: hombre – mujer, estudiante – no estudiante, con empleo –
sin empleo, etc. Pero también estas variables pueden conformar más de dos grupos como; al estudiar
el grupo sanguíneo de los individuos se tendrá: A, B, AB y O (cuatro grupos); el estado civil de las
personas se tendrá soltero (a), casado (a), divorciado (a), viudo (a) y unión de hecho, etc.
Según sea de un tipo u otro, la variable podrá medirse de distinta manera, esto es, tendrán distintas
escalas o niveles de medición.
En las variables cualitativas los datos son de nivel nominal y ordinal:
a) Datos de nivel nominal: Los datos de los elementos sujetos de análisis se encuentran
representados por nombres, admiten una clasificación, sin que ello signifique un orden lógico.
Como ejemplos serían: Países que integran el pacto andino, género de los estudiantes de un curso
de estadística, marca de automóviles, etc.
b) Datos de nivel ordinal: Los datos de los elementos sujetos de análisis se disponen de acuerdo a un
orden que se encuentra especificado, razón por lo que los datos se pueden clasificar y ordenar.
Como ejemplo, las calificaciones cualitativas asignadas por el profesor de estadísticas a los
trabajos presentados por los estudiantes serían: excelente, muy bueno, bueno, regular y malo.
Tabla de posiciones de los equipos que intervienen en el campeonato ecuatoriano de futbol de la
serie A, se tendría primero, segundo, tercero, … ,etc.
En las variables cuantitativas los datos son de nivel de intervalo y de razón:
a) Datos de nivel de intervalo: Identifica la posición ordinal de cada elemento sujeto de análisis y las
diferencias entre intervalos es la misma. Ejemplos de datos de intervalo son la temperatura
ambiental observada en la escala de grados centígrados, las tallas de las diferentes prendas de
vestir, etc.
b) Datos de nivel de proporción: Identifica la posición ordinal de cada elemento sujeto de análisis, las
distancias de cada intervalo es la misma, se basa en un sistema numérico en la que el cero es
significativo y las operaciones e multiplicación y división tienen un resultado racional.
Ejemplos de esto se tiene a: las ventas en dólares de un establecimiento comercial, en donde el cero
representa que en ese día no ha existido ventas, costos, rentabilidad, participación en el mercado, etc.
FRECUENCIAS:
La frecuencia es una medida que sirve para comparar la aparición de un elemento Xi en un conjunto de
elementos (X1, X2,…, XN). Mediante tablas de distribuciones de frecuencia se puede presentar
organizadamente el recuento de datos.
Las frecuencias de cada elemento se pueden expresar tanto absolutas (número total de apariciones)
como relativas (proporción de apariciones).
Si los datos provienen de una variable cuantitativa o existen muchas categorías, los datos se suelen
agrupar en clases. Cada clase, que tiene un intervalo o amplitud constante, está representado por su
marca de clase, que es el punto medio de la misma.
Frecuencia absoluta:
La frecuencia absoluta (ni) de un valor Xi es el número de veces que el valor está en el conjunto (X1,
X2,…, XN).
La suma de las frecuencias absolutas de todos los elementos diferentes del conjunto debe ser el
número total de sujetos N. Si el conjunto tiene k números (o categorías) diferentes, entonces:
Ejemplo:
Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las
siguientes:
Se realiza el recuento de la variable que se estudia (notas) para ver el número de veces que aparece
cada nota.
Una vez realizado el recuento, se representan las frecuencias absolutas de cada una de las notas (ni).
Las frecuencias son: n1=2, n2=4, n3=6, n4=7, n5=5, n6=3, n7=2 y n8=1.
Frecuencia absoluta acumulada:
La frecuencia absoluta acumulada(Ni) de un valor Xi del conjunto (X1, X2,…, XN) es la suma de las
frecuencias absolutas de los valores menores o iguales a Xi, es decir:
La frecuencia absoluta acumulada del valor más alto (o de la última clase, en el caso de variables
cualitativas) XN es igual al número total de sujetos.
Ejemplo:
Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las
siguientes:
Primero se realiza el recuento de la variable que se estudia (notas) para ver el número de veces que
aparece cada nota y obtener las frecuencias absolutas.
Las frecuencias absolutas son las siguientes: n1=2, n2=4, n3=6, n4=7, n5=5, n6=3, n7=2 y n8=1.
Finalmente se pueden calcular las frecuencias absolutas acumuladas como la suma de las frecuencias
absolutas de los valores menores o iguales a Xi:
Frecuencia relativa:
La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi en el conjunto de datos
(X1, X2,…, XN). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el número total de
elementos N:
Las frecuencias relativas son valores entre 0 y 1, (0 ≤ fi ≤ 1). La suma de las frecuencias relativas de
todos los sujetos es siempre 1. Supongamos que en el conjunto tenemos k números (o categorías)
diferentes, entonces:
Si se multiplica la frecuencia relativa por cien se obtiene el porcentaje (tanto por cien %).
Ejemplo:
Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las
siguientes:
Para obtener la frecuencia relativa, se necesita calcular antes la frecuencia absoluta. Se realiza el
recuento de la variable y se observa el número de veces que aparece cada nota.
Una vez se obtienen, se puede calcular la frecuencia relativa de cada elemento como la división de la
frecuencia absoluta entre el total de elementos N=30.
Se pueden calcular las frecuencias relativas en porcentaje (%) multiplicándolas por 100.
Frecuencia relativa acumulada:
Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como la proporción de valores iguales o
menores a Xi en el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa acumulada de ese
valor es su frecuencia absoluta acumulada dividida por el número total de sujetos N:
La frecuencia relativa acumulada de cada valor Xi será mayor que la correspondiente frecuencia
relativa, excepto en el caso del valor más bajo X1, en que serán iguales.
La frecuencia relativa acumulada de un valor Xi es la suma de las frecuencias relativas de los valores
menores o iguales a él, es decir:
La frecuencia relativa acumulada del valor más alto, Xk es igual a 1.
Ejemplo:
Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las
siguientes:
Para calcular la frecuencia relativa acumulada, se necesita obtener antes la frecuencia relativa. Para
ello es necesario antes calcular la frecuencia absoluta, realizando el recuento de la variable contando
el número de veces que aparece cada nota.
Una vez se obtienen, se calcula la frecuencia relativa de cada elemento como la división de la
frecuencia absoluta entre el total de elementos N=30.
Se pueden calcular las frecuencias relativas acumuladas en porcentaje (%) multiplicándolas por 100.
Tabla de frecuencias:
La tabla de frecuencias (o distribución de frecuencias) es una tabla que muestra la distribución de los
datos mediante sus frecuencias. Se utiliza para variables cuantitativas o cualitativas ordinales.
La tabla de frecuencias es una herramienta que permite ordenar los datos de manera que se
presentan numéricamente las características de la distribución de un conjunto de datos o muestra.
Construcción de la tabla de frecuencias:
Cabe distinguir entre:
✓ Tabla de frecuencias con datos no agrupados.
✓ Tabla de frecuencias con datos agrupados.
Construcción de una tabla de frecuencias con datos no agrupados:
1. En la primera columna se ordenan de menor a mayor los diferentes valores que tiene la variable en
el conjunto de datos.
2. En las siguientes columnas (segunda y tercera) se ponen las frecuencias absolutas y las
frecuencias absolutas acumuladas.
3. Las columnas cuarta y quinta contienen las frecuencias relativas y las frecuencias relativas
acumuladas.
4. Adicionalmente (opcional) se pueden incluir dos columnas (sexta y séptima), representando la
frecuencia relativa y la frecuencia relativa acumulada como tanto por cien. Estos porcentajes se
obtienen multiplicando las dos frecuencias por cien.
Construcción de una tabla de frecuencias con datos agrupados:
Por lo general una tabla de frecuencias con datos agrupados se realiza cuando la cantidad de datos es
grande y/o la variable es continua.
Básicamente consiste en agrupar los datos en intervalos de una misma amplitud, denominados clases.
A cada clase se le asignan valores de cada tipo de frecuencias.
Ejemplo:
Básicamente consiste en agrupar los datos en intervalos de una misma amplitud, denominados clases.
A cada clase se le asignan valores de cada tipo de frecuencias.
Consultamos a 50 personas sobre cuál era su edad y obtuvimos los siguientes resultados:
Ojo! Fíjate bien, se utiliza corchete para el dato que SE INCLUYE… y se utiliza paréntesis para el dato
que NO SE INCLUYE. Eso significa que los datos de 10 años se cuentan pero los de 19 NO.
El 19 se cuenta en el siguiente intervalo y allí vendría siendo el límite inferior. Súmale el valor de la
amplitud, es decir, 9 años, y obtendrás el límite superior de 28 años. Eso nos daría el segundo intervalo:
El uso del corchete implica que SÍ vamos a contar acá el 19 pero el paréntesis indica que NO vamos a
incluir a los de 28 años. Ese se incluye en el siguiente. Veamos los 7 intervalos construidos:
Si te fijas bien, el último intervalo debe finalizar en el valor máximo, es decir, 73 años. Lógicamente ese
último intervalo debe concluir con corchetes para no dejar por fuera el dato de 73 años.
Paso 6: Cálculo de la Marca de Clase de cada intervalo
La marca de clase simplemente es el punto medio que hay en cada intervalo. Lo que debes hacer es
sumar límite inferior y superior de cada intervalo y dividir el resultado entre 2. Así:
Paso 7: Determinar la Frecuencia Absoluta de cada intervalo
La frecuencia absoluta sólo consiste en CONTAR la cantidad de datos que caen en cada intervalo. Se
representa con la f minúscula y un subíndice (número chiquito abajo) que indica el intervalo en el cual
está ubicada la frecuencia absoluta (fi). Veamos cuántos datos caen en el primer intervalo de [10 – 19)
Si te fijas bien, NO estamos contando los datos de 19 años… esos se cuentan en el siguiente intervalo.
Para el primer intervalo tenemos 5 datos, esa será su frecuencia absoluta, su CONTEO. Veamos cuántos
datos caen en el segundo intervalo de [19 – 28)
Si te fijas bien, NO estamos contando los datos de 28 años… esos se cuentan en el siguiente intervalo.
Para el segundo intervalo tenemos 11 datos, esa será su frecuencia absoluta, su CONTEO.
Veamos cuántos datos caen en el tercer intervalo de [28 – 37)
Si te fijas bien, NO estamos contando los datos de 37 años… esos se cuentan en el siguiente intervalo.
Para el tercer intervalo tenemos 8 datos, esa será su frecuencia absoluta, su CONTEO. Estas son las
frecuencias absolutas de los 7 intervalos:
Evidentemente la sumatoria de todas las frecuencias absolutas debe arrojar el número de datos que
tenemos, en este caso 50.
Paso 8: Determinar la Frecuencia Absoluta Acumulada de cada intervalo
No te compliques, ACUMULAR es SUMAR todo lo que llevo hasta el momento. La Frecuencia Absoluta
Acumulada (Fi) de cada intervalo consiste en sumar todas las frecuencias absolutas de los intervalos
anteriores y el actual. Para diferenciar su símbolo de la frecuencia absoluta, simplemente utiliza la F
mayúscula.
La primer frecuencia absoluta acumulada es la misma primer frecuencia absoluta porque recién
estamos empezando… no hay nada que acumular todavía. La segunda frecuencia absoluta acumulada
vale 16 porque debemos sumar 5+11 porque son las frecuencias absolutas que llevamos hasta ahora
para ACUMULAR.
La tercer frecuencia absoluta acumulada vale 24 porque debemos sumar 5+11+8 porque son las
frecuencias absolutas que llevamos hasta ahora para ACUMULAR.
Cuando llegues al último intervalo, deberás obtener un ACUMULADO igual al TOTAL de datos, en este
caso 50:
Paso 9: Determinar la Frecuencia Relativa de cada intervalo
La palabra RELATIVA nos indica que vamos a RELACIONAR cada Frecuencia Absoluta con su Total… y en
matemáticas cuando te dicen relacionar algo con algo… es DIVIDIR ese algo con ese algo. Un pequeño
ejemplo con dinero (eso hace más llamativas las cosas… ¿no?)
Todos en mi familia aportan plata para el mercado mensual… entre todos aportamos un TOTAL de 200
dólares. De esos 200, yo sólo aporto 20 dólares. Vamos a obtener la RELACIÓN de MI APORTE respecto
al TOTAL.
Fácil, 20 ÷ 200 = 0.1
Si lo convierto a porcentaje… 0.1 x 100% = 10%
Entonces MI APORTE RELATIVO es del 10% del TOTAL.
Espero que hayas entendido a qué se refiere la palabra RELATIVO.
La Frecuencia Relativa (fr) de cada intervalo consiste en dividir la Frecuencia Absoluta de es mismo
intervalo entre el Total de datos.
De la tabla construida hasta ahora, podemos observar que la frecuencia relativa se puede expresar en
decimal o en porcentaje, y que la suma de todas las frecuencias relativas debe dar el 100%.
Paso 10: Determinar la Frecuencia Relativa Acumulada de cada intervalo
Vuelve y juega lo acumulado… no te compliques, ACUMULAR es SUMAR todo lo que llevo hasta el
momento.
La Frecuencia Relativa Acumulada (Fr) de cada intervalo consiste en sumar todas las frecuencias
relativas de los intervalos anteriores y el actual. Para diferenciar su símbolo de la frecuencia relativa,
simplemente utiliza la F mayúscula.
La primer frecuencia relativa acumulada es la misma primer frecuencia relativa porque recién estamos
empezando… no hay nada que acumular todavía.
La segunda frecuencia relativa acumulada vale 0.32 porque debemos sumar 0.1+0.22 porque son las
frecuencias relativas que llevamos hasta ahora para ACUMULAR.
La tercer frecuencia relativa acumulada vale 0.48 porque debemos sumar 0.1+0.22+0.16 porque son
las frecuencias relativas que llevamos hasta ahora para ACUMULAR.
Seguro ya entendiste la dinámica… veamos de una vez todas las Frecuencias Relativas Acumuladas de
nuestro ejemplo:
MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS:
¿Cómo se calculan la Media Mediana y Moda para Datos Agrupados?
Se conocen como Medidas de Tendencia Central y para esta explicación vamos a retomar el ejemplo
que utilizamos para la elaboración de la tabla de Distribución de Frecuencias para Datos Agrupados.
Vamos directo al punto con el ejemplo: Se consultó a 50 personas sobre su edad y estos fueron los
resultados que representamos en una tabla de frecuencias para datos agrupados.
Media Aritmética para Datos Agrupados:
La media aritmética también se conoce como PROMEDIO, y básicamente se calcula como la suma de
todos los datos dividida entre el número total de datos. Pero esto aplica para datos sueltos… es decir…
NO AGRUPADOS…
Para los datos agrupados debemos considerar con un valor REPRESENTATIVO de cada intervalo que se
denomina MARCA DE CLASE y asumir que TODAS las cantidades de la frecuencia absoluta se ven
representadas por ese valor.
Analicemos el primer intervalo de nuestro ejemplo: Debemos asumir que esas 5 personas tienen 14.5
años:
Analicemos el segundo intervalo de nuestro ejemplo: Debemos asumir que esas 11 personas tienen
23.5 años
Y así para todos los intervalos de la tabla. La formula para calcular la media aritmética en datos
agrupados es la siguiente:
La media se calcula sumando todos los datos y dividiendo entre el total de ellos. Pero para datos
agrupados asumimos que por ejemplo en el primer intervalo esas 5 personas todas tienen 14.5 años…
entonces queda más práctico multiplicar 5×14.5 o lo que es lo mismo 14.5+14.5+14.5+14.5+14.5.
Vamos a realizar ese mismo procedimiento para cada intervalo, multiplicar marca de clase (xi) por
frecuencia absoluta (fi) y colocamos el resultado en una nueva columna a la derecha:
En este caso ya podemos afirmar que de las 50 personas encuestadas, el promedio de edad es de
40.78 años.
Mediana para Datos Agrupados:
De nuestro ejemplo sabemos que las 50 personas se mueven en un rango de edad que va desde 10
años el más joven y hasta 73 años el más adulto.
La mediana sería esa edad hasta la cual acumulo el 50% de las personas y después de la cuál tengo el
otro 50%.
Entonces, desde los 10 años hasta la Mediana hay 25 personas…. y desde la Mediana hasta los 73
años están las otras 25 personas… La Mediana (Me) la calculamos con la siguiente fórmula:
Li: es el límite inferior del intervalo de la mediana.
fi: es la frecuencia absoluta del intervalo de la mediana.
Fi-1: es la frecuencia absoluta acumulada anterior al intervalo de la mediana.
N: es el número total de datos del ejercicio, en este caso vale 50.
A: es la amplitud de los intervalos y en este caso vale 9 años.
Vamos a identificar el intervalo de la mediana para poder obtener los datos que necesitamos.
La idea es partir mitad y mitad la cantidad de personas en un valor… lo primero es obtener esa mitad:
Vamos a apoyarnos en la columna de frecuencias absolutas acumuladas para descubrir en cuál
intervalo tenemos metida a la persona número 25
En el tercer intervalo teníamos hasta la persona número 24, en cambio en el cuarto intervalo tenemos a
las personas 25, 26, 27, 28 y 29, por lo tanto ese es el que nos sirve. Identificamos datos y
reemplazamos en la fórmula:
Esto significa que desde los 10 años hasta los 38.8 años hay 25 personas…. y desde los 38.8 años
hasta los 73 años están las otras 25 personas…
Moda para Datos Agrupados:
Su mismo nombre lo indica… ¿Cuál es la tendencia? ¿Cuál edad estará de moda en nuestro ejemplo?
Si fuesen datos NO AGRUPADOS, fácilmente diríamos que la moda es el dato que más se repite sin
realizar ningún cálculo ni operación matemática.
Pero como nuestro interés es calcular la moda para datos agrupados… debemos utilizar la siguiente
fórmula:
La moda se simboliza como Mo y nuestro primer paso será identificar el intervalo modal.
Es muy sencillo, el intervalo modal corresponde a aquel que posee la frecuencia absoluta más alta.
Para nuestro ejemplo el modal sería el segundo intervalo ya que tiene frecuencia absoluta de 11
Teniendo identificado el intervalo modal, vamos a analizar cada término de la fórmula para calcular la
moda
Li: es el límite inferior del intervalo modal, en este caso vale 19.
fi: es la frecuencia absoluta del intervalo modal, en este caso vale 11.
fi-1: es la frecuencia absoluta anterior al intervalo modal, en este caso vale 5.
fi+1: es la frecuencia absoluta siguiente al intervalo modal, en este caso vale 8.
A es la amplitud del intervalo modal, en este caso vale 9 porque el intervalo va de 19 a 28 años… es
decir hay una distancia de 9 años allí.
Por si no te quedó claro lo de la frecuencia absoluta anterior y siguiente, así se identifican:
Listo, ahora reemplacemos los datos en la fórmula y calculemos la edad de moda
Todo parece indicar que para nuestro ejemplo, está de moda tener 25 años.
COMPARACIÓN ENTRE MEDIA, MEDIANA Y MODA
Las distribuciones simétricas tienen el mismo valor para la media, la mediana y la moda.
✓ En una distribución con sesgo positivo, la moda se halla en el punto más alto de la distribución, la
mediana está hacia la derecha de la moda y la media más a la derecha. Es decir Mo < Me < x.
✓ En una distribución con sesgo negativo, la moda es el punto más alto, la mediana está a la
izquierda de la moda y la media está a la izquierda de la mediana. Es decir, x < Me < Mo.
Cuando la población tiene una distribución sesgada, con frecuencia la mediana resulta ser la mejor
medida de posición, debido a que está siempre entre la media y la moda. La mediana no se ve
altamente influida por la frecuencia de aparición de un solo valor como es el caso de la moda, ni se
distorsiona con la presencia de valores extremos como la media. La selección de la media, la mediana
o la moda, depende de la aplicación. Por ejemplo, se habla del salario promedio (media); el precio
mediano de una casa nueva.
SIMETRÍA
La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media
aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si
hay el mismo número de elementos a izquierda y derecha de la media.
Existen tres tipos de curva de distribución:
✓ Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media.
✓ Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso,
coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de
Gauss, o distribución normal.
✓ Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a la
media.
MEDIDAS DE DISPERSIÓN
VARIANZA:
La varianza (S²) mide la dispersión de los datos de una muestra (X1,X2,…,XN) respecto a la media (x),
calculando la media de los cuadrados de las distancias de todos los datos.
Al elevar las diferencias al cuadrado se garantiza que las diferencias absolutas respecto a la media no
se anulan entre si. Además, resaltan los valores alejados.
Siempre se cumple que la varianza es mayor o igual que cero (SX² ≥ 0). Ésta es cero cuando todos los
datos son el mismo (ejemplo: {1,1,1,1,1}).
Para datos agrupados, la fórmula de la varianza muestral será:
Un inconveniente de la varianza es que sus unidades son las unidades de los datos al cuadrado.
Ejemplo:
Estimar la varianza de las estaturas de niños de 10 años de una ciudad. La muestra estudiada es de
400 sujetos. Las estaturas medidas (Xi), agrupadas en frecuencias (ni), se anotan en la primera y
segunda columna de esta tabla respectivamente.
En el paso 1 se ha obtenido la media. Después se rellenan las columnas con las diferencias y los
cuadrados de las diferencias, para, finalmente, paso 2, aplicar la fórmula de la varianza muestral (o
cuasivarianza):
Y su valor es de SX² = 0,005 m². Esta varianza muestral tan reducida indica que las estaturas están
muy agrupadas entorno a la media.
DESVIACIÓN TÍPICA O ESTÁNDAR:
La desviación típica (o desviación estándar) es una medida de dispersión (S) asociada a la media.
Como estadístico, es la raíz cuadrada de la varianza. Es la raíz cuadrada del cuadrado de las
desviaciones de los datos de una muestra (X1,X2,…,XN) de la media (x) dividido en el caso de la muestra
por N – 1. Está en las mismas unidades de los datos.
Es un indicador de cómo tienden a estar agrupados los datos respecto a la media.
Las fórmulas de arriba se corresponden con el estadístico de la desviación estándar de una variable
aleatoria de una muestra. Resulta muy útil y empleado en Estadística Inferencial.
Una forma sencilla para entender el significado de la desviación estándar (o desviación típica) como
indicador de la dispersión de los valores de una distribución normal con respecto a su media
aritmética, si el número de datos es lo suficientemente alto, es que:
✓ Entre la media menos una desviación estándar y la media más una desviación estándar,
encontraremos un 68,4 % de valores que estarán comprendidos dentro de ese intervalo.
✓ Entre la media menos dos desviaciones estándar y la media más dos desviaciones estándar,
encontraremos un 95,4 % de valores dentro de ese intervalo.
La desviación estándar asociada a la media, resulta muy apropiada para describir distribuciones con
una asimetría razonablemente baja. Por el contrario, si la asimetría de la distribución es más acusada,
describen mejor la distribución la mediana con el rango intercuartílico.
Ejemplo:
Estimar la desviación estándar de las estaturas de niños de 10 años que habitan en una capital. La
muestra estudiada es de 400 sujetos.
Las estaturas medidas (Xi), agrupadas en frecuencias (ni), se muestran en la primera y segunda
columna de esta tabla.
En el paso 1 se ha obtenido la media (1,36 m), después, se construyen dos columnas con las
diferencias y los cuadrados de las diferencias, para, finalmente, paso 2, aplicar la fórmula de la
desviación estándar muestral:
Y su valor es de SX 0,07 m.
COEFICIENTE DE VARIACIÓN DE PEARSON:
El coeficiente de variación de Pearson (r) mide la variación de los datos respecto a la media, sin tener
en cuenta las unidades en la que están.
El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es próximo al 0, significa que
existe poca variabilidad en los datos y es una muestra muy compacta. En cambio, si tienden a 1 es
una muestra muy dispersa y la media pierde confiabilidad. De hecho, cuando el coeficiente de
variación supera el 30% (0,3) se dice que la media es poco representativa.
Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien para tenerlo en tanto por
cien.
Es importante que los valores sean positivos y, más aún, que la media aritmética también lo sea.
También ocurre que si la media se aproxima a cero, el coeficiente de variación tomará valores muy
grandes, sin que ello implique que la distribución sea muy dispersa.
En casos excepcionales el coeficiente de variación de Pearson podría ocurrir que superara la unidad.
El coeficiente de variación de Pearson puede aplicarse tanto a distribuciones poblacionales como a
muestrales.
Este coeficiente sirve para comparar dos distribuciones diferentes, que pueden tener también
magnitudes o unidades distintas, pues ya se ha dicho que este coeficiente no tiene unidades.
Ejemplo:
El cóndor de los Andes tiene una envergadura media (alas extendidas) de 285 cm con una desviación
estándar de 30 cm, mientras que una especie de murciélago tiene una envergadura media de 10 cm y
su población presenta una desviación estándar de 3 cm.
¿Cuál de las dos poblaciones presenta una mayor dispersión en lo que se refiere a su envergadura?
Solución:
Una primera impresión parecería concluir que la dispersión es mayor en el cóndor que en esa especie
de murciélago. Pero si calculamos los respectivos coeficientes de variación de Pearson:
Cóndor de los Andes:
Especie de murciélago:
Mediante el coeficientes de variación de Pearson se ha comprobado que, aunque la variación
estándar de la envergadura del cóndor de los Andes es muy superior a la de esa especie de
murciélago, su dispersión es menor.
CUANTILES PARA DATOS AGRUPADOS
¿Cómo se calculan los Cuartiles Deciles y Percentiles para Datos Agrupados?
Vamos directo al punto con el ejemplo: Se consultó a 50 personas sobre su edad y estos fueron los
resultados que representamos en una tabla de frecuencias para datos agrupados.
Cómo calcular Cuartiles para Datos Agrupados
Los cuartiles básicamente son aquellos datos que permiten dividir o separar la muestra en cuatro
partes iguales. Entre cuartil y cuartil se delimita un 25%.
El segundo cuartil corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado
y lado. Para calcular cualquier cuartil debemos identificar el intervalo de trabajo. Para ello utilizamos la
siguiente expresión:
N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las
edades de 50 personas. K corresponde al número del cuartil. Si vamos a calcular el cuartil tres (Q3)
entonces K vale 3; s i vamos a calcular el cuartil dos (Q2) entonces K vale 2, y s i vamos a calcular el
cuartil uno (Q1) entonces K vale 1.
Vamos a calcular el Cuartil 3 (Q3):
El cuartil debe estar ubicado en el dato número 37.5… vamos a UBICAR en cuál intervalo tendríamos
un acumulado en el cuál cabrían 37.5 datos.
Revisemos la tabla de frecuencias:
No sirve el intervalo [46 – 55) porque el acumulado es 37… y necesitamos que quepan hasta 37.5…
por eso el intervalo que nos SIRVE es el de [55 – 64) donde caben hasta 43 acumulados hasta él. Es
fácil... en el primer acumulado que quepa… ese es el intervalo de trabajo.
Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los cuartiles:
▪ N: es la cantidad de datos de la muestra. En este caso N vale 50
▪ K: es el número del cuartil. En este caso K vale 3
▪ Fi-1: es la frecuencia absoluta acumulada ANTERIOR al intervalo de trabajo. En este caso Fi-1 vale
37
▪ fi: es la frecuencia absoluta del intervalo de trabajo. En este caso fi vale 6
▪ Li: es el límite inferior del intervalo de trabajo. En este caso Li vale 55
▪ A: es la amplitud del intervalo de trabajo. En este caso A vale 9
Analicemos el resultado: Para este ejercicio tenemos que el sujeto de menor edad tiene 10 años… y el
de mayor edad tiene 73 años. El cuartil tres (Q3) vale 55.75 años… eso significa que el 75% de la
muestra está entre 10 y 55.75 años… y el otro 25% de la muestra tiene entre 55.75 y 73 años de
edad.
Cómo calcular Deciles para Datos Agrupados:
Los deciles básicamente son aquellos datos que permiten dividir o separar la muestra en diez partes
iguales. Entre decil y decil se delimita un 10%
El quinto decil corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado y
lado.
Para calcular cualquier decil debemos identificar el intervalo de trabajo. Para ello utilizamos la
siguiente expresión:
N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las
edades de 50 personas.
K corresponde al número del decil. Si vamos a calcular el decil uno (D1) entonces K vale 1; s i vamos a
calcular el decil dos (D2) entonces K vale 2, y s i vamos a calcular el decil tres (D3) entonces K vale 3… y
así sucesivamente con cualquier decil que desees calcular. Recuerda que son NUEVE deciles.
Vamos a calcular el Decil 4 (D4)
Reemplazamos:
El decil debe estar ubicado en el dato número 20… vamos a UBICAR en cuál intervalo tendríamos un
acumulado en el cuál cabrían 20 datos.
Revisemos la tabla de frecuencias:
No sirve el intervalo [19 – 28) porque el acumulado es 16… y necesitamos que quepan hasta 20… por
eso el intervalo que nos SIRVE es el de [28 – 37) donde caben hasta 24 acumulados hasta él. Es fácil...
en el primer acumulado que quepa… ese es el intervalo de trabajo.
Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los deciles:
• N: es la cantidad de datos de la muestra. En este caso N vale 50
• K: es el número del decil. En este caso K vale 4
• Fi-1: es la frecuencia absoluta acumulada ANTERIOR al intervalo de trabajo. En este caso Fi-1 vale
16
• fi: es la frecuencia absoluta del intervalo de trabajo. En este caso fi vale 8
• Li: es el límite inferior del intervalo de trabajo. En este caso Li vale 28
• A: es la amplitud del intervalo de trabajo. En este caso A vale 9
Analicemos el resultado: Para este ejercicio tenemos que el sujeto de menor edad tiene 10 años… y el
de mayor edad tiene 73 años. El decil cuatro (D4) vale 32.5 años… eso significa que el 40% de la
muestra está entre 10 y 32.5 años… y el otro 60% de la muestra tiene entre 32.5 y 73 años de edad.
Cómo calcular Percentiles para Datos Agrupados:
Los percentiles básicamente son aquellos datos que permiten dividir o separar la muestra en cien
partes iguales. Entre percentil y percentil se delimita un 1% de la muestra.
El percentil cincuenta (P50) corresponde al mismo valor de la mediana ya que divide los datos en un
50% a lado y lado.
Para calcular cualquier percentil debemos identificar el intervalo de trabajo. Para ello utilizamos la
siguiente expresión:
N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las
edades de 50 personas.
K corresponde al número del percentil. Si vamos a calcular el percentil uno (P1) entonces K vale 1; s i
vamos a calcular el percentil dos (P2) entonces K vale 2, y s i vamos a calcular el percentil tres (P3)
entonces K vale 3… y así sucesivamente con cualquier percentil que desees calcular. Recuerda que
son NOVENTA Y NUEVE percentiles.
Vamos a calcular el Percentil setenta (P70):
Reemplazamos:
El percentil debe estar ubicado en el dato número 35… vamos a UBICAR en cuál intervalo tendríamos
un acumulado en el cuál cabrían 35 datos.
Revisemos la tabla de frecuencias:
No sirve el intervalo [37 – 46) porque el acumulado es 29… y necesitamos que quepan hasta 35… por
eso el intervalo que nos SIRVE es el de [46 – 55) donde caben hasta 37 acumulados hasta él. Es fácil...
en el primer acumulado que quepa… ese es el intervalo de trabajo.
Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los
percentiles:
• N: es la cantidad de datos de la muestra. En este caso N vale 50
• K: es el número del percentil. En este caso K vale 70
• Fi-1: es la frecuencia absoluta acumulada ANTERIOR al intervalo de trabajo. En este caso Fi-1 vale
29
• fi: es la frecuencia absoluta del intervalo de trabajo. En este caso fi vale 8
• Li: es el límite inferior del intervalo de trabajo. En este caso Li vale 46
• A: es la amplitud del intervalo de trabajo. En este caso A vale 9
Analicemos el resultado: Para este ejercicio tenemos que el sujeto de menor edad tiene 10 años… y el
de mayor edad tiene 73 años. El percentil setenta (P70) vale 52.75 años… eso significa que el 70% de
la muestra está entre 10 y 52.75 años… y el otro 30% de la muestra tiene entre 52.75 y 73 años de
edad.
Observaciones:
El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es
mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el
50% son menores.
Quinto decil D5 o denominado también “Caso Base”: indica que existe igualmente un 50% de
probabilidad de que el valor esté por encima como por debajo de esa cifra. Representa la Mediana de
la distribución.
El 50avo percentil
PRESENTACIÓN DE DATOS ESTADÍSTICOS
GRÁFICOS:
Una manera de presentar la información estadística es a través de los gráficos. Ellos pueden resultar
muy útiles, aunque en ocasiones un uso incorrecto los convierte en instrumentos estériles. Son
complemento de las tablas, por ende, deben ser más auto explicativos que ellas.
Existen diferentes gráficos estadísticos y la elección del gráfico adecuado para la presentación de la
información depende de muchos factores. Por ejemplo, se debe tener en cuenta los objetivos de la
investigación, la escala de medición y el tipo de variable.
Mediante un gráfico se puede hacer una comparación entre las frecuencias de las categorías, se puede
conocer la distribución de los datos recolectados, se puede visualizar la proporción para cada
componente de las variables, se puede establecer la correlación entre variables. También existen
gráficos que permiten observar el comportamiento y la tendencia de una variable a través del tiempo.
Los gráficos llaman la atención del lector y hacen que de un vistazo éste tenga una mayor comprensión
de los datos. Un buen gráfico puede captar al lector para que a continuación lea todo el estudio. Si un
estudio se compone únicamente de texto y tablas, posiblemente no todos los lectores lean el estudio.
Características generales:
Generalmente se inscriben en los ejes de coordenadas cartesianas o ejes rectangulares, los cuales:
✓ Deben poseer la misma longitud, aceptándose como máximo que el eje X exceda hasta 1.5 veces al
eje Y. Esto evita la introducción de falacias.
✓ Deben estar rotulados. Por el eje X se presenta(n) la(s) variable(s) con su escala de clasificación; en
el eje Y, la distribución de frecuencias o medida de resumen utilizada.
✓ De ser posible, el origen de los ejes debe ser en el punto (0,0).
✓ Deben utilizarse números redondos.
✓ Debe evitarse el exceso de divisiones de los ejes.
En la actualidad, con el advenimiento de las nuevas tecnologías informáticas, han proliferado los softwares
que permiten la construcción de gráficos estadísticos. Al utilizarlos, debes tomar la precaución de analizar
cuidadosamente el tipo de información que quieres representar, pues la mayoría de ellos ofrece varias
posibilidades de representación, quedando a tu juicio escoger la más apropiada.
Partes del gráfico:
Todo gráfico estadístico está constituido por varios elementos, los cuales te mencionamos a continuación.
✓ Identificación: consiste en numerar los gráficos consecutivamente, por ejemplo: Gráfico 1, Gráfico 2, etc.
✓ Título: el de la tabla que lo originó.
✓ Gráfico propiamente dicho: verás los distintos tipos de gráficos en el epígrafe siguiente.
✓ Fuente: la tabla que lo originó.
✓ Notas explicativas: su uso es similar a lo descrito en las tablas.
✓ Leyenda: su fin es identificar los elementos del gráfico (barras, sectores, etc.) con su correspondiente
origen.
Gráficos para representar variables en escalas cualitativa y cuantitativa discreta:
A continuación te presentamos un grupo de gráficos que se estudiarán en este epígrafe, atendiendo al
número de variables que representan.
a) Gráfico de barras simples:
Uso:
Es un gráfico formado por barras separadas que representan a las categorías de la variable en estudio.
Se utiliza cuando queremos representar una variable cualitativa o cuantitativa discreta, y la información
se dispone en frecuencias absolutas o relativas, o en medidas de resumen.
Elementos a considerar en su construcción:
1. Dispón las barras separadas entre sí, para dar la idea de discontinuidad de la variable
representada.
2. El ancho de las barras será opcional, pero debe ser el mismo para todas.
3. La separación entre barras debe ser igual a la mitad del ancho de ellas.
4. Si la variable es nominal, ordena las barras en orden creciente o decreciente, en dependencia de
tus gustos.
5. Utiliza tantas barras como categorías tenga la variable.
6. Puedes colocar las barras en el eje vertical o en el horizontal. Comúnmente se utiliza el eje
horizontal.
7. Este gráfico se origina a partir de tablas unidimensionales.
Ejemplo:
Un grupo de investigadores desea conocer el comportamiento de la vulnerabilidad psicosocial en
ancianos de un área de salud. Para ello aplica el cuestionario de vulnerabilidad-bienestar psicosocial
del Dr. R. Pérez y obtiene los siguientes resultados:
b) Gráfico de pastel, de sectores o circular:
Uso:
Este gráfico se utiliza cuando queremos representar una variable cualitativa o cuantitativa discreta, y la
información se dispone en porcentaje. Básicamente, es un círculo dividido en sectores que representan
las categorías de la variable.
Elementos a considerar en su construcción:
1. La totalidad de la información se representa por el número total de grados de un círculo (360º).
2. Para obtener los grados correspondientes a cada categoría, se multiplica 3.6º por la frecuencia
relativa utilizada.
Ejemplo:
Utilizando la información del ejemplo anterior, y haciendo los cálculos pertinentes, el gráfico quedaría
de la siguiente forma:
c) Gráfico de barras múltiples:
Uso:
Este gráfico se utiliza cuando queremos representar dos variables, las cuales pueden ser: cualitativas o
cuantitativas discretas ambas, o una cualitativa y la otra cuantitativa discreta; y la información se
dispone en frecuencias absolutas o relativas, o en medidas de resumen. Los datos se representan
mediante barras agrupadas, como verás a continuación.
Elementos a considerar en su construcción:
1. Dispondrás grupos de dos, tres o más barras, es decir, barras dobles, triples, etc.
2. El número de grupos a formar dependerá del número de categorías consignadas en la columna
matriz o en la fila de encabezamiento, según tu gusto.
3. La separación entre cada grupo de barras es aproximadamente la mitad del ancho del grupo.
4. Este gráfico se origina a partir de tablas bidimensionales.
Ejemplo:
El siguiente gráfico resume la información de 300 niños de un Círculo Infantil atendido por un médico
de familia, atendiendo a las variables sexo y raza.
d) Gráfico de barras compuestas:
Uso:
Al igual que el gráfico anterior, utiliza este cuando quieras representar dos variables: ambas cualitativas
o cuantitativas discretas, o una cualitativa y la otra cuantitativa discreta; y dispongas la información en
frecuencias relativas. Aquí, la información perteneciente a una variable se representa en su totalidad en
una sola barra.
Elementos a considerar en su construcción:
1. Cada barra representa el ciento por ciento de la información del grupo representado.
2. El ancho de las barras queda a tu gusto, pero debe ser el mismo para todas.
3. La separación entre las barras es aproximadamente la mitad del ancho.
4. Lo originan tablas bidimensionales.
Ejemplo:
Utilizando la información del ejemplo anterior, el gráfico quedaría de la siguiente forma:
Gráficos para representar variables en escala cuantitativa continua:
A continuación te presentamos un grupo de gráficos que se estudiarán en este epígrafe, atendiendo al
número de variables que representan.
a) Histograma:
Uso:
Este gráfico consiste en barras adyacentes, y se utiliza cuando queremos representar una variable
cuantitativa continua, y la información se dispone en frecuencias absolutas o relativas, o en medidas
de resumen.
Elementos a considerar en su construcción:
1. Las barras o rectángulos se disponen unidos para dar idea de continuidad.
2. El ancho dependerá de la amplitud de los intervalos de clase en que se clasifica la variable en
estudio.
3. La altura de cada IC se obtiene mediante el cociente frecuencia absoluta/amplitud.
4. Por el eje X se consigna el límite de clase inferior o real de cada intervalo.
5. Lo originan tablas unidimensionales.
Ejemplo:
A continuación te presentamos los resultados de un estudio relacionado con las edades maternas.
b) Polígono de frecuencias:
Uso:
Este gráfico se utiliza cuando queremos representar hasta dos variables, de las que al menos una debe
ser cuantitativa continua, y la información se dispone en frecuencias absolutas o relativas, o en
medidas de resumen. Está formado por una o dos curvas que representan a cada variable estudiada.
Elementos a considerar en su construcción:
1. Se pueden construir histogramas inicialmente, y luego marcar los puntos medios de cada IC (marca
de clase), los cuales al unirse forman una curva.
2. Habrá tantas curvas como categorías tenga la variable discontinua.
3. Lo originan tablas uni o bidimensionales.
Ejemplo:
A continuación te presentamos los resultados de un estudio relacionado con las edades maternas y el
sexo de los recién nacidos.
c) Gráficos para representar variables en el tiempo:
A continuación te mostramos el gráfico aritmético simple, utilizado en el estudio de las series
cronológicas o temporales, como algunos las llaman. No obstante, es bueno que sepas que hay quienes
utilizan como gráfico de trabajo el de barras simples para el tratamiento de fenómenos vistos en el
tiempo.
Gráfico aritmético simple (GAS):
Uso:
Este gráfico se utiliza para representar una variable a través del tiempo.
Elementos a considerar en su construcción:
1. Cada categoría o clase de la variable se representa por una curva.
2. En el eje de las abscisas se consignará el año, mes, semana, etc., según la unidad en que se mida
el tiempo.
3. En ocasiones, cuando los ejes no ajustan, se utiliza una escala semilogarítmica para su
construcción.
Ejemplo:
A continuación te presentamos la mortalidad perinatal de Cuba desde 1990 hasta 1998.
DIAGRAMA DE CAJA:
El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable
numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la
distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Se compone
de:
✓ Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la caja una línea
indica dónde se encuentra la mediana (segundo cuartil Q2)
✓ Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el
tercer cuartil y acaba en el máximo.
✓ Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos
requisitos de heterogeneidad de los datos.
Los diagramas de caja son muy útiles para comparar una variable en diferentes grupos.
Construcción del diagrama de caja:
Para construir el diagrama de caja, debemos seguir los siguientes pasos:
1. Ordenar los datos.
2. Calcular los tres cuartiles (Q1, Q2 y Q3). Después, dibujamos el rectángulo (caja) delimitado por el
primer y tercer cuartil, dibujando entre los dos cuartiles una línea para indicar donde está la
mediana (segundo cuartil).
3. Calcular el rango intercuartílico, que es el tercer cuartil menos el primero.
4. Se calculan los límites admisibles inferior y superior (LI y LS) para identificar los valores extremos
Los límites marcarán los datos atípicos de la variable. Todos aquellos puntos que sean menores que LI
(x < LI) o mayores que LS (x > LS) son valores extremos. Es decir, son todos aquellos valores que no
están en el intervalo [LI,LS].
6. El mínimo es el menor valor del conjunto que sea mayor o igual que LI. El máximo es el mayor valor
del conjunto que es menor o igual que LS. Dibujamos los dos brazos. El primero va desde el primer
cuartil hasta el mínimo. El segundo, desde el tercer cuartil hasta el máximo.
7. Se dibujan los valores extremos, representados por puntos o círculos pequeños.
Ejemplo:
En un bosque plantaron veinte (N=20) árboles y, al cabo de unos años, se mide la altura para ver su
evolución. Un muy buen método para ver cómo han crecido y comprobar si existen valores extremos es
el diagrama de caja. Mediante esta representación gráfica podemos ver si hay árboles que han crecido
más o menos de lo habitual.
1. Se ordenan los datos
2. Se calculan los tres cuartiles
A partir del conjunto ordenado calculamos los cuartiles:
Los tres cuartiles son Q1=4,20, Q2=5,50 y Q3=6,42.
3. Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los valores extremos.
El rango intercuartílico es:
A partir del rango calculamos los límites:
Los valores extremos serán todos los árboles que midan menos de 0,96m o más de 9,59m. Tenemos
dos árboles, uno de 0,94m y otro de 10,14m que serán valores extremos. Estos valores los
representamos con puntos en el diagrama de caja.
4. El mínimo es el menor elemento del conjunto que sea mayor o igual al límite inferior. El máximo es
el mayor elemento que sea menor o igual al límite superior. En este caso, el mínimo es 2,98 y el
máximo 7,13.
5. Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer cuartil hasta el
mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde el tercer cuartil hasta el máximo
(desde el 6,42 hasta el 7,13).
6. Los dos puntos extremos se representan mediante un punto o círculo.
El diagrama de caja del conjunto de la altura de estos veinte árboles es:
Esta representación proporciona una visión rápida de la distribución, apreciándose una asimetría al no
estar Q2 en el centro, en este caso porque hay árboles más altos que la mediana cuya altura está más
separada de la mediana que los que tienen una altura inferior a ella, que están más agrupados.
También se puede apreciar la existencia de valores extremos.
GRACIAS
Donald Hamillton Ruiz Febre
foxmendr@hotmail.com
Cel: 998708608

Más contenido relacionado

Similar a ESTADISTICA DESCRIPTIVA .pdf

Métodos estadísticos tecnología
Métodos estadísticos tecnologíaMétodos estadísticos tecnología
Métodos estadísticos tecnologíaTamaraOchoa2
 
Metodos estadisticos tecnologia
Metodos estadisticos tecnologiaMetodos estadisticos tecnologia
Metodos estadisticos tecnologiaValentinaGarcia127
 
Metodos estadisticos tecnologia
Metodos estadisticos tecnologiaMetodos estadisticos tecnologia
Metodos estadisticos tecnologiaAnaSofia328
 
Términos Básicos en Estadística
Términos Básicos en EstadísticaTérminos Básicos en Estadística
Términos Básicos en EstadísticaRafael Brito
 
La estadistica conceptos basicos
La estadistica conceptos basicos La estadistica conceptos basicos
La estadistica conceptos basicos nirce
 
Proyecto de aula matematicas
Proyecto de aula matematicasProyecto de aula matematicas
Proyecto de aula matematicaslilitorres4872
 
Proyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicasProyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicaslilitorres4872
 
Estadistica
EstadisticaEstadistica
Estadisticaali_ro
 
Términos Básicos de Estadisticas
Términos Básicos de EstadisticasTérminos Básicos de Estadisticas
Términos Básicos de EstadisticasDeibis Contreras
 
PROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICASPROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICASlilitorres4872
 
Teoria y Ejemplo de Distribucion de Estadística General
Teoria y Ejemplo de Distribucion de Estadística GeneralTeoria y Ejemplo de Distribucion de Estadística General
Teoria y Ejemplo de Distribucion de Estadística Generalfranciscoe71
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxJuancamiloZuiga4
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxhellendiaz12
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxhellendiaz12
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfIsabellaLugo3
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfElizabethPereaCastil
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxhellendiaz12
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfXcpBoy
 

Similar a ESTADISTICA DESCRIPTIVA .pdf (20)

Métodos estadísticos tecnología
Métodos estadísticos tecnologíaMétodos estadísticos tecnología
Métodos estadísticos tecnología
 
Metodos estadisticos tecnologia
Metodos estadisticos tecnologiaMetodos estadisticos tecnologia
Metodos estadisticos tecnologia
 
Metodos estadisticos tecnologia
Metodos estadisticos tecnologiaMetodos estadisticos tecnologia
Metodos estadisticos tecnologia
 
Tecnologia 11 6
Tecnologia 11 6Tecnologia 11 6
Tecnologia 11 6
 
Términos Básicos en Estadística
Términos Básicos en EstadísticaTérminos Básicos en Estadística
Términos Básicos en Estadística
 
La estadistica conceptos basicos
La estadistica conceptos basicos La estadistica conceptos basicos
La estadistica conceptos basicos
 
Proyecto de aula matematicas
Proyecto de aula matematicasProyecto de aula matematicas
Proyecto de aula matematicas
 
Proyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicasProyecto de aula asignatura matematicas
Proyecto de aula asignatura matematicas
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Términos Básicos de Estadisticas
Términos Básicos de EstadisticasTérminos Básicos de Estadisticas
Términos Básicos de Estadisticas
 
PROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICASPROYECTO DE AULA MATEMATICAS
PROYECTO DE AULA MATEMATICAS
 
Estadistica 2020
Estadistica 2020Estadistica 2020
Estadistica 2020
 
Teoria y Ejemplo de Distribucion de Estadística General
Teoria y Ejemplo de Distribucion de Estadística GeneralTeoria y Ejemplo de Distribucion de Estadística General
Teoria y Ejemplo de Distribucion de Estadística General
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 

Último

REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 

Último (17)

REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 

ESTADISTICA DESCRIPTIVA .pdf

  • 1. ESTADISTICA DESCRIPTIVA COMPETENCIA: RESUELVE PROBLEMAS DE GESTIÓN DE DATOS E INCERTIDUMBRE
  • 2. ESTADISTICA DESCRIPTIVA OBJETIVOS: ✓ Exponer el ámbito de aplicación y la importancia de la estadística. ✓ Diferenciar entre una variable cualitativa y una variable cuantitativa. ✓ Distinguir entre una variable discreta y una variable continua. ✓ Diferenciar entre niveles de medición nominal, ordinal, por intervalo y de razón. ✓ Aplicar la metodología en la elaboración de tablas de distribución de frecuencias. ✓ Seleccionar y elaborar gráficos que visualicen la información de las tablas. ✓ Analizar y obtener conclusiones sobre la información contenida en las tablas y gráficas.
  • 3. ESTADISTICA DESCRIPTIVA CONCEPTO: Una definición clara y sencilla señala que, la estadística es la ciencia que recoge, organiza, presenta, analiza e interpreta datos con el fin de propiciar una toma de decisiones más eficaz. Es un sistema o método usado para la recolección, organización, análisis y descripción numérica de la información. La estadística estudia el comportamiento de hechos o fenómenos de grupo. IMPORTANCIA Y AMBITO: En nuestra vida cuotidiana, cuando revisamos periódicos, revistas, internet, al mirar los noticieros en televisión, nos encontramos con tablas, gráficos, medidas, análisis e interpretaciones que nos dan cuenta de lo que pasa en nuestro contexto y en distintos lugares del planeta. Podemos enterarnos, que está ocurriendo en el campeonato nacional de futbol, qué equipos ocupan las primeras posiciones en la tabla, cuáles ocupan las últimas posiciones; en el ámbito artístico, cuáles son las preferencias musicales de los jóvenes de 10 a 15 años, o de 16 a 25 años, por supuesto, se encontrarán diferencias; en el ámbito profesional, cuáles son las tendencias de estudios universitarios más demandadas, cuáles son las profesiones más rentables; en los dispositivos tecnológicos, cuáles son las necesidades actuales de equipos, las preferencias de un grupos de jóvenes, las necesidades de los universitarios, de las amas de casa, de los hombres y mujeres de negocios, etc.
  • 4. Pero la estadística no solo es útil para el desempeño de la vida cuotidiana y de los negocios; sino que ésta va más allá de ellos, las diferentes ciencias se han desarrollado mediante la utilización de la estadística como: las médicas, que nos da cuenta de la evolución de las enfermedades, la eficacia de los medicamentos y tratamientos, el porcentaje de éxito en determinado tipo de cirugía, la frecuencia de las enfermedades, sus índices de mortalidad, etc.; las ciencias sociales la cual involucra a los ámbitos: educativo, que nos permite conocer los índices de estudio escolarizado, alfabetismo, analfabetismo; la psicología, que contribuye al conocimiento del comportamiento de los individuos y sus aptitudes, la sociología en la evolución y desarrollo de las culturas y sociedades, la economía contribuye con estudios tanto microeconómicos como macroeconómicos; y más ámbitos tales como demografía, administración pública, historia, geografía, antropología, etc. VARIABLE: Una variable es una característica de los elementos que es de interés. Como se observa en los ejemplos de: edad, número de hijos, estatura, estado civil, grupo sanguíneo; se tienen variables de dos clases de datos, los cuantitativos y cualitativos. DATOS CUNATITATIVOS: Son expresados numéricamente y nos dan una idea de cantidad, dimensión, duración, distancia, etc. DATOS CUALITATIVOS: Son conocidos también como datos de atributo, agrupan a una población o muestra en características semejantes, pero no tienen medidas numéricas; se encuentran comprendidas por etiquetas o nombres que identifican el atributo de cada elemento, Como en el caso de la variable estado civil, el dato de respuesta podría ser: soltero, casado, viudo, divorciado, etc.
  • 5. De acuerdo a la naturaleza de los datos se debe escoger el método apropiado para resumir la información, determinar las medidas adecuadas y realizar sus correspondientes análisis. Para ello es necesario clasificar a las variables en dos tipos: VARIABLES CUANTITATIVAS: Se encuentran en este grupo aquellas que pueden medirse, cuantificarse, permiten una descripción o representación numérica. Estas variables atendiendo a los valores que pueden tomar se clasifican en variables discretas y continuas. a) Variable discreta: Se refiere a aquella que sólo puede tomar valores enteros, esto es: 1, 2, 3, etc., tal es el caso del número de hijos por familia, número de televisores en un hogar, etc. b) Variable continua: Toma todos los valores posibles en un intervalo, es decir, se admiten valores fraccionarios, como el número de años de una persona: 20 años, tres meses, cinco días, valor pagado por impuesto a la renta de un profesional o empresa, etc. VARIABLES CUALITATIVAS: Estas variables agrupan cualidades o atributos, en la que los casos de estudio pueden formarse dos grupos como: hombre – mujer, estudiante – no estudiante, con empleo – sin empleo, etc. Pero también estas variables pueden conformar más de dos grupos como; al estudiar el grupo sanguíneo de los individuos se tendrá: A, B, AB y O (cuatro grupos); el estado civil de las personas se tendrá soltero (a), casado (a), divorciado (a), viudo (a) y unión de hecho, etc. Según sea de un tipo u otro, la variable podrá medirse de distinta manera, esto es, tendrán distintas escalas o niveles de medición.
  • 6. En las variables cualitativas los datos son de nivel nominal y ordinal: a) Datos de nivel nominal: Los datos de los elementos sujetos de análisis se encuentran representados por nombres, admiten una clasificación, sin que ello signifique un orden lógico. Como ejemplos serían: Países que integran el pacto andino, género de los estudiantes de un curso de estadística, marca de automóviles, etc. b) Datos de nivel ordinal: Los datos de los elementos sujetos de análisis se disponen de acuerdo a un orden que se encuentra especificado, razón por lo que los datos se pueden clasificar y ordenar. Como ejemplo, las calificaciones cualitativas asignadas por el profesor de estadísticas a los trabajos presentados por los estudiantes serían: excelente, muy bueno, bueno, regular y malo. Tabla de posiciones de los equipos que intervienen en el campeonato ecuatoriano de futbol de la serie A, se tendría primero, segundo, tercero, … ,etc. En las variables cuantitativas los datos son de nivel de intervalo y de razón: a) Datos de nivel de intervalo: Identifica la posición ordinal de cada elemento sujeto de análisis y las diferencias entre intervalos es la misma. Ejemplos de datos de intervalo son la temperatura ambiental observada en la escala de grados centígrados, las tallas de las diferentes prendas de vestir, etc. b) Datos de nivel de proporción: Identifica la posición ordinal de cada elemento sujeto de análisis, las distancias de cada intervalo es la misma, se basa en un sistema numérico en la que el cero es significativo y las operaciones e multiplicación y división tienen un resultado racional.
  • 7. Ejemplos de esto se tiene a: las ventas en dólares de un establecimiento comercial, en donde el cero representa que en ese día no ha existido ventas, costos, rentabilidad, participación en el mercado, etc. FRECUENCIAS: La frecuencia es una medida que sirve para comparar la aparición de un elemento Xi en un conjunto de elementos (X1, X2,…, XN). Mediante tablas de distribuciones de frecuencia se puede presentar organizadamente el recuento de datos. Las frecuencias de cada elemento se pueden expresar tanto absolutas (número total de apariciones) como relativas (proporción de apariciones). Si los datos provienen de una variable cuantitativa o existen muchas categorías, los datos se suelen agrupar en clases. Cada clase, que tiene un intervalo o amplitud constante, está representado por su marca de clase, que es el punto medio de la misma.
  • 8. Frecuencia absoluta: La frecuencia absoluta (ni) de un valor Xi es el número de veces que el valor está en el conjunto (X1, X2,…, XN). La suma de las frecuencias absolutas de todos los elementos diferentes del conjunto debe ser el número total de sujetos N. Si el conjunto tiene k números (o categorías) diferentes, entonces: Ejemplo: Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las siguientes:
  • 9. Se realiza el recuento de la variable que se estudia (notas) para ver el número de veces que aparece cada nota. Una vez realizado el recuento, se representan las frecuencias absolutas de cada una de las notas (ni). Las frecuencias son: n1=2, n2=4, n3=6, n4=7, n5=5, n6=3, n7=2 y n8=1. Frecuencia absoluta acumulada: La frecuencia absoluta acumulada(Ni) de un valor Xi del conjunto (X1, X2,…, XN) es la suma de las frecuencias absolutas de los valores menores o iguales a Xi, es decir: La frecuencia absoluta acumulada del valor más alto (o de la última clase, en el caso de variables cualitativas) XN es igual al número total de sujetos. Ejemplo: Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las siguientes:
  • 10. Primero se realiza el recuento de la variable que se estudia (notas) para ver el número de veces que aparece cada nota y obtener las frecuencias absolutas. Las frecuencias absolutas son las siguientes: n1=2, n2=4, n3=6, n4=7, n5=5, n6=3, n7=2 y n8=1. Finalmente se pueden calcular las frecuencias absolutas acumuladas como la suma de las frecuencias absolutas de los valores menores o iguales a Xi:
  • 11. Frecuencia relativa: La frecuencia relativa (fi) de un valor Xi es la proporción de valores iguales a Xi en el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa es la frecuencia absoluta dividida por el número total de elementos N: Las frecuencias relativas son valores entre 0 y 1, (0 ≤ fi ≤ 1). La suma de las frecuencias relativas de todos los sujetos es siempre 1. Supongamos que en el conjunto tenemos k números (o categorías) diferentes, entonces: Si se multiplica la frecuencia relativa por cien se obtiene el porcentaje (tanto por cien %).
  • 12. Ejemplo: Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las siguientes: Para obtener la frecuencia relativa, se necesita calcular antes la frecuencia absoluta. Se realiza el recuento de la variable y se observa el número de veces que aparece cada nota. Una vez se obtienen, se puede calcular la frecuencia relativa de cada elemento como la división de la frecuencia absoluta entre el total de elementos N=30.
  • 13. Se pueden calcular las frecuencias relativas en porcentaje (%) multiplicándolas por 100. Frecuencia relativa acumulada: Definimos la frecuencia relativa acumulada (Fi) de un valor Xi como la proporción de valores iguales o menores a Xi en el conjunto de datos (X1, X2,…, XN). Es decir, la frecuencia relativa acumulada de ese valor es su frecuencia absoluta acumulada dividida por el número total de sujetos N: La frecuencia relativa acumulada de cada valor Xi será mayor que la correspondiente frecuencia relativa, excepto en el caso del valor más bajo X1, en que serán iguales. La frecuencia relativa acumulada de un valor Xi es la suma de las frecuencias relativas de los valores menores o iguales a él, es decir: La frecuencia relativa acumulada del valor más alto, Xk es igual a 1.
  • 14. Ejemplo: Un profesor tiene la lista de las notas en matemáticas de 30 alumnos de su clase. Las notas son las siguientes: Para calcular la frecuencia relativa acumulada, se necesita obtener antes la frecuencia relativa. Para ello es necesario antes calcular la frecuencia absoluta, realizando el recuento de la variable contando el número de veces que aparece cada nota. Una vez se obtienen, se calcula la frecuencia relativa de cada elemento como la división de la frecuencia absoluta entre el total de elementos N=30.
  • 15. Se pueden calcular las frecuencias relativas acumuladas en porcentaje (%) multiplicándolas por 100. Tabla de frecuencias: La tabla de frecuencias (o distribución de frecuencias) es una tabla que muestra la distribución de los datos mediante sus frecuencias. Se utiliza para variables cuantitativas o cualitativas ordinales. La tabla de frecuencias es una herramienta que permite ordenar los datos de manera que se presentan numéricamente las características de la distribución de un conjunto de datos o muestra.
  • 16. Construcción de la tabla de frecuencias: Cabe distinguir entre: ✓ Tabla de frecuencias con datos no agrupados. ✓ Tabla de frecuencias con datos agrupados. Construcción de una tabla de frecuencias con datos no agrupados: 1. En la primera columna se ordenan de menor a mayor los diferentes valores que tiene la variable en el conjunto de datos. 2. En las siguientes columnas (segunda y tercera) se ponen las frecuencias absolutas y las frecuencias absolutas acumuladas. 3. Las columnas cuarta y quinta contienen las frecuencias relativas y las frecuencias relativas acumuladas. 4. Adicionalmente (opcional) se pueden incluir dos columnas (sexta y séptima), representando la frecuencia relativa y la frecuencia relativa acumulada como tanto por cien. Estos porcentajes se obtienen multiplicando las dos frecuencias por cien.
  • 17. Construcción de una tabla de frecuencias con datos agrupados: Por lo general una tabla de frecuencias con datos agrupados se realiza cuando la cantidad de datos es grande y/o la variable es continua. Básicamente consiste en agrupar los datos en intervalos de una misma amplitud, denominados clases. A cada clase se le asignan valores de cada tipo de frecuencias. Ejemplo: Básicamente consiste en agrupar los datos en intervalos de una misma amplitud, denominados clases. A cada clase se le asignan valores de cada tipo de frecuencias. Consultamos a 50 personas sobre cuál era su edad y obtuvimos los siguientes resultados:
  • 18.
  • 19.
  • 20.
  • 21. Ojo! Fíjate bien, se utiliza corchete para el dato que SE INCLUYE… y se utiliza paréntesis para el dato que NO SE INCLUYE. Eso significa que los datos de 10 años se cuentan pero los de 19 NO. El 19 se cuenta en el siguiente intervalo y allí vendría siendo el límite inferior. Súmale el valor de la amplitud, es decir, 9 años, y obtendrás el límite superior de 28 años. Eso nos daría el segundo intervalo: El uso del corchete implica que SÍ vamos a contar acá el 19 pero el paréntesis indica que NO vamos a incluir a los de 28 años. Ese se incluye en el siguiente. Veamos los 7 intervalos construidos:
  • 22. Si te fijas bien, el último intervalo debe finalizar en el valor máximo, es decir, 73 años. Lógicamente ese último intervalo debe concluir con corchetes para no dejar por fuera el dato de 73 años. Paso 6: Cálculo de la Marca de Clase de cada intervalo La marca de clase simplemente es el punto medio que hay en cada intervalo. Lo que debes hacer es sumar límite inferior y superior de cada intervalo y dividir el resultado entre 2. Así:
  • 23. Paso 7: Determinar la Frecuencia Absoluta de cada intervalo La frecuencia absoluta sólo consiste en CONTAR la cantidad de datos que caen en cada intervalo. Se representa con la f minúscula y un subíndice (número chiquito abajo) que indica el intervalo en el cual está ubicada la frecuencia absoluta (fi). Veamos cuántos datos caen en el primer intervalo de [10 – 19) Si te fijas bien, NO estamos contando los datos de 19 años… esos se cuentan en el siguiente intervalo. Para el primer intervalo tenemos 5 datos, esa será su frecuencia absoluta, su CONTEO. Veamos cuántos datos caen en el segundo intervalo de [19 – 28) Si te fijas bien, NO estamos contando los datos de 28 años… esos se cuentan en el siguiente intervalo. Para el segundo intervalo tenemos 11 datos, esa será su frecuencia absoluta, su CONTEO.
  • 24. Veamos cuántos datos caen en el tercer intervalo de [28 – 37) Si te fijas bien, NO estamos contando los datos de 37 años… esos se cuentan en el siguiente intervalo. Para el tercer intervalo tenemos 8 datos, esa será su frecuencia absoluta, su CONTEO. Estas son las frecuencias absolutas de los 7 intervalos:
  • 25. Evidentemente la sumatoria de todas las frecuencias absolutas debe arrojar el número de datos que tenemos, en este caso 50. Paso 8: Determinar la Frecuencia Absoluta Acumulada de cada intervalo No te compliques, ACUMULAR es SUMAR todo lo que llevo hasta el momento. La Frecuencia Absoluta Acumulada (Fi) de cada intervalo consiste en sumar todas las frecuencias absolutas de los intervalos anteriores y el actual. Para diferenciar su símbolo de la frecuencia absoluta, simplemente utiliza la F mayúscula. La primer frecuencia absoluta acumulada es la misma primer frecuencia absoluta porque recién estamos empezando… no hay nada que acumular todavía. La segunda frecuencia absoluta acumulada vale 16 porque debemos sumar 5+11 porque son las frecuencias absolutas que llevamos hasta ahora para ACUMULAR.
  • 26. La tercer frecuencia absoluta acumulada vale 24 porque debemos sumar 5+11+8 porque son las frecuencias absolutas que llevamos hasta ahora para ACUMULAR.
  • 27. Cuando llegues al último intervalo, deberás obtener un ACUMULADO igual al TOTAL de datos, en este caso 50:
  • 28. Paso 9: Determinar la Frecuencia Relativa de cada intervalo La palabra RELATIVA nos indica que vamos a RELACIONAR cada Frecuencia Absoluta con su Total… y en matemáticas cuando te dicen relacionar algo con algo… es DIVIDIR ese algo con ese algo. Un pequeño ejemplo con dinero (eso hace más llamativas las cosas… ¿no?) Todos en mi familia aportan plata para el mercado mensual… entre todos aportamos un TOTAL de 200 dólares. De esos 200, yo sólo aporto 20 dólares. Vamos a obtener la RELACIÓN de MI APORTE respecto al TOTAL. Fácil, 20 ÷ 200 = 0.1 Si lo convierto a porcentaje… 0.1 x 100% = 10% Entonces MI APORTE RELATIVO es del 10% del TOTAL. Espero que hayas entendido a qué se refiere la palabra RELATIVO. La Frecuencia Relativa (fr) de cada intervalo consiste en dividir la Frecuencia Absoluta de es mismo intervalo entre el Total de datos.
  • 29. De la tabla construida hasta ahora, podemos observar que la frecuencia relativa se puede expresar en decimal o en porcentaje, y que la suma de todas las frecuencias relativas debe dar el 100%.
  • 30. Paso 10: Determinar la Frecuencia Relativa Acumulada de cada intervalo Vuelve y juega lo acumulado… no te compliques, ACUMULAR es SUMAR todo lo que llevo hasta el momento. La Frecuencia Relativa Acumulada (Fr) de cada intervalo consiste en sumar todas las frecuencias relativas de los intervalos anteriores y el actual. Para diferenciar su símbolo de la frecuencia relativa, simplemente utiliza la F mayúscula. La primer frecuencia relativa acumulada es la misma primer frecuencia relativa porque recién estamos empezando… no hay nada que acumular todavía. La segunda frecuencia relativa acumulada vale 0.32 porque debemos sumar 0.1+0.22 porque son las frecuencias relativas que llevamos hasta ahora para ACUMULAR.
  • 31.
  • 32. La tercer frecuencia relativa acumulada vale 0.48 porque debemos sumar 0.1+0.22+0.16 porque son las frecuencias relativas que llevamos hasta ahora para ACUMULAR.
  • 33. Seguro ya entendiste la dinámica… veamos de una vez todas las Frecuencias Relativas Acumuladas de nuestro ejemplo:
  • 34. MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS: ¿Cómo se calculan la Media Mediana y Moda para Datos Agrupados? Se conocen como Medidas de Tendencia Central y para esta explicación vamos a retomar el ejemplo que utilizamos para la elaboración de la tabla de Distribución de Frecuencias para Datos Agrupados. Vamos directo al punto con el ejemplo: Se consultó a 50 personas sobre su edad y estos fueron los resultados que representamos en una tabla de frecuencias para datos agrupados.
  • 35. Media Aritmética para Datos Agrupados: La media aritmética también se conoce como PROMEDIO, y básicamente se calcula como la suma de todos los datos dividida entre el número total de datos. Pero esto aplica para datos sueltos… es decir… NO AGRUPADOS… Para los datos agrupados debemos considerar con un valor REPRESENTATIVO de cada intervalo que se denomina MARCA DE CLASE y asumir que TODAS las cantidades de la frecuencia absoluta se ven representadas por ese valor. Analicemos el primer intervalo de nuestro ejemplo: Debemos asumir que esas 5 personas tienen 14.5 años:
  • 36. Analicemos el segundo intervalo de nuestro ejemplo: Debemos asumir que esas 11 personas tienen 23.5 años Y así para todos los intervalos de la tabla. La formula para calcular la media aritmética en datos agrupados es la siguiente:
  • 37. La media se calcula sumando todos los datos y dividiendo entre el total de ellos. Pero para datos agrupados asumimos que por ejemplo en el primer intervalo esas 5 personas todas tienen 14.5 años… entonces queda más práctico multiplicar 5×14.5 o lo que es lo mismo 14.5+14.5+14.5+14.5+14.5. Vamos a realizar ese mismo procedimiento para cada intervalo, multiplicar marca de clase (xi) por frecuencia absoluta (fi) y colocamos el resultado en una nueva columna a la derecha: En este caso ya podemos afirmar que de las 50 personas encuestadas, el promedio de edad es de 40.78 años.
  • 38. Mediana para Datos Agrupados: De nuestro ejemplo sabemos que las 50 personas se mueven en un rango de edad que va desde 10 años el más joven y hasta 73 años el más adulto. La mediana sería esa edad hasta la cual acumulo el 50% de las personas y después de la cuál tengo el otro 50%. Entonces, desde los 10 años hasta la Mediana hay 25 personas…. y desde la Mediana hasta los 73 años están las otras 25 personas… La Mediana (Me) la calculamos con la siguiente fórmula:
  • 39. Li: es el límite inferior del intervalo de la mediana. fi: es la frecuencia absoluta del intervalo de la mediana. Fi-1: es la frecuencia absoluta acumulada anterior al intervalo de la mediana. N: es el número total de datos del ejercicio, en este caso vale 50. A: es la amplitud de los intervalos y en este caso vale 9 años. Vamos a identificar el intervalo de la mediana para poder obtener los datos que necesitamos. La idea es partir mitad y mitad la cantidad de personas en un valor… lo primero es obtener esa mitad: Vamos a apoyarnos en la columna de frecuencias absolutas acumuladas para descubrir en cuál intervalo tenemos metida a la persona número 25
  • 40. En el tercer intervalo teníamos hasta la persona número 24, en cambio en el cuarto intervalo tenemos a las personas 25, 26, 27, 28 y 29, por lo tanto ese es el que nos sirve. Identificamos datos y reemplazamos en la fórmula:
  • 41. Esto significa que desde los 10 años hasta los 38.8 años hay 25 personas…. y desde los 38.8 años hasta los 73 años están las otras 25 personas…
  • 42. Moda para Datos Agrupados: Su mismo nombre lo indica… ¿Cuál es la tendencia? ¿Cuál edad estará de moda en nuestro ejemplo? Si fuesen datos NO AGRUPADOS, fácilmente diríamos que la moda es el dato que más se repite sin realizar ningún cálculo ni operación matemática. Pero como nuestro interés es calcular la moda para datos agrupados… debemos utilizar la siguiente fórmula: La moda se simboliza como Mo y nuestro primer paso será identificar el intervalo modal. Es muy sencillo, el intervalo modal corresponde a aquel que posee la frecuencia absoluta más alta. Para nuestro ejemplo el modal sería el segundo intervalo ya que tiene frecuencia absoluta de 11
  • 43.
  • 44. Teniendo identificado el intervalo modal, vamos a analizar cada término de la fórmula para calcular la moda Li: es el límite inferior del intervalo modal, en este caso vale 19. fi: es la frecuencia absoluta del intervalo modal, en este caso vale 11. fi-1: es la frecuencia absoluta anterior al intervalo modal, en este caso vale 5. fi+1: es la frecuencia absoluta siguiente al intervalo modal, en este caso vale 8. A es la amplitud del intervalo modal, en este caso vale 9 porque el intervalo va de 19 a 28 años… es decir hay una distancia de 9 años allí.
  • 45. Por si no te quedó claro lo de la frecuencia absoluta anterior y siguiente, así se identifican:
  • 46. Listo, ahora reemplacemos los datos en la fórmula y calculemos la edad de moda Todo parece indicar que para nuestro ejemplo, está de moda tener 25 años.
  • 47. COMPARACIÓN ENTRE MEDIA, MEDIANA Y MODA Las distribuciones simétricas tienen el mismo valor para la media, la mediana y la moda. ✓ En una distribución con sesgo positivo, la moda se halla en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la media más a la derecha. Es decir Mo < Me < x. ✓ En una distribución con sesgo negativo, la moda es el punto más alto, la mediana está a la izquierda de la moda y la media está a la izquierda de la mediana. Es decir, x < Me < Mo. Cuando la población tiene una distribución sesgada, con frecuencia la mediana resulta ser la mejor medida de posición, debido a que está siempre entre la media y la moda. La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la media. La selección de la media, la mediana o la moda, depende de la aplicación. Por ejemplo, se habla del salario promedio (media); el precio mediano de una casa nueva.
  • 48. SIMETRÍA La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media. Existen tres tipos de curva de distribución: ✓ Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media. ✓ Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss, o distribución normal. ✓ Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a la media.
  • 49. MEDIDAS DE DISPERSIÓN VARIANZA: La varianza (S²) mide la dispersión de los datos de una muestra (X1,X2,…,XN) respecto a la media (x), calculando la media de los cuadrados de las distancias de todos los datos. Al elevar las diferencias al cuadrado se garantiza que las diferencias absolutas respecto a la media no se anulan entre si. Además, resaltan los valores alejados. Siempre se cumple que la varianza es mayor o igual que cero (SX² ≥ 0). Ésta es cero cuando todos los datos son el mismo (ejemplo: {1,1,1,1,1}).
  • 50. Para datos agrupados, la fórmula de la varianza muestral será: Un inconveniente de la varianza es que sus unidades son las unidades de los datos al cuadrado.
  • 51. Ejemplo: Estimar la varianza de las estaturas de niños de 10 años de una ciudad. La muestra estudiada es de 400 sujetos. Las estaturas medidas (Xi), agrupadas en frecuencias (ni), se anotan en la primera y segunda columna de esta tabla respectivamente.
  • 52. En el paso 1 se ha obtenido la media. Después se rellenan las columnas con las diferencias y los cuadrados de las diferencias, para, finalmente, paso 2, aplicar la fórmula de la varianza muestral (o cuasivarianza): Y su valor es de SX² = 0,005 m². Esta varianza muestral tan reducida indica que las estaturas están muy agrupadas entorno a la media.
  • 53. DESVIACIÓN TÍPICA O ESTÁNDAR: La desviación típica (o desviación estándar) es una medida de dispersión (S) asociada a la media. Como estadístico, es la raíz cuadrada de la varianza. Es la raíz cuadrada del cuadrado de las desviaciones de los datos de una muestra (X1,X2,…,XN) de la media (x) dividido en el caso de la muestra por N – 1. Está en las mismas unidades de los datos. Es un indicador de cómo tienden a estar agrupados los datos respecto a la media.
  • 54. Las fórmulas de arriba se corresponden con el estadístico de la desviación estándar de una variable aleatoria de una muestra. Resulta muy útil y empleado en Estadística Inferencial. Una forma sencilla para entender el significado de la desviación estándar (o desviación típica) como indicador de la dispersión de los valores de una distribución normal con respecto a su media aritmética, si el número de datos es lo suficientemente alto, es que: ✓ Entre la media menos una desviación estándar y la media más una desviación estándar, encontraremos un 68,4 % de valores que estarán comprendidos dentro de ese intervalo. ✓ Entre la media menos dos desviaciones estándar y la media más dos desviaciones estándar, encontraremos un 95,4 % de valores dentro de ese intervalo.
  • 55. La desviación estándar asociada a la media, resulta muy apropiada para describir distribuciones con una asimetría razonablemente baja. Por el contrario, si la asimetría de la distribución es más acusada, describen mejor la distribución la mediana con el rango intercuartílico.
  • 56. Ejemplo: Estimar la desviación estándar de las estaturas de niños de 10 años que habitan en una capital. La muestra estudiada es de 400 sujetos. Las estaturas medidas (Xi), agrupadas en frecuencias (ni), se muestran en la primera y segunda columna de esta tabla.
  • 57. En el paso 1 se ha obtenido la media (1,36 m), después, se construyen dos columnas con las diferencias y los cuadrados de las diferencias, para, finalmente, paso 2, aplicar la fórmula de la desviación estándar muestral: Y su valor es de SX 0,07 m.
  • 58. COEFICIENTE DE VARIACIÓN DE PEARSON: El coeficiente de variación de Pearson (r) mide la variación de los datos respecto a la media, sin tener en cuenta las unidades en la que están. El coeficiente de variación toma valores entre 0 y 1. Si el coeficiente es próximo al 0, significa que existe poca variabilidad en los datos y es una muestra muy compacta. En cambio, si tienden a 1 es una muestra muy dispersa y la media pierde confiabilidad. De hecho, cuando el coeficiente de variación supera el 30% (0,3) se dice que la media es poco representativa. Para interpretar fácilmente el coeficiente, podemos multiplicarlo por cien para tenerlo en tanto por cien. Es importante que los valores sean positivos y, más aún, que la media aritmética también lo sea. También ocurre que si la media se aproxima a cero, el coeficiente de variación tomará valores muy grandes, sin que ello implique que la distribución sea muy dispersa.
  • 59. En casos excepcionales el coeficiente de variación de Pearson podría ocurrir que superara la unidad. El coeficiente de variación de Pearson puede aplicarse tanto a distribuciones poblacionales como a muestrales. Este coeficiente sirve para comparar dos distribuciones diferentes, que pueden tener también magnitudes o unidades distintas, pues ya se ha dicho que este coeficiente no tiene unidades. Ejemplo: El cóndor de los Andes tiene una envergadura media (alas extendidas) de 285 cm con una desviación estándar de 30 cm, mientras que una especie de murciélago tiene una envergadura media de 10 cm y su población presenta una desviación estándar de 3 cm. ¿Cuál de las dos poblaciones presenta una mayor dispersión en lo que se refiere a su envergadura? Solución: Una primera impresión parecería concluir que la dispersión es mayor en el cóndor que en esa especie de murciélago. Pero si calculamos los respectivos coeficientes de variación de Pearson: Cóndor de los Andes:
  • 60. Especie de murciélago: Mediante el coeficientes de variación de Pearson se ha comprobado que, aunque la variación estándar de la envergadura del cóndor de los Andes es muy superior a la de esa especie de murciélago, su dispersión es menor.
  • 61. CUANTILES PARA DATOS AGRUPADOS ¿Cómo se calculan los Cuartiles Deciles y Percentiles para Datos Agrupados? Vamos directo al punto con el ejemplo: Se consultó a 50 personas sobre su edad y estos fueron los resultados que representamos en una tabla de frecuencias para datos agrupados.
  • 62. Cómo calcular Cuartiles para Datos Agrupados Los cuartiles básicamente son aquellos datos que permiten dividir o separar la muestra en cuatro partes iguales. Entre cuartil y cuartil se delimita un 25%. El segundo cuartil corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado y lado. Para calcular cualquier cuartil debemos identificar el intervalo de trabajo. Para ello utilizamos la siguiente expresión:
  • 63. N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las edades de 50 personas. K corresponde al número del cuartil. Si vamos a calcular el cuartil tres (Q3) entonces K vale 3; s i vamos a calcular el cuartil dos (Q2) entonces K vale 2, y s i vamos a calcular el cuartil uno (Q1) entonces K vale 1. Vamos a calcular el Cuartil 3 (Q3): El cuartil debe estar ubicado en el dato número 37.5… vamos a UBICAR en cuál intervalo tendríamos un acumulado en el cuál cabrían 37.5 datos. Revisemos la tabla de frecuencias:
  • 64. No sirve el intervalo [46 – 55) porque el acumulado es 37… y necesitamos que quepan hasta 37.5… por eso el intervalo que nos SIRVE es el de [55 – 64) donde caben hasta 43 acumulados hasta él. Es fácil... en el primer acumulado que quepa… ese es el intervalo de trabajo. Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los cuartiles:
  • 65. ▪ N: es la cantidad de datos de la muestra. En este caso N vale 50 ▪ K: es el número del cuartil. En este caso K vale 3 ▪ Fi-1: es la frecuencia absoluta acumulada ANTERIOR al intervalo de trabajo. En este caso Fi-1 vale 37 ▪ fi: es la frecuencia absoluta del intervalo de trabajo. En este caso fi vale 6 ▪ Li: es el límite inferior del intervalo de trabajo. En este caso Li vale 55 ▪ A: es la amplitud del intervalo de trabajo. En este caso A vale 9
  • 66. Analicemos el resultado: Para este ejercicio tenemos que el sujeto de menor edad tiene 10 años… y el de mayor edad tiene 73 años. El cuartil tres (Q3) vale 55.75 años… eso significa que el 75% de la muestra está entre 10 y 55.75 años… y el otro 25% de la muestra tiene entre 55.75 y 73 años de edad.
  • 67. Cómo calcular Deciles para Datos Agrupados: Los deciles básicamente son aquellos datos que permiten dividir o separar la muestra en diez partes iguales. Entre decil y decil se delimita un 10% El quinto decil corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado y lado. Para calcular cualquier decil debemos identificar el intervalo de trabajo. Para ello utilizamos la siguiente expresión:
  • 68. N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las edades de 50 personas. K corresponde al número del decil. Si vamos a calcular el decil uno (D1) entonces K vale 1; s i vamos a calcular el decil dos (D2) entonces K vale 2, y s i vamos a calcular el decil tres (D3) entonces K vale 3… y así sucesivamente con cualquier decil que desees calcular. Recuerda que son NUEVE deciles. Vamos a calcular el Decil 4 (D4) Reemplazamos: El decil debe estar ubicado en el dato número 20… vamos a UBICAR en cuál intervalo tendríamos un acumulado en el cuál cabrían 20 datos. Revisemos la tabla de frecuencias:
  • 69. No sirve el intervalo [19 – 28) porque el acumulado es 16… y necesitamos que quepan hasta 20… por eso el intervalo que nos SIRVE es el de [28 – 37) donde caben hasta 24 acumulados hasta él. Es fácil... en el primer acumulado que quepa… ese es el intervalo de trabajo. Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los deciles:
  • 70. • N: es la cantidad de datos de la muestra. En este caso N vale 50 • K: es el número del decil. En este caso K vale 4 • Fi-1: es la frecuencia absoluta acumulada ANTERIOR al intervalo de trabajo. En este caso Fi-1 vale 16 • fi: es la frecuencia absoluta del intervalo de trabajo. En este caso fi vale 8 • Li: es el límite inferior del intervalo de trabajo. En este caso Li vale 28 • A: es la amplitud del intervalo de trabajo. En este caso A vale 9
  • 71. Analicemos el resultado: Para este ejercicio tenemos que el sujeto de menor edad tiene 10 años… y el de mayor edad tiene 73 años. El decil cuatro (D4) vale 32.5 años… eso significa que el 40% de la muestra está entre 10 y 32.5 años… y el otro 60% de la muestra tiene entre 32.5 y 73 años de edad.
  • 72. Cómo calcular Percentiles para Datos Agrupados: Los percentiles básicamente son aquellos datos que permiten dividir o separar la muestra en cien partes iguales. Entre percentil y percentil se delimita un 1% de la muestra. El percentil cincuenta (P50) corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado y lado. Para calcular cualquier percentil debemos identificar el intervalo de trabajo. Para ello utilizamos la siguiente expresión:
  • 73. N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las edades de 50 personas. K corresponde al número del percentil. Si vamos a calcular el percentil uno (P1) entonces K vale 1; s i vamos a calcular el percentil dos (P2) entonces K vale 2, y s i vamos a calcular el percentil tres (P3) entonces K vale 3… y así sucesivamente con cualquier percentil que desees calcular. Recuerda que son NOVENTA Y NUEVE percentiles. Vamos a calcular el Percentil setenta (P70): Reemplazamos: El percentil debe estar ubicado en el dato número 35… vamos a UBICAR en cuál intervalo tendríamos un acumulado en el cuál cabrían 35 datos. Revisemos la tabla de frecuencias:
  • 74. No sirve el intervalo [37 – 46) porque el acumulado es 29… y necesitamos que quepan hasta 35… por eso el intervalo que nos SIRVE es el de [46 – 55) donde caben hasta 37 acumulados hasta él. Es fácil... en el primer acumulado que quepa… ese es el intervalo de trabajo. Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los percentiles:
  • 75. • N: es la cantidad de datos de la muestra. En este caso N vale 50 • K: es el número del percentil. En este caso K vale 70 • Fi-1: es la frecuencia absoluta acumulada ANTERIOR al intervalo de trabajo. En este caso Fi-1 vale 29 • fi: es la frecuencia absoluta del intervalo de trabajo. En este caso fi vale 8 • Li: es el límite inferior del intervalo de trabajo. En este caso Li vale 46 • A: es la amplitud del intervalo de trabajo. En este caso A vale 9
  • 76. Analicemos el resultado: Para este ejercicio tenemos que el sujeto de menor edad tiene 10 años… y el de mayor edad tiene 73 años. El percentil setenta (P70) vale 52.75 años… eso significa que el 70% de la muestra está entre 10 y 52.75 años… y el otro 30% de la muestra tiene entre 52.75 y 73 años de edad.
  • 77. Observaciones: El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores. Quinto decil D5 o denominado también “Caso Base”: indica que existe igualmente un 50% de probabilidad de que el valor esté por encima como por debajo de esa cifra. Representa la Mediana de la distribución. El 50avo percentil
  • 78. PRESENTACIÓN DE DATOS ESTADÍSTICOS GRÁFICOS: Una manera de presentar la información estadística es a través de los gráficos. Ellos pueden resultar muy útiles, aunque en ocasiones un uso incorrecto los convierte en instrumentos estériles. Son complemento de las tablas, por ende, deben ser más auto explicativos que ellas. Existen diferentes gráficos estadísticos y la elección del gráfico adecuado para la presentación de la información depende de muchos factores. Por ejemplo, se debe tener en cuenta los objetivos de la investigación, la escala de medición y el tipo de variable. Mediante un gráfico se puede hacer una comparación entre las frecuencias de las categorías, se puede conocer la distribución de los datos recolectados, se puede visualizar la proporción para cada componente de las variables, se puede establecer la correlación entre variables. También existen gráficos que permiten observar el comportamiento y la tendencia de una variable a través del tiempo. Los gráficos llaman la atención del lector y hacen que de un vistazo éste tenga una mayor comprensión de los datos. Un buen gráfico puede captar al lector para que a continuación lea todo el estudio. Si un estudio se compone únicamente de texto y tablas, posiblemente no todos los lectores lean el estudio.
  • 79.
  • 80. Características generales: Generalmente se inscriben en los ejes de coordenadas cartesianas o ejes rectangulares, los cuales: ✓ Deben poseer la misma longitud, aceptándose como máximo que el eje X exceda hasta 1.5 veces al eje Y. Esto evita la introducción de falacias. ✓ Deben estar rotulados. Por el eje X se presenta(n) la(s) variable(s) con su escala de clasificación; en el eje Y, la distribución de frecuencias o medida de resumen utilizada. ✓ De ser posible, el origen de los ejes debe ser en el punto (0,0). ✓ Deben utilizarse números redondos. ✓ Debe evitarse el exceso de divisiones de los ejes.
  • 81. En la actualidad, con el advenimiento de las nuevas tecnologías informáticas, han proliferado los softwares que permiten la construcción de gráficos estadísticos. Al utilizarlos, debes tomar la precaución de analizar cuidadosamente el tipo de información que quieres representar, pues la mayoría de ellos ofrece varias posibilidades de representación, quedando a tu juicio escoger la más apropiada. Partes del gráfico: Todo gráfico estadístico está constituido por varios elementos, los cuales te mencionamos a continuación. ✓ Identificación: consiste en numerar los gráficos consecutivamente, por ejemplo: Gráfico 1, Gráfico 2, etc. ✓ Título: el de la tabla que lo originó. ✓ Gráfico propiamente dicho: verás los distintos tipos de gráficos en el epígrafe siguiente. ✓ Fuente: la tabla que lo originó. ✓ Notas explicativas: su uso es similar a lo descrito en las tablas. ✓ Leyenda: su fin es identificar los elementos del gráfico (barras, sectores, etc.) con su correspondiente origen.
  • 82. Gráficos para representar variables en escalas cualitativa y cuantitativa discreta: A continuación te presentamos un grupo de gráficos que se estudiarán en este epígrafe, atendiendo al número de variables que representan. a) Gráfico de barras simples: Uso: Es un gráfico formado por barras separadas que representan a las categorías de la variable en estudio. Se utiliza cuando queremos representar una variable cualitativa o cuantitativa discreta, y la información se dispone en frecuencias absolutas o relativas, o en medidas de resumen.
  • 83. Elementos a considerar en su construcción: 1. Dispón las barras separadas entre sí, para dar la idea de discontinuidad de la variable representada. 2. El ancho de las barras será opcional, pero debe ser el mismo para todas. 3. La separación entre barras debe ser igual a la mitad del ancho de ellas. 4. Si la variable es nominal, ordena las barras en orden creciente o decreciente, en dependencia de tus gustos. 5. Utiliza tantas barras como categorías tenga la variable. 6. Puedes colocar las barras en el eje vertical o en el horizontal. Comúnmente se utiliza el eje horizontal. 7. Este gráfico se origina a partir de tablas unidimensionales.
  • 84. Ejemplo: Un grupo de investigadores desea conocer el comportamiento de la vulnerabilidad psicosocial en ancianos de un área de salud. Para ello aplica el cuestionario de vulnerabilidad-bienestar psicosocial del Dr. R. Pérez y obtiene los siguientes resultados:
  • 85. b) Gráfico de pastel, de sectores o circular: Uso: Este gráfico se utiliza cuando queremos representar una variable cualitativa o cuantitativa discreta, y la información se dispone en porcentaje. Básicamente, es un círculo dividido en sectores que representan las categorías de la variable. Elementos a considerar en su construcción: 1. La totalidad de la información se representa por el número total de grados de un círculo (360º). 2. Para obtener los grados correspondientes a cada categoría, se multiplica 3.6º por la frecuencia relativa utilizada. Ejemplo: Utilizando la información del ejemplo anterior, y haciendo los cálculos pertinentes, el gráfico quedaría de la siguiente forma:
  • 86. c) Gráfico de barras múltiples: Uso: Este gráfico se utiliza cuando queremos representar dos variables, las cuales pueden ser: cualitativas o cuantitativas discretas ambas, o una cualitativa y la otra cuantitativa discreta; y la información se dispone en frecuencias absolutas o relativas, o en medidas de resumen. Los datos se representan mediante barras agrupadas, como verás a continuación. Elementos a considerar en su construcción: 1. Dispondrás grupos de dos, tres o más barras, es decir, barras dobles, triples, etc. 2. El número de grupos a formar dependerá del número de categorías consignadas en la columna matriz o en la fila de encabezamiento, según tu gusto. 3. La separación entre cada grupo de barras es aproximadamente la mitad del ancho del grupo. 4. Este gráfico se origina a partir de tablas bidimensionales.
  • 87. Ejemplo: El siguiente gráfico resume la información de 300 niños de un Círculo Infantil atendido por un médico de familia, atendiendo a las variables sexo y raza.
  • 88. d) Gráfico de barras compuestas: Uso: Al igual que el gráfico anterior, utiliza este cuando quieras representar dos variables: ambas cualitativas o cuantitativas discretas, o una cualitativa y la otra cuantitativa discreta; y dispongas la información en frecuencias relativas. Aquí, la información perteneciente a una variable se representa en su totalidad en una sola barra. Elementos a considerar en su construcción: 1. Cada barra representa el ciento por ciento de la información del grupo representado. 2. El ancho de las barras queda a tu gusto, pero debe ser el mismo para todas. 3. La separación entre las barras es aproximadamente la mitad del ancho. 4. Lo originan tablas bidimensionales.
  • 89. Ejemplo: Utilizando la información del ejemplo anterior, el gráfico quedaría de la siguiente forma:
  • 90. Gráficos para representar variables en escala cuantitativa continua: A continuación te presentamos un grupo de gráficos que se estudiarán en este epígrafe, atendiendo al número de variables que representan. a) Histograma: Uso: Este gráfico consiste en barras adyacentes, y se utiliza cuando queremos representar una variable cuantitativa continua, y la información se dispone en frecuencias absolutas o relativas, o en medidas de resumen.
  • 91. Elementos a considerar en su construcción: 1. Las barras o rectángulos se disponen unidos para dar idea de continuidad. 2. El ancho dependerá de la amplitud de los intervalos de clase en que se clasifica la variable en estudio. 3. La altura de cada IC se obtiene mediante el cociente frecuencia absoluta/amplitud. 4. Por el eje X se consigna el límite de clase inferior o real de cada intervalo. 5. Lo originan tablas unidimensionales. Ejemplo: A continuación te presentamos los resultados de un estudio relacionado con las edades maternas.
  • 92. b) Polígono de frecuencias: Uso: Este gráfico se utiliza cuando queremos representar hasta dos variables, de las que al menos una debe ser cuantitativa continua, y la información se dispone en frecuencias absolutas o relativas, o en medidas de resumen. Está formado por una o dos curvas que representan a cada variable estudiada. Elementos a considerar en su construcción: 1. Se pueden construir histogramas inicialmente, y luego marcar los puntos medios de cada IC (marca de clase), los cuales al unirse forman una curva. 2. Habrá tantas curvas como categorías tenga la variable discontinua. 3. Lo originan tablas uni o bidimensionales. Ejemplo: A continuación te presentamos los resultados de un estudio relacionado con las edades maternas y el sexo de los recién nacidos.
  • 93. c) Gráficos para representar variables en el tiempo: A continuación te mostramos el gráfico aritmético simple, utilizado en el estudio de las series cronológicas o temporales, como algunos las llaman. No obstante, es bueno que sepas que hay quienes utilizan como gráfico de trabajo el de barras simples para el tratamiento de fenómenos vistos en el tiempo. Gráfico aritmético simple (GAS): Uso: Este gráfico se utiliza para representar una variable a través del tiempo. Elementos a considerar en su construcción: 1. Cada categoría o clase de la variable se representa por una curva. 2. En el eje de las abscisas se consignará el año, mes, semana, etc., según la unidad en que se mida el tiempo. 3. En ocasiones, cuando los ejes no ajustan, se utiliza una escala semilogarítmica para su construcción.
  • 94. Ejemplo: A continuación te presentamos la mortalidad perinatal de Cuba desde 1990 hasta 1998.
  • 95. DIAGRAMA DE CAJA: El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc. Se compone de: ✓ Un rectángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Dentro de la caja una línea indica dónde se encuentra la mediana (segundo cuartil Q2) ✓ Dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el tercer cuartil y acaba en el máximo. ✓ Los datos atípicos (o valores extremos) que son los valores distintos que no cumplen ciertos requisitos de heterogeneidad de los datos. Los diagramas de caja son muy útiles para comparar una variable en diferentes grupos.
  • 96. Construcción del diagrama de caja: Para construir el diagrama de caja, debemos seguir los siguientes pasos: 1. Ordenar los datos. 2. Calcular los tres cuartiles (Q1, Q2 y Q3). Después, dibujamos el rectángulo (caja) delimitado por el primer y tercer cuartil, dibujando entre los dos cuartiles una línea para indicar donde está la mediana (segundo cuartil). 3. Calcular el rango intercuartílico, que es el tercer cuartil menos el primero. 4. Se calculan los límites admisibles inferior y superior (LI y LS) para identificar los valores extremos Los límites marcarán los datos atípicos de la variable. Todos aquellos puntos que sean menores que LI (x < LI) o mayores que LS (x > LS) son valores extremos. Es decir, son todos aquellos valores que no están en el intervalo [LI,LS].
  • 97. 6. El mínimo es el menor valor del conjunto que sea mayor o igual que LI. El máximo es el mayor valor del conjunto que es menor o igual que LS. Dibujamos los dos brazos. El primero va desde el primer cuartil hasta el mínimo. El segundo, desde el tercer cuartil hasta el máximo. 7. Se dibujan los valores extremos, representados por puntos o círculos pequeños.
  • 98. Ejemplo: En un bosque plantaron veinte (N=20) árboles y, al cabo de unos años, se mide la altura para ver su evolución. Un muy buen método para ver cómo han crecido y comprobar si existen valores extremos es el diagrama de caja. Mediante esta representación gráfica podemos ver si hay árboles que han crecido más o menos de lo habitual. 1. Se ordenan los datos 2. Se calculan los tres cuartiles
  • 99. A partir del conjunto ordenado calculamos los cuartiles: Los tres cuartiles son Q1=4,20, Q2=5,50 y Q3=6,42.
  • 100. 3. Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los valores extremos. El rango intercuartílico es: A partir del rango calculamos los límites: Los valores extremos serán todos los árboles que midan menos de 0,96m o más de 9,59m. Tenemos dos árboles, uno de 0,94m y otro de 10,14m que serán valores extremos. Estos valores los representamos con puntos en el diagrama de caja. 4. El mínimo es el menor elemento del conjunto que sea mayor o igual al límite inferior. El máximo es el mayor elemento que sea menor o igual al límite superior. En este caso, el mínimo es 2,98 y el máximo 7,13.
  • 101. 5. Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer cuartil hasta el mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde el tercer cuartil hasta el máximo (desde el 6,42 hasta el 7,13). 6. Los dos puntos extremos se representan mediante un punto o círculo. El diagrama de caja del conjunto de la altura de estos veinte árboles es:
  • 102. Esta representación proporciona una visión rápida de la distribución, apreciándose una asimetría al no estar Q2 en el centro, en este caso porque hay árboles más altos que la mediana cuya altura está más separada de la mediana que los que tienen una altura inferior a ella, que están más agrupados. También se puede apreciar la existencia de valores extremos.
  • 103. GRACIAS Donald Hamillton Ruiz Febre foxmendr@hotmail.com Cel: 998708608