1. INTRODUCCIÓN
Este modulo le brinda la oportunidad de conocer e implementar diferentes técnicas tabulares y
gráficas que le permitirán sintetizar y presentar la información, dependiendo de qué tipo sea.
Encontrará actividades cuya finalidad es aplicar los conceptos que va estudiando. Tenga presente
en ir realizando los cálculos planteados e interpretando los resultados.
OBJETIVOS
Al finalizar el modulo “estadística descriptiva” usted podrá:
1. Identificar y clasificar la información que desea analizar o resumir.
2. Diferenciar de acuerdo al tipo de variable, las herramientas que puede utilizar para
describir un conjunto de datos.
3. Realizar gráficas y tablas en Excel, útiles para la presentación de informes.
4. Identificar la importancia de contar con información precisa y confiable.
5. Reconocer los diferentes mecanismos para la recolección de información.
1. Introducción
2. Algunas definiciones de estadísticas
3. Clases de variables
4. Escalas de medición
5. Representación de datos cuantitativos
6. Representación de datos cualitativos
7. Medidas de tendencia y variabilidad
3. Contenido
1. Introducción
Todos los días, por diferentes medios, escuchamos o leemos información referente a
tasas, porcentajes, índices, promedios, resultados de encuestas, censos, entre otros.
Todos estos temas están relacionados con la estadística o son estadísticas.
Pero ¿qué es la estadística?
Si buscamos en el diccionario1 podemos encontrar las siguientes definiciones
1. Estudio de los casos cuantitativos de la población, de los recursos naturales e
industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas.
2. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener
inferencias basadas en el cálculo de probabilidades
Algunos autores la definen en un sentido amplio como el arte y la ciencia de reunir, analizar,
presentar e interpretar datos2. No existe una definición universal, cada autor da una definición
diferente, sin embargo la mayoría de las definiciones apuntan a que es un conjunto de técnicas
utilizadas para la recolección, observación, exploración, organización, síntesis, análisis e
interpretación de un conjunto de datos.
Algunas de las herramientas estadísticas (que coinciden con ramas de la estadística) que se
pueden utilizar para realizar análisis de datos son:
Descrip
Demo tiva Probabilida
grafìa d
Muestreo,
Bioestad
censos y
ìstica
encuestas
Geoestadís Estadísti Diseño de
itica ca experimentos
Estadìstica
Seies de
no
Tiempo
paramétrica
Estadìstica
Regresió
multivariad
n
a Modelos
lineales
1
www.rae.es
2
Estadística para administración y economía. Volumen 1. Anderson, David. Pág.3.
4. Debido a esta gran variedad de temas, es que la estadística se ha vuelto tan importante dentro de
cada una de las profesiones y en las diferentes actividades del campo laboral. En este curso se
abordaran tres de éstas ramas y al final se dará una introducción a las demás, de tal manera que
el estudioso pueda identificar los campos de acción de cada una y así profundizar en los que sean
de su interés.
2. Algunas definiciones
La estadística se puede clasificar en dos ramas o fases grandes: la estadística descriptiva y la
estadística inferencial.
Estadística descriptiva: Describe, organiza, sintetiza, representa los datos de tal manera
que se puedan identificar las principales características de éstos.
Estadística inferencial: A partir de muestras, se emplean métodos para realizar
estimaciones, predicciones, análisis en los que se busca dar explicación al comportamiento
de los datos y así poder dar conclusiones para la toma de decisiones.
Para profundizar los temas de este modulo, puede consultar cualquier libro de
estadística en donde se encuentre el tema estadística descriptiva.
o Datos: son los hechos y números que se reúnen para ser sintetizados, analizados e
interpretaos.
o Conjunto de datos: corresponde a la reunión de datos.
o Elementos: objetos o personas que tienen la información a estudiar
o Población: es el conjunto de elementos que tienen una característica común
o Muestra: es un subconjunto de la población
o Variable: característica de interés de los elementos.
Para aclarar estos conceptos, se tomara como ejemplo, los datos que se encuentran en el
archivo de Excel, Datos simulados sobre empresas, los cuales corresponden a datos de 36
empresas que han sido simulados, con el fin de que el estudioso afiance los conceptos que
se van dando en el modulo. Teniendo en cuenta que uno de los objetivos de este curso es
que se familiarice con la herramienta Excel, antes de iniciar es necesario que conozca el
manejo básico de éste, por lo se recomienda ver el video Introducción a Excel.
Aquí encontramos información referente a un conjunto de datos, donde los elementos son
las empresas. En este caso supondremos que estas 36 empresas son todas las que se
dedican al trabajo en el campo en una zona del país, es decir la población. La información
que se tiene para cada una de las empresas son su venta y compra en un año
determinado, la actividad, el tipo de propietario, el tipo de empresa y el número de
empleados, estas son las variables con que se cuenta.
Haga una descripción inicial de la información que allí se encuentra, ¿qué puede decir de
cada variable?, ¿que podría hacer con cada una?, ¿cómo analizaría la información?.
Guarde sus respuestas y a medida que vaya avanzando en el contenido del modulo,
observe en que cambian sus apreciaciones iníciales o en que se complementan.
5. Como se definió anteriormente una muestra es un subconjunto de la población. Existen
muestras probabilísticas y no probabilísticas.
Muestra probabilística: Cuando se utilizan mecanismos en los que se tienen en cuenta la
probabilidad de selección de cada uno de los elementos de la población.
Muestra no probabilística: Los elementos de la población se seleccionan a conveniencia
de la persona que está estudiando la información.
Cuando se quiere seleccionar una muestra probabilística es necesario definir el diseño
muestral, dependiendo de las características de la población. Una vez definido se
selecciona el tamaño de la muestra y luego se emplea un mecanismo de selección.
El diseño muestral más sencillo corresponde a un MAS (muestreo aleatorio simple). Uno
de los mecanismos de selección más utilizados bajo este diseño es conocido como
coordinado negativo, que consiste en asignar a cada uno de los elementos de la población
un número aleatorio y ordenar la información respecto a ese número. Luego se selecciona
la muestra de tamaño n, tomando los primeros n elementos.
Para seleccionar una muestra del total de las 36 empresas, supondremos que el tamaño
de muestra es 10, en el archivo genere una columna con números aleatorios, organícelos
y escoja los primeros 10 elementos, esos serán la muestra.
En el archivo selección de datos se encuentra una ayuda de cómo utilizar Excel para
generar números aleatorios y seleccionar la muestra. Recuerde que puede
complementar estas ayudas con las que tiene Excel sobre cada una de las
funciones.
El tema de muestreo no se tocará en este curso, sin embargo si desea indagar un
poco más puede consultar el siguiente libro o cualquier otro de estadística que
abarque el tema de muestreo.
Titulo: Estadística y Muestreo
Autor: Ciro Martínez B.
3. Clases de variables
Para analizar la información es necesario identificar el tipo de variables que se tiene, para así
determinar las herramientas que pueden ser utilizadas. Los tipos de variables son:
Variables cualitativas: Cuando toma valores que se asocian con identificadores o
nombres de una característica. Ejemplos: género, estrato socioeconómico o estado civil.
Variables cuantitativas: Cuando toma cantidades numéricas con las que se pueden
calcular operaciones aritméticas. Indican cuanto o cuantos. Ejemplos: edad, ingresos,
temperatura.
En el ejemplo que se está trabajando, las variables venta del año y compra del año son variables
cuantitativas, que indican cuanto es la venta y compra de cada empresa. Además se puede
calcular, por ejemplo, el total de ventas del año para la población, que corresponde a la suma de
6. los valores de la variable venta del año para todas las empresas, este valor da $807.734.010.
(Hipervínculo al archivo Suma en Excel)
Las variables actividad y tipo de propietario, son variables cualitativas. La variable actividad toma
los valores: ganadería, agricultura y pesca.
Antes de continuar, examine la variable tipo de empresa ¿que tipo de variable es?, ¿por qué?
La variable tipo de empresa da una clasificación de la empresa que toma los valores 1 y
2, sin embargo no se ha dado información sobre su significado. Las variables
cuantitativas siempre toman valores numéricos y las varialbes cualitativas puden tomar
valores numéricos y no numéricos. En ocasiones se utilizan números y se asigna una
etiqueta, en esta caso, esta variable es cualitativa, donde el número 1 equivale a empresa
pequeña y 2 significa empresa grande.
Busque más ejemplos y clasifique las variables. Recuerde que en caso de tener
preguntas puedes enviar correos o plantear la inquietud en el foro.
Las variables cuantitativas se pueden clasificar en dos grupos: discretas y continuas, dependiendo
de su naturaleza matemática.
Variable discreta: Toma valores sobre un conjunto discreto, es decir no admite valores
intermedios entre dos valores dados.
Variable continua: Puede tomar cualquiera de los infinitos valores que hay en un intervalo,
es decir admite valores intermedios entre dos valores dados.
Algunos ejemplos de variables discretas son: número de hijos en una familia, edad en años
cumplidos, número de días trabajados.
En cuanto a variables continuas podemos nombrar: peso de una persona, temperatura registrada,
ingresos mensuales de un estudiante.
4. Escalas de medición
Cuando se hace una medición se busca que sea válida y fiable. La validez hace referencia a que
mide lo que debe medir, la fiabilidad quiere decir que si la medición es repetida se obtendrán los
mismos resultados. Estas dos características están relacionadas principalmente con el
instrumento utilizado para realizar la medición. Por ejemplo, si se necesita medir la temperatura de
un líquido en una caldera, se puede utilizar como instrumento de medición un termómetro
electrónico. Al realizar las mediciones nadie se dio cuenta que el termómetro estaba descalibrado
por lo que los datos obtenidos fueron válidos porque corresponden a la temperatura, pero no son
fiables debido a que el instrumento no media con certeza.
Existen cuatro escalas de medición: nominal, ordinal, de intervalo y de razón, las cuales permiten
dar una clasificación más grande a las variables.
Escala nominal: Se relaciona con “nombrar” y consiste en asignar a los valores de la variable un
símbolo o un número arbitrario, sin que exista una relación de orden o proporción. La idea es que
cada elemento sea asignado a una categoría. Cuando la variable solo tiene dos categorías se le
llama variable dicotómica y cuando tiene un mayor número de categorías se conoce como variable
policotómica.
7. En el ejemplo de las empresas las variables tipo de empresa, tipo de propietario y actividad tienen
escala nominal. Las variables tipo de empresa y tipo de propietario son dicotómicas.
Escala ordinal: También se puede encontrar como escala de orden jerárquico. Esta escala se
relaciona con “nombrar” y “ordenar”, a diferencia de la escala nominal, aquí si existe un orden
entre las categorías.
En el ejemplo que se ha trabajado no se tiene ninguna variable de escala ordinal, sin embargo si
se preguntara por el estrato socioeconómico en el que está ubicada la empresa se podría
construir una. Otros ejemplos de variables de escala ordinal son:
La calificación que da un consumidor a un producto entre: excelente, bueno, regular, malo.
El nivel de estudio de un empleado: bachiller, técnico, universitario.
Escala de intervalo: Se relaciona con “nombrar”, “ordenar” y “medir”. En esta escala el cero no es
absoluto, es decir que no significa ausencia de valor, por lo que operaciones como multiplicación o
división no tienen sentido. Por ejemplo cuando se mide la temperatura, los resultados en una
prueba o variables referentes a fechas.
Escala de razón: Se relaciona con “nombrar”, “ordenar” y “medir”. A diferencia de la escala de
intervalo, el cero significa ausencia de la característica, por lo que las operaciones aritméticas
tienen sentido.
Las variables ventas y compras del año en el ejemplo trabajado están en ésta escala, donde el
cero significa que no hubo ventas o compras.
Actividad de refuerzo
Se realizó una encuesta a los estudiantes de la Universidad Manuela Beltrán, algunas de las
preguntas realizadas se encuentran a continuación. Clasifique cada una de acuerdo a las
opciones que se dan
Variable Cuantitativa Cualitativa Ordinal Intervalo Escala
Edad en años cumplidos X X
Ciudad de nacimiento X
Semestre en el que se encuentra X X
Estado civil X
Ingresos en pesos X X
Nota final de la materia X X
5. Representación de datos cualitativos
Cuando se tiene un conjunto de datos, no es de interés mostrar la información para cada uno
de los elementos sino realizar una síntesis de dicha información. Para esto se recurren a
tablas o gráficos, en donde se pueda observar las principales características de cada una de
las variables, dependiendo el tipo que ésta sea.
Recomendaciones al momento de presentar información
Siempre que se presente información, ya sea tabulada o en gráficos es necesario:
1. Colocar títulos haciendo referencia a la información que allí se encuentra.
2. Incluir las unidades en que se encuentra la medición
3. Incluir la fuente de datos
8. Fuente de datos: de donde se obtiene la información.
Existen dos tipos de fuentes: primaria y secundaria. La fuente de datos primaria
corresponde a la información con la que cuenta la empresa, el investigador o persona que
está realizando el estudio, generalmente recolectada por ellos mismos. Las fuentes
secundarias, corresponde a información que ha sido publicada y recogida por otros.
Por ejemplo, el gerente de una empresa está interesado en indagar como están los precios
de los productos de su empresa comparados con los de la “competencia”, para esto
recurre a las bases de datos de su empresa en las que se encuentran los precios de los
diferentes productos, esta es una fuente primaria. Para poder comparar necesita
información similar para las otras empresas, por lo que indaga en Internet y encuentra
reportes con la información que él necesita, esta es una fuente secundaria.
No toda la información que se encuentra en Internet es confiable, por eso siempre verifique que el
sitio que se está consultando sea fiable y contenga información oficial.
Foro 1: Indague sobre los pasos que se deben seguir al plantear un trabajo de investigación o un
proyecto, haciendo énfasis en la etapa de recolección de datos, contestando preguntas como
¿qué mecanismos de recolección existen?, ¿cómo detectar la confiabilidad de la información?.
Recuerde que debe ser breve y concreto.
En el caso de que las variables sean cualitativas se pueden realizar tablas de frecuencias,
diagrama de barras y diagrama circular.
Una tabla de frecuencias es un esquema en el que se presenta cuantos elementos hay para
cada una de las categorías de la variable.
Tomando las variables cualitativas del ejemplo de las empresas, se cuenta el número de
empresas cuya actividad es ganadería, las que se dedican a la agricultura y por último las que
son de pesca. La tabla de frecuencias para esta variable es
Número de empresas por actividad
Actividad Frecuencia
Agricultura 12
Ganadería 12
Pesca 12
Total 36
Fuente: Datos simulados para 36 empresas
Al observar el total de empresas por actividad, se evidencia que la distribución es equitativa,
debido a que en cada actividad el número de empresas es igual.
En una tabla de frecuencias no solo es necesario la frecuencia absoluta, sino la frecuencia relativa
y la acumulada, las cuales se definen a continuación.
Frecuencia absoluta: número de elementos que pertenecen a la categoría i. Se denota por .
9. Frecuencia relativa: proporción de individuos que pertenecen a la categoría i respecto al total de
elementos.
Se denota por = , donde n es el total de elementos.
Frecuencia absoluta acumulada: suma de la frecuencia absoluta hasta la categoría t. Se denota
por = ∑ . La suma sobre todas las categorías da el número total de elementos n.
Frecuencia relativa acumulada: suma de la frecuencia relativa hasta la categoría t. Se denota
por = ∑ ℎ . La suma sobre todas las categorías da 1.
Teniendo en cuenta estas definiciones la tabla de frecuencias para la variable actividad queda
Tabla de frecuencias para la variable Actividad
i Actividad fi Fi hi Hi
1 Agricultura 12 12 0,3333 0,3333
2 Ganadería 12 24 0,3333 0,6667
3 Pesca 12 36 0,3333 1
Fuente: Datos simulados para 36 empresas
Para obtener la frecuencia absoluta de una variable se puede recurrir a las tablas dinámicas en
Excel o a la función frecuencia.
En el archivo cálculo de frecuencias encuentras instrucciones para aprovechar Excel.
Calcule las tablas de frecuencias para las demás variables cualitativas del ejemplo.
En ocasiones la frecuencia relativa se representa en términos de porcentaje, es decir se multiplica
por 100.
Una vez se tiene la información sintetizada se puede presentar en la tabla o por medio de gráficos.
A continuación se presentan los gráficos más conocidos y utilizados para la presentación de este
tipo de datos.
Diagrama de barras
Corresponde a un gráfico de barras horizontales o verticales, en donde la altura de las barras
indica la frecuencia para cada una de las categorías. En uno de los ejes van las categorías y en el
otro la frecuencia asociada a cada categoría.
Un caso particular del gráfico de barras es el gráfico de pareto, en el que se presentan las
categorías de mayor a menor frecuencia.
A continuación se muestra un ejemplo de un diagrama de barras horizontales, para la variable
estado civil. El gráfico de la derecha representa la frecuencia relativa en términos de porcentaje,
mientras que el de la izquierda representa la frecuencia absoluta.
10. Número de estudiantes de acuerdo a su estado civil Porcentaje de estudiantes de acuerdo a su estado
civil
10
10 9
38%
40% 35%
8
Frecuencia
6 30%
Porcentaje
4
3 20% 15%
4 12%
2 10%
0 0%
Casado(a) Soltero(a) Unión libre Viudo(a) Casado(a) Soltero(a) Unión libre Viudo(a)
Estado civil Estado civil
Cuando se presente información en términos de la frecuencia relativa siempre es necesario indicar
cuál es el total de la población, para dar a los lectores una mayor interpretación de la información.
Por ejemplo, si usted escucha que el 50% de las estudiantes del curso tienen una relación
sentimental con el profesor ¿Qué pensaría?, y si le dicen que el total de estudiantes es 2,
¿Cambia su apreciación?
Diagrama circular
Este tipo de gráficos también es conocido como gráficas de tortas. Se utiliza para representar las
frecuencias relativas o porcentuales. En este tipo de representación es muy importante colocar las
claves que identifican cada categoría.
Porcentaje de estudiantes de acuerdo a su estado
civil
15% 12%
35% 38%
Casado(a) Soltero(a) Unión libre Viudo(a)
Para esos datos, se observa que la población se concentra en aquellos cuyo estado civil es unión
libre y soltero.
Realice los gráficos para las variables del ejemplo de las empresas y de una breve
conclusión sobre como es su comportamiento.
6. Representación de datos cuantitativos
Cuando las variables son cuantitativas, también es posible realizar una tabla de frecuencias. Se
requiere definir unas clases que no se traslapen, de tal manera que cada uno de los elementos
sea ubicado en una única clase. Es indispensable decidir cuantas clases, su ancho y limites. A
continuación se dan algunas definiciones útiles para la elaboración de la tabla de frecuencias.
Ancho de intervalo: diferencia entre los límites superior e inferior del intervalo.
Marca de clase: punto medio del intervalo de clase, se calcula como , donde LI y LS indican
el valor del límite inferior y superior del intervalo, respectivamente.
Pasos para construir una tabla de frecuencias
1. Determinar el número de clases. No existe una metodología para la determinación del
11. número de intervalos de clase, sin embargo en la literatura se encuentra que sea entre 5 y
20 clases, dependiendo del número de elementos que se tengan, este paso depende más
de los objetivos planteados en el análisis.
2. Fijar la longitud de los intervalos. Para esto se toma el rango de los datos (corresponde a
tomar la mayor y menor observación de la variable y restarlas) y se divide por el número de
clases. Se recomienda tomar intervalos de igual longitud, para así reducir la probabilidad
de que quien lea la información de conclusiones erróneas.
3. Establecer los límites de cada uno de los intervalos de clase. Hay que tener en cuenta que
la observación más pequeña debe quedar contenida en el primer intervalo y la mayor
observación en el último intervalo.
4. Contar las frecuencias por clase. Para cada intervalo de clase se cuenta el número de
elementos que pertenecen a cada uno, es decir la frecuencia absoluta . Al igual que en el
caso de datos cuantitativos, se calcula la frecuencia relativa y las frecuencias acumuladas.
Tomando la variable número de empleados del ejemplo de las empresas, se calcula el rango de
los datos, para esto podemos utilizar las funciones mínimo y máximo de Excel, cuyas sintaxis son
=min(rango de datos) y =max(rango de datos) respectivamente.
Información para el cálculo de la tabla de frecuencias
Mínimo 3
Máximo 25
Rango 22
Número de elementos 36
Número de clases 5
Longitud de los intervalos 22/5=4,40
Tabla de frecuencias para la variable número de empleados
Intervalos de Marca
i fi Fi hi Hi
clase de clase
1 [3 , 7.4) 5.2 10 10 0,28 0,28
2 [7.4 , 11.8) 9.6 6 16 0,17 0,44
3 [11.8 , 16.2) 14 8 24 0,22 0,67
4 [16.2 , 20.6) 18.4 5 29 0,14 0,81
5 [20.6 , 25] 22.8 7 36 0,19 1,00
Fuente: Datos simulados para 36 empresas
Los gráficos más empleados para representar este tipo de variables son el histograma, el polígono
de frecuencias y la ojiva.
Histograma
El histograma es una herramienta gráfica utilizada para representar las frecuencias. Con estos
gráficos se busca examinar de una manera visual (que en ocasiones es más sencillo) si existen
datos que se acumulan o concentran en una categoría en particular, la forma y variabilidad que
tienen los datos.
12. Histograma de frecuencias absolutas del número de
empleados en las empresas
12
10
Frecuencias
8
6
4
2
0
5.2 9.6 14 18.4 22.8
Edad
A continuación se muestra dos histogramas como ejemplo, el del lado izquierdo nos indica que los
datos sobre la variable edad se concentran hacia edades pequeñas entre 3 y 5 años, mientras
que el histograma de la derecha indica que la población que se está estudiando se concentra en
niños entre 7 y 10 años.
Histograma de frecuencias absolutas para Histograma de frecuencias absolutas para
40 la variable edad 40 la variable edad
Frecuencia
Frecuencia
30 30
20 20
10 10
0 0
3 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10
Edad en años cumplidos Edad en años cumplidos
Polígono de frecuencias
En este gráfico se coloca en el eje horizontal la marca de clase y en el eje vertical la frecuencia de
cada intervalo de clase y se unen dichos puntos con una línea.
Poligono de frecuencias relativas del número de
empleados en las empresas
0,30
0,25
Frecuencia relativa
0,20
0,15
0,10
0,05
0,00
5.2 9.6 14 18.4 22.8
Edad
Ojiva
Éste gráfico corresponde a un polígono de frecuencias pero graficando la marca de clase Vs la
frecuencia acumulada.
13. Ojiva de frecuencias relativas del número de empleados
en las empresas
1,20
1,00
Frecuencia relativa
0,80
0,60
0,40
0,20
0,00
5.2 9.6 14 18.4 22.8
Edad
Como conclusión general se puede decir que el número de empleados de las 36 empresas que se
están estudiando no muestra concentraciones significativas en alguno de los intervalos de clase.
Calcule la tabla de frecuencias y los gráficos para las demás variables continuas del
ejemplo de las empresas, utilizando 5, 7 y 9 clases para su construcción. ¿Cambian los
resultados en cada caso?
Excel cuenta con herramientas de análisis complementarias con la que es posible realizar la tabla
de frecuencias y el histograma. Para acceder a ella es necesario instalarla. En el archivo
Herramientas de análisis complementarias encuentra como hacerlo.
La función histograma le pide el rango de datos y el rango de clases. Este último campo puede
no diligenciarlo y el programa asignará el número de intervalos de clase que crea conveniente. En
el caso que desee un número de clases específico, debe escribir los límites superiores de los
intervalos de clase en una columna y seleccionarlos en éste campo. Esta función saca la tabla de
frecuencias absolutas y brinda la opción de mostrar la frecuencia relativa acumulada en
porcentaje, organizar los intervalos de acuerdo a su frecuencia y graficar el histograma y la ojiva.
Lea la ayuda de Excel sobre esta función, realice ejercicios y en caso de duda, consulte a
su tutor.
Aunque la función histograma se utiliza para el análisis de variables cuantitativas, puede ser
usada en el caso de variables cualitativas asignando claves numéricas a cada categoría, como se
hizo en el caso de la variable tipo de empresa, en el ejemplo que se ha trabajado. En el campo
rango de clases se coloca el listado de las claves. Al momento de presentar la información no
olvide indicar el significado de cada clave.
14. Existe otro tipo de gráfico, que es utilizado para explorar como se encuentra la distribución
de los datos, es conocido como Diagrama de Tallos y Hojas. Averigüe como se construye y
cuál es su utilidad. Entregue esto como un punto adicional de la Actividad 1.
Actividad 1.
Cuando se tienen dos variables cuantitativas, se puede tener interés en indagar si existe algún
tipo de relación entre éstas. A través de un diagrama de dispersión se puede examinar si entre
dos variables existe una relación lineal, no lineal o no existe relación.
Para hacer el diagrama de dispersión de X y Y dos variables cuantitativas, se grafican en un plano
cartesiano las parejas de puntos (xi, yi), donde xi es el valor que toma la variable X y yi el valor de
la variable Y para la observación i. En el ejemplo de las empresas, si se quisiera examinar la
relación entre las variables ventas del año y compras del año, el diagrama de dispersión estaría
conformado por 36 puntos (uno por cada empresa), las coordenadas del punto que identifica la
empresa 1 seria (17.380.929, 10.192.412), donde el primer valor representa las ventas y el segundo
la compras, a continuación se muestra el diagrama para estas variables, en el que no se observa
algún patrón en los puntos graficados, por lo que es un indicio de que no existe una relación entre
las dos variables.
15. Diagrama de dispersión de las ventas y compras
del año
50.000.000
40.000.000
Compras
30.000.000
20.000.000
10.000.000
0
0 10.000.000 20.000.000 30.000.000 40.000.000 50.000.000
Ventas
Diagrama de dispersión de la estatura y el Un diagrama de dispersión puede
reflejar una relación lineal, cuando su
peso de 44 niños
tendencia se asemeja a la de una recta.
145
En el gráfico se da un ejemplo de una
140 relación lineal entre dos variables:
Estatura (en cms)
135 estatura y peso de niños. Se observa
130
que al aumentar el peso de los niños
también aumenta su estatura, esto es lo
125
que se conoce como una relación lineal
120 directa o positiva. La línea roja está
25 30 35 40 45 50 55 indicando la tendencia que presentan
Peso (en Kgs) los datos, en donde es evidente que es
una línea con pendiente positiva.
Una relación inversa o negativa es cuando al aumentar los valores de una de las variables, los de
la otra disminuyen, es decir que la línea que indica la tendencia de los datos tiene una pendiente
negativa.
Con el diagrama de dispersión
también es posible evidenciar un Diagrama de dispersión de la temperatura y el tiempo
tipo de relación no lineal, por de reproducción de un nuevo tipo de bacteria
ejemplo, el gráfico de la derecha 134
muestra la relación que existe
Temperatura (en ºC)
132
entre la temperatura y el tiempo
que demora en reproducirse un 130
nuevo tipo de bacteria. Se 128
observa que el tiempo de
reproducción va aumentando al 126
aumentar la temperatura hasta 124
132 grados, sin embargo en ese
20 25 30 35 40 45 50 55
punto al disminuir la temperatura
el tiempo de reproducción Tiempo de reproducción (en minutos)
aumenta, la tendencia de los
datos se asemeja a una parábola cóncava hacia abajo, como se define con la línea roja.
Cuando en un diagrama se observa un patrón pero los puntos tienen gran dispersión, se dice que
la relación entre las dos variables es débil.
16. Cuando no existe un tipo de relación entre las dos variables, no se observa ningún patrón en los
puntos graficados, como el observado en el ejemplo de las empresas con las variables compras y
ventas.
Estos gráficos se pueden hacer en Excel, escogiendo gráfico de dispersión en la barra de
herramientas de la opción Insertar en el menú principal.
7. Medidas de tendencia y variabilidad
Hasta este momento se han observado métodos que permiten resumir y presentar los datos de
manera que el usuario pueda visualizar las características principales de los datos. Ahora se
presentaran métodos numéricos para complementar los análisis.
A un conjunto de datos se le examinan algunas características como su tendencia central, la
variación con respecto a dicho centro y la forma en que se agrupan.
Medidas de localización o tendencia
Las medidas de tendencia sirven para identificar alrededor de que valor se agrupan los valores de
la muestra o población.
Las tres medidas más utilizadas son la media o promedio, la moda y la mediana.
Media: se obtiene sumando todos los valores de la variable y dividiendo por el número total de
elementos, es decir si representa el valor del dato i, para = 1, 2, … , , entonces la media se
define como
∑
̅=
Esta medida se deja influenciar de datos atípicos, por lo que no es aconsejable usarla cuando en
al hacer el histograma nos damos cuenta que los datos se encuentran concentrados hacia
algunos de los extremos, es decir cuando son asimétricas.
Dato atipico u outlier: hace referencia a datos extraños dentro del conjunto de datos,
debido a que no sigue la tendencia del resto de observaciones. Se pueden presentar
por errores en la medición
¿Qué es un promedio ponderado? ¿Cómo se calcula?
Ejemplo 2. Tomando el siguiente conjunto de 42 datos que corresponde a la edad que tenían los
estudiantes que ingresaron a la UMB a una carrera en el primer semestre de 2009, cuando se
graduaron.
18 16 17 15 15 16 17 17 18 15 17 15 18 17
16 17 15 18 15 16 17 17 18 18 17 15 16 17
18 18 15 17 15 16 15 16 17 17 17 17 18 18
La sintaxis de la función promedio en Excel es =promedio(rango de datos).
El valor promedio de estos datos es ̅ = 16.6, es decir la edad promedio de los estudiantes al
graduarse era de 16.6 años.
17. Dependiendo de la variable que se esté midiendo se hace necesario redondear la
cifra. Por ejemplo si los datos correspondieran al número de varones nacidos en un
periodo de tiempo, no tiene mucho sentido decir que en promedio nacieron 16.6 niños.
Mediana: Para su cálculo es necesario ordenar las observaciones de menor a mayor y
corresponde al valor que divide los datos. La denotaremos por .
Si el número de elementos es impar la mediana corresponde al valor de la observación de la
mitad. Para el siguiente conjunto de 7 datos, la mediana es = 15.
13 13 14 15 15 17 23
En el caso en que el número de observaciones es par, se promedia los valores de las
observaciones de la mitad. Para el siguiente conjunto de 8 datos la mediana es el promedio de los
valores 15 y 16, es decir = 15.5
13 13 14 15 16 17 23 24
A diferencia de la media, no se deja influenciar de valores atípicos o extremos debido a que su
cálculo no depende del valor que tomen las observaciones sino del orden de éstas.
La sintaxis de ésta función en Excel es =mediana(rango de datos).
Para el ejemplo 2 el valor de la mediana es 17.
Para observar cómo se deja influenciar la media por valores atípicos, tome en el ejemplo 2, la
primera observación y asuma que la persona encargada de realizar la captura de los datos
cometió un error y en lugar de 18 digitó 58. Al calcular la media y la mediana se obtiene ̅ = 17.6 y
= 17. Es decir que el valor de la media se aumentó debido a la presencia de un dato extremo,
mientras que la mediana no cambio. Por esta razón es necesario examinar la distribución de los
datos para determinar la medida de localización adecuada a ser usada.
Moda: Es el valor de los datos que tiene mayor frecuencia. Puede que no sea un valor único,
cuando se presentan dos valores se dice que la distribución de los datos es bimodal y cuando
tiene más de dos valores se dice multimodal.
La sintaxis en Excel para calcularla es =moda(rango de datos).
En el ejemplo 2, la moda coincide con la mediana, es decir 17.
Los valores de las tres medidas de tendencia central se encuentran alrededor del 17, es decir que
es un indicio de que la distribución de esos valores es simétrica alrededor del valor 17.
Percentiles: Los percentiles son medidas de localización, pero no central. El p-ésimo percentil es
un valor tal que por lo menos un p por ciento de las observaciones son iguales o menores a ese
valor. El percentil 50 equivale a la mediana.
Para encontrar el p-éimo percentil se ordenan las observaciones de menor a mayor, se calcula el
índice = , donde n es el total de elementos y p el percentil de interés. Si i no es entero
entones el entero inmediatamente mayor que i indica la posición del p-ésimo percentil. Cuando i
18. sea entero se toma como el p-ésimo percentil el promedio de los datos ubicados en las posiciones
i e (i +1).
Para calcular percentiles en Excel la sintaxis es =percentil(rango de datos; k) donde k es un
número entre 0 y 1 que indica el percentil que se quiere calcular.
Cuartiles
Son los números que dividen los datos en cuatro partes porcentualmente iguales. Hay tres
cuartiles
= 25
= 50
= 75
Deciles
Son los números que dividen los datos en 10 partes porcentualmente iguales. Se denotan como
, i=1, 2, …, 10.
Con los datos de las empresas calcule para cada variable éstas medidas de localización y
de un significado o interpretación al valor obtenido.
Medidas de variabilidad
Las medidas de variablidad indican la oscilación o fluctuación de los valores de la variable. Estas
medidas complementan la información que arroja las medidas de localización.
Ejemplo 3
18 16 17 13 14 16 17 14 18 15 17 13 18 19
16 17 15 20 13 16 20 17 19 18 17 15 16 17
18 20 15 17 14 16 15 16 17 17 17 17 18 19
Suponga que estos datos corresponden a las edades que tenían cuando se graduaron, los 42
estudiantes de otra carrera. Al comparar éstos datos con los mostrados en el ejemplo 2, se
observa que en ambos casos el valor promedio de graduación fue 16.6 años, sin embargo en el
siguiente gráfico se evidencia que el grupo 2 que tiene mayor rango de edades, es decir mayor
variabilidad.
Comparación de edad de grauación (en años
cumplidos) de dos grupos
16
14
12
Frecuencias
10
8
Grupo 1
6
Grupo 2
4
2
0
13 14 15 16 17 18 19 20
Edad
19. A continuación se mencionarán algunas de las medidas de variabilidad más usadas.
Rango
Se define como
= á − í
Es la medida más sencilla de calcular y sus unidades son las mismas de la variable de estudio.
Debido a que solamente involucra en su cálculo dos valores de la variables se deja influenciar por
valores extremos. Rara vez se utiliza como única medida de variabilidad.
Rango interquartil
Elimina la influencia de datos extremos. Se define como
= −
Varianza
Se basa en la diferencia que hay entre cada observación y el valor promedio de los datos, se
define como
∑ ( − ̅)
=
−1
Esta medida es siempre positiva. Sus unidades son las del cuadrado de la variable.
La sintaxis en Excel para calcular la varianza es =var(rango de datos)
Desviación estándar
Corresponde a la raíz cuadrada de la Varianza y tiene las mismas unidades que las
observaciones.
Su sintaxis en Excel es =desvest(rango de datos)
Si en el análisis de las medidas de tendencia se encontró que la media no es una buena medida a
ser usada, tampoco es conveniente usar la desviación debido a que su cálculo depende del
promedio de los datos.
Dentro de las funciones de análisis de datos en Excel, se encuentra una llamada Estadística
descriptiva, al chequear la opción Resumen de estadísticas, arroja el total de observaciones
leídas, la suma total, el mínimo, el máximo, el rango, la varianza, la desviación, la moda, la
mediana y la media. También da resultados para el error típico, la curtosis y el coeficiente de
asimetría. Indague el uso que se da a estas tres últimas medidas.
Con los datos de las empresas calcule para cada variable éstas medidas de variabilidad y
de una conclusión general sobre los resultados que encontró en estos datos. ¿En que
cambia el análisis que hizo al iniciar este modulo y el que acaba de hacer?
Descargue el archivo Datos parcial y guárdelo en su computador. Para contestar cada uno de los
puntos del parcial, es necesario que usted realice diferentes operaciones, por cada punto del
parcial incluya una hoja nueva y coloque el nombre de acuerdo al punto. Después de contestar las
preguntas, envíe a su tutor el archivo en el que trabajó.