SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
INTRODUCCIÓN


Este modulo le brinda la oportunidad de conocer e implementar diferentes técnicas tabulares y
gráficas que le permitirán sintetizar y presentar la información, dependiendo de qué tipo sea.

Encontrará actividades cuya finalidad es aplicar los conceptos que va estudiando. Tenga presente
en ir realizando los cálculos planteados e interpretando los resultados.

OBJETIVOS

Al finalizar el modulo “estadística descriptiva” usted podrá:

   1. Identificar y clasificar la información que desea analizar o resumir.

   2. Diferenciar de acuerdo al tipo de variable, las herramientas que puede utilizar para
      describir un conjunto de datos.

   3. Realizar gráficas y tablas en Excel, útiles para la presentación de informes.

   4. Identificar la importancia de contar con información precisa y confiable.

   5. Reconocer los diferentes mecanismos para la recolección de información.




   1.   Introducción
   2.   Algunas definiciones de estadísticas
   3.   Clases de variables
   4.   Escalas de medición
   5.   Representación de datos cuantitativos
   6.   Representación de datos cualitativos
   7.   Medidas de tendencia y variabilidad
Ideograma del módulo
Contenido


      1. Introducción

          Todos los días, por diferentes medios, escuchamos o leemos información referente a
          tasas, porcentajes, índices, promedios, resultados de encuestas, censos, entre otros.
          Todos estos temas están relacionados con la estadística o son estadísticas.

          Pero ¿qué es la estadística?

          Si buscamos en el diccionario1 podemos encontrar las siguientes definiciones

          1. Estudio de los casos cuantitativos de la población, de los recursos naturales e
             industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas.
          2. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener
             inferencias basadas en el cálculo de probabilidades

Algunos autores la definen en un sentido amplio como el arte y la ciencia de reunir, analizar,
presentar e interpretar datos2. No existe una definición universal, cada autor da una definición
diferente, sin embargo la mayoría de las definiciones apuntan a que es un conjunto de técnicas
utilizadas para la recolección, observación, exploración, organización, síntesis, análisis e
interpretación de un conjunto de datos.

Algunas de las herramientas estadísticas (que coinciden con ramas de la estadística) que se
pueden utilizar para realizar análisis de datos son:




                                                     Descrip
                                          Demo        tiva       Probabilida
                                          grafìa                     d

                                                                             Muestreo,
                            Bioestad
                                                                              censos y
                              ìstica
                                                                             encuestas



                        Geoestadís                   Estadísti                   Diseño de
                           itica                        ca                     experimentos



                            Estadìstica
                                                                               Seies de
                                no
                                                                               Tiempo
                           paramétrica
                                       Estadìstica
                                                                  Regresió
                                       multivariad
                                                                     n
                                            a        Modelos
                                                     lineales




1
    www.rae.es
2
    Estadística para administración y economía. Volumen 1. Anderson, David. Pág.3.
Debido a esta gran variedad de temas, es que la estadística se ha vuelto tan importante dentro de
cada una de las profesiones y en las diferentes actividades del campo laboral. En este curso se
abordaran tres de éstas ramas y al final se dará una introducción a las demás, de tal manera que
el estudioso pueda identificar los campos de acción de cada una y así profundizar en los que sean
de su interés.


   2. Algunas definiciones

La estadística se puede clasificar en dos ramas o fases grandes: la estadística descriptiva y la
estadística inferencial.

    Estadística descriptiva: Describe, organiza, sintetiza, representa los datos de tal manera
    que se puedan identificar las principales características de éstos.

    Estadística inferencial: A partir de muestras, se emplean métodos para realizar
    estimaciones, predicciones, análisis en los que se busca dar explicación al comportamiento
    de los datos y así poder dar conclusiones para la toma de decisiones.



              Para profundizar los temas de este modulo, puede consultar cualquier libro de
               estadística en donde se encuentre el tema estadística descriptiva.



          o   Datos: son los hechos y números que se reúnen para ser sintetizados, analizados e
              interpretaos.
          o   Conjunto de datos: corresponde a la reunión de datos.
          o   Elementos: objetos o personas que tienen la información a estudiar
          o   Población: es el conjunto de elementos que tienen una característica común
          o   Muestra: es un subconjunto de la población
          o   Variable: característica de interés de los elementos.

       Para aclarar estos conceptos, se tomara como ejemplo, los datos que se encuentran en el
       archivo de Excel, Datos simulados sobre empresas, los cuales corresponden a datos de 36
       empresas que han sido simulados, con el fin de que el estudioso afiance los conceptos que
       se van dando en el modulo. Teniendo en cuenta que uno de los objetivos de este curso es
       que se familiarice con la herramienta Excel, antes de iniciar es necesario que conozca el
       manejo básico de éste, por lo se recomienda ver el video Introducción a Excel.



       Aquí encontramos información referente a un conjunto de datos, donde los elementos son
       las empresas. En este caso supondremos que estas 36 empresas son todas las que se
       dedican al trabajo en el campo en una zona del país, es decir la población. La información
       que se tiene para cada una de las empresas son su venta y compra en un año
       determinado, la actividad, el tipo de propietario, el tipo de empresa y el número de
       empleados, estas son las variables con que se cuenta.

       Haga una descripción inicial de la información que allí se encuentra, ¿qué puede decir de
       cada variable?, ¿que podría hacer con cada una?, ¿cómo analizaría la información?.
       Guarde sus respuestas y a medida que vaya avanzando en el contenido del modulo,
       observe en que cambian sus apreciaciones iníciales o en que se complementan.
Como se definió anteriormente una muestra es un subconjunto de la población. Existen
       muestras probabilísticas y no probabilísticas.



      Muestra probabilística: Cuando se utilizan mecanismos en los que se tienen en cuenta la
      probabilidad de selección de cada uno de los elementos de la población.
      Muestra no probabilística: Los elementos de la población se seleccionan a conveniencia
      de la persona que está estudiando la información.


       Cuando se quiere seleccionar una muestra probabilística es necesario definir el diseño
       muestral, dependiendo de las características de la población. Una vez definido se
       selecciona el tamaño de la muestra y luego se emplea un mecanismo de selección.

       El diseño muestral más sencillo corresponde a un MAS (muestreo aleatorio simple). Uno
       de los mecanismos de selección más utilizados bajo este diseño es conocido como
       coordinado negativo, que consiste en asignar a cada uno de los elementos de la población
       un número aleatorio y ordenar la información respecto a ese número. Luego se selecciona
       la muestra de tamaño n, tomando los primeros n elementos.

       Para seleccionar una muestra del total de las 36 empresas, supondremos que el tamaño
       de muestra es 10, en el archivo genere una columna con números aleatorios, organícelos
       y escoja los primeros 10 elementos, esos serán la muestra.


              En el archivo selección de datos se encuentra una ayuda de cómo utilizar Excel para
               generar números aleatorios y seleccionar la muestra. Recuerde que puede
               complementar estas ayudas con las que tiene Excel sobre cada una de las
              funciones.

               El tema de muestreo no se tocará en este curso, sin embargo si desea indagar un
               poco más puede consultar el siguiente libro o cualquier otro de estadística que
               abarque el tema de muestreo.
               Titulo: Estadística y Muestreo
               Autor: Ciro Martínez B.

   3. Clases de variables

Para analizar la información es necesario identificar el tipo de variables que se tiene, para así
determinar las herramientas que pueden ser utilizadas. Los tipos de variables son:

      Variables cualitativas: Cuando toma valores que se asocian con identificadores o
      nombres de una característica. Ejemplos: género, estrato socioeconómico o estado civil.
      Variables cuantitativas: Cuando toma cantidades numéricas con las que se pueden
      calcular operaciones aritméticas. Indican cuanto o cuantos. Ejemplos: edad, ingresos,
      temperatura.


En el ejemplo que se está trabajando, las variables venta del año y compra del año son variables
cuantitativas, que indican cuanto es la venta y compra de cada empresa. Además se puede
calcular, por ejemplo, el total de ventas del año para la población, que corresponde a la suma de
los valores de la variable venta del año para todas las empresas, este valor da $807.734.010.
(Hipervínculo al archivo Suma en Excel)



Las variables actividad y tipo de propietario, son variables cualitativas. La variable actividad toma
los valores: ganadería, agricultura y pesca.

Antes de continuar, examine la variable tipo de empresa ¿que tipo de variable es?, ¿por qué?

         La variable tipo de empresa da una clasificación de la empresa que toma los valores 1 y
         2, sin embargo no se ha dado información sobre su significado. Las variables
         cuantitativas siempre toman valores numéricos y las varialbes cualitativas puden tomar
         valores numéricos y no numéricos. En ocasiones se utilizan números y se asigna una
etiqueta, en esta caso, esta variable es cualitativa, donde el número 1 equivale a empresa
pequeña y 2 significa empresa grande.


          Busque más ejemplos y clasifique las variables. Recuerde que en caso de tener
          preguntas puedes enviar correos o plantear la inquietud en el foro.

Las variables cuantitativas se pueden clasificar en dos grupos: discretas y continuas, dependiendo
de su naturaleza matemática.


  Variable discreta: Toma valores sobre un conjunto discreto, es decir no admite valores
  intermedios entre dos valores dados.

  Variable continua: Puede tomar cualquiera de los infinitos valores que hay en un intervalo,
  es decir admite valores intermedios entre dos valores dados.


Algunos ejemplos de variables discretas son: número de hijos en una familia, edad en años
cumplidos, número de días trabajados.

En cuanto a variables continuas podemos nombrar: peso de una persona, temperatura registrada,
ingresos mensuales de un estudiante.

   4. Escalas de medición

Cuando se hace una medición se busca que sea válida y fiable. La validez hace referencia a que
mide lo que debe medir, la fiabilidad quiere decir que si la medición es repetida se obtendrán los
mismos resultados. Estas dos características están relacionadas principalmente con el
instrumento utilizado para realizar la medición. Por ejemplo, si se necesita medir la temperatura de
un líquido en una caldera, se puede utilizar como instrumento de medición un termómetro
electrónico. Al realizar las mediciones nadie se dio cuenta que el termómetro estaba descalibrado
por lo que los datos obtenidos fueron válidos porque corresponden a la temperatura, pero no son
fiables debido a que el instrumento no media con certeza.

Existen cuatro escalas de medición: nominal, ordinal, de intervalo y de razón, las cuales permiten
dar una clasificación más grande a las variables.

Escala nominal: Se relaciona con “nombrar” y consiste en asignar a los valores de la variable un
símbolo o un número arbitrario, sin que exista una relación de orden o proporción. La idea es que
cada elemento sea asignado a una categoría. Cuando la variable solo tiene dos categorías se le
llama variable dicotómica y cuando tiene un mayor número de categorías se conoce como variable
policotómica.
En el ejemplo de las empresas las variables tipo de empresa, tipo de propietario y actividad tienen
escala nominal. Las variables tipo de empresa y tipo de propietario son dicotómicas.

Escala ordinal: También se puede encontrar como escala de orden jerárquico. Esta escala se
relaciona con “nombrar” y “ordenar”, a diferencia de la escala nominal, aquí si existe un orden
entre las categorías.

En el ejemplo que se ha trabajado no se tiene ninguna variable de escala ordinal, sin embargo si
se preguntara por el estrato socioeconómico en el que está ubicada la empresa se podría
construir una. Otros ejemplos de variables de escala ordinal son:

        La calificación que da un consumidor a un producto entre: excelente, bueno, regular, malo.
        El nivel de estudio de un empleado: bachiller, técnico, universitario.

Escala de intervalo: Se relaciona con “nombrar”, “ordenar” y “medir”. En esta escala el cero no es
absoluto, es decir que no significa ausencia de valor, por lo que operaciones como multiplicación o
división no tienen sentido. Por ejemplo cuando se mide la temperatura, los resultados en una
prueba o variables referentes a fechas.

Escala de razón: Se relaciona con “nombrar”, “ordenar” y “medir”. A diferencia de la escala de
intervalo, el cero significa ausencia de la característica, por lo que las operaciones aritméticas
tienen sentido.

Las variables ventas y compras del año en el ejemplo trabajado están en ésta escala, donde el
cero significa que no hubo ventas o compras.

Actividad de refuerzo

Se realizó una encuesta a los estudiantes de la Universidad Manuela Beltrán, algunas de las
preguntas realizadas se encuentran a continuación. Clasifique cada una de acuerdo a las
opciones que se dan

Variable                           Cuantitativa Cualitativa   Ordinal    Intervalo    Escala
Edad en años cumplidos                 X                                                X
Ciudad de nacimiento                                 X
Semestre en el que se encuentra        X                                                   X
Estado civil                                         X
Ingresos en pesos                      X                                                   X
Nota final de la materia               X                                    X


   5. Representación de datos cualitativos

   Cuando se tiene un conjunto de datos, no es de interés mostrar la información para cada uno
   de los elementos sino realizar una síntesis de dicha información. Para esto se recurren a
   tablas o gráficos, en donde se pueda observar las principales características de cada una de
   las variables, dependiendo el tipo que ésta sea.

       Recomendaciones al momento de presentar información
       Siempre que se presente información, ya sea tabulada o en gráficos es necesario:
          1. Colocar títulos haciendo referencia a la información que allí se encuentra.
          2. Incluir las unidades en que se encuentra la medición
          3. Incluir la fuente de datos
Fuente de datos: de donde se obtiene la información.

    Existen dos tipos de fuentes: primaria y secundaria. La fuente de datos primaria
    corresponde a la información con la que cuenta la empresa, el investigador o persona que
    está realizando el estudio, generalmente recolectada por ellos mismos. Las fuentes
    secundarias, corresponde a información que ha sido publicada y recogida por otros.

    Por ejemplo, el gerente de una empresa está interesado en indagar como están los precios
    de los productos de su empresa comparados con los de la “competencia”, para esto
    recurre a las bases de datos de su empresa en las que se encuentran los precios de los
    diferentes productos, esta es una fuente primaria. Para poder comparar necesita
    información similar para las otras empresas, por lo que indaga en Internet y encuentra
    reportes con la información que él necesita, esta es una fuente secundaria.




No toda la información que se encuentra en Internet es confiable, por eso siempre verifique que el
sitio que se está consultando sea fiable y contenga información oficial.

Foro 1: Indague sobre los pasos que se deben seguir al plantear un trabajo de investigación o un
proyecto, haciendo énfasis en la etapa de recolección de datos, contestando preguntas como
¿qué mecanismos de recolección existen?, ¿cómo detectar la confiabilidad de la información?.
Recuerde que debe ser breve y concreto.

   En el caso de que las variables sean cualitativas se pueden realizar tablas de frecuencias,
   diagrama de barras y diagrama circular.

   Una tabla de frecuencias es un esquema en el que se presenta cuantos elementos hay para
   cada una de las categorías de la variable.

   Tomando las variables cualitativas del ejemplo de las empresas, se cuenta el número de
   empresas cuya actividad es ganadería, las que se dedican a la agricultura y por último las que
   son de pesca. La tabla de frecuencias para esta variable es

                                    Número de empresas por actividad
                               Actividad                 Frecuencia
                               Agricultura                   12
                               Ganadería                     12
                               Pesca                         12
                               Total                         36
                                 Fuente: Datos simulados para 36 empresas


Al observar el total de empresas por actividad, se evidencia que la distribución es equitativa,
debido a que en cada actividad el número de empresas es igual.

En una tabla de frecuencias no solo es necesario la frecuencia absoluta, sino la frecuencia relativa
y la acumulada, las cuales se definen a continuación.

Frecuencia absoluta: número de elementos que pertenecen a la categoría i. Se denota por         .
Frecuencia relativa: proporción de individuos que pertenecen a la categoría i respecto al total de
elementos.
Se denota por      = , donde n es el total de elementos.

Frecuencia absoluta acumulada: suma de la frecuencia absoluta hasta la categoría t. Se denota
por = ∑      . La suma sobre todas las categorías da el número total de elementos n.

Frecuencia relativa acumulada: suma de la frecuencia relativa hasta la categoría t. Se denota
por  = ∑ ℎ . La suma sobre todas las categorías da 1.

Teniendo en cuenta estas definiciones la tabla de frecuencias para la variable actividad queda

                             Tabla de frecuencias para la variable Actividad
                  i Actividad         fi              Fi              hi         Hi
                  1 Agricultura       12              12           0,3333      0,3333
                  2 Ganadería         12              24           0,3333      0,6667
                  3   Pesca           12              36           0,3333         1
                                  Fuente: Datos simulados para 36 empresas



Para obtener la frecuencia absoluta de una variable se puede recurrir a las tablas dinámicas en
Excel o a la función frecuencia.


       En el archivo cálculo de frecuencias encuentras instrucciones para aprovechar Excel.
       Calcule las tablas de frecuencias para las demás variables cualitativas del ejemplo.

En ocasiones la frecuencia relativa se representa en términos de porcentaje, es decir se multiplica
por 100.

Una vez se tiene la información sintetizada se puede presentar en la tabla o por medio de gráficos.
A continuación se presentan los gráficos más conocidos y utilizados para la presentación de este
tipo de datos.

Diagrama de barras

Corresponde a un gráfico de barras horizontales o verticales, en donde la altura de las barras
indica la frecuencia para cada una de las categorías. En uno de los ejes van las categorías y en el
otro la frecuencia asociada a cada categoría.

Un caso particular del gráfico de barras es el gráfico de pareto, en el que se presentan las
categorías de mayor a menor frecuencia.

A continuación se muestra un ejemplo de un diagrama de barras horizontales, para la variable
estado civil. El gráfico de la derecha representa la frecuencia relativa en términos de porcentaje,
mientras que el de la izquierda representa la frecuencia absoluta.
Número de estudiantes de acuerdo a su estado civil                                            Porcentaje de estudiantes de acuerdo a su estado
                                                                                                                                     civil
                                        10
                 10                                      9
                                                                                                                                     38%
                                                                                                               40%                                    35%
                  8
    Frecuencia




                  6                                                                                            30%




                                                                                                  Porcentaje
                                                                        4
                            3                                                                                  20%                                             15%
                  4                                                                                                     12%

                  2                                                                                            10%

                  0                                                                                            0%
                       Casado(a)   Soltero(a)     Unión libre       Viudo(a)                                         Casado(a)   Soltero(a)   Unión libre   Viudo(a)

                                          Estado civil                                                                                 Estado civil




Cuando se presente información en términos de la frecuencia relativa siempre es necesario indicar
cuál es el total de la población, para dar a los lectores una mayor interpretación de la información.

Por ejemplo, si usted escucha que el 50% de las estudiantes del curso tienen una relación
sentimental con el profesor ¿Qué pensaría?, y si le dicen que el total de estudiantes es 2,
¿Cambia su apreciación?

Diagrama circular

Este tipo de gráficos también es conocido como gráficas de tortas. Se utiliza para representar las
frecuencias relativas o porcentuales. En este tipo de representación es muy importante colocar las
claves que identifican cada categoría.

                                                         Porcentaje de estudiantes de acuerdo a su estado
                                                                               civil


                                                                               15%          12%

                                                             35%                                                           38%




                                                                   Casado(a)   Soltero(a)    Unión libre              Viudo(a)



Para esos datos, se observa que la población se concentra en aquellos cuyo estado civil es unión
libre y soltero.

                  Realice los gráficos para las variables del ejemplo de las empresas y de una breve
                  conclusión sobre como es su comportamiento.

   6. Representación de datos cuantitativos

Cuando las variables son cuantitativas, también es posible realizar una tabla de frecuencias. Se
requiere definir unas clases que no se traslapen, de tal manera que cada uno de los elementos
sea ubicado en una única clase. Es indispensable decidir cuantas clases, su ancho y limites. A
continuación se dan algunas definiciones útiles para la elaboración de la tabla de frecuencias.

Ancho de intervalo: diferencia entre los límites superior e inferior del intervalo.
Marca de clase: punto medio del intervalo de clase, se calcula como             , donde LI y LS indican
el valor del límite inferior y superior del intervalo, respectivamente.

Pasos para construir una tabla de frecuencias

   1. Determinar el número de clases. No existe una metodología para la determinación del
número de intervalos de clase, sin embargo en la literatura se encuentra que sea entre 5 y
       20 clases, dependiendo del número de elementos que se tengan, este paso depende más
       de los objetivos planteados en el análisis.

   2. Fijar la longitud de los intervalos. Para esto se toma el rango de los datos (corresponde a
      tomar la mayor y menor observación de la variable y restarlas) y se divide por el número de
      clases. Se recomienda tomar intervalos de igual longitud, para así reducir la probabilidad
      de que quien lea la información de conclusiones erróneas.

   3. Establecer los límites de cada uno de los intervalos de clase. Hay que tener en cuenta que
      la observación más pequeña debe quedar contenida en el primer intervalo y la mayor
      observación en el último intervalo.

   4. Contar las frecuencias por clase. Para cada intervalo de clase se cuenta el número de
      elementos que pertenecen a cada uno, es decir la frecuencia absoluta . Al igual que en el
      caso de datos cuantitativos, se calcula la frecuencia relativa y las frecuencias acumuladas.

Tomando la variable número de empleados del ejemplo de las empresas, se calcula el rango de
los datos, para esto podemos utilizar las funciones mínimo y máximo de Excel, cuyas sintaxis son
=min(rango de datos) y =max(rango de datos) respectivamente.


                           Información para el cálculo de la tabla de frecuencias
                                 Mínimo                              3
                                 Máximo                             25
                                 Rango                              22
                                 Número de elementos                36
                                 Número de clases                    5
                                 Longitud de los intervalos      22/5=4,40


                      Tabla de frecuencias para la variable número de empleados
                            Intervalos de      Marca
                       i                                   fi     Fi      hi    Hi
                                clase         de clase
                       1   [3 , 7.4)             5.2      10     10      0,28   0,28
                       2   [7.4 , 11.8)          9.6       6     16      0,17   0,44
                       3   [11.8 , 16.2)         14        8     24      0,22   0,67
                       4   [16.2 , 20.6)        18.4       5     29      0,14   0,81
                       5   [20.6 , 25]          22.8       7     36      0,19   1,00
                                   Fuente: Datos simulados para 36 empresas


Los gráficos más empleados para representar este tipo de variables son el histograma, el polígono
de frecuencias y la ojiva.

Histograma

El histograma es una herramienta gráfica utilizada para representar las frecuencias. Con estos
gráficos se busca examinar de una manera visual (que en ocasiones es más sencillo) si existen
datos que se acumulan o concentran en una categoría en particular, la forma y variabilidad que
tienen los datos.
Histograma de frecuencias absolutas del número de
                                                                             empleados en las empresas
                                                             12
                                                             10




                                 Frecuencias
                                                             8
                                                             6
                                                             4
                                                             2
                                                             0
                                                                           5.2        9.6           14               18.4           22.8

                                                                                                Edad



A continuación se muestra dos histogramas como ejemplo, el del lado izquierdo nos indica que los
datos sobre la variable edad se concentran hacia edades pequeñas entre 3 y 5 años, mientras
que el histograma de la derecha indica que la población que se está estudiando se concentra en
niños entre 7 y 10 años.

                    Histograma de frecuencias absolutas para                                                     Histograma de frecuencias absolutas para
               40               la variable edad                                                            40               la variable edad
  Frecuencia




                                                                                               Frecuencia




               30                                                                                           30

               20                                                                                           20

               10                                                                                           10

                0                                                                                            0
                    3    4    5     6     7    8     9                           10                              3    4       5     6     7    8     9   10
                              Edad en años cumplidos                                                                          Edad en años cumplidos


Polígono de frecuencias
En este gráfico se coloca en el eje horizontal la marca de clase y en el eje vertical la frecuencia de
cada intervalo de clase y se unen dichos puntos con una línea.

                                                                      Poligono de frecuencias relativas del número de
                                                                                empleados en las empresas
                                                              0,30
                                                              0,25
                                       Frecuencia relativa




                                                              0,20
                                                              0,15
                                                              0,10
                                                              0,05
                                                              0,00
                                                                     5.2          9.6             14                   18.4             22.8

                                                                                               Edad



Ojiva

Éste gráfico corresponde a un polígono de frecuencias pero graficando la marca de clase Vs la
frecuencia acumulada.
Ojiva de frecuencias relativas del número de empleados
                                                                 en las empresas
                                            1,20
                                            1,00




                      Frecuencia relativa
                                            0,80
                                            0,60
                                            0,40
                                            0,20
                                            0,00
                                                     5.2        9.6        14         18.4       22.8

                                                                          Edad



Como conclusión general se puede decir que el número de empleados de las 36 empresas que se
están estudiando no muestra concentraciones significativas en alguno de los intervalos de clase.

       Calcule la tabla de frecuencias y los gráficos para las demás variables continuas del
       ejemplo de las empresas, utilizando 5, 7 y 9 clases para su construcción. ¿Cambian los
       resultados en cada caso?

Excel cuenta con herramientas de análisis complementarias con la que es posible realizar la tabla
de frecuencias y el histograma. Para acceder a ella es necesario instalarla. En el archivo
Herramientas de análisis complementarias encuentra como hacerlo.

La función histograma le pide el rango de datos y el rango de clases. Este último campo puede
no diligenciarlo y el programa asignará el número de intervalos de clase que crea conveniente. En
el caso que desee un número de clases específico, debe escribir los límites superiores de los
intervalos de clase en una columna y seleccionarlos en éste campo. Esta función saca la tabla de
frecuencias absolutas y brinda la opción de mostrar la frecuencia relativa acumulada en
porcentaje, organizar los intervalos de acuerdo a su frecuencia y graficar el histograma y la ojiva.

       Lea la ayuda de Excel sobre esta función, realice ejercicios y en caso de duda, consulte a
       su tutor.


Aunque la función histograma se utiliza para el análisis de variables cuantitativas, puede ser
usada en el caso de variables cualitativas asignando claves numéricas a cada categoría, como se
hizo en el caso de la variable tipo de empresa, en el ejemplo que se ha trabajado. En el campo
rango de clases se coloca el listado de las claves. Al momento de presentar la información no
olvide indicar el significado de cada clave.
Existe otro tipo de gráfico, que es utilizado para explorar como se encuentra la distribución
       de los datos, es conocido como Diagrama de Tallos y Hojas. Averigüe como se construye y
       cuál es su utilidad. Entregue esto como un punto adicional de la Actividad 1.


Actividad 1.

Cuando se tienen dos variables cuantitativas, se puede tener interés en indagar si existe algún
tipo de relación entre éstas. A través de un diagrama de dispersión se puede examinar si entre
dos variables existe una relación lineal, no lineal o no existe relación.

Para hacer el diagrama de dispersión de X y Y dos variables cuantitativas, se grafican en un plano
cartesiano las parejas de puntos (xi, yi), donde xi es el valor que toma la variable X y yi el valor de
la variable Y para la observación i. En el ejemplo de las empresas, si se quisiera examinar la
relación entre las variables ventas del año y compras del año, el diagrama de dispersión estaría
conformado por 36 puntos (uno por cada empresa), las coordenadas del punto que identifica la
empresa 1 seria (17.380.929, 10.192.412), donde el primer valor representa las ventas y el segundo
la compras, a continuación se muestra el diagrama para estas variables, en el que no se observa
algún patrón en los puntos graficados, por lo que es un indicio de que no existe una relación entre
las dos variables.
Diagrama de dispersión de las ventas y compras
                                                    del año
                               50.000.000

                               40.000.000
                     Compras




                               30.000.000

                               20.000.000

                               10.000.000

                                       0
                                            0        10.000.000 20.000.000 30.000.000 40.000.000 50.000.000

                                                                                     Ventas




                               Diagrama de dispersión de la estatura y el                               Un diagrama de dispersión puede
                                                                                                        reflejar una relación lineal, cuando su
                                          peso de 44 niños
                                                                                                        tendencia se asemeja a la de una recta.
                        145
                                                                                                        En el gráfico se da un ejemplo de una
                        140                                                                             relación lineal entre dos variables:
 Estatura (en cms)




                        135                                                                             estatura y peso de niños. Se observa
                        130
                                                                                                        que al aumentar el peso de los niños
                                                                                                        también aumenta su estatura, esto es lo
                        125
                                                                                                        que se conoce como una relación lineal
                        120                                                                             directa o positiva. La línea roja está
                                25     30       35          40         45                     50   55   indicando la tendencia que presentan
                                                       Peso (en Kgs)                                    los datos, en donde es evidente que es
                                                                                                        una línea con pendiente positiva.

Una relación inversa o negativa es cuando al aumentar los valores de una de las variables, los de
la otra disminuyen, es decir que la línea que indica la tendencia de los datos tiene una pendiente
negativa.

Con el diagrama de dispersión
también es posible evidenciar un         Diagrama de dispersión de la temperatura y el tiempo
tipo de relación no lineal, por              de reproducción de un nuevo tipo de bacteria
ejemplo, el gráfico de la derecha     134
muestra la relación que existe
                                                                        Temperatura (en ºC)




                                      132
entre la temperatura y el tiempo
que demora en reproducirse un         130
nuevo tipo de bacteria. Se            128
observa que el tiempo de
reproducción va aumentando al         126
aumentar la temperatura hasta         124
132 grados, sin embargo en ese
                                          20      25      30      35        40       45    50                                              55
punto al disminuir la temperatura
el tiempo de reproducción                              Tiempo de reproducción (en minutos)
aumenta, la tendencia de los
datos se asemeja a una parábola cóncava hacia abajo, como se define con la línea roja.

Cuando en un diagrama se observa un patrón pero los puntos tienen gran dispersión, se dice que
la relación entre las dos variables es débil.
Cuando no existe un tipo de relación entre las dos variables, no se observa ningún patrón en los
puntos graficados, como el observado en el ejemplo de las empresas con las variables compras y
ventas.

Estos gráficos se pueden hacer en Excel, escogiendo gráfico de dispersión en la barra de
herramientas de la opción Insertar en el menú principal.

   7. Medidas de tendencia y variabilidad

Hasta este momento se han observado métodos que permiten resumir y presentar los datos de
manera que el usuario pueda visualizar las características principales de los datos. Ahora se
presentaran métodos numéricos para complementar los análisis.

A un conjunto de datos se le examinan algunas características como su tendencia central, la
variación con respecto a dicho centro y la forma en que se agrupan.

Medidas de localización o tendencia

Las medidas de tendencia sirven para identificar alrededor de que valor se agrupan los valores de
la muestra o población.

Las tres medidas más utilizadas son la media o promedio, la moda y la mediana.

Media: se obtiene sumando todos los valores de la variable y dividiendo por el número total de
elementos, es decir si representa el valor del dato i, para = 1, 2, … , , entonces la media se
define como
                                            ∑
                                         ̅=
Esta medida se deja influenciar de datos atípicos, por lo que no es aconsejable usarla cuando en
al hacer el histograma nos damos cuenta que los datos se encuentran concentrados hacia
algunos de los extremos, es decir cuando son asimétricas.




      Dato atipico u outlier: hace referencia a datos extraños dentro del conjunto de datos,
      debido a que no sigue la tendencia del resto de observaciones. Se pueden presentar
      por errores en la medición




         ¿Qué es un promedio ponderado? ¿Cómo se calcula?


Ejemplo 2. Tomando el siguiente conjunto de 42 datos que corresponde a la edad que tenían los
estudiantes que ingresaron a la UMB a una carrera en el primer semestre de 2009, cuando se
graduaron.

 18       16    17     15    15     16    17     17    18     15    17     15    18     17
 16       17    15     18    15     16    17     17    18     18    17     15    16     17
 18       18    15     17    15     16    15     16    17     17    17     17    18     18

La sintaxis de la función promedio en Excel es =promedio(rango de datos).
El valor promedio de estos datos es ̅ = 16.6, es decir la edad promedio de los estudiantes al
graduarse era de 16.6 años.
Dependiendo de la variable que se esté midiendo se hace necesario redondear la
    cifra. Por ejemplo si los datos correspondieran al número de varones nacidos en un
    periodo de tiempo, no tiene mucho sentido decir que en promedio nacieron 16.6 niños.

Mediana: Para su cálculo es necesario ordenar las observaciones de menor a mayor y
corresponde al valor que divide los datos. La denotaremos por .

Si el número de elementos es impar la mediana corresponde al valor de la observación de la
mitad. Para el siguiente conjunto de 7 datos, la mediana es = 15.

                                  13 13 14        15   15 17 23


En el caso en que el número de observaciones es par, se promedia los valores de las
observaciones de la mitad. Para el siguiente conjunto de 8 datos la mediana es el promedio de los
valores 15 y 16, es decir = 15.5

                                13 13 14     15 16      17 23 24

A diferencia de la media, no se deja influenciar de valores atípicos o extremos debido a que su
cálculo no depende del valor que tomen las observaciones sino del orden de éstas.

La sintaxis de ésta función en Excel es =mediana(rango de datos).

Para el ejemplo 2 el valor de la mediana es 17.

Para observar cómo se deja influenciar la media por valores atípicos, tome en el ejemplo 2, la
primera observación y asuma que la persona encargada de realizar la captura de los datos
cometió un error y en lugar de 18 digitó 58. Al calcular la media y la mediana se obtiene ̅ = 17.6 y
  = 17. Es decir que el valor de la media se aumentó debido a la presencia de un dato extremo,
mientras que la mediana no cambio. Por esta razón es necesario examinar la distribución de los
datos para determinar la medida de localización adecuada a ser usada.

Moda: Es el valor de los datos que tiene mayor frecuencia. Puede que no sea un valor único,
cuando se presentan dos valores se dice que la distribución de los datos es bimodal y cuando
tiene más de dos valores se dice multimodal.

La sintaxis en Excel para calcularla es =moda(rango de datos).

En el ejemplo 2, la moda coincide con la mediana, es decir 17.

Los valores de las tres medidas de tendencia central se encuentran alrededor del 17, es decir que
es un indicio de que la distribución de esos valores es simétrica alrededor del valor 17.



Percentiles: Los percentiles son medidas de localización, pero no central. El p-ésimo percentil es
un valor tal que por lo menos un p por ciento de las observaciones son iguales o menores a ese
valor. El percentil 50 equivale a la mediana.

Para encontrar el p-éimo percentil se ordenan las observaciones de menor a mayor, se calcula el
índice =         , donde n es el total de elementos y p el percentil de interés. Si i no es entero
entones el entero inmediatamente mayor que i indica la posición del p-ésimo percentil. Cuando i
sea entero se toma como el p-ésimo percentil el promedio de los datos ubicados en las posiciones
i e (i +1).

Para calcular percentiles en Excel la sintaxis es =percentil(rango de datos; k) donde k es un
número entre 0 y 1 que indica el percentil que se quiere calcular.

Cuartiles

Son los números que dividen los datos en cuatro partes porcentualmente iguales. Hay tres
cuartiles

                                                         =                     25
                                                         =                     50
                                                         =                     75

Deciles

Son los números que dividen los datos en 10 partes porcentualmente iguales. Se denotan como
  , i=1, 2, …, 10.

       Con los datos de las empresas calcule para cada variable éstas medidas de localización y
       de un significado o interpretación al valor obtenido.


Medidas de variabilidad

Las medidas de variablidad indican la oscilación o fluctuación de los valores de la variable. Estas
medidas complementan la información que arroja las medidas de localización.

Ejemplo 3

  18      16   17     13                 14    16    17           14          18    15    17     13      18   19
  16      17   15     20                 13    16    20           17          19    18    17     15      16   17
  18      20   15     17                 14    16    15           16          17    17    17     17      18   19

Suponga que estos datos corresponden a las edades que tenían cuando se graduaron, los 42
estudiantes de otra carrera. Al comparar éstos datos con los mostrados en el ejemplo 2, se
observa que en ambos casos el valor promedio de graduación fue 16.6 años, sin embargo en el
siguiente gráfico se evidencia que el grupo 2 que tiene mayor rango de edades, es decir mayor
variabilidad.


                                         Comparación de edad de grauación (en años
                                                cumplidos) de dos grupos
                                    16
                                    14
                                    12
                      Frecuencias




                                    10
                                    8
                                                                                               Grupo 1
                                    6
                                                                                               Grupo 2
                                    4
                                    2
                                    0
                                          13   14   15       16          17    18   19   20
                                                                  Edad
A continuación se mencionarán algunas de las medidas de variabilidad más usadas.

Rango
Se define como

                                    =         á        −       í

Es la medida más sencilla de calcular y sus unidades son las mismas de la variable de estudio.
Debido a que solamente involucra en su cálculo dos valores de la variables se deja influenciar por
valores extremos. Rara vez se utiliza como única medida de variabilidad.

Rango interquartil

Elimina la influencia de datos extremos. Se define como

                                             =     −

Varianza

Se basa en la diferencia que hay entre cada observación y el valor promedio de los datos, se
define como
                                             ∑ ( − ̅)
                                          =
                                                  −1

Esta medida es siempre positiva. Sus unidades son las del cuadrado de la variable.
La sintaxis en Excel para calcular la varianza es =var(rango de datos)


Desviación estándar

Corresponde a la raíz cuadrada de la Varianza y tiene las mismas unidades que las
observaciones.

Su sintaxis en Excel es =desvest(rango de datos)

Si en el análisis de las medidas de tendencia se encontró que la media no es una buena medida a
ser usada, tampoco es conveniente usar la desviación debido a que su cálculo depende del
promedio de los datos.


Dentro de las funciones de análisis de datos en Excel, se encuentra una llamada Estadística
descriptiva, al chequear la opción Resumen de estadísticas, arroja el total de observaciones
leídas, la suma total, el mínimo, el máximo, el rango, la varianza, la desviación, la moda, la
mediana y la media. También da resultados para el error típico, la curtosis y el coeficiente de
asimetría. Indague el uso que se da a estas tres últimas medidas.

       Con los datos de las empresas calcule para cada variable éstas medidas de variabilidad y
       de una conclusión general sobre los resultados que encontró en estos datos. ¿En que
       cambia el análisis que hizo al iniciar este modulo y el que acaba de hacer?


Descargue el archivo Datos parcial y guárdelo en su computador. Para contestar cada uno de los
puntos del parcial, es necesario que usted realice diferentes operaciones, por cada punto del
parcial incluya una hoja nueva y coloque el nombre de acuerdo al punto. Después de contestar las
preguntas, envíe a su tutor el archivo en el que trabajó.

Más contenido relacionado

La actualidad más candente

Modulo Estadística 2011
Modulo Estadística 2011Modulo Estadística 2011
Modulo Estadística 2011cesarzatta
 
Trabajo resumen de que es estadistica y su clasificacion
Trabajo resumen  de que es estadistica y su clasificacionTrabajo resumen  de que es estadistica y su clasificacion
Trabajo resumen de que es estadistica y su clasificacionEduardo RA D
 
Informe tecnologia (1)
Informe tecnologia (1)Informe tecnologia (1)
Informe tecnologia (1)catalina gomez
 

La actualidad más candente (7)

Capitulo i (2)
Capitulo i (2)Capitulo i (2)
Capitulo i (2)
 
Modulo Estadística 2011
Modulo Estadística 2011Modulo Estadística 2011
Modulo Estadística 2011
 
Capitulo 1
Capitulo 1Capitulo 1
Capitulo 1
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Trabajo resumen de que es estadistica y su clasificacion
Trabajo resumen  de que es estadistica y su clasificacionTrabajo resumen  de que es estadistica y su clasificacion
Trabajo resumen de que es estadistica y su clasificacion
 
Informe tecnologia (1)
Informe tecnologia (1)Informe tecnologia (1)
Informe tecnologia (1)
 
Módulo de estadística
Módulo de estadísticaMódulo de estadística
Módulo de estadística
 

Similar a Modulo1 estadistica (20)

Estadistica
EstadisticaEstadistica
Estadistica
 
Trabajo de tecnologia #2
Trabajo de tecnologia #2Trabajo de tecnologia #2
Trabajo de tecnologia #2
 
La estadistica
La estadisticaLa estadistica
La estadistica
 
Estadística (2)
Estadística (2)Estadística (2)
Estadística (2)
 
TRABAJO DE TECNOLOGIA 11-3.docx
TRABAJO DE TECNOLOGIA 11-3.docxTRABAJO DE TECNOLOGIA 11-3.docx
TRABAJO DE TECNOLOGIA 11-3.docx
 
Estadistica trabajo 1 carlos marcano
Estadistica trabajo 1 carlos marcanoEstadistica trabajo 1 carlos marcano
Estadistica trabajo 1 carlos marcano
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Metodos estadisticos.pdf
Metodos estadisticos.pdfMetodos estadisticos.pdf
Metodos estadisticos.pdf
 
B.SEGUNDA SESIÓN.pptx
B.SEGUNDA SESIÓN.pptxB.SEGUNDA SESIÓN.pptx
B.SEGUNDA SESIÓN.pptx
 
Taller de Estadística
Taller de EstadísticaTaller de Estadística
Taller de Estadística
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i (1)
Capitulo i (1)Capitulo i (1)
Capitulo i (1)
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 

Modulo1 estadistica

  • 1. INTRODUCCIÓN Este modulo le brinda la oportunidad de conocer e implementar diferentes técnicas tabulares y gráficas que le permitirán sintetizar y presentar la información, dependiendo de qué tipo sea. Encontrará actividades cuya finalidad es aplicar los conceptos que va estudiando. Tenga presente en ir realizando los cálculos planteados e interpretando los resultados. OBJETIVOS Al finalizar el modulo “estadística descriptiva” usted podrá: 1. Identificar y clasificar la información que desea analizar o resumir. 2. Diferenciar de acuerdo al tipo de variable, las herramientas que puede utilizar para describir un conjunto de datos. 3. Realizar gráficas y tablas en Excel, útiles para la presentación de informes. 4. Identificar la importancia de contar con información precisa y confiable. 5. Reconocer los diferentes mecanismos para la recolección de información. 1. Introducción 2. Algunas definiciones de estadísticas 3. Clases de variables 4. Escalas de medición 5. Representación de datos cuantitativos 6. Representación de datos cualitativos 7. Medidas de tendencia y variabilidad
  • 3. Contenido 1. Introducción Todos los días, por diferentes medios, escuchamos o leemos información referente a tasas, porcentajes, índices, promedios, resultados de encuestas, censos, entre otros. Todos estos temas están relacionados con la estadística o son estadísticas. Pero ¿qué es la estadística? Si buscamos en el diccionario1 podemos encontrar las siguientes definiciones 1. Estudio de los casos cuantitativos de la población, de los recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las sociedades humanas. 2. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades Algunos autores la definen en un sentido amplio como el arte y la ciencia de reunir, analizar, presentar e interpretar datos2. No existe una definición universal, cada autor da una definición diferente, sin embargo la mayoría de las definiciones apuntan a que es un conjunto de técnicas utilizadas para la recolección, observación, exploración, organización, síntesis, análisis e interpretación de un conjunto de datos. Algunas de las herramientas estadísticas (que coinciden con ramas de la estadística) que se pueden utilizar para realizar análisis de datos son: Descrip Demo tiva Probabilida grafìa d Muestreo, Bioestad censos y ìstica encuestas Geoestadís Estadísti Diseño de itica ca experimentos Estadìstica Seies de no Tiempo paramétrica Estadìstica Regresió multivariad n a Modelos lineales 1 www.rae.es 2 Estadística para administración y economía. Volumen 1. Anderson, David. Pág.3.
  • 4. Debido a esta gran variedad de temas, es que la estadística se ha vuelto tan importante dentro de cada una de las profesiones y en las diferentes actividades del campo laboral. En este curso se abordaran tres de éstas ramas y al final se dará una introducción a las demás, de tal manera que el estudioso pueda identificar los campos de acción de cada una y así profundizar en los que sean de su interés. 2. Algunas definiciones La estadística se puede clasificar en dos ramas o fases grandes: la estadística descriptiva y la estadística inferencial. Estadística descriptiva: Describe, organiza, sintetiza, representa los datos de tal manera que se puedan identificar las principales características de éstos. Estadística inferencial: A partir de muestras, se emplean métodos para realizar estimaciones, predicciones, análisis en los que se busca dar explicación al comportamiento de los datos y así poder dar conclusiones para la toma de decisiones. Para profundizar los temas de este modulo, puede consultar cualquier libro de estadística en donde se encuentre el tema estadística descriptiva. o Datos: son los hechos y números que se reúnen para ser sintetizados, analizados e interpretaos. o Conjunto de datos: corresponde a la reunión de datos. o Elementos: objetos o personas que tienen la información a estudiar o Población: es el conjunto de elementos que tienen una característica común o Muestra: es un subconjunto de la población o Variable: característica de interés de los elementos. Para aclarar estos conceptos, se tomara como ejemplo, los datos que se encuentran en el archivo de Excel, Datos simulados sobre empresas, los cuales corresponden a datos de 36 empresas que han sido simulados, con el fin de que el estudioso afiance los conceptos que se van dando en el modulo. Teniendo en cuenta que uno de los objetivos de este curso es que se familiarice con la herramienta Excel, antes de iniciar es necesario que conozca el manejo básico de éste, por lo se recomienda ver el video Introducción a Excel. Aquí encontramos información referente a un conjunto de datos, donde los elementos son las empresas. En este caso supondremos que estas 36 empresas son todas las que se dedican al trabajo en el campo en una zona del país, es decir la población. La información que se tiene para cada una de las empresas son su venta y compra en un año determinado, la actividad, el tipo de propietario, el tipo de empresa y el número de empleados, estas son las variables con que se cuenta. Haga una descripción inicial de la información que allí se encuentra, ¿qué puede decir de cada variable?, ¿que podría hacer con cada una?, ¿cómo analizaría la información?. Guarde sus respuestas y a medida que vaya avanzando en el contenido del modulo, observe en que cambian sus apreciaciones iníciales o en que se complementan.
  • 5. Como se definió anteriormente una muestra es un subconjunto de la población. Existen muestras probabilísticas y no probabilísticas. Muestra probabilística: Cuando se utilizan mecanismos en los que se tienen en cuenta la probabilidad de selección de cada uno de los elementos de la población. Muestra no probabilística: Los elementos de la población se seleccionan a conveniencia de la persona que está estudiando la información. Cuando se quiere seleccionar una muestra probabilística es necesario definir el diseño muestral, dependiendo de las características de la población. Una vez definido se selecciona el tamaño de la muestra y luego se emplea un mecanismo de selección. El diseño muestral más sencillo corresponde a un MAS (muestreo aleatorio simple). Uno de los mecanismos de selección más utilizados bajo este diseño es conocido como coordinado negativo, que consiste en asignar a cada uno de los elementos de la población un número aleatorio y ordenar la información respecto a ese número. Luego se selecciona la muestra de tamaño n, tomando los primeros n elementos. Para seleccionar una muestra del total de las 36 empresas, supondremos que el tamaño de muestra es 10, en el archivo genere una columna con números aleatorios, organícelos y escoja los primeros 10 elementos, esos serán la muestra. En el archivo selección de datos se encuentra una ayuda de cómo utilizar Excel para generar números aleatorios y seleccionar la muestra. Recuerde que puede complementar estas ayudas con las que tiene Excel sobre cada una de las funciones. El tema de muestreo no se tocará en este curso, sin embargo si desea indagar un poco más puede consultar el siguiente libro o cualquier otro de estadística que abarque el tema de muestreo. Titulo: Estadística y Muestreo Autor: Ciro Martínez B. 3. Clases de variables Para analizar la información es necesario identificar el tipo de variables que se tiene, para así determinar las herramientas que pueden ser utilizadas. Los tipos de variables son: Variables cualitativas: Cuando toma valores que se asocian con identificadores o nombres de una característica. Ejemplos: género, estrato socioeconómico o estado civil. Variables cuantitativas: Cuando toma cantidades numéricas con las que se pueden calcular operaciones aritméticas. Indican cuanto o cuantos. Ejemplos: edad, ingresos, temperatura. En el ejemplo que se está trabajando, las variables venta del año y compra del año son variables cuantitativas, que indican cuanto es la venta y compra de cada empresa. Además se puede calcular, por ejemplo, el total de ventas del año para la población, que corresponde a la suma de
  • 6. los valores de la variable venta del año para todas las empresas, este valor da $807.734.010. (Hipervínculo al archivo Suma en Excel) Las variables actividad y tipo de propietario, son variables cualitativas. La variable actividad toma los valores: ganadería, agricultura y pesca. Antes de continuar, examine la variable tipo de empresa ¿que tipo de variable es?, ¿por qué? La variable tipo de empresa da una clasificación de la empresa que toma los valores 1 y 2, sin embargo no se ha dado información sobre su significado. Las variables cuantitativas siempre toman valores numéricos y las varialbes cualitativas puden tomar valores numéricos y no numéricos. En ocasiones se utilizan números y se asigna una etiqueta, en esta caso, esta variable es cualitativa, donde el número 1 equivale a empresa pequeña y 2 significa empresa grande. Busque más ejemplos y clasifique las variables. Recuerde que en caso de tener preguntas puedes enviar correos o plantear la inquietud en el foro. Las variables cuantitativas se pueden clasificar en dos grupos: discretas y continuas, dependiendo de su naturaleza matemática. Variable discreta: Toma valores sobre un conjunto discreto, es decir no admite valores intermedios entre dos valores dados. Variable continua: Puede tomar cualquiera de los infinitos valores que hay en un intervalo, es decir admite valores intermedios entre dos valores dados. Algunos ejemplos de variables discretas son: número de hijos en una familia, edad en años cumplidos, número de días trabajados. En cuanto a variables continuas podemos nombrar: peso de una persona, temperatura registrada, ingresos mensuales de un estudiante. 4. Escalas de medición Cuando se hace una medición se busca que sea válida y fiable. La validez hace referencia a que mide lo que debe medir, la fiabilidad quiere decir que si la medición es repetida se obtendrán los mismos resultados. Estas dos características están relacionadas principalmente con el instrumento utilizado para realizar la medición. Por ejemplo, si se necesita medir la temperatura de un líquido en una caldera, se puede utilizar como instrumento de medición un termómetro electrónico. Al realizar las mediciones nadie se dio cuenta que el termómetro estaba descalibrado por lo que los datos obtenidos fueron válidos porque corresponden a la temperatura, pero no son fiables debido a que el instrumento no media con certeza. Existen cuatro escalas de medición: nominal, ordinal, de intervalo y de razón, las cuales permiten dar una clasificación más grande a las variables. Escala nominal: Se relaciona con “nombrar” y consiste en asignar a los valores de la variable un símbolo o un número arbitrario, sin que exista una relación de orden o proporción. La idea es que cada elemento sea asignado a una categoría. Cuando la variable solo tiene dos categorías se le llama variable dicotómica y cuando tiene un mayor número de categorías se conoce como variable policotómica.
  • 7. En el ejemplo de las empresas las variables tipo de empresa, tipo de propietario y actividad tienen escala nominal. Las variables tipo de empresa y tipo de propietario son dicotómicas. Escala ordinal: También se puede encontrar como escala de orden jerárquico. Esta escala se relaciona con “nombrar” y “ordenar”, a diferencia de la escala nominal, aquí si existe un orden entre las categorías. En el ejemplo que se ha trabajado no se tiene ninguna variable de escala ordinal, sin embargo si se preguntara por el estrato socioeconómico en el que está ubicada la empresa se podría construir una. Otros ejemplos de variables de escala ordinal son:  La calificación que da un consumidor a un producto entre: excelente, bueno, regular, malo.  El nivel de estudio de un empleado: bachiller, técnico, universitario. Escala de intervalo: Se relaciona con “nombrar”, “ordenar” y “medir”. En esta escala el cero no es absoluto, es decir que no significa ausencia de valor, por lo que operaciones como multiplicación o división no tienen sentido. Por ejemplo cuando se mide la temperatura, los resultados en una prueba o variables referentes a fechas. Escala de razón: Se relaciona con “nombrar”, “ordenar” y “medir”. A diferencia de la escala de intervalo, el cero significa ausencia de la característica, por lo que las operaciones aritméticas tienen sentido. Las variables ventas y compras del año en el ejemplo trabajado están en ésta escala, donde el cero significa que no hubo ventas o compras. Actividad de refuerzo Se realizó una encuesta a los estudiantes de la Universidad Manuela Beltrán, algunas de las preguntas realizadas se encuentran a continuación. Clasifique cada una de acuerdo a las opciones que se dan Variable Cuantitativa Cualitativa Ordinal Intervalo Escala Edad en años cumplidos X X Ciudad de nacimiento X Semestre en el que se encuentra X X Estado civil X Ingresos en pesos X X Nota final de la materia X X 5. Representación de datos cualitativos Cuando se tiene un conjunto de datos, no es de interés mostrar la información para cada uno de los elementos sino realizar una síntesis de dicha información. Para esto se recurren a tablas o gráficos, en donde se pueda observar las principales características de cada una de las variables, dependiendo el tipo que ésta sea. Recomendaciones al momento de presentar información Siempre que se presente información, ya sea tabulada o en gráficos es necesario: 1. Colocar títulos haciendo referencia a la información que allí se encuentra. 2. Incluir las unidades en que se encuentra la medición 3. Incluir la fuente de datos
  • 8. Fuente de datos: de donde se obtiene la información. Existen dos tipos de fuentes: primaria y secundaria. La fuente de datos primaria corresponde a la información con la que cuenta la empresa, el investigador o persona que está realizando el estudio, generalmente recolectada por ellos mismos. Las fuentes secundarias, corresponde a información que ha sido publicada y recogida por otros. Por ejemplo, el gerente de una empresa está interesado en indagar como están los precios de los productos de su empresa comparados con los de la “competencia”, para esto recurre a las bases de datos de su empresa en las que se encuentran los precios de los diferentes productos, esta es una fuente primaria. Para poder comparar necesita información similar para las otras empresas, por lo que indaga en Internet y encuentra reportes con la información que él necesita, esta es una fuente secundaria. No toda la información que se encuentra en Internet es confiable, por eso siempre verifique que el sitio que se está consultando sea fiable y contenga información oficial. Foro 1: Indague sobre los pasos que se deben seguir al plantear un trabajo de investigación o un proyecto, haciendo énfasis en la etapa de recolección de datos, contestando preguntas como ¿qué mecanismos de recolección existen?, ¿cómo detectar la confiabilidad de la información?. Recuerde que debe ser breve y concreto. En el caso de que las variables sean cualitativas se pueden realizar tablas de frecuencias, diagrama de barras y diagrama circular. Una tabla de frecuencias es un esquema en el que se presenta cuantos elementos hay para cada una de las categorías de la variable. Tomando las variables cualitativas del ejemplo de las empresas, se cuenta el número de empresas cuya actividad es ganadería, las que se dedican a la agricultura y por último las que son de pesca. La tabla de frecuencias para esta variable es Número de empresas por actividad Actividad Frecuencia Agricultura 12 Ganadería 12 Pesca 12 Total 36 Fuente: Datos simulados para 36 empresas Al observar el total de empresas por actividad, se evidencia que la distribución es equitativa, debido a que en cada actividad el número de empresas es igual. En una tabla de frecuencias no solo es necesario la frecuencia absoluta, sino la frecuencia relativa y la acumulada, las cuales se definen a continuación. Frecuencia absoluta: número de elementos que pertenecen a la categoría i. Se denota por .
  • 9. Frecuencia relativa: proporción de individuos que pertenecen a la categoría i respecto al total de elementos. Se denota por = , donde n es el total de elementos. Frecuencia absoluta acumulada: suma de la frecuencia absoluta hasta la categoría t. Se denota por = ∑ . La suma sobre todas las categorías da el número total de elementos n. Frecuencia relativa acumulada: suma de la frecuencia relativa hasta la categoría t. Se denota por = ∑ ℎ . La suma sobre todas las categorías da 1. Teniendo en cuenta estas definiciones la tabla de frecuencias para la variable actividad queda Tabla de frecuencias para la variable Actividad i Actividad fi Fi hi Hi 1 Agricultura 12 12 0,3333 0,3333 2 Ganadería 12 24 0,3333 0,6667 3 Pesca 12 36 0,3333 1 Fuente: Datos simulados para 36 empresas Para obtener la frecuencia absoluta de una variable se puede recurrir a las tablas dinámicas en Excel o a la función frecuencia. En el archivo cálculo de frecuencias encuentras instrucciones para aprovechar Excel. Calcule las tablas de frecuencias para las demás variables cualitativas del ejemplo. En ocasiones la frecuencia relativa se representa en términos de porcentaje, es decir se multiplica por 100. Una vez se tiene la información sintetizada se puede presentar en la tabla o por medio de gráficos. A continuación se presentan los gráficos más conocidos y utilizados para la presentación de este tipo de datos. Diagrama de barras Corresponde a un gráfico de barras horizontales o verticales, en donde la altura de las barras indica la frecuencia para cada una de las categorías. En uno de los ejes van las categorías y en el otro la frecuencia asociada a cada categoría. Un caso particular del gráfico de barras es el gráfico de pareto, en el que se presentan las categorías de mayor a menor frecuencia. A continuación se muestra un ejemplo de un diagrama de barras horizontales, para la variable estado civil. El gráfico de la derecha representa la frecuencia relativa en términos de porcentaje, mientras que el de la izquierda representa la frecuencia absoluta.
  • 10. Número de estudiantes de acuerdo a su estado civil Porcentaje de estudiantes de acuerdo a su estado civil 10 10 9 38% 40% 35% 8 Frecuencia 6 30% Porcentaje 4 3 20% 15% 4 12% 2 10% 0 0% Casado(a) Soltero(a) Unión libre Viudo(a) Casado(a) Soltero(a) Unión libre Viudo(a) Estado civil Estado civil Cuando se presente información en términos de la frecuencia relativa siempre es necesario indicar cuál es el total de la población, para dar a los lectores una mayor interpretación de la información. Por ejemplo, si usted escucha que el 50% de las estudiantes del curso tienen una relación sentimental con el profesor ¿Qué pensaría?, y si le dicen que el total de estudiantes es 2, ¿Cambia su apreciación? Diagrama circular Este tipo de gráficos también es conocido como gráficas de tortas. Se utiliza para representar las frecuencias relativas o porcentuales. En este tipo de representación es muy importante colocar las claves que identifican cada categoría. Porcentaje de estudiantes de acuerdo a su estado civil 15% 12% 35% 38% Casado(a) Soltero(a) Unión libre Viudo(a) Para esos datos, se observa que la población se concentra en aquellos cuyo estado civil es unión libre y soltero. Realice los gráficos para las variables del ejemplo de las empresas y de una breve conclusión sobre como es su comportamiento. 6. Representación de datos cuantitativos Cuando las variables son cuantitativas, también es posible realizar una tabla de frecuencias. Se requiere definir unas clases que no se traslapen, de tal manera que cada uno de los elementos sea ubicado en una única clase. Es indispensable decidir cuantas clases, su ancho y limites. A continuación se dan algunas definiciones útiles para la elaboración de la tabla de frecuencias. Ancho de intervalo: diferencia entre los límites superior e inferior del intervalo. Marca de clase: punto medio del intervalo de clase, se calcula como , donde LI y LS indican el valor del límite inferior y superior del intervalo, respectivamente. Pasos para construir una tabla de frecuencias 1. Determinar el número de clases. No existe una metodología para la determinación del
  • 11. número de intervalos de clase, sin embargo en la literatura se encuentra que sea entre 5 y 20 clases, dependiendo del número de elementos que se tengan, este paso depende más de los objetivos planteados en el análisis. 2. Fijar la longitud de los intervalos. Para esto se toma el rango de los datos (corresponde a tomar la mayor y menor observación de la variable y restarlas) y se divide por el número de clases. Se recomienda tomar intervalos de igual longitud, para así reducir la probabilidad de que quien lea la información de conclusiones erróneas. 3. Establecer los límites de cada uno de los intervalos de clase. Hay que tener en cuenta que la observación más pequeña debe quedar contenida en el primer intervalo y la mayor observación en el último intervalo. 4. Contar las frecuencias por clase. Para cada intervalo de clase se cuenta el número de elementos que pertenecen a cada uno, es decir la frecuencia absoluta . Al igual que en el caso de datos cuantitativos, se calcula la frecuencia relativa y las frecuencias acumuladas. Tomando la variable número de empleados del ejemplo de las empresas, se calcula el rango de los datos, para esto podemos utilizar las funciones mínimo y máximo de Excel, cuyas sintaxis son =min(rango de datos) y =max(rango de datos) respectivamente. Información para el cálculo de la tabla de frecuencias Mínimo 3 Máximo 25 Rango 22 Número de elementos 36 Número de clases 5 Longitud de los intervalos 22/5=4,40 Tabla de frecuencias para la variable número de empleados Intervalos de Marca i fi Fi hi Hi clase de clase 1 [3 , 7.4) 5.2 10 10 0,28 0,28 2 [7.4 , 11.8) 9.6 6 16 0,17 0,44 3 [11.8 , 16.2) 14 8 24 0,22 0,67 4 [16.2 , 20.6) 18.4 5 29 0,14 0,81 5 [20.6 , 25] 22.8 7 36 0,19 1,00 Fuente: Datos simulados para 36 empresas Los gráficos más empleados para representar este tipo de variables son el histograma, el polígono de frecuencias y la ojiva. Histograma El histograma es una herramienta gráfica utilizada para representar las frecuencias. Con estos gráficos se busca examinar de una manera visual (que en ocasiones es más sencillo) si existen datos que se acumulan o concentran en una categoría en particular, la forma y variabilidad que tienen los datos.
  • 12. Histograma de frecuencias absolutas del número de empleados en las empresas 12 10 Frecuencias 8 6 4 2 0 5.2 9.6 14 18.4 22.8 Edad A continuación se muestra dos histogramas como ejemplo, el del lado izquierdo nos indica que los datos sobre la variable edad se concentran hacia edades pequeñas entre 3 y 5 años, mientras que el histograma de la derecha indica que la población que se está estudiando se concentra en niños entre 7 y 10 años. Histograma de frecuencias absolutas para Histograma de frecuencias absolutas para 40 la variable edad 40 la variable edad Frecuencia Frecuencia 30 30 20 20 10 10 0 0 3 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10 Edad en años cumplidos Edad en años cumplidos Polígono de frecuencias En este gráfico se coloca en el eje horizontal la marca de clase y en el eje vertical la frecuencia de cada intervalo de clase y se unen dichos puntos con una línea. Poligono de frecuencias relativas del número de empleados en las empresas 0,30 0,25 Frecuencia relativa 0,20 0,15 0,10 0,05 0,00 5.2 9.6 14 18.4 22.8 Edad Ojiva Éste gráfico corresponde a un polígono de frecuencias pero graficando la marca de clase Vs la frecuencia acumulada.
  • 13. Ojiva de frecuencias relativas del número de empleados en las empresas 1,20 1,00 Frecuencia relativa 0,80 0,60 0,40 0,20 0,00 5.2 9.6 14 18.4 22.8 Edad Como conclusión general se puede decir que el número de empleados de las 36 empresas que se están estudiando no muestra concentraciones significativas en alguno de los intervalos de clase. Calcule la tabla de frecuencias y los gráficos para las demás variables continuas del ejemplo de las empresas, utilizando 5, 7 y 9 clases para su construcción. ¿Cambian los resultados en cada caso? Excel cuenta con herramientas de análisis complementarias con la que es posible realizar la tabla de frecuencias y el histograma. Para acceder a ella es necesario instalarla. En el archivo Herramientas de análisis complementarias encuentra como hacerlo. La función histograma le pide el rango de datos y el rango de clases. Este último campo puede no diligenciarlo y el programa asignará el número de intervalos de clase que crea conveniente. En el caso que desee un número de clases específico, debe escribir los límites superiores de los intervalos de clase en una columna y seleccionarlos en éste campo. Esta función saca la tabla de frecuencias absolutas y brinda la opción de mostrar la frecuencia relativa acumulada en porcentaje, organizar los intervalos de acuerdo a su frecuencia y graficar el histograma y la ojiva. Lea la ayuda de Excel sobre esta función, realice ejercicios y en caso de duda, consulte a su tutor. Aunque la función histograma se utiliza para el análisis de variables cuantitativas, puede ser usada en el caso de variables cualitativas asignando claves numéricas a cada categoría, como se hizo en el caso de la variable tipo de empresa, en el ejemplo que se ha trabajado. En el campo rango de clases se coloca el listado de las claves. Al momento de presentar la información no olvide indicar el significado de cada clave.
  • 14. Existe otro tipo de gráfico, que es utilizado para explorar como se encuentra la distribución de los datos, es conocido como Diagrama de Tallos y Hojas. Averigüe como se construye y cuál es su utilidad. Entregue esto como un punto adicional de la Actividad 1. Actividad 1. Cuando se tienen dos variables cuantitativas, se puede tener interés en indagar si existe algún tipo de relación entre éstas. A través de un diagrama de dispersión se puede examinar si entre dos variables existe una relación lineal, no lineal o no existe relación. Para hacer el diagrama de dispersión de X y Y dos variables cuantitativas, se grafican en un plano cartesiano las parejas de puntos (xi, yi), donde xi es el valor que toma la variable X y yi el valor de la variable Y para la observación i. En el ejemplo de las empresas, si se quisiera examinar la relación entre las variables ventas del año y compras del año, el diagrama de dispersión estaría conformado por 36 puntos (uno por cada empresa), las coordenadas del punto que identifica la empresa 1 seria (17.380.929, 10.192.412), donde el primer valor representa las ventas y el segundo la compras, a continuación se muestra el diagrama para estas variables, en el que no se observa algún patrón en los puntos graficados, por lo que es un indicio de que no existe una relación entre las dos variables.
  • 15. Diagrama de dispersión de las ventas y compras del año 50.000.000 40.000.000 Compras 30.000.000 20.000.000 10.000.000 0 0 10.000.000 20.000.000 30.000.000 40.000.000 50.000.000 Ventas Diagrama de dispersión de la estatura y el Un diagrama de dispersión puede reflejar una relación lineal, cuando su peso de 44 niños tendencia se asemeja a la de una recta. 145 En el gráfico se da un ejemplo de una 140 relación lineal entre dos variables: Estatura (en cms) 135 estatura y peso de niños. Se observa 130 que al aumentar el peso de los niños también aumenta su estatura, esto es lo 125 que se conoce como una relación lineal 120 directa o positiva. La línea roja está 25 30 35 40 45 50 55 indicando la tendencia que presentan Peso (en Kgs) los datos, en donde es evidente que es una línea con pendiente positiva. Una relación inversa o negativa es cuando al aumentar los valores de una de las variables, los de la otra disminuyen, es decir que la línea que indica la tendencia de los datos tiene una pendiente negativa. Con el diagrama de dispersión también es posible evidenciar un Diagrama de dispersión de la temperatura y el tiempo tipo de relación no lineal, por de reproducción de un nuevo tipo de bacteria ejemplo, el gráfico de la derecha 134 muestra la relación que existe Temperatura (en ºC) 132 entre la temperatura y el tiempo que demora en reproducirse un 130 nuevo tipo de bacteria. Se 128 observa que el tiempo de reproducción va aumentando al 126 aumentar la temperatura hasta 124 132 grados, sin embargo en ese 20 25 30 35 40 45 50 55 punto al disminuir la temperatura el tiempo de reproducción Tiempo de reproducción (en minutos) aumenta, la tendencia de los datos se asemeja a una parábola cóncava hacia abajo, como se define con la línea roja. Cuando en un diagrama se observa un patrón pero los puntos tienen gran dispersión, se dice que la relación entre las dos variables es débil.
  • 16. Cuando no existe un tipo de relación entre las dos variables, no se observa ningún patrón en los puntos graficados, como el observado en el ejemplo de las empresas con las variables compras y ventas. Estos gráficos se pueden hacer en Excel, escogiendo gráfico de dispersión en la barra de herramientas de la opción Insertar en el menú principal. 7. Medidas de tendencia y variabilidad Hasta este momento se han observado métodos que permiten resumir y presentar los datos de manera que el usuario pueda visualizar las características principales de los datos. Ahora se presentaran métodos numéricos para complementar los análisis. A un conjunto de datos se le examinan algunas características como su tendencia central, la variación con respecto a dicho centro y la forma en que se agrupan. Medidas de localización o tendencia Las medidas de tendencia sirven para identificar alrededor de que valor se agrupan los valores de la muestra o población. Las tres medidas más utilizadas son la media o promedio, la moda y la mediana. Media: se obtiene sumando todos los valores de la variable y dividiendo por el número total de elementos, es decir si representa el valor del dato i, para = 1, 2, … , , entonces la media se define como ∑ ̅= Esta medida se deja influenciar de datos atípicos, por lo que no es aconsejable usarla cuando en al hacer el histograma nos damos cuenta que los datos se encuentran concentrados hacia algunos de los extremos, es decir cuando son asimétricas. Dato atipico u outlier: hace referencia a datos extraños dentro del conjunto de datos, debido a que no sigue la tendencia del resto de observaciones. Se pueden presentar por errores en la medición ¿Qué es un promedio ponderado? ¿Cómo se calcula? Ejemplo 2. Tomando el siguiente conjunto de 42 datos que corresponde a la edad que tenían los estudiantes que ingresaron a la UMB a una carrera en el primer semestre de 2009, cuando se graduaron. 18 16 17 15 15 16 17 17 18 15 17 15 18 17 16 17 15 18 15 16 17 17 18 18 17 15 16 17 18 18 15 17 15 16 15 16 17 17 17 17 18 18 La sintaxis de la función promedio en Excel es =promedio(rango de datos). El valor promedio de estos datos es ̅ = 16.6, es decir la edad promedio de los estudiantes al graduarse era de 16.6 años.
  • 17. Dependiendo de la variable que se esté midiendo se hace necesario redondear la cifra. Por ejemplo si los datos correspondieran al número de varones nacidos en un periodo de tiempo, no tiene mucho sentido decir que en promedio nacieron 16.6 niños. Mediana: Para su cálculo es necesario ordenar las observaciones de menor a mayor y corresponde al valor que divide los datos. La denotaremos por . Si el número de elementos es impar la mediana corresponde al valor de la observación de la mitad. Para el siguiente conjunto de 7 datos, la mediana es = 15. 13 13 14 15 15 17 23 En el caso en que el número de observaciones es par, se promedia los valores de las observaciones de la mitad. Para el siguiente conjunto de 8 datos la mediana es el promedio de los valores 15 y 16, es decir = 15.5 13 13 14 15 16 17 23 24 A diferencia de la media, no se deja influenciar de valores atípicos o extremos debido a que su cálculo no depende del valor que tomen las observaciones sino del orden de éstas. La sintaxis de ésta función en Excel es =mediana(rango de datos). Para el ejemplo 2 el valor de la mediana es 17. Para observar cómo se deja influenciar la media por valores atípicos, tome en el ejemplo 2, la primera observación y asuma que la persona encargada de realizar la captura de los datos cometió un error y en lugar de 18 digitó 58. Al calcular la media y la mediana se obtiene ̅ = 17.6 y = 17. Es decir que el valor de la media se aumentó debido a la presencia de un dato extremo, mientras que la mediana no cambio. Por esta razón es necesario examinar la distribución de los datos para determinar la medida de localización adecuada a ser usada. Moda: Es el valor de los datos que tiene mayor frecuencia. Puede que no sea un valor único, cuando se presentan dos valores se dice que la distribución de los datos es bimodal y cuando tiene más de dos valores se dice multimodal. La sintaxis en Excel para calcularla es =moda(rango de datos). En el ejemplo 2, la moda coincide con la mediana, es decir 17. Los valores de las tres medidas de tendencia central se encuentran alrededor del 17, es decir que es un indicio de que la distribución de esos valores es simétrica alrededor del valor 17. Percentiles: Los percentiles son medidas de localización, pero no central. El p-ésimo percentil es un valor tal que por lo menos un p por ciento de las observaciones son iguales o menores a ese valor. El percentil 50 equivale a la mediana. Para encontrar el p-éimo percentil se ordenan las observaciones de menor a mayor, se calcula el índice = , donde n es el total de elementos y p el percentil de interés. Si i no es entero entones el entero inmediatamente mayor que i indica la posición del p-ésimo percentil. Cuando i
  • 18. sea entero se toma como el p-ésimo percentil el promedio de los datos ubicados en las posiciones i e (i +1). Para calcular percentiles en Excel la sintaxis es =percentil(rango de datos; k) donde k es un número entre 0 y 1 que indica el percentil que se quiere calcular. Cuartiles Son los números que dividen los datos en cuatro partes porcentualmente iguales. Hay tres cuartiles = 25 = 50 = 75 Deciles Son los números que dividen los datos en 10 partes porcentualmente iguales. Se denotan como , i=1, 2, …, 10. Con los datos de las empresas calcule para cada variable éstas medidas de localización y de un significado o interpretación al valor obtenido. Medidas de variabilidad Las medidas de variablidad indican la oscilación o fluctuación de los valores de la variable. Estas medidas complementan la información que arroja las medidas de localización. Ejemplo 3 18 16 17 13 14 16 17 14 18 15 17 13 18 19 16 17 15 20 13 16 20 17 19 18 17 15 16 17 18 20 15 17 14 16 15 16 17 17 17 17 18 19 Suponga que estos datos corresponden a las edades que tenían cuando se graduaron, los 42 estudiantes de otra carrera. Al comparar éstos datos con los mostrados en el ejemplo 2, se observa que en ambos casos el valor promedio de graduación fue 16.6 años, sin embargo en el siguiente gráfico se evidencia que el grupo 2 que tiene mayor rango de edades, es decir mayor variabilidad. Comparación de edad de grauación (en años cumplidos) de dos grupos 16 14 12 Frecuencias 10 8 Grupo 1 6 Grupo 2 4 2 0 13 14 15 16 17 18 19 20 Edad
  • 19. A continuación se mencionarán algunas de las medidas de variabilidad más usadas. Rango Se define como = á − í Es la medida más sencilla de calcular y sus unidades son las mismas de la variable de estudio. Debido a que solamente involucra en su cálculo dos valores de la variables se deja influenciar por valores extremos. Rara vez se utiliza como única medida de variabilidad. Rango interquartil Elimina la influencia de datos extremos. Se define como = − Varianza Se basa en la diferencia que hay entre cada observación y el valor promedio de los datos, se define como ∑ ( − ̅) = −1 Esta medida es siempre positiva. Sus unidades son las del cuadrado de la variable. La sintaxis en Excel para calcular la varianza es =var(rango de datos) Desviación estándar Corresponde a la raíz cuadrada de la Varianza y tiene las mismas unidades que las observaciones. Su sintaxis en Excel es =desvest(rango de datos) Si en el análisis de las medidas de tendencia se encontró que la media no es una buena medida a ser usada, tampoco es conveniente usar la desviación debido a que su cálculo depende del promedio de los datos. Dentro de las funciones de análisis de datos en Excel, se encuentra una llamada Estadística descriptiva, al chequear la opción Resumen de estadísticas, arroja el total de observaciones leídas, la suma total, el mínimo, el máximo, el rango, la varianza, la desviación, la moda, la mediana y la media. También da resultados para el error típico, la curtosis y el coeficiente de asimetría. Indague el uso que se da a estas tres últimas medidas. Con los datos de las empresas calcule para cada variable éstas medidas de variabilidad y de una conclusión general sobre los resultados que encontró en estos datos. ¿En que cambia el análisis que hizo al iniciar este modulo y el que acaba de hacer? Descargue el archivo Datos parcial y guárdelo en su computador. Para contestar cada uno de los puntos del parcial, es necesario que usted realice diferentes operaciones, por cada punto del parcial incluya una hoja nueva y coloque el nombre de acuerdo al punto. Después de contestar las preguntas, envíe a su tutor el archivo en el que trabajó.