TEMA 2 ESTADÍSTICA DESCRIPTIVA PARA UNA VARIABLE
TÉCNICAS ESTADÍSTICAS Las técnicas de estadística descriptiva que pueden aplicarse sobre las tablas de datos  dependen de la naturaleza  de las variables implicadas: Técnicas para  variables cualitativas Técnicas para  variables cuantitativas
VARIABLES CUALITATIVAS Lo único que podemos hacer con las variables cualitativas es “contar cuántas veces aparece cada una de sus modalidades en un conjunto de individuos”. Sólo cabe hacer RECUENTOS y CÁLCULO DE PORCENTAJES.
FRECUENCIAS ABSOLUTAS Y RELATIVAS Frecuencias absolutas : recuento del número de individuos que pertenecen a cada una de las modalidades de la variable. Frecuencias relativas : cálculo del porcentaje de individuos que pertenecen a cada una de las modalidades de la variable.
FRECUENCIAS ACUMULADAS Sólo tienen sentido en el caso de variables de tipo  ordinal . Pueden ser absolutas o relativas. Representan el número (o porcentaje) de pertenecientes “a cada modalidad de la variable ordinal o a las anteriores”. Ejemplo :  Personas de clase media o menos, es decir de clase baja o clase media .
REPRESENTACIONES GRÁFICAS La fundamental es el  gráfico de barras  (no confundir con un histograma). Caben otras representaciones como  pictogramas ,  gráficos de sectores , etcétera.
VARIABLES CUANTITATIVAS Medidas de posición. Medidas de dispersión Medidas de simetría Representaciones gráficas
LAS MEDIDAS RESUMEN Nos dan una idea de cómo son los valores de la variable que estamos estudiando. Veremos tres tipos: Medidas de  posición  o de tendencia central Medidas de  dispersión Medidas de  asimetría
MEDIDAS DE POSICIÓN Nos dan una idea acerca de los  valores centrales  de la variable, aquellos alrededor de los cuales se acumulan los demás. Hay tres medidas de posición fundamentales: Media aritmética Mediana Moda
MEDIA ARITMÉTICA Es la medida de posición más “popular” Es muy sensible a la existencia de datos extremos (menos  robusta  que la mediana).
MEDIANA Es aquel valor de la variable que es  mayor que la mitad  de las observaciones y  menor que la otra mitad . En caso de que el número de observaciones sea par, es la media aritmética de los dos valores centrales. Es una medida muy  robusta , esto es, poco sensible a la existencia de valores extremos. Es un caso particular del concepto de PERCENTIL Mediana vs. media
MODA Es el valor de la variable que  más se repite Se habla de variables  unimodales  y  multimodales Es la menos empleada de las medidas de posición
MEDIDAS DE DISPERSIÓN Nos dan una idea acerca de la  heterogeneidad  de la variable. Estudiamos tres medidas de dispersión: Varianza Desviación estándar o típica Coeficiente de variación
VARIANZA Es la medida de dispersión más “popular” junto con la desviación estándar. Siempre toma  valores no negativos . Cuanto mayor sea su valor mayor es la heterogeneidad de la variable. MENOS VARIANZA MÁS VARIANZA
DESVIACIÓN ESTÁNDAR La varianza está en unidades “al cuadrado”. Por eso se calcula su raíz cuadrada, la desviación estándar (o desviación típica).
COEFICIENTE DE VARIACIÓN Ni la varianza ni la desviación estándar están  acotadas . Es necesario contar con un coeficiente relativo: el coeficiente de variación. Ejemplo :  elefantes y gatos : Un CV superior a 1 indica heterogeneidad
MEDIDAS DE ASIMETRÍA Asimetría positiva : cuando existen unos pocos valores extremadamente elevados y la mayoría son bajos. El índice de asimetría es positivo La media es mayor que la mediana Asimetría negativa : cuando existen unos pocos valores extremadamente bajos y la mayoría son altos. El índice de asimetría es negativo La media es menor que la mediana Variable simétrica : Índice de asimetría cero La media coincide con la mediana
MEDIDAS DE ASIMETRÍA ASIMETRÍA POSITIVA ASIMETRÍA NEGATIVA SIMETRÍA
REPRESENTACIONES GRÁFICAS La representación gráfica básica es el  histograma “ Agrupamos” los valores en clases, intervalos (de la misma longitud) de la variable inicial. Sobre cada intervalo dibujamos un rectángulo de altura proporcional a la frecuencia absoluta o relativa.
FUNCIÓN DE DENSIDAD Si el histograma de la variable representa frecuencias relativas, el área que recoge es 1. En el límite, cuando el número de clases tiende a infinito, las irregularidades del histograma se suavizan y llegamos al concepto de  función de densidad .
FUNCIÓN DE DENSIDAD (II) Para ser función de densidad, una función R->R debe cumplir dos propiedades: Tomar siempre  valores positivos . El  área  que encierra bajo ella vale  1 . Un ejemplo muy común de función de densidad es la distribución  NORMAL .
LA DISTRIBUCIÓN NORMAL Es unimodal, y la  moda  y la  mediana  coinciden con la media. Es  simétrica  alrededor de la media. Nunca “toca” el eje de abscisas (es asintótica) El  área  bajo la función es 1.
LA DISTRIBUCIÓN NORMAL (II) Tiene  dos parámetros  que la determinan inequívocamente: Media   Varianza Por tanto, existen infinitas distribuciones normales. La tipificación nos permite emplear una única tabla.
TIPIFICACIÓN Es el proceso de convertir una variable normal cualquiera en una  normal estándar La puntuación Z mide la lejanía de un individuo respecto a la media y la compara con la lejanía respecto a la media del conjunto de todos los individuos. A partir de la tipificación (y consultando las tablas adecuadas) podemos calcular probabilidades.

Introducción a la Estadística. Tema2

  • 1.
    TEMA 2 ESTADÍSTICADESCRIPTIVA PARA UNA VARIABLE
  • 2.
    TÉCNICAS ESTADÍSTICAS Lastécnicas de estadística descriptiva que pueden aplicarse sobre las tablas de datos dependen de la naturaleza de las variables implicadas: Técnicas para variables cualitativas Técnicas para variables cuantitativas
  • 3.
    VARIABLES CUALITATIVAS Loúnico que podemos hacer con las variables cualitativas es “contar cuántas veces aparece cada una de sus modalidades en un conjunto de individuos”. Sólo cabe hacer RECUENTOS y CÁLCULO DE PORCENTAJES.
  • 4.
    FRECUENCIAS ABSOLUTAS YRELATIVAS Frecuencias absolutas : recuento del número de individuos que pertenecen a cada una de las modalidades de la variable. Frecuencias relativas : cálculo del porcentaje de individuos que pertenecen a cada una de las modalidades de la variable.
  • 5.
    FRECUENCIAS ACUMULADAS Sólotienen sentido en el caso de variables de tipo ordinal . Pueden ser absolutas o relativas. Representan el número (o porcentaje) de pertenecientes “a cada modalidad de la variable ordinal o a las anteriores”. Ejemplo : Personas de clase media o menos, es decir de clase baja o clase media .
  • 6.
    REPRESENTACIONES GRÁFICAS Lafundamental es el gráfico de barras (no confundir con un histograma). Caben otras representaciones como pictogramas , gráficos de sectores , etcétera.
  • 7.
    VARIABLES CUANTITATIVAS Medidasde posición. Medidas de dispersión Medidas de simetría Representaciones gráficas
  • 8.
    LAS MEDIDAS RESUMENNos dan una idea de cómo son los valores de la variable que estamos estudiando. Veremos tres tipos: Medidas de posición o de tendencia central Medidas de dispersión Medidas de asimetría
  • 9.
    MEDIDAS DE POSICIÓNNos dan una idea acerca de los valores centrales de la variable, aquellos alrededor de los cuales se acumulan los demás. Hay tres medidas de posición fundamentales: Media aritmética Mediana Moda
  • 10.
    MEDIA ARITMÉTICA Esla medida de posición más “popular” Es muy sensible a la existencia de datos extremos (menos robusta que la mediana).
  • 11.
    MEDIANA Es aquelvalor de la variable que es mayor que la mitad de las observaciones y menor que la otra mitad . En caso de que el número de observaciones sea par, es la media aritmética de los dos valores centrales. Es una medida muy robusta , esto es, poco sensible a la existencia de valores extremos. Es un caso particular del concepto de PERCENTIL Mediana vs. media
  • 12.
    MODA Es elvalor de la variable que más se repite Se habla de variables unimodales y multimodales Es la menos empleada de las medidas de posición
  • 13.
    MEDIDAS DE DISPERSIÓNNos dan una idea acerca de la heterogeneidad de la variable. Estudiamos tres medidas de dispersión: Varianza Desviación estándar o típica Coeficiente de variación
  • 14.
    VARIANZA Es lamedida de dispersión más “popular” junto con la desviación estándar. Siempre toma valores no negativos . Cuanto mayor sea su valor mayor es la heterogeneidad de la variable. MENOS VARIANZA MÁS VARIANZA
  • 15.
    DESVIACIÓN ESTÁNDAR Lavarianza está en unidades “al cuadrado”. Por eso se calcula su raíz cuadrada, la desviación estándar (o desviación típica).
  • 16.
    COEFICIENTE DE VARIACIÓNNi la varianza ni la desviación estándar están acotadas . Es necesario contar con un coeficiente relativo: el coeficiente de variación. Ejemplo : elefantes y gatos : Un CV superior a 1 indica heterogeneidad
  • 17.
    MEDIDAS DE ASIMETRÍAAsimetría positiva : cuando existen unos pocos valores extremadamente elevados y la mayoría son bajos. El índice de asimetría es positivo La media es mayor que la mediana Asimetría negativa : cuando existen unos pocos valores extremadamente bajos y la mayoría son altos. El índice de asimetría es negativo La media es menor que la mediana Variable simétrica : Índice de asimetría cero La media coincide con la mediana
  • 18.
    MEDIDAS DE ASIMETRÍAASIMETRÍA POSITIVA ASIMETRÍA NEGATIVA SIMETRÍA
  • 19.
    REPRESENTACIONES GRÁFICAS Larepresentación gráfica básica es el histograma “ Agrupamos” los valores en clases, intervalos (de la misma longitud) de la variable inicial. Sobre cada intervalo dibujamos un rectángulo de altura proporcional a la frecuencia absoluta o relativa.
  • 20.
    FUNCIÓN DE DENSIDADSi el histograma de la variable representa frecuencias relativas, el área que recoge es 1. En el límite, cuando el número de clases tiende a infinito, las irregularidades del histograma se suavizan y llegamos al concepto de función de densidad .
  • 21.
    FUNCIÓN DE DENSIDAD(II) Para ser función de densidad, una función R->R debe cumplir dos propiedades: Tomar siempre valores positivos . El área que encierra bajo ella vale 1 . Un ejemplo muy común de función de densidad es la distribución NORMAL .
  • 22.
    LA DISTRIBUCIÓN NORMALEs unimodal, y la moda y la mediana coinciden con la media. Es simétrica alrededor de la media. Nunca “toca” el eje de abscisas (es asintótica) El área bajo la función es 1.
  • 23.
    LA DISTRIBUCIÓN NORMAL(II) Tiene dos parámetros que la determinan inequívocamente: Media Varianza Por tanto, existen infinitas distribuciones normales. La tipificación nos permite emplear una única tabla.
  • 24.
    TIPIFICACIÓN Es elproceso de convertir una variable normal cualquiera en una normal estándar La puntuación Z mide la lejanía de un individuo respecto a la media y la compara con la lejanía respecto a la media del conjunto de todos los individuos. A partir de la tipificación (y consultando las tablas adecuadas) podemos calcular probabilidades.