Estadistica desciptiva 1

6.131 visualizaciones

Publicado el

Estadistica y Metodos Cuantitativos ICAP - Estadistica Descriptiva

Publicado en: Educación
0 comentarios
3 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
6.131
En SlideShare
0
De insertados
0
Número de insertados
15
Acciones
Compartido
0
Descargas
71
Comentarios
0
Recomendaciones
3
Insertados 0
No insertados

No hay notas en la diapositiva.
  • Estadísitica Descriptiva - ICAP - Prof. Roberto Castro Z.
  • Estadistica desciptiva 1

    1. 1. Introducción <ul><li>Definición de Estadística </li></ul><ul><li>- Estadística Descriptiva </li></ul><ul><li>- Estadística Inferencial </li></ul><ul><li>- Conceptos básicos: </li></ul><ul><ul><li>Unidad estadística </li></ul></ul><ul><ul><li>Variable </li></ul></ul><ul><ul><li>Población </li></ul></ul><ul><ul><li>Muestra </li></ul></ul><ul><ul><li>Tipos de Variables </li></ul></ul>
    2. 2. Definición Estadística : es todo lo que se relacione con la recolección, procesamiento, análisis e interpretación de datos numéricos. La estadística se clasifica en dos categorías: descriptiva y inferencial Estadística Descriptiva : es la presentación de datos en cuadros y gráficas, incluye también la síntesis de ellos mediante descripciones numéricas Estadística Inferencial : son las técnicas que tratan de generalizaciones de una población de datos basadas en muestras de datos de ésta
    3. 3. Estadística Descriptiva Promedio: 2.54 Moda: 3.45 Mediana: 3.05 Desviación Estándar: 1.2 Cuadros, gráficos, descripciones numéricas
    4. 4. Población Muestra Generalización : con los datos de la muestra se hacen conclusiones sobre toda la población Cálculos y descripciones sobre la muestra ¿Por qué es necesaria la Inferencia? Problema : en la población existe algún valor que NO podemos calcular (desconocido) que nos interesa, por ejemplo: el peso promedio de los peces de un lago. Técnicas probabilísticas Estadística Inferencial Valor desconocido en la población
    5. 5. Unidad Estadística : es el objeto o entidad sobre el cual se desea medir alguna característica o atributo. Debe definirse claramente en tiempo y en espacio Variable : es el atributo o característica a medir sobre la unidad estadística de interés. Se llama variable porque para cada unidad estadística el valor de la medición puede variar Conceptos Básicos Población : es el conjunto de todas las mediciones del atributo de interés de la unidad estadística en estudio. A un valor que se calcula con todos los datos de la población se le llama Parámetro . Muestra : es un subconjunto de la población, a estas mediciones se les llama observaciones. A un valor que se calcula con datos de la muestra se le llama Estimador .
    6. 6. Introducción Lecturas: Mason & Lind: pág 1 a 11
    7. 7. Variables Variable Cualitativa : solamente se le asignan valores de atributos. Si-No, Bueno-Malo-Regular, Correcto-Incorrecto, Hombre-Mujer, etc. Variable Cuantitativa : se le pueden asignar valores numéricos. Tamaño, contenido, resultado de un test, etc. Variable : es una característica (magnitud, vector o número) que puede ser medida (u observada), adoptando diferentes valores en cada uno de los casos de un estudio (para cada unidad estadística) Tipos de Variables
    8. 8. Variable Ordinal : aquella variable que mide categorías o modalidades ordenadas. Nivel de estudios, grado de aceptación , etc . Variable Nominal : a quella variable que mide categorías o modalidades no ordenadas. Sexo, Provincia de residencia, etc. Variable Binaria : aquella variable que solamente puede asumir dos categorías. Conoce un producto , Presencia de un enfermedad, etc. Variables Cualitativas
    9. 9. Variable Discreta : aquella variable que puede asumir solamente un número finito de valores o un número infinito contable de valores. Número de hijos, edad en años cumplidos, etc. Variable Continua : aquella variable que puede asumir solamente un número infinito no contable de valores. Temperatura, Edad real, Contenido de un recipiente, etc. Variables Cuantitativas Entre dos números enteros no existe ningún otro número entero. Entre dos números reales existen infinitos números reales
    10. 10. Estadística Descriptiva Componentes de un Cuadro
    11. 11. Número del Cuadro : Se usa cuando dentro del documento cuando existen dos o más cuadros Título : Es una descripción de la naturaleza, clasificación y referencia en tiempo de los datos presentados. Debe responder a las preguntas: qué son los datos, cuándo y dónde se recolectaron, cómo y bajo qué criterios se clasificaron Nota Introductoria : Es una frase (entre paréntesis o guiones) se utiliza para brindar información sobre el cuadro: Indicar unidades con que se trabaja; darle más claridad al cuadro; prevenir al usuario de las limitaciones de la información; establecer la base sobre la que se realizan las comparaciones Encabezados : Son los títulos del resto de las columnas. Describen en forma general las clasificaciones de cada columna Cuerpo : Son las cifras o datos que se quieren presentar Columna Matriz : Contiene la clasificación principal que se hizo de la información Componentes de un Cuadro
    12. 12. <ul><li>Convenciones para el título de un Cuadro </li></ul><ul><li>Centrado </li></ul><ul><li>Se usa la palabra SEGÚN para la clasificación primaria (la de la columna matriz) </li></ul><ul><li>Se usa la palabra POR para la clasificación secundaria (la de los encabezados) </li></ul>Nota al Pie : Una frase que aclara alguna cifra o clasificación, su función es más específica que la nota introductoria. Por lo general se llama la atención sobre esta nota con números o símbolos: (*) (1) (a) Fuente : Es una cita bibliográfica exacta del origen de los datos. Esta no se incluye si los datos fueron obtenidos por la persona u organización que los publica Componentes de un Cuadro
    13. 13. Componentes de un Gráfico Estadística Descriptiva
    14. 14. Gráficos de barras Son gráficos con barras rectangulares de igual ancho y de longitud determinada por la cantidad que representa El espacio de separación entre las barras debe ser constante. Pueden ser horizontales o verticales y se pueden utilizar valores absolutos o relativos (%). Los ejes deben iniciar en cero y la escala deber ser continua (sin interrupciones). Existen tres tipos: Barras simples, Barras compuestas, Barras comparativas Barras Simples Barras Comparativas Barras Compuestas
    15. 15. Gráficos de barras Un gráfico debe ser lo suficientemente claro de forma que se explique por el mismo. Se compone de: Número : para identificar el gráfico se utiliza siempre que haya más de uno. Título : debe indicar el qué, dónde, cómo, y cuándo de la información (se siguen las mismas reglas de los títulos de los cuadros) Fuente : indica el origen de la información utilizada, puede servir para informar al usuario el lugar donde puede obtener mayor información al respecto. Leyenda : cuando en un gráfico se incluyen varias series de datos, es necesario identificar cada una de ellas mediante símbolos o leyendas. Escala : Identifica la unidad de medida correspondiente a los valores en ambos ejes. Nota introductoria y nota al pie : se utilizan si son necesarias y en tal caso, se sigue las mismas reglas que en los cuadros. Título de los ejes : se utiliza para identificar cada uno de los ejes.
    16. 16. Barras Compuestas : Es un gráfico con varias barras divididas para mostrar sus componentes. Se pueden usar cifras absolutas o relativas. Es útil para comparar los totales de las magnitudes de las categorías y además para comparar los totales de subcategorías ( o componentes dentro de cada categoría), pero no permite la comparación de las magnitudes de las subcategorías. Barras Simples : Es útil para comparar las magnitudes de las categorías. Si la variable es cualitativa o geográfica las barras se colocan horizontalmente. Las barras se colocan según su longitud de mayor a menor (excepto cuando hay una categoría especial de “otros” o “varios”, que se incluye al final). Barras Comparativas : Es un grafico con una serie de barras superpuestas que representan los componentes de un fenómeno con el fin de comparar sus magnitudes simultáneamente. Es útil para apreciar las magnitudes de las subcategorías dentro de un mismo atributo, además permite comparar las magnitudes de las subcategorías de las distintas categorías. Tiene la desventaja de que no permite resaltar las comparaciones entre los totales de las categorías. Gráficos de barras
    17. 17. Gráfico circular : Es un gráfico en que cada componente esta representado por una parte de un círculo. Se utiliza para destacar la importancia relativa de las categorías dentro de un total Gráfico lineal : Es una representación sobre un plano cartesiano, de los valores de dos variables por medio de puntos unidos con líneas. Se utiliza principalmente para representar series cronológicas. Permite representar varias series de datos en un mismo gráfico. Gráfico Circular y Gráfico Lineal Aritmético
    18. 18. Gráficos: Ejemplos
    19. 19. Gráficos: Ejemplos
    20. 20. Distribución de Frecuencias <ul><li>Definición </li></ul><ul><li>Variable Cualitativa Nominal </li></ul><ul><li>Variable Cualitativa Ordinal </li></ul><ul><li>Variable Cuantitativa Discreta </li></ul><ul><li>Variable Cuantitativa Continua </li></ul><ul><li>Histograma </li></ul><ul><li>Medidas de sesgo y curtósis </li></ul><ul><li>Diagrama de tallo y hojas </li></ul>
    21. 21. Distribución de Frecuencias La distribución de frecuencias es el primer paso para analizar un conjunto numeroso de datos. Permite, de una forma conveniente y simple, resumirlos, ordenarlos y clasificarlos. Junto a la distribución de frecuencias están los histogramas, polígonos de frecuencias y diagramas de tallo y hojas que permiten visualizar las características básicas de un conjunto de datos. La distribución de frecuencias es un conteo de la cantidad de veces que se repite un valor o la cantidad de veces que se repiten algunos valores en una serie de categorías. Por ejemplo al preguntarle a un grupo de mujeres sobre el número de hijos vivos, podemos contar cuántas mujeres dijeron tener 1; cuántas 2, etc. También podríamos entrevistar a un grupo de personas sobre sus ingresos y podríamos contar cuántos tienen ingresos entre 0 y  25 mil por semana; cuántos tienen ingresos de más de  25 mil y hasta  50 mil; y cuántos tienen ingresos de más de  50 mil por semana. Las distribuciones de frecuencias varían en su forma y en la técnica para elaborarlas dependiendo del tipo de variable que se analice. Distribución de Frecuencias
    22. 22. Distribución de Frecuencias Variable cualitativa nominal Intención de voto de un grupo de 32 delegados para la convención del PDN de octubre de 1997: Tabla de Frecuencias
    23. 23. Distribución de Frecuencias Variable cualitativa ordinal F 1 = f 1 F 2 = F 1 + f 2 ... F k = F k-1 + f k “ Menos de” F  F k = f k F k-1 = F k + f k-1 ... F 1 = F 2 + f 1 “ Más de” F  Algunas Interpretaciones : 9 personas tienen educación secundaria, 44 personas tienen educación técnica o inferior, el 42.9% de las personas tienen educación técnica o superior Tabla de Frecuencias Nivel de Instrucción de los Empleados de la Empresa XYZ (Octubre 1997)
    24. 24. Distribución de Frecuencias Variable cuantitativa discreta Días Trabajadores
    25. 25. Distribución de Frecuencias Variable cuantitativa discreta Algunas Interpretaciones : en 8 días (de los 50) faltaron a la fábrica entre 15 y 19 trabajadores, en 19 días faltaron a la fábrica 9 o menos trabajadores, el 22% de los días faltaron a la fábrica 15 o más trabajadores Tabla de Frecuencias Trabajadores que faltan a una fábrica en 50 días de trabajo Días Trabajadores
    26. 26. Distribución de Frecuencias Variable cuantitativa continua 80 días Toneladas de Oxido de Azufre Días
    27. 27. Distribución de Frecuencias Toneladas de Oxido de Azufre Días Algunas Interpretaciones : en 24 días se presentaron emisiones de óxido de azufre entre 1.3 y 20.9 tóneladas, el 95% de los días se presentaron emision de óxido de azufre inferiores o iguales a 28.3 tóneladas, el 80% de los días se presentaron emisiones de +oxido de azufre superiores o iguales a 13.6 tóneladas Variable cuantitativa continua
    28. 28. Distribución de Frecuencias Histograma Es un gráfico compuesto por una serie de rectángulos, de ancho proporcional al ancho de la clase y de altura proporcional al total de elementos de cada clase. En consecuencia el área contenida dentro del rectángulo (con respecto al área total) corresponde al porcentaje de la frecuencia relativa de la clase.
    29. 29. Distribución de Frecuencias: Sesgo La distribución de una variable (y su representación mediante histogramas o curvas) puede ser simétrica o asimétrica (sesgada) Es sesgo mide el grado de asimetría de una distribución con respecto a su media. La asimetría positiva indica una distribución que se extiende hacia valores más positivos. La asimetría negativa indica una distribución que se extiende hacia valores más negativos. Coeficiente de Asimetría (Sesgo) =
    30. 30. Distribución de Frecuencias: Curtosis La distribución de una variable ( y su representación mediante histogramas o curvas ) puede clasificarse de acuerdo con su altura y forma como mesocúrtica, leptocúrtica y platicúrtica. La curtosis caracteriza la elevación o el achatamiento relativos de una distribución, comparada con la distribución normal. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana. Curtosis =
    31. 31. Distribución de Frecuencias: Sesgo y Curtosis =COEFICIENTE.ASIMETRIA(B2:B81) Cálculo en Excel =CURTOSIS(B2:B81) Rango de datos Rango de datos
    32. 32. Distribución de Frecuencias: Sesgo y Curtosis Cálculo en Minitab
    33. 33. Distribución de Frecuencias: Sesgo Ejemplos
    34. 34. Distribución de Frecuencias Diagrama de tallos y hojas <ul><li>El diagrama consta de dos secciones: </li></ul><ul><li>El tallo aparece en la parte izquierda quitando el último dígito. Si los datos van de 1500 a 2500, entonces los tallos serán 150*, 151*, 152*, etc. </li></ul><ul><li>Al lado derecho de cada uno, se colocan las hojas que serán el último dígito para los datos que comienzan con el tallo correspondiente. Por ejemplo, a la derecha del tallo 23 se colocan las hojas 011235 que corresponden a los valores 230, 231, 231, 232, 233, 235 </li></ul>Ejemplo: 15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92 Tallos: 1, 2, 3, 4, 5, 6, 7, 8, 9
    35. 35. Distribución de Frecuencias Diagrama de tallos y hojas. Elaborado por MInitab
    36. 36. Diagrama de tallos y hojas: Ejemplos
    37. 37. Medidas de Posición y Variabilidad <ul><li>Medidas de Posición </li></ul><ul><li>Media Aritmética </li></ul><ul><li>Mediana </li></ul><ul><li>Moda </li></ul><ul><li>Medidas de Variabilidad </li></ul><ul><li>Uso de las medidas de variabilidad </li></ul><ul><li>Intervalo (Rango) </li></ul><ul><li>Desviación absoluta promedio </li></ul><ul><li>Desviación Estándar y Variancia </li></ul><ul><li>Coeficiente de variación </li></ul><ul><li>Cuartiles y percentiles </li></ul>
    38. 38. Medidas de Posición Para una Población Para una Muestra En donde: N: el tamaño de la población n: el tamaño de la muestra x: variable Ventajas : Su concepto es conocido y es intuitivamente claro, es una medida calculable, todo conjunto de datos posee una y sólo una media, es muy útil para realizar procedimientos estadísticos Desventajas : Está afectada por los valores extremos que no sean representativos de ellos Su cálculo puede ser tedioso cuando hay muchos datos Media Artimética (Media o Promedio)
    39. 39. Medidas de Posición Media Artimética (Media o Promedio) =CONTAR(B2:B9) =SUMA(B2:B9) =PROMEDIO(B2:B9) Rango: B2:B9 Cálculo en Excel Ejemplo: media artimética con y sin un valor extremo
    40. 40. Medidas de Posición Es un valor del conjunto de datos que mide el elemento central: La mitad de los elementos se encuentran por arriba y la otra mitad por debajo de él. Si n es impar Si n es par Mediana Ventajas : No se afecta por los valores extremos, es fácil de entender, es una medida calculable, se puede obtener aún para variables ordinales Desventajas : Los procedimientos estadísticos para tratarla son muy complejos, los datos deben estar ordenados
    41. 41. Medidas de Posición =MEDIANA(B2:B10) n = 9 es impar (n+1)/2 = 10/2=5 Me = es el elemento 5: x 5 = 18 Ejemplo: Mediana con un valor extremo Cálculo en Excel n = 8 es par n/2 = 8/2 = 4 n/2 + 1 = 4+1= 5 Me = es el promedio del 5 y 6 elementos: (x4 + x5)/2=(16+18)/2 = 34/2= 17 Mediana
    42. 42. Medidas de Posición Moda Roberto Castro Z. Es el valor que se repite más dentro de un conjunto de datos. Ventajas : no se afecta por los valores extremos, es fácil de entender, se puede obtener aún para variables ordinales y nominales. Desventajas : algunas veces no existe el valor modal, otras veces la moda son todos los datos, cuando hay varias modas es muy difíciles interpretarlas y compararlas Una sola moda Cálculo en Excel Varias Modas Sin moda =MODA(B2:B9) Error Moda Menor
    43. 43. Medidas de Posición Media y Mediana en Minitab Roberto Castro Z.
    44. 44. Medidas de Posición <ul><li>Relación entre las medidas de posición </li></ul><ul><li>La media, la mediana y la moda son idénticas en una distribución simétrica </li></ul><ul><li>La mediana puede ser la idónea en distribuciones sesgadas, ya que siempre se encuentra entre la media y la moda, y no se afecta tanto por valores extremos y por la ocurrencia de un solo valor. </li></ul><ul><li>Sin embargo no se cuenta con un criterio único para aplicar alguna de las tres medidas </li></ul>Sesgo a la derecha Sesgo a la izquierda Simétrica
    45. 45. Medidas de Variabilidad <ul><li>Las medidas de variabilidad suministran información que permite juzgar la confiabilidad de la medida de posición utilizada </li></ul><ul><li>Permite reconocer la variabilidad o dispersión de los datos </li></ul>Uso de las Medidas de Variabilidad Tres curvas con el mismo promedio pero con variabilidades deferentes
    46. 46. Medidas de Variabilidad Rango (Recorrido, amplitud, intervalo) <ul><li>Es la diferencia entre valor máximo M y el valor mínimo m : Rango = R = M - m </li></ul><ul><li>Su utilidad es escasa. </li></ul><ul><li>Solo toma en cuenta el valor mayor y el menor sin tomar en cuenta el resto de las observaciones </li></ul><ul><li>Esta muy afectado por los valores extremos </li></ul>=MAX(B2:B8) =B9-B10 =MIN(B2:B8)
    47. 47. Medidas de Variabilidad Para la Muestra Para la Población Desviación Absoluta Promedio Desviación Absoluta: 24/7 = 3.4 La Desviación absoluta es el promedio de las distancias de todos los valores con respecto al promedio (media aritmética) Es una mejor medida que la amplitud pues toma en cuenta todas las observaciones. Indica a que distancia de la media se encuentra en promedio cada observación . Es muy limitado el desarrollo teórico estadístico a partir de esta medida. La diferencia entre dos valores en valor absoluto es la “distancia” entre esos dos valores: el 2 se aleja del 8 en 6 unidades En donde: xi es la observación x es el promedio de la muestra µ es el promedio de la población n es el tamaño de la muestra N es el tamaño de la población
    48. 48. Medidas de Variabilidad Para la Muestra Para la Población Desviación Estándar <ul><li>Incluye todos los valores en el cálculo. </li></ul><ul><li>Permite determinar dónde se sitúan los valores en relación con su media. </li></ul><ul><li>Se pueden comparar variables y sus distribuciones. </li></ul><ul><li>Es muy utilizada en la inferencia estadística </li></ul><ul><li>Esta afectada por valores extremos. </li></ul>En donde: x es la observación x es el promedio de la muestra, µ es el promedio de la población n es el tamaño de la muestra, N es el tamaño de la población _
    49. 49. Medidas de Variabilidad Desviación Estándar =DESVESTP(B3:B9) =DESVEST(B3:B9) Para la Población Para la Muestra
    50. 50. Medidas de Variabilidad <ul><li>Al igual que la desviación absoluta, la desviación estándar se puede interpretar como el promedio de las distancias de cada observación con respecto a la media aritmética (o el promedio de las diferencias de cada valor con respecto a la media) </li></ul><ul><li>La Desviación Estándar: </li></ul><ul><li>Incluye todos los valores en el cálculo. </li></ul><ul><li>Permite determinar dónde se sitúan los valores en relación con su media. </li></ul><ul><li>Se pueden comparar variables y sus distribuciones. </li></ul><ul><li>Es muy utilizada en la inferencia estadística </li></ul><ul><li>Esta afectada por valores extremos (al igual que la media aritmética). </li></ul>Desviación Estándar
    51. 51. Variancia Roberto Castro Z. Para la Muestra Para la Población Unidades en que se expresa la variancia : dado que la diferencia entre cada observación y la media se eleva al cuadrado, las unidades en que se mide la variable también está elevada al cuadrado, por lo que las unidades se deben expresar de esta forma. Por ejemplo: colones al cuadrado (ingresos), años al cuadrado (edades), centímetros al cuadrado (altura), etc. Medidas de Variabilidad =VAR(B3:B9) =VARP(B3:B9) Para la Muestra Para la Población Cálculo en Excel
    52. 52. Medidas de Variabilidad Coeficiente de Variación El coeficiente de variación mide la variabilidad porcentual o relativa de un conjunto de datos con respecto a su promedio. Es útil para comparar la variabilidad de diferentes conjuntos de datos Para la Muestra Para la Población
    53. 53. Medidas de Variabilidad Los cuartiles dividen en cuatro partes las observaciones. El primer cuartil Q 1 es un valor que deje por debajo de él 25% de las y por encima 75% de las observaciones. El Q 2 es la mediana (50%) y Q 3 deja por debajo 75% y por encima 25% de las observaciones Cuartiles
    54. 54. Medidas de Variabilidad Los percentiles dividen en dos partes las observaciones. Por ejemplo, el percentil 20, P 20 , es el valor que deja por debajo un 20% y por encima un 80% de las observaciones Percentiles
    55. 55. Medidas de Variabilidad Cálculo con Minitab
    56. 56. Medidas de Posición y Variabilidad La información de los cuartiles se visualiza en el diagrama de caja. La mitad central de los datos, que va desde el primer hasta el tercer cuartil, se representa mediante un rectángulo. La mediana se identifica mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer cuartil hasta el valor máximo y otra línea se extiende desde el primer cuartil hasta el mínimo Diagrama de Caja
    57. 57. Descriptive Statistics: Emisión Variable N Mean Median TrMean StDev SE Mean Minimum Maximum Q1 Q3 Emisión 80 18,896 19,050 18,917 5,656 0,632 6,200 31,800 14,825 22,975 Estadísticas Descriptivas Diagrama de Caja
    58. 58. Medidas de Posición y Variabilidad Diagrama de Caja: Ejemplos
    59. 59. Medidas de Posición y Variabilidad Diagrama de Caja: Minitab
    60. 60. Estadísticas Descriptivas Minitab: Resumen Gráfico

    ×