Estadística aplicada a los negocios conceptos básicos

UNIVERSIDAD PERUANA DE LAS AMÉRICAS FACULTAD DE CIENCIAS EMPRESARIALES PROGRAMA DE ESTUDIOS PROFESIONALES POR EXPERIENCIA LABORAL ESTADÍSTICA APLICADA A LOS NEGOCIOS I UNIDAD Nº I: LA ESTADÍSTICA: CONCEPTOS BÁSICOS. Profesor: Tito R. Navarro Guerrero LA ESTADÍSTICA Es una ciencia que nos proporciona un conjunto de métodos y técnicas que nos permite recolectar, clasificar, analizar, presentar y describir datos en forma adecuada a fin de tomar decisiones frente a una incertidumbre o predecir o afirmar algo de la población en estudio. División de la Estadística Está dividida en dos grandes áreas: Estadística Descriptiva Es el conjunto de métodos estadísticos que implican la recolección, clasificación, presentación y caracterización de un conjunto de datos, con el fin de analizarlos y describirlos. Estadística Inferencial Es el conjunto de métodos y/o técnicas que nos proporciona la teoría necesaria para afirmar algo acerca de la población o tomar decisiones generales en base a una información parcial obtenida mediante técnicas descriptivas. Es la que permite tomar decisiones y/o predecir fenómenos con respecto a las características de la población en estudio. POBLACIÓN Es el conjunto de todos los elementos (personas, animales, plantas, objetos, etc.) que contienen una o más características observables. Cada elemento de una población de le denomina unidad estadística o unidad análisis. Por ejemplo: los estudiantes del programa PEL de la Universidad Peruana de las Américas; los trabajadores del Banco de la Nación; los automóviles que circulan en Lima Metropolitana y el Callao; etc. son ejemplos de poblaciones. MUESTRA Es una parte representativa o subconjunto representativo de la población. Al número de elementos de la muestra se le denomina tamaño de la muestra y al procedimiento de obtener la muestra se le llama muestreo. Por ejemplo: seleccionar a 60 estudiantes del programa PEL de la Universidad Peruana de las Américas; contar el número de vehículos que circulan por la avenida Garcilaso de la Vega en la cuadra 18 entre las 10 y 11 de la mañana del día 20 de Abril del 2010; seleccionar 100 amas de casa del distrito de San Juan de Lurigancho; etc. son ejemplos de muestras. PARÁMETRO Es una medida descriptiva que resume alguna característica de la población. Los parámetros más utilizados son: La media poblacional (μ), la varianza poblacional (σ2), la desviación estándar poblacional (σ), la proporción poblacional (π). Por ejemplo: Promedio mensual del número de pares de zapatos producidos en Lima Metropolitana y el Callao del año 2009. ESTADÍGRAFO O ESTADÍSTICO Es una medida resumen o característica de la muestra. Los estadísticos más utilizados son: La media muestral ( x ), la varianza muestral (s2), la desviación estándar muestral (s), la proporción muestral (p). El valor del estadístico de la muestra se usa para estimar el valor del parámetro poblacional cuando éste se desconoce. Por ejemplo: Promedio mensual del número de pares de zapatos producidos por el 25 % de los productores de zapatos en Lima Metropolitana y el Callao del año 2009. DATOS Son valores recopilados de cualquier número de observaciones relacionadas sobre una o más características de una población o de una muestra. FUENTES DE DATOS Son los registros existentes y/o métodos (encuestas, estudios experimentales, etc.) que sirven para obtener información con fines de trabajo estadístico. VARIABLES Son características definidas sobre las unidades de análisis que conforman una población y que pueden tomar diferentes valores. Todas las variables tienen una escala de registro llamada unidad de medida. Por ejemplo: edad de los alumnos del programa PEL de la Universidad Peruana de las Américas; número de hijos de los trabajadores del Banco de la Nación; ingreso mensual de los trabajadores del Hospital Rebagliati; peso de los recién nacidos del Hospital Materno-Infantil San Bartolomé; etc. TIPOS DE VARIABLES Se dividen en: Categóricas y cuantitativas. 1.- Variables Categóricas o Cualitativas Son aquellas que expresan una categoría, cualidad o atributo. Sus datos se expresan mediante una palabra. Por ejemplo: estado civil, lugar de nacimiento, profesión, etc. Las variables categóricas pueden ser: Nominales u Ordinales. Variables Categóricas Nominales.- son aquellas que se expresan en categorías sin ningún tipo de orden o clasificación. No hay jerarquías. Por ejemplo: estado civil, sexo, nacionalidad, etc. Variables Categóricas Ordinales.- son aquellas que se expresan en categorías con algún tipo de clasificación u orden. Por ejemplo: clase social, tipos de educación, rango de los militares, etc. 2.- Variables Cuantitativas Son aquellas que se expresan por una cantidad. El dato puede resultar de la operación de contar o medir. Por ejemplo: ingreso familiar, número de hijos, producción mensual de una empresa, etc. Las variables cuantitativas pueden ser: Discretas o Continuas Variables Cuantitativas Discretas.- son aquellas que resultan de la operación de contar y se representan por números enteros o naturales. Por ejemplo: número de hijos por familia, número de personas por vivienda, número de trabajadores por empresa, etc. Variables Cuantitativas Continuas.- son aquellas que se obtienen por medición o comparación con un patrón de medida y se representan por cualquier número real. Por ejemplo: tiempo de servicios, ingresos monetarios, edad, peso, estatura, etc. ESCALAS DE MEDICIÓN Es un instrumento de medida con el que se asigna valores (categorías o números) a las unidades estadísticas para una variable definida. TIPOS DE ESCALAS DE MEDIDA Se dividen en: Nominal, Ordinal, De intervalo y De razón. Escala Nominal.- son los nombres o clases que se utilizan para organizar los datos en categorías separadas y distintas. Por ejemplo: la variable sexo asigna a la persona dos valores “masculino” y “femenino”; la variable estado civil asigna a la persona varios valores como “soltero”, “casado”, “conviviente”, “viudo” y “divorciado”; etc. Usando computadoras, a los valores de la variable en esta escala se les asigna números que se les llama “etiquetas” (labels) y como la asignación que se hace de ellas es por la información disponible o por el criterio de quienes las eligen, la agrupación puede variar. Por ejemplo: en la variable forma de ingreso a una empresa podría considerarse el siguiente etiquetado: por concurso (1), por invitación (0) o bien: por concurso (3), por invitación (2), por prácticas profesionales (1), otras formas (0); y se observa que el orden de los etiquetados no afecta la información. Escala Ordinal.- son las modalidades o valores de la variable que se pueden ordenar en forma ascendente o descendente. Por ejemplo: la variable niveles de educación asigna a la persona varios valores como “inicial”, ”primaria”, ”secundaria” y ”superior”; la variable estatus económico asigna a la persona valores como “clase baja”, ”clase media baja”, ”clase media”, ”clase media alta”, ”clase alta”; etc. En este tipo de escala también se usan etiquetas para asignar valores a la variable cuando se usan computadoras. Escala de intervalo.- son los valores de la variable que se les puede asignar números que, además de poseer las características de las escalas ordinales, permiten establecer diferencias entre ellos; sin embargo, el punto cero es arbitrario y no se trata de un cero absoluto. Por lo tanto, los valores no pueden compararse usando razones. Por ejemplo: la variable temperatura, en grados Celsius, asigna a las personas valores como 36.8 º, 37.0 º, 38.6º, etc., los cuales permiten establecer diferencias entre ellas pero no podemos decir que la persona con 40º de fiebre sea dos veces más afiebrada que la que tiene 20º. Escala de razón.- llamada también escala de cociente o de proporción, son los valores de la variable que se les puede asignar números que, además de poseer las características de las escalas de intervalo, pueden compararse usando razones; es decir, tienen cero absoluto. Por ejemplo: las variables edad, peso, estatura, etc. asignan a las personas valores que, además de poder establecer diferencias entre ellas, se pueden hacer comparaciones de razones ya que una persona puede tener el doble de edad, el doble de peso o el doble de estatura que otra persona; asimismo, las variables ingreso, inventario de artículos, etc. asignan valores dentro de una escala de razón. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS Representación tabular de la información de variables de tipo categórico Cuando la variable es de tipo categórico, la organización y presentación de los datos se hace de la siguiente manera: 1º) Se determina el número de clases que la variable está tomando. 2º) Se obtienen las frecuencias absolutas (fi) para cada clase, las cuales son el número de veces que se presenta cada clase. 3º) Se obtienen las frecuencias relativas (hi) para cada clase, las cuales están definidas por el cociente fin, donde n es el número total de datos. 4º) Se obtienen las frecuencias relativas porcentuales (%) para cada clase, las cuales son las frecuencias relativas multiplicadas por 100. En el siguiente cuadro se presenta la tabla de frecuencias de los resultados de un estudio de mercado a 150 hogares de la clase media del distrito de San Borja para conocer la marca de jabón de tocador que usan. Cuadro 1. Marca de jabón de tocador que usan los hogares de la clase media de San Borja Marca de jabónNº de Hogares (fi)Frecuencia relativa (hi)Frecuencia relativa porcentual (hix100%)Camay500.3333Palmolive250.1717Rexona180.1212Lux250.1717Nivea150.1010Henio de Pravia170.1111Total1501.00100 Representación gráfica de la información de variables de tipo categórico Para representar gráficamente un conjunto de datos estadísticos referidos a variables de tipo categórico se utilizan diferentes formas gráficas, siendo las más usadas: el gráfico de barras y el gráfico de sectores circulares. El gráfico de barras son rectángulos, separados unos de otros, donde cada uno representa una clase que toma la variable y cuya altura corresponde a las frecuencias (absolutas o relativas) de dicha clase. Estos gráficos pueden ser: de barras simples, de barras compuestas y de barras múltiples (dobles, triples, etc.). El gráfico de sectores circulares son círculos, enteros o entrecortados, donde las categorías o clases que toma la variable están representadas por un sector circular que es un área circular igual al área total del círculo multiplicada por la frecuencia relativa de la clase que toma la variable. Cuando este tipo de gráfica se representa en un espacio tridimensional se le llama de pastel. En la práctica, estos gráficos de sectores circulares se obtienen dividiendo el círculo, desde su centro, en un número de sectores circulares igual al número de clases que toma la variable, y en donde cada sector circular es el valor del ángulo central del círculo que se obtiene mediante la siguiente fórmula: ⟹ xº = 360º (hi), para todo i. A continuación se dan algunos ejemplos de estos gráficos. Gráfico 1. Barras simples Número de hogares que usan jabón de tocador en San Borja 60 40 20 camay palmolive rexona lux nívea heno de pravia Gráfico 2. Barras dobles Tipos de aceites consumidos en el año 2007 y 2008 60% 40% 20% 2007 2008 Leyenda: Aceite vegetal: Aceite compuesto: Gráfico 3. Barras compuestas Tipos de aceites consumidos en el año 2007 y 2008 100% 50% 2007 2008 Leyenda: Aceite vegetal: Aceite compuesto: Gráfico 4. Gráfico circular Porcentaje de hogares que usan jabón de tocador en San Borja henio de pravia (11%) nívea (10%) Camay (33%) lux (17%) P Palmolive (17%) rexona (12%) Representación tabular de la información de variables de tipo cuantitativo discreto La forma más simple de organizar las observaciones de una variable discreta, cuando algunas de ellas se repiten, consiste en ordenar los valores diferentes que toma la variable en forma ascendente y luego proceder a construir una tabla de distribución de frecuencias de tales observaciones. Las frecuencias que se obtienen son como las obtenidas anteriormente (absolutas, relativas y relativas porcentuales) pero además se incluyen las llamadas frecuencias acumuladas de las antes mencionadas (absolutas acumuladas, relativas acumuladas y relativas porcentuales acumuladas), las cuales se obtienen acumulando sucesivamente las frecuencias de los valores anteriores a la del valor que se desea obtener la acumulación. En el siguiente cuadro se presenta una tabla de distribución de frecuencias de los resultados de un estudio a 200 hogares del Callao para ver el número de celulares que tienen. Cuadro 2. Número de celulares que hay en los hogares del Callao Nº de celulares(xi)Número de hogares (fi)Frecuencias relativas(hi)Frecuencias relativas porcentuales(hix100%)Frecuencias absolutas acumuladas(Fi)Frecuencias relativas acumuladas(Hi)Frecuencias porcentualesAcumuladas(Hix100%)0300.1515300.15151900.45451200.60602500.25251700.85853300.15152001.00100Total2001.00100 Representación gráfica de la información de variables de tipo cuantitativo discreto Un conjunto de datos estadísticos referidos a variables de tipo discreto se representan gráficamente mediante una gráfica de líneas cuyo eje horizontal corresponde a los diferentes valores de la variable y el eje vertical a las frecuencias correspondientes de dichos valores diferentes, la cual se representa por un segmento vertical levantado desde cada valor diferente; tal como se muestra a continuación. Gráfico 5. Números de celulares que hay en los hogares del Callao Nº de hogares 100 75 50 25 0 1 2 3 Celulares Representación tabular de la información de variables de tipo cuantitativo continuo El procedimiento para construir una tabla de distribución de frecuencias cuando la variable es de tipo continuo es el siguiente: 1º) Determinar el rango R de la variable, el cual es la diferencia del valor máximo de los datos con el valor mínimo de los mismos; es decir: R = xmáx - xmín 2º) Determinar el número K de intervalos o clases, el cual se obtiene aplicando por lo general la regla de Sturges que está dada por: K = 1 + 3.3 log n donde K es el número de intervalos y n es el total de las observaciones, redondeando el valor al entero más cercano 3º) Determinar el tamaño o amplitud W de los intervalos, el cual es la longitud del intervalo de clase y se obtiene como el cociente del rango entre el número de intervalos; es decir: W = RK Si el número resultante no es exacto se redondea al valor superior más cercano según las cifras decimales de los datos. 4º) Determinar los límites de cada intervalo, donde el límite inferior del primer intervalo es el valor mínimo de los valores observados y el límite superior de este primer intervalo se obtiene sumando la amplitud del intervalo a dicho valor mínimo; este valor será a su vez el límite inferior de la clase siguiente y así se obtienen los demás límites superiores e inferiores como se obtuvo el primero. Se usa preferentemente la notación de intervalos cerrados por la izquierda y abiertos por la derecha, excepto el último que se considerará cerrado tanto por la izquierda como por la derecha. 5º) Finalmente, se procede al conteo y registro de los datos para así construir la tabla de distribución de frecuencias respectiva. Cuando los datos discretos presentan una gran dispersión que haría utilizar un gran número de clases, se prefiere procesarlos como datos continuos. MARCAS DE CLASE Es el punto medio xi de los valores extremos de cada intervalo de clase; es decir: Xi = xmáx + xmín2 Representación gráfica de la información de variables de tipo cuantitativo continuo A partir de la tabla de distribución de frecuencias de variables continuas se pueden construir los siguientes gráficos: los histogramas de frecuencias, los polígonos de frecuencias y las ojivas. El histograma de frecuencias es una representación gráfica mediante rectángulos adyacentes donde en el eje horizontal se representan los intervalos de clase y en el eje vertical se representa los valores de las frecuencias (absolutas o relativas). El polígono de frecuencias es un polígono asociado a las frecuencias absolutas o relativas que se forma uniendo los puntos medios de los rectángulos del histograma de frecuencias, incluyendo los dos intervalos adicionales a los intervalos extremos, uno en el lado izquierdo y el otro en el lado derecho. La ojiva es un polígono asociado a las frecuencias absolutas acumuladas o relativas acumuladas que se forma de manera análoga a la del polígono de frecuencias A continuación se muestran ejemplos de lo anteriormente expuesto: Cuadro 3. Ventas (en kgs.) de pollo en un establecimiento del mercado central de Lima Metropolitana Ventas(kgs.)Marcas de clase (xi)Frec.absol.(fi)Frec.abs. acum.(Fi)Frec.relat.(hi)Frec. rel. acum.(Hi)Frecuenciaporcentual(hix100%)Frec. porc.acumulada(Hix100%)[22 – 27>24.5550.140.141414[27 – 32>29.57120.200.342034[32 – 37>34.512240.340.683468[37 – 42>39.57310.200.882088[42 – 47>44.53340.090.97997[47 - 52]49.51350.031.003100Total351.00100 Gráfico 6. Ventas (en kgs.) de pollo en un establecimiento del mercado central de Lima Metropolitana Días 10 5 22 27 32 37 42 47 52 Ventas Gráfico 7. Ventas (en kgs.) de pollo en un establecimiento del mercado central de Lima Metropolitana Días 10 5 17 22 27 32 37 42 47 52 57 Ventas Gráfico 8. Ventas (en kgs.) de pollo en un establecimiento del mercado central de Lima Metropolitana Días 40 30 20 10 17 22 27 32 37 42 47 52 57 Ventas Observaciones: Cuando el tamaño de la muestra n es mayor o igual a 30 (n ≥ 30), las frecuencias relativas (hi) se pueden tomar como aproximaciones de las probabilidades de que un valor de la variable considerada en la población sea la clase de la variable categórica o sea el valor de la variable discreta o bien pertenezca al intervalo de clase de la variable continua respectivamente donde esté dicha frecuencia relativa. Matemáticamente, esto quiere decir que: hi ≅ P (a = C) ó bien hi ≅ P(b = X) ó bien hi ≅ P(c є [xi-1, xi]) donde a es el valor de la clase C de la variable categórica, b es el valor X de la variable discreta y c es un valor que está en el intervalo [xi-1, xi] de la variable continua. El área total que determinan los rectángulos del histograma de frecuencias es igual al área que está bajo el polígono de frecuencias en las variables cuantitativas continuas. PRÁCTICA DIRIGIDA Nº 1 LA ESTADÍSTICA: CONCEPTOS BÁSICOS Profesor: Tito R. Navarro Guerrero Identifique y señale la población y muestra en cada una de las siguientes proposiciones: Obtener el nivel educativo de 150 trabajadores de la Telefónica. Obtener el número de llamadas que ingresan a Radio Programas del Perú sobre opinión pública, el día 20 de Marzo del presente año, durante 10 minutos dentro del horario de 4 a 5 de la tarde. Conocer la marca de pasta de dientes que usan 180 hogares del distrito de Lince. Conocer los años de servicios e ingresos de 300 trabajadores administrativos y de servicios de los hospitales de salud de Lima Metropolitana y el Callao. Obtener el porcentaje de desempleo de 2 000 personas mayores de 20 años de Lima Metropolitana y el Callao. 2. Clasifique las siguientes variables por su escala de medición y luego categorícelas ya sea directamente y/o en forma codificada (etiquetada). a) tiempo de servicios. b) nivel educativo. c) color de ojos. d) sexo. e) temperatura ambiental. e) número de hijos por familia. f) estado civil. g) gastos en consumo de agua. h) tiempo de fabricación de camisas. k) peso. l) producción de aceite comestible. ll) ventas de gas natural para vehículos. 3. Clasifique las siguientes variables por su tipo: cualitativa (nominal u ordinal) o cuantitativas (discreta o continua). a) marcas de impresoras. b) la estatura (en cms.) de niños de un centro educativo. c) consumo (en kws.) de energía eléctrica por vivienda. d) los alumnos poseen o no calculadoras científicas. e) número mensual de matrimonios. f) la vida útil (en horas) de los focos de 100 watts. g) afiliación política de los congresistas peruanos. 4. Clasifique las variables del ejercicio 2 por su tipo: cualitativa (nominal u ordinal) o cuantitativa (discreta o continua). 5. Se realizó un estudio a 180 hogares del distrito de Lince para conocer la marca de pasta dental que usan. Los resultados fueron los siguientes: Colgate 41, Kolynos 70, Dento 35, Splendid 20, Otros 10. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya una tabla de frecuencias de la información obtenida. c) Construya el gráfico de barras de las frecuencias absolutas. d) Construya un gráfico circular con las frecuencias relativas porcentuales. 6. En Junio del 2005 y del 2006, la inversión extranjera en el Perú de acuerdo al sector de destino fue como sigue: Comunicaciones 45% y 48%, Minería 20% y 17%, Industria 12% y 15%, Energía 8% y 7%, Finanzas 6% y 5%, Comercio 5% y 4%, Otros 4% y 4%. a) Identifique la variable medida y su tipo, así como la población y la muestra. b) Construya un gráfico de barras para comparar la información obtenida. 7. Se hizo una encuesta a 26 trabajadores de una empresa de manufactura para conocer su nivel educativo: primaria incompleta (PI), primaria completa (PC), secundaria incompleta (SEI), secundaria completa (SEC), superior incompleta (SUI), superior completa (SUC). Los resultados fueron los siguientes: PI, SEI, SEI, PC, SUC, SUI, SUI, SUI, PI, PI, SEI, SEC, SEC, SEI, PI, PI, PC, PC, PI, SEC, SEI, SUC, SUI, SEC, PC, SEI. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya una tabla de distribución de frecuencias de la información obtenida. c) Construya un gráfico de barras y otro circular para la información obtenida. 8. Se preguntó a 20 amas de casa sobre el número de celulares que hay en el hogar. Los resultados fueron: 0, 1, 1, 2, 3, 2, 1, 1, 1, 1, 2, 1, 3, 0, 2, 1, 2, 3, 1, 0. a) Identifique la variable y su tipo, así como la población y la muestra b) Construya una tabla de distribución de frecuencias de la información obtenida. c) Construya el gráfico de líneas de las frecuencias absolutas. d) ¿Cuántos hogares tienen a lo más un celular? e) ¿Qué porcentaje de hogares poseen hasta dos celulares? f) ¿Qué porcentaje de hogares poseen más de un celular? 9. Los siguientes datos son el número de accidentes automovilísticos que ocurren en 35 cruces más transitados de Lima Metropolitana durante el último fin de semana del mes de Noviembre del 2002: 4, 0, 1, 6, 1, 2, 5, 7, 2, 8, 5, 5, 6, 4, 7, 4, 6, 8, 6, 7, 5, 4, 8, 6, 8, 5, 6, 5, 6, 5, 4, 6, 5, 7, 3. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya una tabla de distribución de frecuencias de la información obtenida. c) Construya el gráfico de líneas de las frecuencias relativas. d) ¿Cuántos cruces más transitados han tenido más de 5 accidentes? e) ¿Qué porcentaje de cruces más transitados han tenido menos de 4 accidentes? f) ¿Qué porcentaje de cruces más transitados han tenido a lo más 2 accidentes? 10. Una agencia de empleos temporales registró el salario neto semanal de cincuenta trabajadores obteniendo los siguientes valores: 68.10 26.15 63.70 34.10 71.75 48.66 79.51 35.18 28.10 49.24 38.18 32.15 29.90 60.12 47.11 53.33 40.26 31.17 29.66 35.01 58.56 31.24 52.02 41.63 39.54 69.54 69.40 33.09 32.05 26.70 44.40 83.74 37.20 25.65 46.42 45.89 47.29 30.09 33.81 40.10 73.78 30.33 50.12 59.39 33.55 39.19 38.70 48.62 38.69 55.17 a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya la tabla de distribución de frecuencias de la información obtenida. c) Construya el histograma y el polígono de las frecuencias absolutas. d) Construya la ojiva de las frecuencias relativas acumuladas. e) Interprete adecuadamente los resultados a partir de la tabla construida. 11. El consumo de agua, en metros cúbicos, de 30 viviendas en el mes de Enero fue como sigue: 4.3 7.8 6.1 15.7 12.8 17.2 3.5 16.1 12.4 6.9 18.0 11.5 13.4 6.5 5.9 14.3 8.7 13.0 9.2 12.8 3.0 4.2 11.2 16.2 7.0 4.5 7.8 15.9 16.5 8.4. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya la tabla de distribución de frecuencias de la información obtenida. c) Construya el histograma y el polígono de las frecuencias relativas. d) Construya la ojiva de las frecuencias absolutas acumuladas. e) Interprete adecuadamente los resultados a partir de la tabla construida. 12. Se han tomado las ventas en miles de soles de 40 supermercados de nuestro país correspondiente al mes de Octubre del año pasado. Los resultados fueron: 168 160 168 175 175 160 165 154 163 165 168 168 158 149 160 161 162 166 163 159 178 169 158 163 171 170 165 150 167 164 162 165 163 156 174 165 173 172 168 168. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya la tabla de distribución de frecuencias de la información obtenida. c) Construya el histograma y el polígono de las frecuencias absolutas. d) Construya la ojiva de las frecuencias absolutas acumuladas. e) Interprete adecuadamente los resultados a partir de la tabla construida. 13. Los siguientes datos proporcionan los ingresos anuales en miles de dólares de 50 personas: 7.9 10.3 45.7 9.5 43.0 56.0 38.0 6.7 48.0 30.5 25.0 40.0 30.0 25.5 50.0 17.1 25.5 43.5 31.6 59.0 41.5 13.5 12.0 9.2 42.0 41.9 35.0 11.7 55.3 27.0 58.4 57.0 29.6 38.5 26.0 16.5 18.0 24.9 20.0 28.0 28.5 36.4 39.5 5.0 9.0 5.0 6.9 7.0 12.0 8.3. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya la tabla de distribución de frecuencias de la información obtenida. c) Construya el histograma y el polígono de las frecuencias relativas. d) Construya la ojiva de las frecuencias relativas acumuladas. e) Interprete adecuadamente los resultados a partir de la tabla construida. 14. En la siguiente tabla de distribución de frecuencias, un agente de seguros ha ordenado los datos mensuales correspondientes a la cantidad de dólares de las pólizas de seguros que ha vendido durante los tres últimos años. Venta mensualFrecuenciaVenta mensualFrecuencia[10 000 – 12 000>2[18 000 – 20 000>6[12 000 – 14 000>4[20 000 – 22 000>8[14 000 – 16 000>7[22 000 – 24 000>2[16 000 – 18 000>5[24 000 – 26 000]1 a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya el histograma y el polígono de las frecuencias relativas. c) Construya la ojiva de las frecuencias relativas acumuladas. d) Interprete adecuadamente los resultados a partir de la tabla construida. ESTADÍSTICA APLICADA A LOS NEGOCIOS I UNIDAD Nº II: MEDIDAS DE TENDENCIA CENTRAL Y DE VARIACIÓN Profesor: Tito R. Navarro Guerrero MEDIDAS DE TENDENCIA CENTRAL MUESTRALES Son valores de la variable que están situados en el centro o alrededor del punto medio de un conjunto de datos. Este valor también se le denomina indicador estadístico o estadístico o estadígrafo. Las medidas de tendencia central más importantes son: la media aritmética, la mediana, la moda y los cuartiles. La media aritmética o media muestral o promedio muestral.- es un valor o medida de tendencia central en una muestra de datos de variables cuantitativas que se toma como si fuera el valor que tuvieran cada uno de los datos obtenidos; es decir, una sustitución o aproximación de cada dato muestral, y se representa por el símbolo x. Por ejemplo, si los datos fueran 2, 3 y 4, entonces, se puede decir que cada uno de ellos podría tomar el valor 3, ya que 2 + 3 + 43 = 3 + 3 + 33. El valor 3 es la media aritmética x del conjunto {2, 3, 4} de datos muestrales. La mediana muestral.- es un valor o medida de tendencia central en una muestra de datos de variables categóricas ordinales o cuantitativas que divide al conjunto de datos, previamente ordenados en forma creciente o decreciente, en dos partes iguales; es decir, el 50% de los datos ordenados estará a su izquierda y el otro 50% a su derecha, y se representa por el símbolo Me. Por ejemplo, el número 2.5 es la mediana Me del conjunto {1, 1, 2, 3, 4, 5} de datos muestrales, ya que tres datos están a su izquierda y los otros tres a su derecha. La moda muestral.- es un valor o medida de tendencia central en una muestra de datos de variables tanto categóricas como cuantitativas que se repite con mayor frecuencia, y se representa por el símbolo Mo. Si el conjunto de datos tiene una moda se llama unimodal, si tiene dos modas se llama bimodal, y al conjunto de datos que tiene más de dos modas se llama multimodal. Por ejemplo, el número 1 es la moda Mo del conjunto {1, 1, 2, 3, 4, 5} de datos muestrales, ya que el 1 es el dato que más se repite. Los cuartiles muestrales.- son valores o medidas de tendencia central en una muestra de datos de variables categóricas ordinales o cuantitativas que dividen al conjunto de datos, previamente ordenados en forma creciente o decreciente, en cuatro partes iguales, y se representan por los símbolos Q1, Q2 y Q3, donde Q1 se llama primer cuartil, Q2 se llama segundo cuartil o mediana y Q3 se llama tercer cuartil. El primer cuartil o cuartil inferior muestral Q1.- es un valor o medida de tendencia central que supera a no más del 25% de las n observaciones y que es superado por no más del 75% de las n observaciones, previamente ordenadas. El segundo cuartil o cuartil medio muestral Q2.- es un valor o medida de tendencia central que coincide con el valor de la mediana Me, anteriormente descrita. El tercer cuartil o cuartil superior muestral Q3.- es un valor o medida de tendencia central que supera a n o más del 75% de las n observaciones y que es superado por no más del 25% de las n observaciones, previamente ordenadas. Fórmulas para calcular la media aritmética o media muestral x a) Para datos cuantitativos no agrupados x = xn, donde x es el valor del dato no agrupado, n es el total de los datos y el símbolo Σ significa sumar. b) Para datos cuantitativos agrupados x = ( xi fi )n, donde xi es la marca de clase del intervalo i, n es el total de los datos y el símbolo Σ significa sumar los productos entre paréntesis. En la práctica, para calcular el valor de la media muestral x para datos cuantitativos agrupados se debe formar una columna en la tabla de los datos agrupados, después de la columna de las frecuencias absolutas, donde se exprese los productos xi fi, y luego sumar todos los valores de dicha columna. Este total será el numerador de la fórmula dada. Procedimiento para calcular la mediana muestral Me a) Para datos categóricos ordinales y cuantitativos discretos agrupados 1º) Se forma la columna de las frecuencias absolutas acumuladas. 2º) Se divide el total n de los datos entre 2. 3º) Se busca este valor en la columna de las frecuencias absolutas acumuladas. 4º) La mediana Me se encuentra en la clase donde se ubica el valor hallado. b) Para datos cuantitativos no agrupados 1º) Se ordenan los datos en forma creciente o decreciente. 2º) Si el número de datos es impar, la mediana Me es el valor que está situado exactamente a la mitad de los datos. 3º) Si el número de datos es par, la mediana Me es la media aritmética de los dos valores que están a la mitad del conjunto de datos ordenados. c) Para datos cuantitativos continuos agrupados 1º) Se forma la columna de las frecuencias absolutas acumuladas. 2º) Se divide el total n de los datos entre 2. 3º) Se busca este valor en la columna de las frecuencias absolutas acumuladas. 4º) La mediana Me se encuentra en el intervalo donde se ubica el valor hallado. 5º) Se calcula el valor de Me utilizando la siguiente fórmula: Me = Li + A. [ n2 – F(Me-1) f(Me) ], donde Li es el límite inferior del intervalo de clase donde se encuentra la mediana, A es la longitud del intervalo de clase donde se encuentra la mediana, F(Me – 1) es la frecuencia absoluta acumulada del intervalo de clase anterior al intervalo de clase donde se encuentra la mediana y f(Me) es la frecuencia absoluta del intervalo de clase donde se encuentra la mediana. Procedimiento para calcular la moda muestral Mo a) Para datos categóricos (o cualitativos) nominales u ordinales Se determina la categoría (o las categorías) que más se repite (o repiten). b) Para datos cuantitativos no agrupados y cuantitativos discretos agrupados Se determina el valor (o los valores) del conjunto de datos que más se repite (o repiten). c) Para datos cuantitativos continuos agrupados 1º) Se identifica el intervalo de clase con mayor frecuencia absoluta (clase modal). 2º) La moda Mo se encuentra en la clase modal. 3º) Se calcula el valor de Mo utilizando la siguiente fórmula: Mo = Li + A. [d1d1 + d2], donde Li es el límite inferior de la clase modal, A es la longitud de la clase modal, di es la diferencia de las frecuencias absolutas de la clase modal con la del intervalo de clase anterior y d2 es la diferencia de las frecuencias absolutas de la clase modal con la del intervalo de clase siguiente. Procedimiento para calcular el primer cuartil muestral Q1 a) Para datos categóricos ordinales y cuantitativos discretos agrupados 1º) Se forma la columna de las frecuencias absolutas acumuladas. 2º) Se divide el total n de los datos entre 4. 3º) Se busca este valor en la columna de las frecuencias absolutas acumuladas. 4º) El primer cuartil Q1 se encuentra en la clase donde se ubica el valor hallado. b) Para datos cuantitativos no agrupados 1º) Se ordenan los datos en forma creciente o decreciente. 2º) Si el número de datos es impar, el primer cuartil Q1 es el valor que está situado en la cuarta parte del conjunto de los datos ordenados. 3º) Si el número de datos es par, el primer cuartil Q1 es la media aritmética de los dos valores que están en la cuarta parte de los datos ordenados. c) Para datos cuantitativos continuos agrupados 1º) Se forma la columna de las frecuencias absolutas acumuladas. 2º) Se divide el total n de los datos entre 4. 3º) Se busca este valor en la columna de las frecuencias absolutas acumuladas. 4º) El primer cuartil Q1 se encuentra en el intervalo donde se ubica dicho valor. 5º) Se calcula el valor de Q1 utilizando la siguiente fórmula: Q1 = L1 + A. [ n4 + F(Q1- 1) fQ1 ], donde Li es el límite inferior del intervalo de clase donde se encuentra el primer cuartil, A es la longitud del intervalo de clase donde se encuentra el primer cuartil, F(Q1- 1) es la frecuencia absoluta acumulada del intervalo de clase anterior al intervalo de clase donde se encuentra el primer cuartil y fQ1 es la frecuencia absoluta del intervalo de clase donde se encuentra el primer cuartil. Procedimiento para calcular el segundo cuartil muestral Q2 Como el segundo cuartil es la mediana muestral, ya está dado allí el procedimiento para calcularlo. Procedimiento para calcular el tercer cuartil muestral Q3 a) Para datos categóricos ordinales y cuantitativos discretos agrupados 1º) Se forma la columna de las frecuencias absolutas acumuladas. 2º) Se multiplica el total n de los datos por 34. 3º) Se busca este valor en la columna de las frecuencias absolutas acumuladas. 4º) El tercer cuartil Q3 se encuentra en la clase donde se ubica el valor hallado. b) Para datos cuantitativos no agrupados 1º) Se ordenan los datos en forma creciente o decreciente. 2º) Si el número de datos es impar, el tercer cuartil Q3 es el valor que está situado en la tres cuartas partes del conjunto de los datos ordenados. 3º) Si el número de datos es par, el tercer cuartil Q3 es la media aritmética de los dos valores que están en la tres cuarta parte de los datos ordenados. c) Para datos cuantitativos continuos agrupados 1º) Se forma la columna de las frecuencias absolutas acumuladas. 2º) Se multiplica el total n de los datos por 34. 3º) Se busca este valor en la columna de las frecuencias absolutas acumuladas. 4º) El tercer cuartil Q3 se encuentra en el intervalo donde se ubica dicho valor. 5º) Se calcula el valor de Q3 utilizando la siguiente fórmula: Q3 = L1 + A. [ 3n4 + F(Q3- 1) fQ3 ], donde L1 es el límite inferior del intervalo de clase donde se encuentra el tercer cuartil, A es la longitud del intervalo de clase donde se encuentra el tercer cuartil, F(Q3- 1) es la frecuencia absoluta acumulada del intervalo de clase anterior al intervalo de clase donde se encuentra el tercer cuartil y fQ3 es la frecuencia absoluta del intervalo de clase donde se encuentra el tercer cuartil. Ventajas y desventajas de las medidas de tendencia central Ventajas de la media aritmética a) Es una medida que tiene en cuenta toda la información suministrada. b) Es la más estable de las medidas de tendencia central. c) Puede ser utilizada como dato para análisis estadísticos posteriores. Desventajas de la media arimética No es conveniente utilizarla cuando los datos se aglomeran en los extremos del conjunto de datos ordenados habiendo poca información en las partes centrales de la distribución. Los datos están fuertemente sesgados. En este caso se prefiere utilizar la mediana. Ventajas de la mediana muestral La mediana se utiliza cuando los datos están fuertemente sesgados. No está afecta a los valores extremos de los datos. Se utiliza también en las variables categóricas ordinales. Desventajas de la mediana muestral Es una medida que no tiene en cuenta los valores que toman las variables en los extremos de los datos ordenados en la muestra. Ventajas de la moda muestral a) Se puede calcular tanto para datos categóricos como para los cuantitativos. b) No está afectada por los valores extremos de los datos ordenados. Desventajas de la moda muestral Es muy difícil de interpretar o comparar cuando la distribución es multimodal. Comparaciones entre la media aritmética, la mediana y la moda Si en la distribución de frecuencias x = Me = Mo, entonces, la distribución es simétrica. Si en la distribución de frecuencias x ≠ Me ≠ Mo, entonces, la distribución es asimétrica o sesgada, y puede ocurrir los siguientes casos: Si Mo < Me < x, entonces, la distribución es sesgada a la derecha. Si x < Me < Mo, entonces, la distribución es sesgada a la izquierda. MEDIDAS DE VARIACIÓN O DISPERSIÓN MUESTRALES Son medidas que explican cuan dispersos están los datos muestrales entre sí. Estas medidas pretenden caracterizar el conjunto de datos según su forma de distribución. Son medidas que expresan segmentos de recta en el conjunto de números reales que definen los valores en el conjunto de datos muestrales; en algunos casos, estos segmentos se obtienen con referencia a una medida de tendencia central (especialmente la media aritmética). Entre estas medidas de variación o dispersión se tienen: el rango muestral, la varianza muestral, la desviación estándar muestral y el coeficiente de variación. El rango muestral.- es la longitud o distancia entre el dato mayor y el menor, y se representa por la letra R; es decir: R = xmáx. – xmín. La varianza muestral.- es una medida de variación que mide la dispersión cuadrática de los datos con respecto a la media aritmética, y se representa por el símbolo s2. Su unidad de medida es el cuadrado de la unidad de medida utilizada para medir los datos. Cálculo de la varianza muestral Para datos cuantitativos no agrupados Se aplica la fórmula general: s2 = (x – x)2n. Pero, en la práctica, es más usual aplicar la siguiente fórmula derivada de la anterior: s2 = x2n – (x)2, donde x es el valor del dato observado, x es la media muestral y n es el tamaño de la muestra (el símbolo Σ significa sumar). Para datos cuantitativos (discretos o continuos) agrupados Se aplica la fórmula general: s2 = fi (xi – x)2n. Pero, en la práctica, es más usual aplicar la siguiente fórmula derivada de la anterior: s2 = fi (xi)2n – (x)2, donde xi es el valor del dato observado, x es la media muestral y n es el tamaño de la muestra (el símbolo Σ significa sumar). Esta última fórmula implica construir dos columnas más en la tabla de distribución de frecuencias: la columna de los productos fi xi y la columna de los productos fi (xi)2 y luego sumar todos los valores de cada una de esas columnas para usarlas en las expresiones dadas en la fórmulas, recordando la fórmula para obtener x. La desviación estándar muestral.- es la raíz cuadrada de la varianza muestral, y se representa por la letra s; es decir: s = s2 Es la más completa entre las medidas de dispersión porque interviene la unidad de medida que se usa para medir los datos y el número total de ellos. El coeficiente de variación muestral.- es una medida de dispersión relativa que proporciona una estimación de la magnitud de la desviación estándar respecto a la magnitud de la media, y generalmente está expresado en porcentaje, y se representa por las letras CV. Matemáticamente, esto se expresa por: CV = sx .100% Observamos que el coeficiente de variación no está expresado en ninguna unidad de medida, ya que ésta se cancela cuando se divide la desviación entre la media muestral correspondiente. Por tal motivo, es útil para comparar distribuciones con unidades de medida diferentes para ver así cuál de ellas es más variable. Desventaja del coeficiente de variación Una desventaja del coeficiente de variación es que deja de ser útil cuando la media muestral es un valor cercano a cero. PRÁCTICA DIRIGIDA Nº 2 MEDIDAS DE TENDENCIA CENTRAL Y DE VARIACIÓN Profesor: Tito R. Navarro Guerrero Con referencia al ejercicio 5 de la práctica dirigida Nº 1, calcular la moda de la distribución, y con referencia al ejercicio 7 de la misma práctica dirigida, calcular los cuartiles muestrales y la moda correspondiente. 2. Con referencia a los ejercicios 8 al 14 de la práctica dirigida Nº 1, calcular las diferentes medidas de tendencia central y de variación para cada uno de ellos. Interprete los resultados. Así mismo, compare la variabilidad relativa entre ellos mediante sus coeficientes de variación. 3. Se realizó una encuesta en viviendas que dan alojamiento en el Cuzco sobre el número de habitaciones por vivienda, y se obtuvo la siguiente información: 2 3 4 3 2 3 4 2 3 3 3 2 2 2 2 4 4 2 3 3 5 3 4 5 2 3. Calcular las diferentes medidas de tendencia central y de variación. Interprete los resultados. 4. Los siguientes datos corresponden al número de pasajeros que salen del país durante 30 días del mes de Julio del 2008: 35 38 30 32 39 40 42 45 43 37 38 30 39 38 31 37 32 38 35 39 33 32 36 37 39 40 40 33 31 35 Calcular las diferentes medidas de tendencia central y de variación. Interprete los resultados. 5. Una cadena de restaurantes de comidas rápidas contrató los servicios de una empresa de televisión para que pasen sus anuncios publicitarios, obteniendo los siguientes resultados: Número de veces que la persona observa el aviso01234Número de personas3205401300600380 Calcular las diferentes medidas de tendencia central y de variación. Interprete los resultados. 6. En la siguiente tabla se ha registrado los años de antigüedad de una muestra de automóviles de los profesores y administrativos de la Universidad. Antigüedad[0 – 2>[2 – 4>[4 – 6>[6 – 8>[8 – 10>[10 – 12]Autos de prof.1015121085Autos de adm.31015201810 Calcular las diferentes medidas de tendencia central y de variación para cada una de las distribuciones de frecuencias. Interprete los resultados. Así mismo, compare la variabilidad relativa entre las dos distribuciones. 7. Un analista realizó un estudio de 50 empresas sobre los gastos semanales (en dólares) en propaganda turística. La información que obtuvo fue la siguiente: 2230 1290 2500 3200 3150 3560 3860 3760 3490 4520 4020 4100 4080 4200 3550 2800 2990 3000 3600 4180 4000 2800 2770 2990 2400 2670 2800 2950 2840 2960 3020 3100 3500 3600 4200 4350 2900 3250 3780 3600 3450 3800 3900 3780 2770 3120 3200 2900 3500 3800 Elabore primero una tabla de distribución de frecuencias y luego calcule las medidas de tendencia central y de variación. Interprete los resultados. 8. La siguiente información señala el tiempo de vida útil (en miles de horas) de 80 focos de luz de 100 watts. 670 340 530 450 470 520 680 730 610 550 650 620 540 410 590 260 580 820 740 410 700 380 500 360 670 320 630 520 620 350 340 740 530 510 550 480 600 760 510 350 440 330 450 610 530 210 680 850 600 420 430 280 560 790 840 490 820 220 620 550 720 680 400 370 650 730 570 390 460 570 560 600 450 560 750 400 510 700 740 760 Elabore primero una tabla de distribución de frecuencias y luego calcule las medidas de tendencia central y de variación. Interprete los resultados. 9. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrados en minutos, obteniéndose: 7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6 9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8 Elabore primero una tabla de distribución de frecuencias y luego calcule las medidas de tendencia central y de variación. Interprete los resultados.

Estadística aplicada a los negocios conceptos básicos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Estadística aplicada a los negocios conceptos básicos

Similar a Estadística aplicada a los negocios conceptos básicos (20)

Más de nirce

Más de nirce (20)

Último

Último (20)

Estadística aplicada a los negocios conceptos básicos