2. Tipos de Variables Aleatorias Continuas Discretas Cuantitativas Cualitativas
3. Intervalos y Límites de Clase DATOS SUELTOS Se les llama datos sueltos o brutos a los datos recolectados que no han sido organizados numéricamente. Un ejemplo es el conjunto de las estaturas de 100 estudiantes hombres , obtenidas del registro universitario, que está ordenado en forma alfabética. ORDENACIÓN Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente de magnitud. A la diferencia entre el número mayor y el menor se le conoce como Rango de los datos. Por ejemplo, si la estatura mayor de los 100 estudiantes es 74 plg y la menor es 60, el rango es 74 – 60 = 14.
4. Intervalos y Límites de Clase DISTRIBUCIONES DE FRECUENCIA Si se reúnen grandes cantidades de datos sueltos es útil distribuirlos en clases ó categorías, y determinar el número de individuos que pertenecen a cada categoría, a lo que se llama Frecuencia de Clase. A una disposición de tabular de los datos por clases, con sus correspondientes frecuencias de clase, se les conoce como distribución de frecuencias o tabla de frecuencias.
5. Intervalos y Límites de Clase La siguiente tabla es una distribución de frecuencias de las estaturas de 100 estudiantes hombres de la Universidad Estatal: A los datos organizados y reunidos en clases, como la anterior distribución de frecuencias, se les llama datos agrupados. Aunque el proceso de agrupamiento generalmente quita detalles originales en los datos, es muy ventajosa pues proporciona una visión muy amplia y clara, además de que se obtienen relaciones evidentes.
6. Intervalos y Límites de Clase El símbolo que define a una clase, como 60-62 de la tabla anterior, se llama intervalo de clase. A los números 60 y 62 se les conoce como límites de clase; el número mas pequeño (60) es el límite inferior de clase, mientras que el mas grande (62) es el límite superior de clase. A un intervalo de clase que, por lo menos teóricamente, no tiene límite de clase inferior o superior se le llama Intervalo de Clase Abierto. Por ejemplo, en grupos de edades de individuos, el intervalo de clase “65 años o más” es un Intervalo de Clase Abierto.
7. Distribuciones de Frecuencia FRECUENCIAS RELATIVAS La Frecuencia Relativa de una clase es su frecuencia dividida entre la frecuencia total de todas las clases y se expresa generalmente como un porcentaje. Por ejemplo, la frecuencia relativa de la clase 66-68 de la tabla de estaturas de estudiantes del tema anterior es 42/100 = 42%. Es claro que la suma de todas las frecuencias relativas de las clases es 1, o sea 100%. Si se sustituyen las frecuencias de esa tabla por las correspondientes frecuencias relativas, a la tabla resultante se le llama Distribución de Frecuencias Relativas, Distribución de Porcentajes o Tabla de Frecuencias Relativas.
8. Distribuciones de Frecuencia FRECUENCIAS ACUMULADAS. La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase dado se conoce como Frecuencia acumulada hasta ese intervalo de clase. Por ejemplo, la frecuencia acumulada, incluyendo hasta el intervalo de clase 66 -68 de la tabla de estudiantes es 5+18+42=65, lo que significa que 65 estudiantes tienen estaturas por debajo de 69 plg. Una tabla que presenta tales frecuencias acumuladas se llama Distribución de Frecuencias Acumuladas, Tabla de Frecuencias Acumuladas o, brevemente, una Distribución Acumulada.
9. Distribuciones de Frecuencia En la siguiente tabla se muestra una tabla de distribuciones acumuladas para las estaturas de los estudiantes:
10. Construcción de Tablas de Frecuencias Criterios para la determinación del número de clases Es recomendable que no sean pocos los intervalos ó clases debido a que al condensar la pérdida de información sería importante con relación a los datos originales. Por otra parte, el número excesivo de clases, si bien produce poca pérdida de la información no simplifica el trabajo.
11. Construcción de Tablas de Frecuencias Un criterio para determinar el número de clases es el propuesto por Ryan en 1982 presentado en la siguiente tabla:
12. Ejercicios Se tiene un conjunto de 50 datos que representan el peso en kilogramos de los bebes nacidos en un hospital durante el mes de febrero y se desea representar mediante una tabla de frecuencias. Determine el número de clases que se requieren para construir dicha tabla. Solución: 6 clases, de acuerdo a la tabla de Ryan.
13. Ejercicios La siguiente tabla muestra el peso de 50 estudiantes entrevistados. Ordenar los datos de menor a mayor. Determinar el rango. Construir los intervalos de clase con su respectiva frecuencia. Determinar las frecuencias relativas. Determinar las frecuencias relativas porcentuales. Determinar las frecuencias acumuladas. Determinar las frecuencias acumuladas relativas. Determinar las marcas de clase de cada intervalo.
15. Ejercicios Rango = Valor Mayor – Valor Menor Tamaño de clase = Rango/Número de Clases Marca de clase = (Límite inferior + Límite superior)/2
16. Ejercicios La siguiente distribución de frecuencias muestra el número de minutos semanales que pasan viendo televisión 400 estudiantes de secundaria.
17. Ejercicios Con referencia a esta tabla, determinar: El límite superior de la 5a. clase. El límite inferior de la 8a. Clase. La marca de clase de la 7a. Clase. El tamaño de los intervalos de clase. La frecuencia de la 4a. Clase. La frecuencia relativa de la 6a. Clase. El porcentaje de estudiantes cuyo tiempo de ver TV no excede de 900 minutos. El porcentaje de estudiantes cuyo tiempo de ver TV es mayor o igual a 900 minutos. Porcentaje de estudiantes cuyo tiempo de ver TV es mayor a 500 minutos pero menor a 1000 minutos.
18. La Media Aritmética La media aritmética, o simplemente media de un conjunto N de números X1, X2, X3,…, Xn se denotapor X, se define por:
20. Cálculo de la Media para Datos Agrupados Obtención de la medida por las Marcas de Clase Obtención de la media por el método de Codificación
21. Obtención de la media por las Marcas de Clase Ejemplo: Utilice la distribución de frecuencias mostrado en la siguiente tabla para determinar la estatura promedio de los 100 estudiantes de una universidad estatal
24. Obtención de la media por el método de Codificación Para calcular la media por este método utilizaremos la fórmula: Donde:
25. Obtención de la media por el método de Codificación Este método se caracteriza por colocar códigos enteros positivos y negativos a todos los intervalos. Los negativos se colocan arriba de la marca de clase asignada por el código cero (X0). El código 0 se puede colocar en cualquier intervalo pero por lo regular se asigna en la clase que esté mas al centro. Para este caso se colocará en el intervalo 66-68.
27. La Mediana La mediana es una medida de tendencia central diferente de la media que hemos venido explicando hasta ahora. La mediana es solo un valor del conjunto de datos que mide el elemento central de los datos. El elemento es el mas central en el conjunto de números. La mitad de los elementos se encuentran por arriba de este punto y la otra mitad cae debajo de él.
28. Cálculo de la Mediana a Partir de Datos No Agrupados NÚMERO DE DATOS IMPAR. La siguiente serie de números tiene 7 elementos (número impar) 3, 5, 9, 11, 14, 21, 23 por lo que el valor central (mediana) es 11. Nótese también que la serie ya está ordenada en forma ascendente.
29.
30. Cálculo de la Mediana a Partir de DatosAgrupados Para calcular la mediana, los estadísticos aplican una ecuación que les permita calcular la mediana de los datos agrupados. En el caso de una muestra, dicha ecuación será: Me = {W[(n+1)/2 - (F + 1)]/Fm} + Lm Me = Mediana de la muestra. n = Número total de elementos de la distribución. F = Suma de todas las frecuencias de clase hasta un intervalo antes de la mediana de clase. Fm = Frecuencia de la mediana de clase. W = Amplitud de intervalo de las clases. Lm = Límite inferior del intervalo de mediana de clase.
31. Cálculo de la Mediana a Partir de DatosAgrupados Ejemplo. Determinar la mediana de los saldos mensuales en dólares por 600 clientes de una ciudad. Los datos se muestran en la siguiente tabla:
32. Cálculo de la Mediana a Partir de DatosAgrupados Localización de la mediana de clase. Primeramente de esos 600 clientes se debe determinar cuál de los 10 intervalos contiene la mediana. Para hacerlo es preciso sumar las frecuencias en la columna correspondiente a ellas en la tabla anterior. Para esto, se suma el total de los elementos mas 1 y se divide entre dos como sigue: puesto que hay 600 cuentas, el valor (n+1)/2 = (600+1)/2 = 300.5 (o sea, la mediana se encuentra entre los elementos 300 y 301). El problema reside en encontrar los intervalos de clase que contienen a esos elementos. La frecuencia acumulativa de las dos primeras clases es apenas 78+123=201. Pero cuando llegamos al tercer intervalo, se suman 187 elementos al 201 dándonos un total de 388. Por tanto, las observaciones 300 y 301 deben situarse en esta tercera clase (el intervalo entre $100.00 y $149.00).
33. Cálculo de la Mediana a Partir de DatosAgrupados Al aplicar la ecuación anterior para calcular la mediana de los saldos de las cuentas de cheques, entonces n = 600, F=201, Fm = 187, w = $50 y Lm=$100. Me = {W[(n+1)/2 - (F + 1)]/Fm} + Lm Me = {50[(600+1)/2 - (201 + 1)]/187} + 100 Me = $126.33
34. Moda La moda es el valor que mas se repite dentro del conjunto de datos. Por ejemplo, la tabla siguiente muestra el número de viajes de reparto que diariamente hizo una planta de concreto. El valor modal es 15 por ocurrir mas a menudo que los demás (3 veces). Una moda de 15 implica que la actividad de la planta es mayor a 6.7 (esta es la respuesta que obtendríamos si calculáramos la media). La moda nos indica que 15 es el número mas frecuente de viajes, pero no nos permite conocer que la mayor parte de los valores son menores que 10.
35. Cálculo de la Moda a partir de datos agrupados Cuando los datos ya están agrupados en una distribución de frecuencia, debemos suponer que la moda se halla en la clase que tenga mas elementos, es decir, que posea la frecuencia mas elevada. El método de calcular la moda cuando contamos con datos agrupados consiste en aplicar la siguiente ecuación: Mo = LM0 + [D1∙W]/(D1 + D2) Donde: Mo = Moda para datos agrupados. LM0 = Límite inferior de la clase modal. D1 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente arriba de ella. D2 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente debajo de ella. W = Amplitud del intervalo de la clase modal.
36. Cálculo de la Moda a partir de datos agrupados Ejemplo. Calcular la moda de los saldos de las cuentas de cheques de la tabla donde se obtuvo la mediana.
37. Cálculo de la Moda a partir de datos agrupados Se tiene que: LM0 = $100 D1 = 187 – 123 = 64 D2 = 187 – 82 = 105 W = 50 Así que: Mo =100 + [64∙50]/(64 + 105) Mo = 118.93 Redondeando el valor de la moda es $119
38. Gráficas Una gráfica es una relación pictórica de la relación entre dos variables. En estadística se emplean muchos tipos de gráficas, de acuerdo a la naturaleza de los datos y el propósito que se tenga. Entre ellas están las gráficas de barras, las gráficas de pastel, etc.
39. Gráficas Ejemplo 1: La siguiente tabla muestra el número de una muestra de 100 estudiantes y sus intervalos de estatura de cierta universidad. Realizar: Una gráfica de barras horizontal. Un diagrama de barras vertical.
42. Gráficas Ejemplo 2: La siguiente tabla muestra el área de los cinco grandes lagos bajo jurisdicción de los Estados Unidos. Graficar los datos utilizando un diagrama de pastel.
43. Gráficas A la figura mostrada se le llama gráfica de pastel, gráfica circular ó diagrama circular. Para construirla, se hace corresponder el área total, 60178 millas cuadradas, equivalente a los 360o del círculo. De este modo, una milla cuadrada corresponde a 360o/60178. Se deduce que el Lago Superior, con 20557 millas cuadradas, ocupa un arco de 20557(360o/ 60178 = 123o), mientras que los lagos Michigan, Hurón, Erie y Ontario ocupan arcos de 134o, 53o, 30o y 20o respectivamente. Las líneas divisorias se pueden trazar usando un transportador o bien graficando en papel polar.