Estadística Inferencial
Una muestra tomada de una población sólo puede ser de valor mientras
nos permita formar un juicio sobre las condiciones y características de
la población a la que ésta pertence (Gosset, 1908).


 Los grandes consumidores de Coca Cola son:       Más Ricos
Más Sanos   Más Libres




                          ¿Le crees al
                         encabezado de
                         estas gráficas?
Introducción

Estadística: En el lenguaje común (por ejemplo en las crónicas deportivas) es
       stica
conocida como un conjunto de datos. Se refiere a un conjunto de métodos para
manejar la obtención, presentación y el análisis de observaciones numéricas. Sus
fines son: Describir al conjunto de datos obtenidos y tomar decisiones, o bien,
realizar generalizaciones acerca de las características de todas las posibles
observaciones bajo consideración.

La Estadística es una de las ramas de la matemática con más aplicaciones ya que
casi en cualquier rama del conocimiento humano tiene aplicación. Se considera
como su fundador a Godofredo Achenwall, profesor alemán (1719-1772), él y sus
seguidores estructuraron métodos estadísticos para estudiar las riquezas de las
naciones.
Existen muchas definiciones dependientes de sus aplicaciones, pero en el fondo
todas ellas coinciden de una u otra forma en el que la estadística “es un método
científico de operar con los datos y de interpretarlos”.
De la definición anterior pueden percibirse dos grandes áreas de acción de la
Estadística:

                  • Estadística Descriptiva
                  • Estadística Inferencial


Si tenemos la posibilidad de conocer a todos y cada uno de los integrantes de una
población a la cual queremos estudiar, entonces usaremos los métodos de la
Estadística Descriptiva, que incluye la obtención, organización, presentación y
            Descriptiva
descripción de la información numérica.

Pero si no nos es posible conocer a toda la población entonces tomaremos una
muestra de ella, la estudiaremos y se sacarán conclusiones que se extrapolarán a
toda la población, para lo que se usarán los métodos de la Estadística Inferencial.
                                                                       Inferencial
Estadística Descriptiva. Se refiere a aquella parte del estudio que incluye la
obtención, organización, presentación y descripción de la información numérica.

Estadística Inferencial. Es una técnica de la cual se obtienen generalizaciones o se
toman decisiones con base a información parcial o incompleta obtenida mediante
técnicas descriptivas.
Los conceptos básicos de Probabilidad y de distribuciones muestrales sirven como
introducción al método de Inferencia Estadística; esta se compone en dos áreas:
                                           stica



                • Pruebas de Hipótesis
                • Estimación


La estimación se encarga de buscar establecer los valores de los parámetros de la
población.

Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar
afirmaciones acerca de los parámetros de la población.

Los dos pasos anteriores se pueden resumir diciendo que el propósito es hacer
inferencias sobre la población a partir de una muestra y estmar la confianza con la
que estas inferencias pueden ser verdaderas.
Para poder entablar las bases de lo que conlleva un estudio estadístico necesitamos
algunas definiciones:

Población. Conjunto de todas las posibles observaciones. Sinónimo de Conjunto
Universal se le define como la totalidad de todas las posibles mediciones
observables, bajo consideración en una situación dada por determinado problema,
circunstancias diferentes implican situaciones diferentes.

Las Poblaciones se clasifican en función a su cardinalidad (cuantificación).
Población Finita. Es aquella que incluye un número limitado de medidas y
observaciones.
Población Infinita. Es aquella que por incluir un gran número de medidas y
observaciones no es posible determinar la cantidad de éstas.
En lo general, las características medibles de una población son denominadas
Parámetros.

Muestra. Es un conjunto de observaciones o medidas tomadas a partir de una
Muestra
población dada, es decir, es un subconjunto de la población. Desde luego, la
cardinalidad de la muestra depende de la cardinalidad de la población. Las muestras
deben ser representativas para evitar un sesgo u error.
A pesar de que puede existir una población de un tamaño específico
(generalmente grande), lo que tenemos a la mano es una parte de dicha
población, o sea, una muestra.
                      muestra
Cuando la estadística causa problemas:
                            problemas

Yule(1926) descubrió una relación positiva muy estrecha entre la tasa de
matrimonios realizados por la iglesia de Inglaterra y la tasa de mortalidad en el país.
En otro caso, se encontró una alta relación entre el número de ministros religiosos
ordenados y el número de nacimientos.




Ambos casos son resultado de estudios estadísticos serios
¿Podrías establecer que en verdad existiera una relación entre estas situaciones?
Repaso de Conceptos Básicos
 Sumatoria
 La sumatoria se denota con el símbolo            ∑
 Se usa para indicar una suma de términos, por ejemplo:

  n
 ∑ xi   = x1 + x 2 + x 3 + ... + x n
 i =1
         Ejemplo:
         si queremos sumar los siguientes valores:
              x1             x2              x3              x4              x5       x6
               3             2               4               2               1        3

                3                       3                               3
         a)    ∑ xi = x2 + x3          ∑ xi = 2 + 4                    ∑ xi = 6
               i=2                     i=2                             i=2


                6                                      n
         b)    ∑ xi = x1 + x2 + x3 + x4 + x5 + x6     ∑ xi        = 3+ 2+ 4+ 2+1+ 3
               i =1                                   i =1

               n
              ∑ xi    = 15
              i =1
Actividad 1 Calcular las siguientes sumatorias:
      7                            5                       4
a)   ∑ xi =                     b) ∑ 2 xi =             c) ∑ 3( xi − 4)
     i =1                         i =1                    i =1


      x1       x2          x3            x4       x5           x6          x7
     2.3      3.5         6.2            7.1      8.3      10.4           15.3
Distribución de frecuencias.
Cuando los datos son numerosos, es conveniente agruparlos para que la información sea
más fácil de interpretar. El primer tipo de agrupación se hace contando el número de
veces que se repite cada valor, a lo que se le llama frecuencia.


Ejemplo: Se midieron las estaturas en cm de las alumnas de 1° de Secundaria
y nos reportan los datos siguientes:




152 157 153 154 147 150 151 149 142 157 145 152 143 151 144 148 138 139 145
137 146 155 141 148 154 154 162 142 159 152 140 131 143 158 139 145 149 142
137 147 146 138 139 139 159 140 143 142 125 153 160 144 152 148 146 158 143
137 144 152 131 150 149 144 151 139 137 144 143 154 145 153 157 146 147 158
138 132 137 139 143 132 142 146 143 136 149 151 152 141 154 143 145 144 158
140 147 145 144 150 145 145 146 148 149 153 155 159
Actividad 2. Ordenar los datos anteriores y anotar sus frecuencias.
Con los datos anteriores se van a formar lo que se conoce como una Tabla de
Distribución de Frecuencias.
                Frecuencias
Tabla de Distribución de Frecuencias de las estaturas de las niñas de 1° de
                                      Secundaria
X         Frecuencia      X            Frecuencia    X          Frecuencia
125 /                  1 138 ///                  3 151 ////                4
126                    0 139 //// /               6 152 //// /              6
127                    0 140 ///                  3 153 ////                4
128                    0 141 //                   2 154 ////                5
129                    0 142 ////                 5 155 //                  2
130                    0 143 //// ///             8 156                     0
131 //                 2 144 //// //              7 157 ///                 3
132 //                 2 145 //// ///             8 158 ////                4
133                    0 146 //// /               6 159 ///                 3
134                    0 147 ////                 4 160 /                    1
135                    0 148 ////                 4 161                     0
136 /                  1 149 ////                 5 162 /                   1
137 ////               5 150 ///                  3
                                                     Suman            N = 108
Tabla de Distribución de Frecuencias de Datos Agrupados


Con una distribución de frecuencias podemos ya ver algunas características de los
datos, pero no podemos tener una visión integral de su comportamiento.
Para ello vamos a construir lo que se conoce como una tabla de distribución de
frecuencias de datos agrupados. Esto es agrupar datos en “clases”.
Un Intervalo o clase es un subconjunto de todos los datos enmarcado entre dos valores.
La Marca de clase se llama al valor intermedio del intervalo, es el que va a representar
a todos los valores que caigan en el intervalo.
Los datos anteriores pueden agruparse por intervalos de clases (pensemos en cajitas) e
indicar el número de datos que contiene cada clase (frecuencia), de la forma similar a
lo que hicimos en las gráficas de barras. A esta distribución se le llama distribución de
frecuencias agrupadas.
A continuación se dan algunas recomendaciones para construir este tipo de tabla

1. El número total de intervalos de clase no deberá ser menor que 6 ni mayor de 20
   para no perder la ventaja de visualización de los datos.

2. El número de intervalos deberá aproximarse a la raíz cuadrada del número total de
   datos

3. Los puntos medios o marcas de clase deberán tener el mismo número de dígitos de
   los datos en bruto

4. La longitud del intervalo deberá ser impar para que los extremos del intervalo no
   incluyan datos observados

5. Las marcas de clase deberán ser fáciles de manejar

6. La diferencia entre marcas de clase deberá ser constante e igual a la longitud del
   intervalo
Ahora, para hacer la agrupación de los datos se siguen los siguientes pasos:

1° se calcula el rango (R) que es la diferencia entre los valores extremos de los datos
             R = X sup − X inf
si éste no es entero se tiene que redondear al entero superior,

Ejemplo (las estaturas):     Si X sup = 162 y   X inf = 125 entonces R = 162 -125 = 37

2° Se elige el número de intervalos, debemos escoger el número de intervalos de clase
de preferencia entre 6 y 20. Podemos tener una buena idea del número adecuado de
intervalos aplicando la recomendación de que
                                                   n= N
Ejemplo: Si N =108, entonces n = 108 ≈ 10 , con lo que el intervalo quedaría con la
siguiente longitud
                             R 37
                        i=    =   = 3.7 ≈ 4
                             n 10
     pero como no es impar se tiene que cambiar el número de intervalos
37
Si usamos 9 intervalos, entonces i=    = 4.11 4 por lo que estaríamos en la misma
                                     9
situación (no es impar), y tenemos que buscar otro número de intervalos.
                                  37
Empleando 8 intervalos nos da i =    = 4.6 ≈ 5 y como es impar podemos usar éste
                                   8
número de intervalos.

3° Una vez que se decidió el número de intervalos y la longitud de éstos para empezar
a formarlos vemos cuál es el nuevo rango que nos da el número de intervalos
multiplicado por la longitud, siendo en el caso del ejemplo
                R = i ⋅ n = 5(8) = 40
con lo que tenemos 3 elementos más de los que teníamos originalmente (el Rango era
de 37) y debemos decidir cómo distribuirlos, preferiblemente de manera equilibrada, es
decir, en el caso del ejemplo podemos iniciar el conteo en 123 y terminar en 163

4° Para asegurarnos de que ningún dato queda en los extremos de los intervalos nos
moveremos media unidad.

Para el ejemplo entonces vamos a empezar en 122.5 y terminaremos en 162.5
Actividad 3. Construir una tabla con las características anteriores usando los datos de
las estaturas de niñas de secundaria.



       Intervalos de clase           Marca de clase                 Frecuencia
    Estaturas en centímetros                                         Alumnos
          122.5 -127.5                     126                          1
          127.5 -132.5                     131                          4
          132.5 -137.5                     136                          9
          137.5 -142.5                     141                          24
          142.5 -147.5                     146                          29
          147.5 -152.5                     151                          22
          152.5 -157.5                     156                          14
          157.5 -162.5                     161                          5
              Total                                                  N = 108
Histograma de Frecuencias

Se llama Histograma de frecuencias a la gráfica en la que en el eje de las abscisas se
grafican los intervalos y en el de las ordenadas se grafican las frecuencias.

Para nuestro ejemplo:
Histograma de Frecuencias de las Estaturas de las Niñas de 1° de Secundaria


                                         Alturas de alumnas de secundaria
                             35


                             30


                             25
                Frequencia




                             20

                             15


                             10


                             5


                             0
                                  125   130    135    140        145   150   155   160
                                                            C1
Polígono de Frecuencias

Se llama polígono de frecuencias a la poligonal que une los puntos medios de los
extremos superiores de las barras (marcas de clase) empezando en una marca de clase
antes y terminando una después. Muchas veces se grafican el histograma y el polígono
de frecuencia juntos, para lo cual se tiene que agregar a la tabla de distribución de
frecuencias agrupada la columna con las marcas de clase.

Polígono de Frecuencias de las Estaturas de las Niñas de 1° de Secundaria

                                        Alturas de alumnas de secundaria
                            35


                            30


                            25
               Frequencia




                            20

                            15


                            10


                            5


                            0
                                 125   130    135    140        145   150   155   160
                                                           C1
Medidas de tendencia central
Al ver las tablas de frecuencias se hizo evidente que algunos datos se repiten más que
otros, al ver las gráficas de frecuencias se puede observar fácilmente la tendencia a
repetirse los valores en vecindarios.
Por lo general la mayor densidad de datos se encuentra en la parte central de la gráfica
y cada que nos alejemos del centro va disminuyendo la frecuencia en que aparecen los
datos, de igualmente de ambos lados, formando una curva parecida a una campana, a
lo que se llama comportamiento “normal”.




En el ejemplo anterior se tiene un ligero sesgo positivo ( hacia la derecha), pero para
dar más sentido a estas observaciones y poder hacer comparaciones con otras
poblaciones se ideó que se pueden medir el promedio de una población, o el valor que
más se repite en ella, o el valor que queda al centro de nuestra población los que nos
pueden ayudar a ver que tan “normal” es nuestra distribución.
Podemos pensar que si estas tres medidas son muy parecidas entre sí, entonces la
población sí tiene un comportamiento normal, mientras más se alejen entre ellas, más
lejos de un comportamiento normal estará nuestra población.
Ahora veamos estas medidas que se conocen como medidas de tendencia central que
son la media aritmética, la mediana y la moda, vamos a ver cómo se diferencian para
datos agrupados o no. En datos no agrupados, las definiremos como:

Moda Es el valor del dato que más se repite
Mediana El valor que queda en la mitad de la muestra
Media Promedio aritmético de nuestros datos




Para el ejemplo:
Moda= en este caso 143 y 145 en los datos originales (se llama multimodal)
Mediana. n = N = 108 = 54 , por lo que la Mediana = 145 (se cuentan los datos hasta
             2    2                                     llegar al dato 54)
Media =
          x=
               ∑x   i
                        =
                            15805
                                  ≈ 146.34
               N             108
En datos agrupados (histograma) la moda es el valor (marca de clase) de la
barra más alta, en nuestro ejemplo, Moda = 145. Se localiza el valor de la Media
(146.3) y de la Mediana en el eje de las X (también 145 para el ejemplo).
Alturas de alumnas de secundaria
                                            Normal
            35                                                           Mean    146.3
                                                                         StDev   7.242
                                                                         N         108
            30

            25
Frequency




            20

            15

            10

            5

            0
                 125   130      135   140        145   150   155   160
                                            C1




                                                   Media

                                                 Moda

                                            Mediana
Actividad 4. Calcular la moda, la mediana y la media de los datos no agrupados que se
presentan a continuación
   Distribución de Frecuencias de la Duración en Servicio de los Profesores
   Universitarios
   Dato                 Dato               Dato                Dato
           Frecuencia        Frecuencia         Frecuencia            Frecuencia
     1.       1          11.        7       21.        2        31.         0
     2.       1          12.        7       22.        1        32.         1
     3.       1          13.        7       23.        1        33.         1
     4.       2          14.        4       24.        1        34.         1
     5.       1          15.        4       25.        5        35.         0
     6.       5          16.        4       26.        1        36.         0
     7.       5          17.        5       27.        0        37.         0
     8.       4          18.        5       28.        1        38.         1
     9.       5          19.        4       29.        1        39.         0
     10.      6          20.        2       30.        2        40.         1
                                                               Total     100
Moda:              son 11, 12 y 13 por lo que sería multimodal

                                    N 100
     Mediana:                 n=      =     = 50      Mediana = 13                         ¿Cómo calculas la
                                    2     2

     Media:                        x=
                                      ∑ xi = 150 = 15                                      media si tienes datos
                                        N    100
                                                                                           con frecuencias?
Actividad 5. Calcular la moda, la mediana y la media de los datos agrupados del
ejemplo anterior (9 intervalos)
                   Duración en Servicio de los Profesores Universitarios
                                             Normal
                                                                                            Moda = 10
              30                                                           Mean       15
                                                                           StDev   7.991       N 100
              25
                                                                           N         100    n= =      = 50 ,
                                                                                               2    2
              20
                                                                                             Mediana= 13
                                                                                                         ∑x
  Frequency




                                                                                                                     150
              15                                                                            Media: x =       i
                                                                                                                 =       = 15
                                                                                                         N           100
              10


              5


              0
                   0          10        20            30    40
                                             C1
                       Moda         Media

                               Mediana
Tarea 1. Calcular la Moda, Mediana y Media de los siguientes datos sin
agrupar y agrupados, y elaborar una tabla de distribución de frecuencias
acumuladas, un histograma y polígono de frecuencias.


 Tabla de Distribución de Frecuencias de distancias alcanzadas por pelotas
 de golf nuevas


Dato                 Dato               Dato               Dato
        Frecuencia         Frecuencia        Frecuencia          Frecuencia
223.7          1     239.9        1     256.3        1     269.6        1
224.4          1     243.6        1     256.5        1     271.4        1
226.9          1     247.2        1     258.8        1     278.7        1
232.3          1     248.3        1     260.4        1     294.1        1
232.7          1     249.2        1     264.3        1
233.5          1     252.8        1     265.1        1     Total           25
237.4          1     253.6        1     267.5        1

Estadistica InferenciaI

  • 1.
  • 2.
    Una muestra tomadade una población sólo puede ser de valor mientras nos permita formar un juicio sobre las condiciones y características de la población a la que ésta pertence (Gosset, 1908). Los grandes consumidores de Coca Cola son: Más Ricos
  • 3.
    Más Sanos Más Libres ¿Le crees al encabezado de estas gráficas?
  • 4.
    Introducción Estadística: En ellenguaje común (por ejemplo en las crónicas deportivas) es stica conocida como un conjunto de datos. Se refiere a un conjunto de métodos para manejar la obtención, presentación y el análisis de observaciones numéricas. Sus fines son: Describir al conjunto de datos obtenidos y tomar decisiones, o bien, realizar generalizaciones acerca de las características de todas las posibles observaciones bajo consideración. La Estadística es una de las ramas de la matemática con más aplicaciones ya que casi en cualquier rama del conocimiento humano tiene aplicación. Se considera como su fundador a Godofredo Achenwall, profesor alemán (1719-1772), él y sus seguidores estructuraron métodos estadísticos para estudiar las riquezas de las naciones.
  • 5.
    Existen muchas definicionesdependientes de sus aplicaciones, pero en el fondo todas ellas coinciden de una u otra forma en el que la estadística “es un método científico de operar con los datos y de interpretarlos”. De la definición anterior pueden percibirse dos grandes áreas de acción de la Estadística: • Estadística Descriptiva • Estadística Inferencial Si tenemos la posibilidad de conocer a todos y cada uno de los integrantes de una población a la cual queremos estudiar, entonces usaremos los métodos de la Estadística Descriptiva, que incluye la obtención, organización, presentación y Descriptiva descripción de la información numérica. Pero si no nos es posible conocer a toda la población entonces tomaremos una muestra de ella, la estudiaremos y se sacarán conclusiones que se extrapolarán a toda la población, para lo que se usarán los métodos de la Estadística Inferencial. Inferencial
  • 6.
    Estadística Descriptiva. Serefiere a aquella parte del estudio que incluye la obtención, organización, presentación y descripción de la información numérica. Estadística Inferencial. Es una técnica de la cual se obtienen generalizaciones o se toman decisiones con base a información parcial o incompleta obtenida mediante técnicas descriptivas.
  • 7.
    Los conceptos básicosde Probabilidad y de distribuciones muestrales sirven como introducción al método de Inferencia Estadística; esta se compone en dos áreas: stica • Pruebas de Hipótesis • Estimación La estimación se encarga de buscar establecer los valores de los parámetros de la población. Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar afirmaciones acerca de los parámetros de la población. Los dos pasos anteriores se pueden resumir diciendo que el propósito es hacer inferencias sobre la población a partir de una muestra y estmar la confianza con la que estas inferencias pueden ser verdaderas.
  • 8.
    Para poder entablarlas bases de lo que conlleva un estudio estadístico necesitamos algunas definiciones: Población. Conjunto de todas las posibles observaciones. Sinónimo de Conjunto Universal se le define como la totalidad de todas las posibles mediciones observables, bajo consideración en una situación dada por determinado problema, circunstancias diferentes implican situaciones diferentes. Las Poblaciones se clasifican en función a su cardinalidad (cuantificación). Población Finita. Es aquella que incluye un número limitado de medidas y observaciones. Población Infinita. Es aquella que por incluir un gran número de medidas y observaciones no es posible determinar la cantidad de éstas. En lo general, las características medibles de una población son denominadas Parámetros. Muestra. Es un conjunto de observaciones o medidas tomadas a partir de una Muestra población dada, es decir, es un subconjunto de la población. Desde luego, la cardinalidad de la muestra depende de la cardinalidad de la población. Las muestras deben ser representativas para evitar un sesgo u error.
  • 9.
    A pesar deque puede existir una población de un tamaño específico (generalmente grande), lo que tenemos a la mano es una parte de dicha población, o sea, una muestra. muestra
  • 10.
    Cuando la estadísticacausa problemas: problemas Yule(1926) descubrió una relación positiva muy estrecha entre la tasa de matrimonios realizados por la iglesia de Inglaterra y la tasa de mortalidad en el país. En otro caso, se encontró una alta relación entre el número de ministros religiosos ordenados y el número de nacimientos. Ambos casos son resultado de estudios estadísticos serios ¿Podrías establecer que en verdad existiera una relación entre estas situaciones?
  • 11.
    Repaso de ConceptosBásicos Sumatoria La sumatoria se denota con el símbolo ∑ Se usa para indicar una suma de términos, por ejemplo: n ∑ xi = x1 + x 2 + x 3 + ... + x n i =1 Ejemplo: si queremos sumar los siguientes valores: x1 x2 x3 x4 x5 x6 3 2 4 2 1 3 3 3 3 a) ∑ xi = x2 + x3 ∑ xi = 2 + 4 ∑ xi = 6 i=2 i=2 i=2 6 n b) ∑ xi = x1 + x2 + x3 + x4 + x5 + x6 ∑ xi = 3+ 2+ 4+ 2+1+ 3 i =1 i =1 n ∑ xi = 15 i =1
  • 12.
    Actividad 1 Calcularlas siguientes sumatorias: 7 5 4 a) ∑ xi = b) ∑ 2 xi = c) ∑ 3( xi − 4) i =1 i =1 i =1 x1 x2 x3 x4 x5 x6 x7 2.3 3.5 6.2 7.1 8.3 10.4 15.3
  • 13.
    Distribución de frecuencias. Cuandolos datos son numerosos, es conveniente agruparlos para que la información sea más fácil de interpretar. El primer tipo de agrupación se hace contando el número de veces que se repite cada valor, a lo que se le llama frecuencia. Ejemplo: Se midieron las estaturas en cm de las alumnas de 1° de Secundaria y nos reportan los datos siguientes: 152 157 153 154 147 150 151 149 142 157 145 152 143 151 144 148 138 139 145 137 146 155 141 148 154 154 162 142 159 152 140 131 143 158 139 145 149 142 137 147 146 138 139 139 159 140 143 142 125 153 160 144 152 148 146 158 143 137 144 152 131 150 149 144 151 139 137 144 143 154 145 153 157 146 147 158 138 132 137 139 143 132 142 146 143 136 149 151 152 141 154 143 145 144 158 140 147 145 144 150 145 145 146 148 149 153 155 159
  • 14.
    Actividad 2. Ordenarlos datos anteriores y anotar sus frecuencias. Con los datos anteriores se van a formar lo que se conoce como una Tabla de Distribución de Frecuencias. Frecuencias
  • 15.
    Tabla de Distribuciónde Frecuencias de las estaturas de las niñas de 1° de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 126 0 139 //// / 6 152 //// / 6 127 0 140 /// 3 153 //// 4 128 0 141 // 2 154 //// 5 129 0 142 //// 5 155 // 2 130 0 143 //// /// 8 156 0 131 // 2 144 //// // 7 157 /// 3 132 // 2 145 //// /// 8 158 //// 4 133 0 146 //// / 6 159 /// 3 134 0 147 //// 4 160 / 1 135 0 148 //// 4 161 0 136 / 1 149 //// 5 162 / 1 137 //// 5 150 /// 3 Suman N = 108
  • 16.
    Tabla de Distribuciónde Frecuencias de Datos Agrupados Con una distribución de frecuencias podemos ya ver algunas características de los datos, pero no podemos tener una visión integral de su comportamiento. Para ello vamos a construir lo que se conoce como una tabla de distribución de frecuencias de datos agrupados. Esto es agrupar datos en “clases”. Un Intervalo o clase es un subconjunto de todos los datos enmarcado entre dos valores. La Marca de clase se llama al valor intermedio del intervalo, es el que va a representar a todos los valores que caigan en el intervalo. Los datos anteriores pueden agruparse por intervalos de clases (pensemos en cajitas) e indicar el número de datos que contiene cada clase (frecuencia), de la forma similar a lo que hicimos en las gráficas de barras. A esta distribución se le llama distribución de frecuencias agrupadas.
  • 17.
    A continuación sedan algunas recomendaciones para construir este tipo de tabla 1. El número total de intervalos de clase no deberá ser menor que 6 ni mayor de 20 para no perder la ventaja de visualización de los datos. 2. El número de intervalos deberá aproximarse a la raíz cuadrada del número total de datos 3. Los puntos medios o marcas de clase deberán tener el mismo número de dígitos de los datos en bruto 4. La longitud del intervalo deberá ser impar para que los extremos del intervalo no incluyan datos observados 5. Las marcas de clase deberán ser fáciles de manejar 6. La diferencia entre marcas de clase deberá ser constante e igual a la longitud del intervalo
  • 18.
    Ahora, para hacerla agrupación de los datos se siguen los siguientes pasos: 1° se calcula el rango (R) que es la diferencia entre los valores extremos de los datos R = X sup − X inf si éste no es entero se tiene que redondear al entero superior, Ejemplo (las estaturas): Si X sup = 162 y X inf = 125 entonces R = 162 -125 = 37 2° Se elige el número de intervalos, debemos escoger el número de intervalos de clase de preferencia entre 6 y 20. Podemos tener una buena idea del número adecuado de intervalos aplicando la recomendación de que n= N Ejemplo: Si N =108, entonces n = 108 ≈ 10 , con lo que el intervalo quedaría con la siguiente longitud R 37 i= = = 3.7 ≈ 4 n 10 pero como no es impar se tiene que cambiar el número de intervalos
  • 19.
    37 Si usamos 9intervalos, entonces i= = 4.11 4 por lo que estaríamos en la misma 9 situación (no es impar), y tenemos que buscar otro número de intervalos. 37 Empleando 8 intervalos nos da i = = 4.6 ≈ 5 y como es impar podemos usar éste 8 número de intervalos. 3° Una vez que se decidió el número de intervalos y la longitud de éstos para empezar a formarlos vemos cuál es el nuevo rango que nos da el número de intervalos multiplicado por la longitud, siendo en el caso del ejemplo R = i ⋅ n = 5(8) = 40 con lo que tenemos 3 elementos más de los que teníamos originalmente (el Rango era de 37) y debemos decidir cómo distribuirlos, preferiblemente de manera equilibrada, es decir, en el caso del ejemplo podemos iniciar el conteo en 123 y terminar en 163 4° Para asegurarnos de que ningún dato queda en los extremos de los intervalos nos moveremos media unidad. Para el ejemplo entonces vamos a empezar en 122.5 y terminaremos en 162.5
  • 20.
    Actividad 3. Construiruna tabla con las características anteriores usando los datos de las estaturas de niñas de secundaria. Intervalos de clase Marca de clase Frecuencia Estaturas en centímetros Alumnos 122.5 -127.5 126 1 127.5 -132.5 131 4 132.5 -137.5 136 9 137.5 -142.5 141 24 142.5 -147.5 146 29 147.5 -152.5 151 22 152.5 -157.5 156 14 157.5 -162.5 161 5 Total N = 108
  • 21.
    Histograma de Frecuencias Sellama Histograma de frecuencias a la gráfica en la que en el eje de las abscisas se grafican los intervalos y en el de las ordenadas se grafican las frecuencias. Para nuestro ejemplo: Histograma de Frecuencias de las Estaturas de las Niñas de 1° de Secundaria Alturas de alumnas de secundaria 35 30 25 Frequencia 20 15 10 5 0 125 130 135 140 145 150 155 160 C1
  • 22.
    Polígono de Frecuencias Sellama polígono de frecuencias a la poligonal que une los puntos medios de los extremos superiores de las barras (marcas de clase) empezando en una marca de clase antes y terminando una después. Muchas veces se grafican el histograma y el polígono de frecuencia juntos, para lo cual se tiene que agregar a la tabla de distribución de frecuencias agrupada la columna con las marcas de clase. Polígono de Frecuencias de las Estaturas de las Niñas de 1° de Secundaria Alturas de alumnas de secundaria 35 30 25 Frequencia 20 15 10 5 0 125 130 135 140 145 150 155 160 C1
  • 23.
    Medidas de tendenciacentral Al ver las tablas de frecuencias se hizo evidente que algunos datos se repiten más que otros, al ver las gráficas de frecuencias se puede observar fácilmente la tendencia a repetirse los valores en vecindarios. Por lo general la mayor densidad de datos se encuentra en la parte central de la gráfica y cada que nos alejemos del centro va disminuyendo la frecuencia en que aparecen los datos, de igualmente de ambos lados, formando una curva parecida a una campana, a lo que se llama comportamiento “normal”. En el ejemplo anterior se tiene un ligero sesgo positivo ( hacia la derecha), pero para dar más sentido a estas observaciones y poder hacer comparaciones con otras poblaciones se ideó que se pueden medir el promedio de una población, o el valor que más se repite en ella, o el valor que queda al centro de nuestra población los que nos pueden ayudar a ver que tan “normal” es nuestra distribución. Podemos pensar que si estas tres medidas son muy parecidas entre sí, entonces la población sí tiene un comportamiento normal, mientras más se alejen entre ellas, más lejos de un comportamiento normal estará nuestra población.
  • 24.
    Ahora veamos estasmedidas que se conocen como medidas de tendencia central que son la media aritmética, la mediana y la moda, vamos a ver cómo se diferencian para datos agrupados o no. En datos no agrupados, las definiremos como: Moda Es el valor del dato que más se repite Mediana El valor que queda en la mitad de la muestra Media Promedio aritmético de nuestros datos Para el ejemplo: Moda= en este caso 143 y 145 en los datos originales (se llama multimodal) Mediana. n = N = 108 = 54 , por lo que la Mediana = 145 (se cuentan los datos hasta 2 2 llegar al dato 54) Media = x= ∑x i = 15805 ≈ 146.34 N 108 En datos agrupados (histograma) la moda es el valor (marca de clase) de la barra más alta, en nuestro ejemplo, Moda = 145. Se localiza el valor de la Media (146.3) y de la Mediana en el eje de las X (también 145 para el ejemplo).
  • 25.
    Alturas de alumnasde secundaria Normal 35 Mean 146.3 StDev 7.242 N 108 30 25 Frequency 20 15 10 5 0 125 130 135 140 145 150 155 160 C1 Media Moda Mediana
  • 26.
    Actividad 4. Calcularla moda, la mediana y la media de los datos no agrupados que se presentan a continuación Distribución de Frecuencias de la Duración en Servicio de los Profesores Universitarios Dato Dato Dato Dato Frecuencia Frecuencia Frecuencia Frecuencia 1. 1 11. 7 21. 2 31. 0 2. 1 12. 7 22. 1 32. 1 3. 1 13. 7 23. 1 33. 1 4. 2 14. 4 24. 1 34. 1 5. 1 15. 4 25. 5 35. 0 6. 5 16. 4 26. 1 36. 0 7. 5 17. 5 27. 0 37. 0 8. 4 18. 5 28. 1 38. 1 9. 5 19. 4 29. 1 39. 0 10. 6 20. 2 30. 2 40. 1 Total 100
  • 27.
    Moda: son 11, 12 y 13 por lo que sería multimodal N 100 Mediana: n= = = 50 Mediana = 13 ¿Cómo calculas la 2 2 Media: x= ∑ xi = 150 = 15 media si tienes datos N 100 con frecuencias? Actividad 5. Calcular la moda, la mediana y la media de los datos agrupados del ejemplo anterior (9 intervalos) Duración en Servicio de los Profesores Universitarios Normal Moda = 10 30 Mean 15 StDev 7.991 N 100 25 N 100 n= = = 50 , 2 2 20 Mediana= 13 ∑x Frequency 150 15 Media: x = i = = 15 N 100 10 5 0 0 10 20 30 40 C1 Moda Media Mediana
  • 28.
    Tarea 1. Calcularla Moda, Mediana y Media de los siguientes datos sin agrupar y agrupados, y elaborar una tabla de distribución de frecuencias acumuladas, un histograma y polígono de frecuencias. Tabla de Distribución de Frecuencias de distancias alcanzadas por pelotas de golf nuevas Dato Dato Dato Dato Frecuencia Frecuencia Frecuencia Frecuencia 223.7 1 239.9 1 256.3 1 269.6 1 224.4 1 243.6 1 256.5 1 271.4 1 226.9 1 247.2 1 258.8 1 278.7 1 232.3 1 248.3 1 260.4 1 294.1 1 232.7 1 249.2 1 264.3 1 233.5 1 252.8 1 265.1 1 Total 25 237.4 1 253.6 1 267.5 1