CLASE DÍA 24 DE SEPTIEMBRE DE 2009

•   Medidas de dispersión. La heterogeneidad, la variabilidad, la dispersión es muy
    importante, pues sin ella no hay nada que estudiar. Lo más basto que se podría
    estudiar de ella, el primer indicador de heterogeneidad, es el rango.
    Sin embargo, no gusta mucho porque es sensible a observaciones muy extremas. La
solución podría ser quedarnos con el rango intercuartílico, que propone quitar los
extremos más aberrantes, el 25% de cada extremo. Entonces:

          Q1           Q2=Me                       Q3
          25%              50%               25%
    0                                                   36218

                     RI= Q3 - Q1

    Aún no representa mucho. Para medir la heterogeneidad podríamos calcular la
media y luego ver cada dato cuánto se aleja de ella. Después, sumar las desviaciones.
Pero tampoco nos resulta eficaz porque siempre nos dará resultado cero.
    Otra forma de calcular la dispersión sería la Desviación Absoluta Media (DAM):
             ∑ │PESO ─ μ│
    DAM=
                   N
    La manera que utilizamos en clase fue otra. Los valores negativos de la desviación
(peso-media en el ejemplo de los pesos) desaparecen elevando la cantidad al cuadrado.
Además, penaliza las grandes desviaciones. Después, se haría la media, el promedio de
la suma del cuadrado de las desviaciones de las observaciones, la varianza. El
problema es que el resultado obtenido vendría dado en unidades2, como kg2, luego para
eliminar esas magnitudes sacaríamos la raíz cuadrada. Esto sería la desviación
estándar. Visualizado en fórmulas:

        VARIANZA (σ2):                        DESVIACIÓN ESTÁNDAR (σ):

                                              √σ2= σ




   Es imposible tener una varianza negativo porque la suma al cuadrado será siempre
positiva. Si la varianza fuera cero, todos los datos serían iguales.
                                       σ
   El coeficiente de variación será:
                                       µ
• Hemos hecho en R el ejercicio de todo esto. Primero se le indica al programa los
   valores que vamos a darle al conjunto con el que vamos a trabajar (ej.: pes<-
   c(50,60,38,12)), luego calculábamos la media, la diferencia entre esas dos
   magnitudes (la desviación), lo elevábamos al cuadrado…
• Por último, vimos la paradoja de Simpson o efecto Yule-Simpson con ejemplos
   como el de la universidad que, aparentemente, discriminaba chicas y con el de los
   jugadores de béisbol. Recuerdo las tablas:
   ∗ Primer ejemplo: las solicitudes aceptadas y rechazadas en dos departamentos.
Dept A                                              Dept B

              Aceptado Rechazado                                Aceptado       Rechazado
Hombres        250 50% 250 50%                      Hombres       1 10%           9 90%

Mujeres           9   90%        1 10%              Mujeres      100 20%         400 80%

Total

                Aceptado            Rechazado
Hombres         251     49%          259    51%                     510

Mujeres         109       21%        401      79%                   510



Los hombres solicitan en Dpto A. Las mujeres solicitan más en Dpto B. El Dpto A tiene
muchas más tasa de aceptación.

Como los hombres tienden a ir al Dpto A, donde la tasa de admisión es mayor, parece
que hay discriminación hacia la mujer.

     ∗   Segundo ejemplo: números de veces que se le lanza la pelota al jugador de
         béisbol y número de veces que acierta a darle.

                       1995                                        1996
            Lanzamientos Bateos %                       Lanzamientos Bateos %
Derek                 12     48 25,0%                            183    582 31,4%

David              104   411 25,3%                              45   140 32,1%
           DAVID MEJOR QUE DEREK                        DEREK MEJOR QUE DAVID

            1995-1996
    Lanzamientos Bateos  %
             195    630 31,0%

        149  551 27,0%
DEREK MEJOR QUE DAVID

En 1995 (mala temporada) David jugó mucho y en 1996 fue Derek quién jugó más.

•    Empezamos el tema tres, estadística descriptiva para dos variables cualitativas.
     Ejemplo: género y aceptación de las solicitudes. Se hace un análisis de tablas de
     contingencia para ver si las variables tienen relación entre ellas o si cada una va por
     su lado. El ejercicio planteado era si tenía alguna relación la clase social con el
     barrio donde se vive.

Clase 24/04/09

  • 1.
    CLASE DÍA 24DE SEPTIEMBRE DE 2009 • Medidas de dispersión. La heterogeneidad, la variabilidad, la dispersión es muy importante, pues sin ella no hay nada que estudiar. Lo más basto que se podría estudiar de ella, el primer indicador de heterogeneidad, es el rango. Sin embargo, no gusta mucho porque es sensible a observaciones muy extremas. La solución podría ser quedarnos con el rango intercuartílico, que propone quitar los extremos más aberrantes, el 25% de cada extremo. Entonces: Q1 Q2=Me Q3 25% 50% 25% 0 36218 RI= Q3 - Q1 Aún no representa mucho. Para medir la heterogeneidad podríamos calcular la media y luego ver cada dato cuánto se aleja de ella. Después, sumar las desviaciones. Pero tampoco nos resulta eficaz porque siempre nos dará resultado cero. Otra forma de calcular la dispersión sería la Desviación Absoluta Media (DAM): ∑ │PESO ─ μ│ DAM= N La manera que utilizamos en clase fue otra. Los valores negativos de la desviación (peso-media en el ejemplo de los pesos) desaparecen elevando la cantidad al cuadrado. Además, penaliza las grandes desviaciones. Después, se haría la media, el promedio de la suma del cuadrado de las desviaciones de las observaciones, la varianza. El problema es que el resultado obtenido vendría dado en unidades2, como kg2, luego para eliminar esas magnitudes sacaríamos la raíz cuadrada. Esto sería la desviación estándar. Visualizado en fórmulas: VARIANZA (σ2): DESVIACIÓN ESTÁNDAR (σ): √σ2= σ Es imposible tener una varianza negativo porque la suma al cuadrado será siempre positiva. Si la varianza fuera cero, todos los datos serían iguales. σ El coeficiente de variación será: µ • Hemos hecho en R el ejercicio de todo esto. Primero se le indica al programa los valores que vamos a darle al conjunto con el que vamos a trabajar (ej.: pes<- c(50,60,38,12)), luego calculábamos la media, la diferencia entre esas dos magnitudes (la desviación), lo elevábamos al cuadrado… • Por último, vimos la paradoja de Simpson o efecto Yule-Simpson con ejemplos como el de la universidad que, aparentemente, discriminaba chicas y con el de los jugadores de béisbol. Recuerdo las tablas: ∗ Primer ejemplo: las solicitudes aceptadas y rechazadas en dos departamentos.
  • 2.
    Dept A Dept B Aceptado Rechazado Aceptado Rechazado Hombres 250 50% 250 50% Hombres 1 10% 9 90% Mujeres 9 90% 1 10% Mujeres 100 20% 400 80% Total Aceptado Rechazado Hombres 251 49% 259 51% 510 Mujeres 109 21% 401 79% 510 Los hombres solicitan en Dpto A. Las mujeres solicitan más en Dpto B. El Dpto A tiene muchas más tasa de aceptación. Como los hombres tienden a ir al Dpto A, donde la tasa de admisión es mayor, parece que hay discriminación hacia la mujer. ∗ Segundo ejemplo: números de veces que se le lanza la pelota al jugador de béisbol y número de veces que acierta a darle. 1995 1996 Lanzamientos Bateos % Lanzamientos Bateos % Derek 12 48 25,0% 183 582 31,4% David 104 411 25,3% 45 140 32,1% DAVID MEJOR QUE DEREK DEREK MEJOR QUE DAVID 1995-1996 Lanzamientos Bateos % 195 630 31,0% 149 551 27,0% DEREK MEJOR QUE DAVID En 1995 (mala temporada) David jugó mucho y en 1996 fue Derek quién jugó más. • Empezamos el tema tres, estadística descriptiva para dos variables cualitativas. Ejemplo: género y aceptación de las solicitudes. Se hace un análisis de tablas de contingencia para ver si las variables tienen relación entre ellas o si cada una va por su lado. El ejercicio planteado era si tenía alguna relación la clase social con el barrio donde se vive.