2. Medidas de dispersión Hasta ahora hemos caracterizado una distribución de datos con índices de tendencia central (p.e. media, mediana) Sin embargo, dos conjuntos de datos pueden tener la misma media, y ser distintos. Por ejemplo, alguien puede tener una media de 5 con los siguientes datos (5, 4, 6, 5, 5) y otro tener una media de 5 con los datos (10, 0, 5, 9, 1). Por tanto para conseguir una visión completa de los datos hay que complementar las medidas de tendencia central (media y mediana) con otras que nos hablen de cuánto se parecen o no los datos entre sí. Esto es las medidas de variabilidad o dispersión
3. Medidas de dispersión Los índices (estadísticos) de variabilidad tienen en común dos cosas: hacen referencia a un punto central (la media o bien la mediana) y que utilizan para saber cuánto se alejan las puntuaciones de dicho punto. son básicamente no negativos, puesto que expresan una determinada variabilidad, o en todo caso, la ausencia de variabilidad, con valor cero.
4. Medidas de dispersión Con objeto de ilustrar el sentido de los índices de dispersión, veamos las tres distribuciones siguientes: ¿cómo son las distribuciones en función de lo que nos dice la media? Pero ¿y su variabilidad?
5. Medidas de dispersión Una forma de cuantificar la dispersión es tomar un punto de anclaje, observando cuanto se alejan las puntuaciones con respecto a ese punto. Como sabemos, la media es el punto de la variable que menores diferencias establece con cualquier valor de esta. Por tanto, tomamos como punto de anclaje la media y obtenemos las puntuaciones de desviación de las tres distribuciones anteriores: ¿Qué observamos ahora con respecto a la variabilidad de las muestras?
6. Medidas de dispersión ¿Cómo podemos medir la variabilidad? Una primera estrategia sería emplear la fórmula El problema es que siempre vale cero.... Una segunda estrategia es emplear valores absolutos Esta es la llamada “Desviación Media”, cuyo problema es el uso de valores absolutos. ¿Qué nos queda, pues? Emplear la suma de diferencias al cuadrado....Es el primer paso para la varianza
7. Medidas de dispersión Varianza Es la media de las puntuaciones de desviación al cuadrado o, dicho de otra forma, la media de las diferencias (al cuadrado) de n puntuaciones con respecto a su media aritmética. En realidad todas las calculadoras y programas informáticos de análisis de datos utilizan una variante de la fórmula anterior dado el carácter de sesgo que tiene la varianza muestral.
8. Medidas de dispersión Desviación típica La desviación típica no es más que la raíz cuadrada de la varianza. Una ventaja obvia de la desviación típica sobre la varianza es que la desviación típica viene dada en las mismas unidades de medida que los datos originales (en la varianza las unidades están al cuadrado).
9. Medidas de dispersión Ejemplo cálculo de la varianza y la desviación típica La varianza sería… La desviación típica sería…
10. Medidas de dispersión Propiedades de la Varianza y Desviación Típica: La varianza y la desviación típica son sensibles a la variación de cada una de las puntuaciones. Tanto una como otra son valores positivos. No puede existir varianza negativa y por tanto desviaciones típicas negativas. Si sumamos una constante a un conjunto de puntuaciones su varianza permanece inalterable.
11. Medidas de dispersión Si multiplicamos una constante a un conjunto de puntuaciones la nueva varianza será la antigua por el cuadrado de la constante. La desviación típica será la antigua por el valor absoluto de la constante multiplicada. En el caso de la desviación típica será:
12. Medidas de dispersión Dados k grupos con n1, n2, ..., nk observaciones con medias , ,..., y con varianzas , ,...., Se demuestra que la varianza del total de las n1+n2+...+nk= n observaciones es igual a la media ponderada de las varianzas parciales más la varianza ponderada de las medias parciales. Esta propiedad adquiere un sentido muy importante en la técnica llamada Análisis de Varianza (ANOVA). La idea es que la varianza total se puede descomponer en un componente intra-grupo (primer sumando) y un componente entre-grupos (segunda sumando).
14. Medidas de dispersión Amplitud total (AT) o rango Es la diferencia entre los valores extremos Su ventaja es la sencillez de cálculo; el problema es que es únicamente sensible a los valores extremos (e insensible a los intermedios). Desviación media (DM) El problema del empleo de la DM es la dificultad que tiene trabajar con valores absolutos. La DM es poco frecuente encontrarla en la práctica.
15. Medidas de dispersión Amplitud semiintercuartil(Q): Se define como la semidistancia entre los Q3 y Q1. Esto lo convierte en un estadístico resistente. Es la medida adecuada para variables ordinales. Tiene dos utilidades. La primera se da cuando en las puntuaciones hay algún valor extremo que pudiera distorsionar la representatividad de la varianza. La segunda es la selección de ítems en escalas de actitudes, conociéndose también como coeficiente de ambigüedad. Se dice que un ítem es ambiguo cuando presenta diversidad de reacciones o respuestas y se mide por el índice de amplitud semi-intercuartil.
16. Medidas de dispersión Coeficiente de variación Cociente entre la desviación típica y la media. Expresado en porcentaje, nos sirve para comparar la variabilidad de dos o más grupos o incluso de dos o más variables medidas en un mismo grupo: 1. Es un valor abstracto. 2. Mide la representatividad de la media: Cuanto mayor es el C.V., menos representativa es la media. 3. Su única aplicación es la comparación entre distintas dispersiones. 4. Se recomienda ofrecerlo junto a la desviación típica y la media a partir de las cuales se ha calculado.
17. Medidas de dispersión ¿Cómo ver la variabilidad en un gráfico? Uno de los gráficos más ilustrativos para observar la variabilidad de los datos es el diagrama de caja y bigotes. La caja viene definida por el primer cuartil (P25) y el tercer cuartil (P75), con la mediana (P50) también indicada. p.e. Se examinan ciertas características cognitivas en una tarea de decisión léxica en un grupo de pacientes afásicos y pacientes controles. Lo que se medía era un índice de cuán conservador eran las personas en la tarea (“boundaryseparation”) un índice correspondiente a procesos “no-decisionales” (“non-decisioncomponent”). un índice correspondiente a la calidad de información (“driftrate)
18. Medidas de dispersión La Mediana es el trazo grueso dentro de las cajas (entre los cuartiles primero y tercero). Las puntuaciones “atípicas” están presentadas individualmente (ver que hay dos tipos de datos atípicos). Observad que los controles son claramente diferentes a los pacientes en “boundaryseparation” y en el “non-decisioncomponent”, mientras que hay bastante más solapamiento en la “calidad de información”.