1. ¿Por qué no hay datos atípicos?
Prueba de Grubbs
La sección final de la salida muestra los resultados de una o más pruebas
formales para valores atípicos:
La primera prueba se debe a Grubbs y se calcula si n ≥ 3. También llamada
Prueba de la
Desviación Estudentizada Extrema (ESD), se basa en el mayor valor
Estudentizado (sin
eliminación) tmax. El estadístico de prueba T se calcula de acuerdo con:
Se obtiene un valor aproximado de P de dos colas calculando la probabilidad de
exceder |T|
basada en una distribución t de Student con n - 2 grados de libertad y
multiplicando el resultado por 2n. Un pequeño valor de P lleva a la conclusión de
que ese punto más extremo es de hecho un valor atípico. Para pequeñas
muestras, uno puede en cambio remitirse a Iglewicz y Hoaglin (1993) quienes
dan valores al 5% y 1% para tmax en el Apéndice A de su monografía, así como
para una prueba generalizada que involucre r > 1 valores atípicos potenciales.
En los mismos datos, la fila 15 es el punto más extremo, con un valor
Estudentizado igual a casi 3.5. Ya que el valor de P es menor que 0.05, ese
punto puede ser declarado como valor atípico estadísticamente significativo a
un nivel de confianza del 5%. Esta conclusión se hace sujeta al supuesto de la
prueba de Grubbs de que todas los demás valores de los datos provienen de una
distribución normal.
Prueba de Dixon
2. Para muestras pequeñas con 4 ≤ n ≤ 30, también se realiza la prueba de Dixon.
Esta prueba
comienza ordenando los valores de los datos de menor a mayor. Sea x(j) el j-
ésimo valor más pequeño de los datos, las estadísticas se calculan entonces
para probar 5 situaciones potenciales:
Situación 1: 1 valor atípico a la derecha. Calcule:
Situación 2: 1 valor aberrante a la izquierda. Calcule:
Situación 3: 2 valores aberrantes a la derecha. Calcule:
Situación 4: 2 valores aberrantes a la izquierda. Calcule:
Situación 5: 1 valor aberrante en cualquiera de los dos lados. Calcule:
El estadístico calculado r se compara entonces con valores críticos en tablas
tales como el
Apéndice A.3 de Iglewicz y Hoaglin (1993). Para cada prueba, STATGRAPHICS
indica si el resultado es o no estadísticamente significativo a los niveles de 5%
y 1%. Un resultado
significativo indica la presencia de la situación hipotética.
3. Como se determina si una muestra tiene valores atípicos
Un valor atípico es una observación o un subgrupo de observaciones que no coinciden
con el resto de los datos. Estos valores se identifican ya sea por ser extremadamente
grandes o extremadamente pequeños con respecto al cuerpo principal de datos. Si el
conjunto de datos se expresa visualmente en un gráfico, los valores atípicos se ubican
“distantes” a los otros valores.
Ejemplo: Vamos a tomar un conjunto de datos
que representa las temperaturas de 12
objetos diferentes en un cuarto. Si 11 de los
objetos tienen temperaturas cercanas a 70
grados Fahrenheit (21 grados Celsius), pero el
duodécimo objeto, un horno, tiene una
temperatura de 300 grados Fahrenheit (150
grados Celsius), una observación rápida te
indicará que probablemente el horno sea un
valor atípico.
Ordena los datos de menor a
mayor. El primer paso para calcular
los valores atípicos en un conjunto de
datos es encontrar el valor de la
mediana (del medio) del conjunto de
datos. Esta tarea se simplifica mucho
si los valores del conjunto de datos
están en orden de menor a mayor. Por eso,
antes de continuar, ordena los valores del
conjunto de datos de esta forma. Calcula la
mediana del conjunto de datos. La mediana
del conjunto de datos es el dato por sobre el
cual se encuentra la mitad de los datos y por
debajo del cual se encuentra la otra mitad de
los datos; básicamente, es el valor “en el
medio” del conjunto de datos.
Calcula el primer cuartil. Este valor, al
4. cual le asignaremos la variable Q1, es el dato debajo del cual se encuentra el 25 por
ciento (o un cuarto) de los valores. En otras palabras, este el dato que está en el
medio de los datos del conjunto de datos que se encuentra por debajo de la mediana.
Si hay un número par de valores por debajo de la mediana, debes promediar
nuevamente los dos valores en el medio para hallar Q1, como tal vez
tuviste que hacerlo para encontrar la
mediana misma.En nuestro ejemplo, 6
datos se encuentran sobre la mediana y
6 datos por debajo de esta. Eso
significa que para hallar el primer
cuartil, vamos a tener que promediar
los datos en el medio de los seis datos
menores, Los datos 3 y 4 son 70. . Por
lo tanto, su promedio es ((70 + 70) / 2),
= 70. 70 será nuestro valor para Q1.
Calcula el tercer cuartil. Este valor, al cual le
asignaremos la variable Q3, es el dato sobre el
cual se encuentra el 25 por ciento de los valores.
El método para hallar Q3 es casi idéntico al usado
para hallar Q1, con la diferencia de que en este
caso se consideran los datos sobre la mediana, en
vez los que se encuentran por debajo de esta.
Siguiendo con nuestro ejemplo, los dos valores en
el medio de los seis datos sobre la mediana son 71
y 72. Al promediar estos dos valores obtenemos ((71 + 72) / 2), = 71,5. 71,5
será nuestro valor para Q3.
Halla los “límites internos” del
conjunto de datos. Los valores
atípicos se identifican al evaluar si se
encuentran o no dentro de unos
límites numéricos llamados “límites
internos” y “límites externos”. Un
valor que se encuentra por fuera de
los límites internos del conjunto de
datos se llama valor atípico leve, y uno
que se encuentra por fuera de los
límites externos se llama valor atípico
extremo. Para encontrar los límites internos del conjunto de datos, primero, multiplica
el rango intercuartil por 1,5. Luego, suma el resultado a Q3 y réstaselo a Q1. Los dos
valores que obtendrás de resultado son los límites internos del conjunto de datos.
En nuestro ejemplo, el rango intercuartil es (71,5 -70) o 1,5. Multiplicando esto por 1,5
obtenemos 2,25. Le sumamos este número a Q3 y se lo restamos a Q1 para encontrar
los límites internos como se ve a continuación:
71,5 + 2,25 = 73,75
5. 70 – 2,25 = 67,75
Por lo tanto, los límites internos son 67,75 y 73,75.
En nuestro conjunto de datos, solamente la temperatura del horno (300
grados) se encuentra por fuera de este rango y por lo tanto podría llegar a ser un
valor atípico leve. Sin embargo, todavía tenemos que determinar si esta temperatura
es un valor atípico extremo, por eso no saquemos conclusiones hasta que lo hayamos
hecho.
Halla los “límites externos” del conjunto
de datos. Estos se calculan de la misma
forma que los límites internos, excepto que
el rango intercuartil se multiplica por 3 en
vez de por 1,5. Luego el resultado se le suma
a Q3 y se le resta a Q1 para hallar los
límites superiores e inferiores externos.
En nuestro ejemplo, al multiplicar el rango
intercuartil mencionado por tres obtenemos
(1,5 * 3) o 4,5. Hallamos los límites externos
superior e inferior al igual que antes:
71,5 + 4,5 = 76
70 – 4,5 = 65,5
Los límites externos son 65,5 y 76.
Cualquier dato que se encuentre por fuera de los límites externos se considera
un valor atípico extremo. En este ejemplo la temperatura del horno, 300 grados, se
encuentra muy por afuera de los límites externos por lo tanto es definitivamente un
valor muy atípico.
6. ¿Qué es grados de libertad?
Los grados de libertad son una cantidad que permite introducir una corrección
matemática en los cálculos estadísticos para restricciones impuestas en los
datos. Un caso común en estadística es el cálculo de la varianza, donde aparece
en el denominador de dicho cálculo una cantidad denominada grados de
libertad, no del todo distinta de la cantidad de datos que se procesan.
Grados de libertad es un estimador del número de categorías independientes
en un test particular o experimento estadístico. Se encuentran mediante la
fórmula n-1, donde n=número de sujetos en la muestra (también pueden ser
representados por k-1 donde k=número de grupos, cuando se realizan
operaciones con grupos y no con sujetos individuales).
El número de grados de libertad es usado para medir qué tan exacta es la
muestra de la población usada en la investigación para representar a la
población por entero. Mientras más grados de libertad, más seguros podemos
estar de que la población por entero ha sido muestreada correctamente. Los
grados de libertad con frecuencia se representan en estadística con la letra
griega nu.