Diagrama de cajas y datos atípicos

Diagrama de cajas y datos atípicos
El diagrama de cajas es una representación gráfica de un conjunto de datos que
facilita la percepción visual de su localización, extensión y del grado y la dirección
del sesgo; también permite identificar datos atípicos. Es especialmente útil cuando
se desean comparar 2 ó más conjuntos de datos.
Pasos para construir un diagrama de caja:
1. Construir una escala de referencia horizontal o vertical
2. Calcular los cuartiles Q1, Q2 y Q3
3. Construir una caja o rectángulo sobre la escala usando como límites los
valores de Q1 y Q3. (el ancho es discrecional)
4. Dibujar la mediana (Q2) con una línea interior dentro de la caja
5. Calcular el rango intercuartil RI = Q3 – Q1.
6. Determinar los límites f1 y f2 a partir de los cuales se considera que un dato es
un valor atípico:
f1 = Q1 – 1,5*RI
f2 = Q3 + 1,5*RI
Escala de medida
de la variable
Q1 Q3
Q1 Q3Q2

7. Determinar los límites F1 y F2 a partir de los cuales se considera que un dato
es un valor extremo:
F1 = Q1 – 2*(1,5*RI)
F2 = Q3 + 2*(1,5*RI)
8. Ubicar estos límites en el eje
9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2]
se consideran valores atípicos.
10. Los datos mayores que F2 y/o menores que F1 se consideran valores
extremos.
11. Si no hay valores atípicos ni extremos, se extiende una línea desde los
extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea
se llama bigote.
f2f1 F2F1 Q1 Q3Q2
Valores
extremos
Valores
atípicos
Valores
atípicos
f2f1 F2F1 Q1 Q3Q2
Valores
extremos
f2f1 F2F1 Q1 Q3Q2mín máx

12. Cuando hay valores atípicos y/o extremos, los bigotes se extienden hasta el
valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores
atípicos se marcan con un círculo pequeño (○) y los valores extremos con un
asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se
observan 2 valores atípicos y un valor extremo:
13. La ubicación de la media se representa con una x
En general, un diagrama de caja se puede observar lo siguiente:
✓ El 50% de los datos estarán concentrados dentro de la caja, entre el
primer y tercer cuartil.
✓ La localización de la línea central de la caja, que es la mediana, es una
indicación de la forma de la distribución. Si la línea está descentrada,
sabremos que la distribución está sesgada en la dirección de extremo
más largo de la caja, así se indica en los siguientes 2 diagramas:
f2f1 F2F1 Q1 Q3Q2
f2f1 F2F1 Q1 Q3Q2
sesgo
f2f1 F2F1 Q1 Q3Q2

✓ Cuando se grafican 2 diagramas de caja sobre el mismo eje se puede
hacer una comparación visual de la dispersión, el sesgo y la asimetría
entre los dos conjuntos de datos. Los valores de los cuartiles.
✓ Los cuartiles y valores límites para los datos atípicos y extremos no se
marcan en el eje, esto se hizo como un medio didáctico.
Ejemplo 1: Observemos los siguientes diagramas de caja:
• El grupo II es más simétrico y menos disperso (o más homogéneo) que
el grupo I, pues la barra central de la mediana está en el centro, los
bigotes tienen aproximadamente la misma longitud y la media y la
mediana coinciden en su valor. Estas son las características visuales
más representativas de una distribución simétrica.
• El grupo I es más disperso que el grupo II, esto se observa por su caja
que es más larga; por otro lado, presenta un sesgo a la izquierda y un
valor atípico y otro extremo también la izquierda, lo que influye sobre
la media colocándola a la izquierda de la mediana.
f2f1 F2F1 Q1 Q3Q2
sesgo
Grupo I
Grupo II

Tratamiento de los valores atípicos
Puede demostrarse que si los datos vienen de una distribución normal (simétrica)
sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos
valores son muy inusuales o poco probables, se consideran datos atípicos.
Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene
un impacto crucial sobre los estadísticos como la media, la varianza, la desviación
típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión.
Cuando se encuentra un dato atípico deberá considerarse su origen,
¿es un dato legítimo cuyo valor, inusualmente, es grande o pequeño?
¿es un valor mal registrado?
¿es el resultado de un error o accidente en la experimentación?
En los dos últimos casos puede borrarse el punto del conjunto de datos y
completarse el análisis con los datos restantes. En el primer caso se sugiere que se
dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el
dato atípico. De esta forma el investigador, que es el experto en la materia, puede
tomar la decisión de incluir o no el dato atípico en futuros análisis.
Ejemplo 2. A continuación se muestran las edades de un grupo de pacientes en un
día de consulta en de la unidad de nefrología de cierto hospital. Hacer el diagrama
de caja para los datos.
20 50 55 58 59 60 62 63 65 68 75
Calculamos los cuartiles y los límites para valores atípicos y extremos, así:
Q1 = 55; Q2= 60; Q3= 65; RI =10
Valores atípicos
Datos entre F1 y f1 entre 25 y 40: No hay datos
Datos entre f2 y F2 entre 80 y 95: No hay datos
f1 = Q1 - 1,5*RI = 55 +1,5*10 = 40
f2 = Q3 + 1,5*RI = 65 +1,5*10 = 80
F1 = Q1 - 2*(1,5*RI) = 55 +3*10 = 25
F2 = Q3 + 2*(1,5*RI) = 65 +3*30 = 95

Valores extremos
Datos menores que F1 menor que 25: hay 1 dato: 20
Datos mayores que F2 mayor que 95: no hay datos
Hay un paciente de 20 años en la consulta de nefrología, esto representa un valor
extremo para este grupo particular de datos, es decir, de edades en este grupo de
pacientes, por lo tanto, el bigote izquierdo se extiende hasta el valor más cercano a
f1, esto es 50 y el bigote derecho hasta el valor máximo de los datos que es 75, pues
a la derecha no hay valores atípicos ni extremos.
La media es 56,8 y se marca a la izquierda de la mediana, esto era de esperarse pues
los datos están sesgados a la izquierda.
El diagrama de caja para la edad del grupo de pacientes de la consulta de nefrología
se muestra a continuación:
En los paquetes (programas) estadísticos el diagrama de caja suele presentarse con
el eje de datos en forma vertical. A continuación, se muestra la gráfica obtenida con
el programa Excel para el ejemplo anterior, observe que el valor extremo en este
programa es simbolizado por un pequeño círculo (◦) en lugar de un asterisco (*).
25 353020
*
40 8580757050
f2f1
F2F1
55 656045 95
X Edad

Ejemplo 3.
En un estudio de la eficacia de 2 medicamentos para la diabetes tipo II se
tomaron 16 pacientes diabéticos en condiciones similares, se dividieron en 2
grupos al azar y a cada uno se le administró un tratamiento distinto, al primer
grupo el tratamiento I y al segundo grupo el tratamiento II. Al cabo de 1 mes
de tratamiento se les tomaron muestras de sangre y se midió la glicemia, los
resultados se muestran en la tabla 1. Se pide comparar los 2 grupos de
tratamiento mediante los diagramas de caja:
Tabla 1. Glicemia en sangre (mg/dl) en 2 grupos pacientes diabéticos tipo II
medicados con 2 tratamientos concentraciones distintas de metformina
Tratamiento I 90 95 77 98 100 110 120 130
Tratamiento II 90 100 102 110 115 120 140 200
Para el grupo del tratamiento I:
Q1 = 96; Q2= 99; Q3= 115; RI =11
f1 = Q1 - 1,5*RI = 96 +1,5*11 = 79,5
f2 = Q3 + 1,5*RI = 115 +1,5*11 = 131,5
F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63
F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148
𝑋̅1 = 105
Valores atípicos
Datos entre F1 y f1 entre 63 y 79,5: No hay datos
Datos entre f2 y F2 entre 131,5 y 148: No hay datos
Valores extremos
Datos menores que F1 menor que 63: no hay datos
Datos mayores que F2 mayor que 140: no hay datos

Como no hay valores atípicos ni extremos, el bigote izquierdo se extiende
hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el
máximo de los datos 130, el diagrama queda entonces así:
En el diagrama se observa un sesgo de los datos hacia la derecha
Para el grupo del tratamiento II:
Q1 = 101; Q2= 113; Q3= 130; RI = 29
f1 = Q1 - 1,5*RI = 101 +1,5*29 = 57,5
f2 = Q3 + 1,5*RI = 130 +1,5*29 = 173,5
F1 = Q1 - 2*(1,5*RI) = 101 +3*29 = 14
F2 = Q3 + 2*(1,5*RI) = 130 +3*29 = 217
𝑋̅1 = 122
Valores atípicos
Datos entre F1 y f1 entre 14 y 57,5: No hay datos
Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200
Valores extremos
Datos menores que F1 menor que 14: No hay datos
Datos mayores que F2 mayor que 217: No hay datos
Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este
grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se
recomienda entonces calcular la media y la desviación típica con y sin este valor para
decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al
paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia
está muy elevado con respecto al rango normal de 80-110 mg/dl.
40 22020018016080 100 1401206020
XTratamiento I

Como hay sólo un dato atípico a la derecha, el bigote izquierdo se extiende hasta el
valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo
de los datos que sea menor a F2, esto es el dato 140.
Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2
tratamientos, así tenemos entonces en siguiente diagrama:
En el tratamiento II se observa una mayor dispersión de los datos, pues la caja es
más larga; sin embargo, la caja es más simétrica que la del tratamiento I, aunque la
media no coincide con la mediana pues se ve muy afectada por el valor atípico de
glicemia de 200. Considerando el rango normal de glicemia ¿Qué opinión le merece
estos dos tratamientos?
Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical):
En el Excel se utiliza otra fórmula particular más complicada para calcular los
cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n
40 22020018016080 100 1401206020
XTratamiento I
XTratamiento II ○

es par, esta fórmula hace una interpolación de los datos que están al lado de la
posición de un cuartil particular Qj según la distancia que separe al este par de datos
y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un
valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única
restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular,
si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC”
obtendremos los siguientes resultados:
"QUARLE.EXC" Tratamiento I Tratamiento II
Q1 95,5 100,5
Q2 99 112,5
Q3 117,5 135
RI 22 34,5
Si observamos con detalle el gráfico de caja generado por el Excel observaremos que
cada caja está limitada por estos valores particulares de Q1 y Q2, quedando
ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la
fórmula de la mediana vista en clase. Esto no representa un problema siempre y
cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en
un problema en particular y el resultado del análisis es el mismo.
Los dos grupos de pacientes provienen de una misma población de pacientes
diabetes tipo 2; sin embargo, cuando se dividen en 2 grupos y se cada grupo a un
tratamiento en particular por un período de tiempo, el análisis teórico en principio
es como si pertenecieran a 2 poblaciones distintas una son los pacientes con el
tratamiento I y la otra son los pacientes con el tratamiento II.
El valor atípico de 200 significa que, para la población a la que pertenece el grupo de
pacientes del tratamiento II, este nivel de glicemia se considera un valor poco
probable. Se recomienda entonces calcular la media y la desviación típica con y sin
este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se
debe revisar al paciente con el dato atípico y de ser un dato real en este caso
reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con
respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación
típica se muestran en la siguiente tabla:

Tratamiento II
con el valor atípico 200 sin el valor atípico 200
media 122 111
desv tip 33 15
Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja
hasta un valor considerado normal, por ende, la desviación típica también se reduce.
Queda la decisión de eliminar o no este dato en futuros análisis en manos de los
expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes
datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos.
Bibliografía
Milton, Susan. Estadística para Ciencias de la Salud

Diagrama de cajas y datos atípicos

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Diagrama de cajas y datos atípicos

Más de nchacinp

Diagrama de cajas y datos atípicos