Diagrama de cajas y datos atípicos
El diagrama de cajas es una representación gráfica de un conjunto de datos que
facilita la percepción visual de su localización, extensión y del grado y la dirección
del sesgo; también permite identificar datos atípicos. Es especialmente útil cuando
se desean comparar 2 ó más conjuntos de datos.
Pasos para construir un diagrama de caja:
1. Construir una escala de referencia horizontal o vertical
2. Calcular los cuartiles Q1, Q2 y Q3
3. Construir una caja o rectángulo sobre la escala usando como límites los
valores de Q1 y Q3. (el ancho es discrecional)
4. Dibujar la mediana (Q2) con una línea interior dentro de la caja
5. Calcular el rango intercuartil RI = Q3 – Q1.
6. Determinar los límites f1 y f2 a partir de los cuales se considera que un dato es
un valor atípico:
f1 = Q1 – 1,5*RI
f2 = Q3 + 1,5*RI
Escala de medida
de la variable
Q1 Q3
Q1 Q3Q2
7. Determinar los límites F1 y F2 a partir de los cuales se considera que un dato
es un valor extremo:
F1 = Q1 – 2*(1,5*RI)
F2 = Q3 + 2*(1,5*RI)
8. Ubicar estos límites en el eje
9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2]
se consideran valores atípicos.
10. Los datos mayores que F2 y/o menores que F1 se consideran valores
extremos.
11. Si no hay valores atípicos ni extremos, se extiende una línea desde los
extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea
se llama bigote.
f2f1 F2F1 Q1 Q3Q2
Valores
extremos
Valores
atípicos
Valores
atípicos
f2f1 F2F1 Q1 Q3Q2
Valores
extremos
f2f1 F2F1 Q1 Q3Q2mín máx
12. Cuando hay valores atípicos y/o extremos, los bigotes se extienden hasta el
valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores
atípicos se marcan con un círculo pequeño (○) y los valores extremos con un
asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se
observan 2 valores atípicos y un valor extremo:
13. La ubicación de la media se representa con una x
En general, un diagrama de caja se puede observar lo siguiente:
✓ El 50% de los datos estarán concentrados dentro de la caja, entre el
primer y tercer cuartil.
✓ La localización de la línea central de la caja, que es la mediana, es una
indicación de la forma de la distribución. Si la línea está descentrada,
sabremos que la distribución está sesgada en la dirección de extremo
más largo de la caja, así se indica en los siguientes 2 diagramas:
f2f1 F2F1 Q1 Q3Q2
f2f1 F2F1 Q1 Q3Q2
sesgo
f2f1 F2F1 Q1 Q3Q2
✓ Cuando se grafican 2 diagramas de caja sobre el mismo eje se puede
hacer una comparación visual de la dispersión, el sesgo y la asimetría
entre los dos conjuntos de datos. Los valores de los cuartiles.
✓ Los cuartiles y valores límites para los datos atípicos y extremos no se
marcan en el eje, esto se hizo como un medio didáctico.
Ejemplo 1: Observemos los siguientes diagramas de caja:
• El grupo II es más simétrico y menos disperso (o más homogéneo) que
el grupo I, pues la barra central de la mediana está en el centro, los
bigotes tienen aproximadamente la misma longitud y la media y la
mediana coinciden en su valor. Estas son las características visuales
más representativas de una distribución simétrica.
• El grupo I es más disperso que el grupo II, esto se observa por su caja
que es más larga; por otro lado, presenta un sesgo a la izquierda y un
valor atípico y otro extremo también la izquierda, lo que influye sobre
la media colocándola a la izquierda de la mediana.
f2f1 F2F1 Q1 Q3Q2
sesgo
Grupo I
Grupo II
Tratamiento de los valores atípicos
Puede demostrarse que si los datos vienen de una distribución normal (simétrica)
sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos
valores son muy inusuales o poco probables, se consideran datos atípicos.
Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene
un impacto crucial sobre los estadísticos como la media, la varianza, la desviación
típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión.
Cuando se encuentra un dato atípico deberá considerarse su origen,
¿es un dato legítimo cuyo valor, inusualmente, es grande o pequeño?
¿es un valor mal registrado?
¿es el resultado de un error o accidente en la experimentación?
En los dos últimos casos puede borrarse el punto del conjunto de datos y
completarse el análisis con los datos restantes. En el primer caso se sugiere que se
dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el
dato atípico. De esta forma el investigador, que es el experto en la materia, puede
tomar la decisión de incluir o no el dato atípico en futuros análisis.
Ejemplo 2. A continuación se muestran las edades de un grupo de pacientes en un
día de consulta en de la unidad de nefrología de cierto hospital. Hacer el diagrama
de caja para los datos.
20 50 55 58 59 60 62 63 65 68 75
Calculamos los cuartiles y los límites para valores atípicos y extremos, así:
Q1 = 55; Q2= 60; Q3= 65; RI =10
Valores atípicos
Datos entre F1 y f1 entre 25 y 40: No hay datos
Datos entre f2 y F2 entre 80 y 95: No hay datos
f1 = Q1 - 1,5*RI = 55 +1,5*10 = 40
f2 = Q3 + 1,5*RI = 65 +1,5*10 = 80
F1 = Q1 - 2*(1,5*RI) = 55 +3*10 = 25
F2 = Q3 + 2*(1,5*RI) = 65 +3*30 = 95
Valores extremos
Datos menores que F1 menor que 25: hay 1 dato: 20
Datos mayores que F2 mayor que 95: no hay datos
Hay un paciente de 20 años en la consulta de nefrología, esto representa un valor
extremo para este grupo particular de datos, es decir, de edades en este grupo de
pacientes, por lo tanto, el bigote izquierdo se extiende hasta el valor más cercano a
f1, esto es 50 y el bigote derecho hasta el valor máximo de los datos que es 75, pues
a la derecha no hay valores atípicos ni extremos.
La media es 56,8 y se marca a la izquierda de la mediana, esto era de esperarse pues
los datos están sesgados a la izquierda.
El diagrama de caja para la edad del grupo de pacientes de la consulta de nefrología
se muestra a continuación:
En los paquetes (programas) estadísticos el diagrama de caja suele presentarse con
el eje de datos en forma vertical. A continuación, se muestra la gráfica obtenida con
el programa Excel para el ejemplo anterior, observe que el valor extremo en este
programa es simbolizado por un pequeño círculo (◦) en lugar de un asterisco (*).
25 353020
*
40 8580757050
f2f1
F2F1
55 656045 95
X Edad
Ejemplo 3.
En un estudio de la eficacia de 2 medicamentos para la diabetes tipo II se
tomaron 16 pacientes diabéticos en condiciones similares, se dividieron en 2
grupos al azar y a cada uno se le administró un tratamiento distinto, al primer
grupo el tratamiento I y al segundo grupo el tratamiento II. Al cabo de 1 mes
de tratamiento se les tomaron muestras de sangre y se midió la glicemia, los
resultados se muestran en la tabla 1. Se pide comparar los 2 grupos de
tratamiento mediante los diagramas de caja:
Tabla 1. Glicemia en sangre (mg/dl) en 2 grupos pacientes diabéticos tipo II
medicados con 2 tratamientos concentraciones distintas de metformina
Tratamiento I 90 95 77 98 100 110 120 130
Tratamiento II 90 100 102 110 115 120 140 200
Para el grupo del tratamiento I:
Q1 = 96; Q2= 99; Q3= 115; RI =11
f1 = Q1 - 1,5*RI = 96 +1,5*11 = 79,5
f2 = Q3 + 1,5*RI = 115 +1,5*11 = 131,5
F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63
F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148
𝑋̅1 = 105
Valores atípicos
Datos entre F1 y f1 entre 63 y 79,5: No hay datos
Datos entre f2 y F2 entre 131,5 y 148: No hay datos
Valores extremos
Datos menores que F1 menor que 63: no hay datos
Datos mayores que F2 mayor que 140: no hay datos
Como no hay valores atípicos ni extremos, el bigote izquierdo se extiende
hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el
máximo de los datos 130, el diagrama queda entonces así:
En el diagrama se observa un sesgo de los datos hacia la derecha
Para el grupo del tratamiento II:
Q1 = 101; Q2= 113; Q3= 130; RI = 29
f1 = Q1 - 1,5*RI = 101 +1,5*29 = 57,5
f2 = Q3 + 1,5*RI = 130 +1,5*29 = 173,5
F1 = Q1 - 2*(1,5*RI) = 101 +3*29 = 14
F2 = Q3 + 2*(1,5*RI) = 130 +3*29 = 217
𝑋̅1 = 122
Valores atípicos
Datos entre F1 y f1 entre 14 y 57,5: No hay datos
Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200
Valores extremos
Datos menores que F1 menor que 14: No hay datos
Datos mayores que F2 mayor que 217: No hay datos
Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este
grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se
recomienda entonces calcular la media y la desviación típica con y sin este valor para
decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al
paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia
está muy elevado con respecto al rango normal de 80-110 mg/dl.
40 22020018016080 100 1401206020
XTratamiento I
Como hay sólo un dato atípico a la derecha, el bigote izquierdo se extiende hasta el
valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo
de los datos que sea menor a F2, esto es el dato 140.
Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2
tratamientos, así tenemos entonces en siguiente diagrama:
En el tratamiento II se observa una mayor dispersión de los datos, pues la caja es
más larga; sin embargo, la caja es más simétrica que la del tratamiento I, aunque la
media no coincide con la mediana pues se ve muy afectada por el valor atípico de
glicemia de 200. Considerando el rango normal de glicemia ¿Qué opinión le merece
estos dos tratamientos?
Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical):
En el Excel se utiliza otra fórmula particular más complicada para calcular los
cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n
40 22020018016080 100 1401206020
XTratamiento I
XTratamiento II ○
es par, esta fórmula hace una interpolación de los datos que están al lado de la
posición de un cuartil particular Qj según la distancia que separe al este par de datos
y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un
valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única
restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular,
si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC”
obtendremos los siguientes resultados:
"QUARLE.EXC" Tratamiento I Tratamiento II
Q1 95,5 100,5
Q2 99 112,5
Q3 117,5 135
RI 22 34,5
Si observamos con detalle el gráfico de caja generado por el Excel observaremos que
cada caja está limitada por estos valores particulares de Q1 y Q2, quedando
ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la
fórmula de la mediana vista en clase. Esto no representa un problema siempre y
cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en
un problema en particular y el resultado del análisis es el mismo.
Los dos grupos de pacientes provienen de una misma población de pacientes
diabetes tipo 2; sin embargo, cuando se dividen en 2 grupos y se cada grupo a un
tratamiento en particular por un período de tiempo, el análisis teórico en principio
es como si pertenecieran a 2 poblaciones distintas una son los pacientes con el
tratamiento I y la otra son los pacientes con el tratamiento II.
El valor atípico de 200 significa que, para la población a la que pertenece el grupo de
pacientes del tratamiento II, este nivel de glicemia se considera un valor poco
probable. Se recomienda entonces calcular la media y la desviación típica con y sin
este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se
debe revisar al paciente con el dato atípico y de ser un dato real en este caso
reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con
respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación
típica se muestran en la siguiente tabla:
Tratamiento II
con el valor atípico 200 sin el valor atípico 200
media 122 111
desv tip 33 15
Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja
hasta un valor considerado normal, por ende, la desviación típica también se reduce.
Queda la decisión de eliminar o no este dato en futuros análisis en manos de los
expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes
datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos.
Bibliografía
Milton, Susan. Estadística para Ciencias de la Salud

Diagrama de cajas y datos atípicos

  • 1.
    Diagrama de cajasy datos atípicos El diagrama de cajas es una representación gráfica de un conjunto de datos que facilita la percepción visual de su localización, extensión y del grado y la dirección del sesgo; también permite identificar datos atípicos. Es especialmente útil cuando se desean comparar 2 ó más conjuntos de datos. Pasos para construir un diagrama de caja: 1. Construir una escala de referencia horizontal o vertical 2. Calcular los cuartiles Q1, Q2 y Q3 3. Construir una caja o rectángulo sobre la escala usando como límites los valores de Q1 y Q3. (el ancho es discrecional) 4. Dibujar la mediana (Q2) con una línea interior dentro de la caja 5. Calcular el rango intercuartil RI = Q3 – Q1. 6. Determinar los límites f1 y f2 a partir de los cuales se considera que un dato es un valor atípico: f1 = Q1 – 1,5*RI f2 = Q3 + 1,5*RI Escala de medida de la variable Q1 Q3 Q1 Q3Q2
  • 2.
    7. Determinar loslímites F1 y F2 a partir de los cuales se considera que un dato es un valor extremo: F1 = Q1 – 2*(1,5*RI) F2 = Q3 + 2*(1,5*RI) 8. Ubicar estos límites en el eje 9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2] se consideran valores atípicos. 10. Los datos mayores que F2 y/o menores que F1 se consideran valores extremos. 11. Si no hay valores atípicos ni extremos, se extiende una línea desde los extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea se llama bigote. f2f1 F2F1 Q1 Q3Q2 Valores extremos Valores atípicos Valores atípicos f2f1 F2F1 Q1 Q3Q2 Valores extremos f2f1 F2F1 Q1 Q3Q2mín máx
  • 3.
    12. Cuando hayvalores atípicos y/o extremos, los bigotes se extienden hasta el valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores atípicos se marcan con un círculo pequeño (○) y los valores extremos con un asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se observan 2 valores atípicos y un valor extremo: 13. La ubicación de la media se representa con una x En general, un diagrama de caja se puede observar lo siguiente: ✓ El 50% de los datos estarán concentrados dentro de la caja, entre el primer y tercer cuartil. ✓ La localización de la línea central de la caja, que es la mediana, es una indicación de la forma de la distribución. Si la línea está descentrada, sabremos que la distribución está sesgada en la dirección de extremo más largo de la caja, así se indica en los siguientes 2 diagramas: f2f1 F2F1 Q1 Q3Q2 f2f1 F2F1 Q1 Q3Q2 sesgo f2f1 F2F1 Q1 Q3Q2
  • 4.
    ✓ Cuando segrafican 2 diagramas de caja sobre el mismo eje se puede hacer una comparación visual de la dispersión, el sesgo y la asimetría entre los dos conjuntos de datos. Los valores de los cuartiles. ✓ Los cuartiles y valores límites para los datos atípicos y extremos no se marcan en el eje, esto se hizo como un medio didáctico. Ejemplo 1: Observemos los siguientes diagramas de caja: • El grupo II es más simétrico y menos disperso (o más homogéneo) que el grupo I, pues la barra central de la mediana está en el centro, los bigotes tienen aproximadamente la misma longitud y la media y la mediana coinciden en su valor. Estas son las características visuales más representativas de una distribución simétrica. • El grupo I es más disperso que el grupo II, esto se observa por su caja que es más larga; por otro lado, presenta un sesgo a la izquierda y un valor atípico y otro extremo también la izquierda, lo que influye sobre la media colocándola a la izquierda de la mediana. f2f1 F2F1 Q1 Q3Q2 sesgo Grupo I Grupo II
  • 5.
    Tratamiento de losvalores atípicos Puede demostrarse que si los datos vienen de una distribución normal (simétrica) sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos valores son muy inusuales o poco probables, se consideran datos atípicos. Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene un impacto crucial sobre los estadísticos como la media, la varianza, la desviación típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión. Cuando se encuentra un dato atípico deberá considerarse su origen, ¿es un dato legítimo cuyo valor, inusualmente, es grande o pequeño? ¿es un valor mal registrado? ¿es el resultado de un error o accidente en la experimentación? En los dos últimos casos puede borrarse el punto del conjunto de datos y completarse el análisis con los datos restantes. En el primer caso se sugiere que se dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el dato atípico. De esta forma el investigador, que es el experto en la materia, puede tomar la decisión de incluir o no el dato atípico en futuros análisis. Ejemplo 2. A continuación se muestran las edades de un grupo de pacientes en un día de consulta en de la unidad de nefrología de cierto hospital. Hacer el diagrama de caja para los datos. 20 50 55 58 59 60 62 63 65 68 75 Calculamos los cuartiles y los límites para valores atípicos y extremos, así: Q1 = 55; Q2= 60; Q3= 65; RI =10 Valores atípicos Datos entre F1 y f1 entre 25 y 40: No hay datos Datos entre f2 y F2 entre 80 y 95: No hay datos f1 = Q1 - 1,5*RI = 55 +1,5*10 = 40 f2 = Q3 + 1,5*RI = 65 +1,5*10 = 80 F1 = Q1 - 2*(1,5*RI) = 55 +3*10 = 25 F2 = Q3 + 2*(1,5*RI) = 65 +3*30 = 95
  • 6.
    Valores extremos Datos menoresque F1 menor que 25: hay 1 dato: 20 Datos mayores que F2 mayor que 95: no hay datos Hay un paciente de 20 años en la consulta de nefrología, esto representa un valor extremo para este grupo particular de datos, es decir, de edades en este grupo de pacientes, por lo tanto, el bigote izquierdo se extiende hasta el valor más cercano a f1, esto es 50 y el bigote derecho hasta el valor máximo de los datos que es 75, pues a la derecha no hay valores atípicos ni extremos. La media es 56,8 y se marca a la izquierda de la mediana, esto era de esperarse pues los datos están sesgados a la izquierda. El diagrama de caja para la edad del grupo de pacientes de la consulta de nefrología se muestra a continuación: En los paquetes (programas) estadísticos el diagrama de caja suele presentarse con el eje de datos en forma vertical. A continuación, se muestra la gráfica obtenida con el programa Excel para el ejemplo anterior, observe que el valor extremo en este programa es simbolizado por un pequeño círculo (◦) en lugar de un asterisco (*). 25 353020 * 40 8580757050 f2f1 F2F1 55 656045 95 X Edad
  • 7.
    Ejemplo 3. En unestudio de la eficacia de 2 medicamentos para la diabetes tipo II se tomaron 16 pacientes diabéticos en condiciones similares, se dividieron en 2 grupos al azar y a cada uno se le administró un tratamiento distinto, al primer grupo el tratamiento I y al segundo grupo el tratamiento II. Al cabo de 1 mes de tratamiento se les tomaron muestras de sangre y se midió la glicemia, los resultados se muestran en la tabla 1. Se pide comparar los 2 grupos de tratamiento mediante los diagramas de caja: Tabla 1. Glicemia en sangre (mg/dl) en 2 grupos pacientes diabéticos tipo II medicados con 2 tratamientos concentraciones distintas de metformina Tratamiento I 90 95 77 98 100 110 120 130 Tratamiento II 90 100 102 110 115 120 140 200 Para el grupo del tratamiento I: Q1 = 96; Q2= 99; Q3= 115; RI =11 f1 = Q1 - 1,5*RI = 96 +1,5*11 = 79,5 f2 = Q3 + 1,5*RI = 115 +1,5*11 = 131,5 F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63 F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148 𝑋̅1 = 105 Valores atípicos Datos entre F1 y f1 entre 63 y 79,5: No hay datos Datos entre f2 y F2 entre 131,5 y 148: No hay datos Valores extremos Datos menores que F1 menor que 63: no hay datos Datos mayores que F2 mayor que 140: no hay datos
  • 8.
    Como no hayvalores atípicos ni extremos, el bigote izquierdo se extiende hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el máximo de los datos 130, el diagrama queda entonces así: En el diagrama se observa un sesgo de los datos hacia la derecha Para el grupo del tratamiento II: Q1 = 101; Q2= 113; Q3= 130; RI = 29 f1 = Q1 - 1,5*RI = 101 +1,5*29 = 57,5 f2 = Q3 + 1,5*RI = 130 +1,5*29 = 173,5 F1 = Q1 - 2*(1,5*RI) = 101 +3*29 = 14 F2 = Q3 + 2*(1,5*RI) = 130 +3*29 = 217 𝑋̅1 = 122 Valores atípicos Datos entre F1 y f1 entre 14 y 57,5: No hay datos Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200 Valores extremos Datos menores que F1 menor que 14: No hay datos Datos mayores que F2 mayor que 217: No hay datos Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se recomienda entonces calcular la media y la desviación típica con y sin este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con respecto al rango normal de 80-110 mg/dl. 40 22020018016080 100 1401206020 XTratamiento I
  • 9.
    Como hay sóloun dato atípico a la derecha, el bigote izquierdo se extiende hasta el valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo de los datos que sea menor a F2, esto es el dato 140. Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2 tratamientos, así tenemos entonces en siguiente diagrama: En el tratamiento II se observa una mayor dispersión de los datos, pues la caja es más larga; sin embargo, la caja es más simétrica que la del tratamiento I, aunque la media no coincide con la mediana pues se ve muy afectada por el valor atípico de glicemia de 200. Considerando el rango normal de glicemia ¿Qué opinión le merece estos dos tratamientos? Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical): En el Excel se utiliza otra fórmula particular más complicada para calcular los cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n 40 22020018016080 100 1401206020 XTratamiento I XTratamiento II ○
  • 10.
    es par, estafórmula hace una interpolación de los datos que están al lado de la posición de un cuartil particular Qj según la distancia que separe al este par de datos y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular, si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC” obtendremos los siguientes resultados: "QUARLE.EXC" Tratamiento I Tratamiento II Q1 95,5 100,5 Q2 99 112,5 Q3 117,5 135 RI 22 34,5 Si observamos con detalle el gráfico de caja generado por el Excel observaremos que cada caja está limitada por estos valores particulares de Q1 y Q2, quedando ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la fórmula de la mediana vista en clase. Esto no representa un problema siempre y cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en un problema en particular y el resultado del análisis es el mismo. Los dos grupos de pacientes provienen de una misma población de pacientes diabetes tipo 2; sin embargo, cuando se dividen en 2 grupos y se cada grupo a un tratamiento en particular por un período de tiempo, el análisis teórico en principio es como si pertenecieran a 2 poblaciones distintas una son los pacientes con el tratamiento I y la otra son los pacientes con el tratamiento II. El valor atípico de 200 significa que, para la población a la que pertenece el grupo de pacientes del tratamiento II, este nivel de glicemia se considera un valor poco probable. Se recomienda entonces calcular la media y la desviación típica con y sin este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al paciente con el dato atípico y de ser un dato real en este caso reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación típica se muestran en la siguiente tabla:
  • 11.
    Tratamiento II con elvalor atípico 200 sin el valor atípico 200 media 122 111 desv tip 33 15 Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja hasta un valor considerado normal, por ende, la desviación típica también se reduce. Queda la decisión de eliminar o no este dato en futuros análisis en manos de los expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos. Bibliografía Milton, Susan. Estadística para Ciencias de la Salud