SlideShare una empresa de Scribd logo
Diagrama de cajas y datos atípicos
El diagrama de cajas es una representación gráfica de un conjunto de datos que
facilita la percepción visual de su localización, extensión y del grado y la dirección
del sesgo; también permite identificar datos atípicos. Es especialmente útil cuando
se desean comparar 2 ó más conjuntos de datos.
Pasos para construir un diagrama de caja:
1. Construir una escala de referencia horizontal o vertical
2. Calcular los cuartiles Q1, Q2 y Q3
3. Construir una caja o rectángulo sobre la escala usando como límites los
valores de Q1 y Q3. (el ancho es discrecional)
4. Dibujar la mediana (Q2) con una línea interior dentro de la caja
5. Calcular el rango intercuartil RI = Q3 – Q1.
6. Determinar los límites f1 y f2 a partir de los cuales se considera que un dato es
un valor atípico:
f1 = Q1 – 1,5*RI
f2 = Q3 + 1,5*RI
Escala de medida
de la variable
Q1 Q3
Q1 Q3Q2
7. Determinar los límites F1 y F2 a partir de los cuales se considera que un dato
es un valor extremo:
F1 = Q1 – 2*(1,5*RI)
F2 = Q3 + 2*(1,5*RI)
8. Ubicar estos límites en el eje
9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2]
se consideran valores atípicos.
10. Los datos mayores que F2 y/o menores que F1 se consideran valores
extremos.
11. Si no hay valores atípicos ni extremos, se extiende una línea desde los
extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea
se llama bigote.
f2f1 F2F1 Q1 Q3Q2
Valores
extremos
Valores
atípicos
Valores
atípicos
f2f1 F2F1 Q1 Q3Q2
Valores
extremos
f2f1 F2F1 Q1 Q3Q2mín máx
12. Cuando hay valores atípicos y/o extremos, los bigotes se extienden hasta el
valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores
atípicos se marcan con un círculo pequeño (○) y los valores extremos con un
asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se
observan 2 valores atípicos y un valor extremo:
13. La ubicación de la media se representa con una x
En general, un diagrama de caja se puede observar lo siguiente:
✓ El 50% de los datos estarán concentrados dentro de la caja, entre el
primer y tercer cuartil.
✓ La localización de la línea central de la caja, que es la mediana, es una
indicación de la forma de la distribución. Si la línea está descentrada,
sabremos que la distribución está sesgada en la dirección de extremo
más largo de la caja, así se indica en los siguientes 2 diagramas:
f2f1 F2F1 Q1 Q3Q2
f2f1 F2F1 Q1 Q3Q2
sesgo
f2f1 F2F1 Q1 Q3Q2
✓ Cuando se grafican 2 diagramas de caja sobre el mismo eje se puede
hacer una comparación visual de la dispersión, el sesgo y la asimetría
entre los dos conjuntos de datos. Los valores de los cuartiles.
✓ Los cuartiles y valores límites para los datos atípicos y extremos no se
marcan en el eje, esto se hizo como un medio didáctico.
Ejemplo 1: Observemos los siguientes diagramas de caja:
• El grupo II es más simétrico y menos disperso (o más homogéneo) que
el grupo I, pues la barra central de la mediana está en el centro, los
bigotes tienen aproximadamente la misma longitud y la media y la
mediana coinciden en su valor. Estas son las características visuales
más representativas de una distribución simétrica.
• El grupo I es más disperso que el grupo II, esto se observa por su caja
que es más larga; por otro lado, presenta un sesgo a la izquierda y un
valor atípico y otro extremo también la izquierda, lo que influye sobre
la media colocándola a la izquierda de la mediana.
f2f1 F2F1 Q1 Q3Q2
sesgo
Grupo I
Grupo II
Tratamiento de los valores atípicos
Puede demostrarse que si los datos vienen de una distribución normal (simétrica)
sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos
valores son muy inusuales o poco probables, se consideran datos atípicos.
Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene
un impacto crucial sobre los estadísticos como la media, la varianza, la desviación
típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión.
Cuando se encuentra un dato atípico deberá considerarse su origen,
¿es un dato legítimo cuyo valor, inusualmente, es grande o pequeño?
¿es un valor mal registrado?
¿es el resultado de un error o accidente en la experimentación?
En los dos últimos casos puede borrarse el punto del conjunto de datos y
completarse el análisis con los datos restantes. En el primer caso se sugiere que se
dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el
dato atípico. De esta forma el investigador, que es el experto en la materia, puede
tomar la decisión de incluir o no el dato atípico en futuros análisis.
Ejemplo 2. A continuación se muestran las edades de un grupo de pacientes en un
día de consulta en de la unidad de nefrología de cierto hospital. Hacer el diagrama
de caja para los datos.
20 50 55 58 59 60 62 63 65 68 75
Calculamos los cuartiles y los límites para valores atípicos y extremos, así:
Q1 = 55; Q2= 60; Q3= 65; RI =10
Valores atípicos
Datos entre F1 y f1 entre 25 y 40: No hay datos
Datos entre f2 y F2 entre 80 y 95: No hay datos
f1 = Q1 - 1,5*RI = 55 +1,5*10 = 40
f2 = Q3 + 1,5*RI = 65 +1,5*10 = 80
F1 = Q1 - 2*(1,5*RI) = 55 +3*10 = 25
F2 = Q3 + 2*(1,5*RI) = 65 +3*30 = 95
Valores extremos
Datos menores que F1 menor que 25: hay 1 dato: 20
Datos mayores que F2 mayor que 95: no hay datos
Hay un paciente de 20 años en la consulta de nefrología, esto representa un valor
extremo para este grupo particular de datos, es decir, de edades en este grupo de
pacientes, por lo tanto, el bigote izquierdo se extiende hasta el valor más cercano a
f1, esto es 50 y el bigote derecho hasta el valor máximo de los datos que es 75, pues
a la derecha no hay valores atípicos ni extremos.
La media es 56,8 y se marca a la izquierda de la mediana, esto era de esperarse pues
los datos están sesgados a la izquierda.
El diagrama de caja para la edad del grupo de pacientes de la consulta de nefrología
se muestra a continuación:
En los paquetes (programas) estadísticos el diagrama de caja suele presentarse con
el eje de datos en forma vertical. A continuación, se muestra la gráfica obtenida con
el programa Excel para el ejemplo anterior, observe que el valor extremo en este
programa es simbolizado por un pequeño círculo (◦) en lugar de un asterisco (*).
25 353020
*
40 8580757050
f2f1
F2F1
55 656045 95
X Edad
Ejemplo 3.
En un estudio de la eficacia de 2 medicamentos para la diabetes tipo II se
tomaron 16 pacientes diabéticos en condiciones similares, se dividieron en 2
grupos al azar y a cada uno se le administró un tratamiento distinto, al primer
grupo el tratamiento I y al segundo grupo el tratamiento II. Al cabo de 1 mes
de tratamiento se les tomaron muestras de sangre y se midió la glicemia, los
resultados se muestran en la tabla 1. Se pide comparar los 2 grupos de
tratamiento mediante los diagramas de caja:
Tabla 1. Glicemia en sangre (mg/dl) en 2 grupos pacientes diabéticos tipo II
medicados con 2 tratamientos concentraciones distintas de metformina
Tratamiento I 90 95 77 98 100 110 120 130
Tratamiento II 90 100 102 110 115 120 140 200
Para el grupo del tratamiento I:
Q1 = 96; Q2= 99; Q3= 115; RI =11
f1 = Q1 - 1,5*RI = 96 +1,5*11 = 79,5
f2 = Q3 + 1,5*RI = 115 +1,5*11 = 131,5
F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63
F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148
𝑋̅1 = 105
Valores atípicos
Datos entre F1 y f1 entre 63 y 79,5: No hay datos
Datos entre f2 y F2 entre 131,5 y 148: No hay datos
Valores extremos
Datos menores que F1 menor que 63: no hay datos
Datos mayores que F2 mayor que 140: no hay datos
Como no hay valores atípicos ni extremos, el bigote izquierdo se extiende
hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el
máximo de los datos 130, el diagrama queda entonces así:
En el diagrama se observa un sesgo de los datos hacia la derecha
Para el grupo del tratamiento II:
Q1 = 101; Q2= 113; Q3= 130; RI = 29
f1 = Q1 - 1,5*RI = 101 +1,5*29 = 57,5
f2 = Q3 + 1,5*RI = 130 +1,5*29 = 173,5
F1 = Q1 - 2*(1,5*RI) = 101 +3*29 = 14
F2 = Q3 + 2*(1,5*RI) = 130 +3*29 = 217
𝑋̅1 = 122
Valores atípicos
Datos entre F1 y f1 entre 14 y 57,5: No hay datos
Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200
Valores extremos
Datos menores que F1 menor que 14: No hay datos
Datos mayores que F2 mayor que 217: No hay datos
Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este
grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se
recomienda entonces calcular la media y la desviación típica con y sin este valor para
decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al
paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia
está muy elevado con respecto al rango normal de 80-110 mg/dl.
40 22020018016080 100 1401206020
XTratamiento I
Como hay sólo un dato atípico a la derecha, el bigote izquierdo se extiende hasta el
valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo
de los datos que sea menor a F2, esto es el dato 140.
Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2
tratamientos, así tenemos entonces en siguiente diagrama:
En el tratamiento II se observa una mayor dispersión de los datos, pues la caja es
más larga; sin embargo, la caja es más simétrica que la del tratamiento I, aunque la
media no coincide con la mediana pues se ve muy afectada por el valor atípico de
glicemia de 200. Considerando el rango normal de glicemia ¿Qué opinión le merece
estos dos tratamientos?
Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical):
En el Excel se utiliza otra fórmula particular más complicada para calcular los
cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n
40 22020018016080 100 1401206020
XTratamiento I
XTratamiento II ○
es par, esta fórmula hace una interpolación de los datos que están al lado de la
posición de un cuartil particular Qj según la distancia que separe al este par de datos
y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un
valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única
restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular,
si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC”
obtendremos los siguientes resultados:
"QUARLE.EXC" Tratamiento I Tratamiento II
Q1 95,5 100,5
Q2 99 112,5
Q3 117,5 135
RI 22 34,5
Si observamos con detalle el gráfico de caja generado por el Excel observaremos que
cada caja está limitada por estos valores particulares de Q1 y Q2, quedando
ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la
fórmula de la mediana vista en clase. Esto no representa un problema siempre y
cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en
un problema en particular y el resultado del análisis es el mismo.
Los dos grupos de pacientes provienen de una misma población de pacientes
diabetes tipo 2; sin embargo, cuando se dividen en 2 grupos y se cada grupo a un
tratamiento en particular por un período de tiempo, el análisis teórico en principio
es como si pertenecieran a 2 poblaciones distintas una son los pacientes con el
tratamiento I y la otra son los pacientes con el tratamiento II.
El valor atípico de 200 significa que, para la población a la que pertenece el grupo de
pacientes del tratamiento II, este nivel de glicemia se considera un valor poco
probable. Se recomienda entonces calcular la media y la desviación típica con y sin
este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se
debe revisar al paciente con el dato atípico y de ser un dato real en este caso
reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con
respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación
típica se muestran en la siguiente tabla:
Tratamiento II
con el valor atípico 200 sin el valor atípico 200
media 122 111
desv tip 33 15
Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja
hasta un valor considerado normal, por ende, la desviación típica también se reduce.
Queda la decisión de eliminar o no este dato en futuros análisis en manos de los
expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes
datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos.
Bibliografía
Milton, Susan. Estadística para Ciencias de la Salud

Más contenido relacionado

La actualidad más candente

Probabilidades
ProbabilidadesProbabilidades
Probabilidades
Jhonás A. Vega
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicada
Nancy Curasi
 
Distribución t student
Distribución t studentDistribución t student
Distribución t student
ecruzo
 
Prueba de hipotesis para dos poblaciones
Prueba de hipotesis para dos poblacionesPrueba de hipotesis para dos poblaciones
Prueba de hipotesis para dos poblaciones
Unisucre, I.E. Antonio Lenis
 
T de student
T de studentT de student
Tarea 4 de probabilidad con respuestas
Tarea 4 de probabilidad con respuestasTarea 4 de probabilidad con respuestas
Tarea 4 de probabilidad con respuestas
IPN
 
Pruebas t de student
Pruebas t de studentPruebas t de student
Pruebas t de student
Verónica Taipe
 
Tabla t student
Tabla t studentTabla t student
Tabla t student
baalkara
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis
luiisalbertoo-laga
 
document (1).pdf
document (1).pdfdocument (1).pdf
document (1).pdf
MoisesRequenaCordova
 
Probabilidad condicional1
Probabilidad condicional1Probabilidad condicional1
Probabilidad condicional1
Cindy Adriana Bohórquez Santana
 
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICAAPROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
yaritza_ing
 
Tabla de la Distribución Binomial
Tabla de la Distribución BinomialTabla de la Distribución Binomial
Tabla de la Distribución Binomial
isamasquemates
 
T de student
T de studentT de student
T de student
Universidad
 
Prueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaPrueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieria
Hector García Cárdenas
 
20 estadistica samuel-_mago
20 estadistica samuel-_mago20 estadistica samuel-_mago
20 estadistica samuel-_mago
Samuel Nickolas Mago
 
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Universidad Nacional Mayor de San Marcos
 
14 prueba chi cuadrado
14 prueba chi cuadrado14 prueba chi cuadrado
14 prueba chi cuadrado
Yerko Bravo
 
Medidas De Dispersion
 Medidas De Dispersion Medidas De Dispersion
Medidas De Dispersion
NancyDlFiguera
 

La actualidad más candente (20)

Probabilidades
ProbabilidadesProbabilidades
Probabilidades
 
Estadistica aplicada
Estadistica aplicadaEstadistica aplicada
Estadistica aplicada
 
Distribución t student
Distribución t studentDistribución t student
Distribución t student
 
Prueba de hipotesis para dos poblaciones
Prueba de hipotesis para dos poblacionesPrueba de hipotesis para dos poblaciones
Prueba de hipotesis para dos poblaciones
 
T de student
T de studentT de student
T de student
 
Tarea 4 de probabilidad con respuestas
Tarea 4 de probabilidad con respuestasTarea 4 de probabilidad con respuestas
Tarea 4 de probabilidad con respuestas
 
Pruebas t de student
Pruebas t de studentPruebas t de student
Pruebas t de student
 
Tabla t student
Tabla t studentTabla t student
Tabla t student
 
2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis2. ejercicios de prueba de hipótesis
2. ejercicios de prueba de hipótesis
 
document (1).pdf
document (1).pdfdocument (1).pdf
document (1).pdf
 
Probabilidad condicional1
Probabilidad condicional1Probabilidad condicional1
Probabilidad condicional1
 
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICAAPROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
APROXIMACIÓN BINOMIAL DE HIPERGEOMÉTRICA
 
Tabla de la Distribución Binomial
Tabla de la Distribución BinomialTabla de la Distribución Binomial
Tabla de la Distribución Binomial
 
Tabla z
Tabla zTabla z
Tabla z
 
T de student
T de studentT de student
T de student
 
Prueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieriaPrueba de hipotesis estadistica aplicada a la ingenieria
Prueba de hipotesis estadistica aplicada a la ingenieria
 
20 estadistica samuel-_mago
20 estadistica samuel-_mago20 estadistica samuel-_mago
20 estadistica samuel-_mago
 
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
Pruebas de Bondad de Ajuste. Independencia y Homogenidad. Est ind clase10
 
14 prueba chi cuadrado
14 prueba chi cuadrado14 prueba chi cuadrado
14 prueba chi cuadrado
 
Medidas De Dispersion
 Medidas De Dispersion Medidas De Dispersion
Medidas De Dispersion
 

Destacado

Datos agrupados. medidas descriptivas
Datos agrupados. medidas descriptivasDatos agrupados. medidas descriptivas
Datos agrupados. medidas descriptivas
nchacinp
 
Escalas de medida
Escalas de medidaEscalas de medida
Escalas de medida
nchacinp
 
Medidas de dispersion_prof hector
Medidas de dispersion_prof hectorMedidas de dispersion_prof hector
Medidas de dispersion_prof hector
nchacinp
 
Estad uma 04_probabilidades
Estad uma 04_probabilidadesEstad uma 04_probabilidades
Estad uma 04_probabilidades
nchacinp
 
Ejercicio diagrama de cajas
Ejercicio diagrama de cajasEjercicio diagrama de cajas
Ejercicio diagrama de cajas
Marisa Mena
 
Ejercicios para entregar i parcial sem a2017
Ejercicios para entregar i parcial sem a2017Ejercicios para entregar i parcial sem a2017
Ejercicios para entregar i parcial sem a2017
nchacinp
 

Destacado (6)

Datos agrupados. medidas descriptivas
Datos agrupados. medidas descriptivasDatos agrupados. medidas descriptivas
Datos agrupados. medidas descriptivas
 
Escalas de medida
Escalas de medidaEscalas de medida
Escalas de medida
 
Medidas de dispersion_prof hector
Medidas de dispersion_prof hectorMedidas de dispersion_prof hector
Medidas de dispersion_prof hector
 
Estad uma 04_probabilidades
Estad uma 04_probabilidadesEstad uma 04_probabilidades
Estad uma 04_probabilidades
 
Ejercicio diagrama de cajas
Ejercicio diagrama de cajasEjercicio diagrama de cajas
Ejercicio diagrama de cajas
 
Ejercicios para entregar i parcial sem a2017
Ejercicios para entregar i parcial sem a2017Ejercicios para entregar i parcial sem a2017
Ejercicios para entregar i parcial sem a2017
 

Similar a Diagrama de cajas y datos atípicos

Clase 5, Estadísticas 2024 Universidad I.pptx
Clase 5, Estadísticas 2024 Universidad  I.pptxClase 5, Estadísticas 2024 Universidad  I.pptx
Clase 5, Estadísticas 2024 Universidad I.pptx
Cliffor Jerry Herrera Castrillo
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticas
yorge1996
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticas
yorge1996
 
Medidas resumen
Medidas resumenMedidas resumen
Medidas resumen
GREGORIO RODRIGUEZ GARCIA
 
Diagrama de caja
Diagrama de cajaDiagrama de caja
Diagrama de caja
Leonardo Meza
 
ESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdf
ESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdfESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdf
ESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdf
EnriqueQc2
 
Estadística Descriptiva - Medidas de tendencia central, posición y dispersión
Estadística Descriptiva - Medidas de tendencia central, posición y dispersiónEstadística Descriptiva - Medidas de tendencia central, posición y dispersión
Estadística Descriptiva - Medidas de tendencia central, posición y dispersión
ManuelIgnacioMontero
 
ciclo_iv_bioestadistica_clase_4_bioestadística
ciclo_iv_bioestadistica_clase_4_bioestadísticaciclo_iv_bioestadistica_clase_4_bioestadística
ciclo_iv_bioestadistica_clase_4_bioestadística
HugoFranciscoFelipeC1
 
Procesamiento
ProcesamientoProcesamiento
Procesamiento
MelodiaDelAnde
 
Asimetra
AsimetraAsimetra
Asimetra
IMELDALUZ
 
Clase2
Clase2Clase2
Clase2
Dianis Lu
 
ciclo_iv_bioestadistica_clase_4_enfermería
ciclo_iv_bioestadistica_clase_4_enfermeríaciclo_iv_bioestadistica_clase_4_enfermería
ciclo_iv_bioestadistica_clase_4_enfermería
HugoFranciscoFelipeC1
 
TRABAJO FINAL CALIDAD TOTAL.docx
TRABAJO FINAL CALIDAD TOTAL.docxTRABAJO FINAL CALIDAD TOTAL.docx
TRABAJO FINAL CALIDAD TOTAL.docx
ArturoTapiaSolis
 
MEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptx
MEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptxMEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptx
MEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptx
NelsonCachayChavarry
 
Estadística 2 10º pii 2013
Estadística 2 10º pii 2013Estadística 2 10º pii 2013
Estadística 2 10º pii 2013
Jose Castellar
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
SalomonVillacres
 
Moda y mediana
Moda y medianaModa y mediana
Moda y mediana
javalencia
 
1.5.1. medidas de dispersión
1.5.1. medidas de dispersión1.5.1. medidas de dispersión
1.5.1. medidas de dispersión
k4rol1n4
 
Clase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no centralClase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no central
LUZ ELENA GARCIA
 
Como presentar estadistica
Como presentar estadisticaComo presentar estadistica
Como presentar estadistica
Carmina Zaragoza
 

Similar a Diagrama de cajas y datos atípicos (20)

Clase 5, Estadísticas 2024 Universidad I.pptx
Clase 5, Estadísticas 2024 Universidad  I.pptxClase 5, Estadísticas 2024 Universidad  I.pptx
Clase 5, Estadísticas 2024 Universidad I.pptx
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticas
 
Presentacion diapositivas estadisticas
Presentacion diapositivas estadisticasPresentacion diapositivas estadisticas
Presentacion diapositivas estadisticas
 
Medidas resumen
Medidas resumenMedidas resumen
Medidas resumen
 
Diagrama de caja
Diagrama de cajaDiagrama de caja
Diagrama de caja
 
ESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdf
ESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdfESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdf
ESTADÍSTICA CAPÍTULO 04 MEDIDAS DESCRIPTIVAS Y DIAGRAMA DE CAJAS.pdf
 
Estadística Descriptiva - Medidas de tendencia central, posición y dispersión
Estadística Descriptiva - Medidas de tendencia central, posición y dispersiónEstadística Descriptiva - Medidas de tendencia central, posición y dispersión
Estadística Descriptiva - Medidas de tendencia central, posición y dispersión
 
ciclo_iv_bioestadistica_clase_4_bioestadística
ciclo_iv_bioestadistica_clase_4_bioestadísticaciclo_iv_bioestadistica_clase_4_bioestadística
ciclo_iv_bioestadistica_clase_4_bioestadística
 
Procesamiento
ProcesamientoProcesamiento
Procesamiento
 
Asimetra
AsimetraAsimetra
Asimetra
 
Clase2
Clase2Clase2
Clase2
 
ciclo_iv_bioestadistica_clase_4_enfermería
ciclo_iv_bioestadistica_clase_4_enfermeríaciclo_iv_bioestadistica_clase_4_enfermería
ciclo_iv_bioestadistica_clase_4_enfermería
 
TRABAJO FINAL CALIDAD TOTAL.docx
TRABAJO FINAL CALIDAD TOTAL.docxTRABAJO FINAL CALIDAD TOTAL.docx
TRABAJO FINAL CALIDAD TOTAL.docx
 
MEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptx
MEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptxMEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptx
MEDIDAS DE POSICIÓN Y TENDENCIA CENTRAL.pptx
 
Estadística 2 10º pii 2013
Estadística 2 10º pii 2013Estadística 2 10º pii 2013
Estadística 2 10º pii 2013
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Moda y mediana
Moda y medianaModa y mediana
Moda y mediana
 
1.5.1. medidas de dispersión
1.5.1. medidas de dispersión1.5.1. medidas de dispersión
1.5.1. medidas de dispersión
 
Clase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no centralClase 4 medidas de tendencia no central
Clase 4 medidas de tendencia no central
 
Como presentar estadistica
Como presentar estadisticaComo presentar estadistica
Como presentar estadistica
 

Más de nchacinp

I Examen parcial de estadística aplicada A 2018
I Examen parcial de estadística aplicada A 2018I Examen parcial de estadística aplicada A 2018
I Examen parcial de estadística aplicada A 2018
nchacinp
 
I examen parcial a y b 2017
I examen parcial a y b 2017I examen parcial a y b 2017
I examen parcial a y b 2017
nchacinp
 
Ii examen estadística probabilidades
Ii examen estadística probabilidadesIi examen estadística probabilidades
Ii examen estadística probabilidades
nchacinp
 
R6 test de hipótesis
R6 test de hipótesisR6 test de hipótesis
R6 test de hipótesis
nchacinp
 
R5 intervalos de confianza
R5 intervalos de confianzaR5 intervalos de confianza
R5 intervalos de confianza
nchacinp
 
Distribuciones de frecuencias
Distribuciones de frecuenciasDistribuciones de frecuencias
Distribuciones de frecuencias
nchacinp
 
Practica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersionPractica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersion
nchacinp
 
Cuartiles y percentiles
Cuartiles y percentilesCuartiles y percentiles
Cuartiles y percentiles
nchacinp
 
Ejercicios tema1
Ejercicios tema1Ejercicios tema1
Ejercicios tema1
nchacinp
 
Notacion de suma con sigma
Notacion de suma con sigmaNotacion de suma con sigma
Notacion de suma con sigma
nchacinp
 
Tests hipotesis introducción
Tests hipotesis introducciónTests hipotesis introducción
Tests hipotesis introducción
nchacinp
 
Inferencia introducción
Inferencia introducciónInferencia introducción
Inferencia introducción
nchacinp
 
R2
R2R2
R3
R3R3
Ejemplos universo poblacion y muestra
Ejemplos universo poblacion y muestraEjemplos universo poblacion y muestra
Ejemplos universo poblacion y muestra
nchacinp
 
Práctica 1 descriptiva parte i
Práctica 1 descriptiva parte iPráctica 1 descriptiva parte i
Práctica 1 descriptiva parte i
nchacinp
 
Propiedades de la media
Propiedades de la mediaPropiedades de la media
Propiedades de la media
nchacinp
 
La moda
La modaLa moda
La moda
nchacinp
 
La mediana
La medianaLa mediana
La mediana
nchacinp
 
Media aritmética
Media aritméticaMedia aritmética
Media aritmética
nchacinp
 

Más de nchacinp (20)

I Examen parcial de estadística aplicada A 2018
I Examen parcial de estadística aplicada A 2018I Examen parcial de estadística aplicada A 2018
I Examen parcial de estadística aplicada A 2018
 
I examen parcial a y b 2017
I examen parcial a y b 2017I examen parcial a y b 2017
I examen parcial a y b 2017
 
Ii examen estadística probabilidades
Ii examen estadística probabilidadesIi examen estadística probabilidades
Ii examen estadística probabilidades
 
R6 test de hipótesis
R6 test de hipótesisR6 test de hipótesis
R6 test de hipótesis
 
R5 intervalos de confianza
R5 intervalos de confianzaR5 intervalos de confianza
R5 intervalos de confianza
 
Distribuciones de frecuencias
Distribuciones de frecuenciasDistribuciones de frecuencias
Distribuciones de frecuencias
 
Practica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersionPractica 2.preguntas medidas de resumen y dispersion
Practica 2.preguntas medidas de resumen y dispersion
 
Cuartiles y percentiles
Cuartiles y percentilesCuartiles y percentiles
Cuartiles y percentiles
 
Ejercicios tema1
Ejercicios tema1Ejercicios tema1
Ejercicios tema1
 
Notacion de suma con sigma
Notacion de suma con sigmaNotacion de suma con sigma
Notacion de suma con sigma
 
Tests hipotesis introducción
Tests hipotesis introducciónTests hipotesis introducción
Tests hipotesis introducción
 
Inferencia introducción
Inferencia introducciónInferencia introducción
Inferencia introducción
 
R2
R2R2
R2
 
R3
R3R3
R3
 
Ejemplos universo poblacion y muestra
Ejemplos universo poblacion y muestraEjemplos universo poblacion y muestra
Ejemplos universo poblacion y muestra
 
Práctica 1 descriptiva parte i
Práctica 1 descriptiva parte iPráctica 1 descriptiva parte i
Práctica 1 descriptiva parte i
 
Propiedades de la media
Propiedades de la mediaPropiedades de la media
Propiedades de la media
 
La moda
La modaLa moda
La moda
 
La mediana
La medianaLa mediana
La mediana
 
Media aritmética
Media aritméticaMedia aritmética
Media aritmética
 

Último

Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
MedTechBiz
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
agustincarranza11
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
DivergenteDespierto
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 

Último (18)

Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 

Diagrama de cajas y datos atípicos

  • 1. Diagrama de cajas y datos atípicos El diagrama de cajas es una representación gráfica de un conjunto de datos que facilita la percepción visual de su localización, extensión y del grado y la dirección del sesgo; también permite identificar datos atípicos. Es especialmente útil cuando se desean comparar 2 ó más conjuntos de datos. Pasos para construir un diagrama de caja: 1. Construir una escala de referencia horizontal o vertical 2. Calcular los cuartiles Q1, Q2 y Q3 3. Construir una caja o rectángulo sobre la escala usando como límites los valores de Q1 y Q3. (el ancho es discrecional) 4. Dibujar la mediana (Q2) con una línea interior dentro de la caja 5. Calcular el rango intercuartil RI = Q3 – Q1. 6. Determinar los límites f1 y f2 a partir de los cuales se considera que un dato es un valor atípico: f1 = Q1 – 1,5*RI f2 = Q3 + 1,5*RI Escala de medida de la variable Q1 Q3 Q1 Q3Q2
  • 2. 7. Determinar los límites F1 y F2 a partir de los cuales se considera que un dato es un valor extremo: F1 = Q1 – 2*(1,5*RI) F2 = Q3 + 2*(1,5*RI) 8. Ubicar estos límites en el eje 9. Los datos que se encuentren entre los límites entre [F1 - f1] y/o entre [f2 - F2] se consideran valores atípicos. 10. Los datos mayores que F2 y/o menores que F1 se consideran valores extremos. 11. Si no hay valores atípicos ni extremos, se extiende una línea desde los extremos de la caja hasta los valores máximo y mínimo de los datos, esta línea se llama bigote. f2f1 F2F1 Q1 Q3Q2 Valores extremos Valores atípicos Valores atípicos f2f1 F2F1 Q1 Q3Q2 Valores extremos f2f1 F2F1 Q1 Q3Q2mín máx
  • 3. 12. Cuando hay valores atípicos y/o extremos, los bigotes se extienden hasta el valor menor más cercano a f1 y el valor mayor más cercano a f2. Los valores atípicos se marcan con un círculo pequeño (○) y los valores extremos con un asterisco (*), alineados con los bigotes. En el siguiente diagrama de caja se observan 2 valores atípicos y un valor extremo: 13. La ubicación de la media se representa con una x En general, un diagrama de caja se puede observar lo siguiente: ✓ El 50% de los datos estarán concentrados dentro de la caja, entre el primer y tercer cuartil. ✓ La localización de la línea central de la caja, que es la mediana, es una indicación de la forma de la distribución. Si la línea está descentrada, sabremos que la distribución está sesgada en la dirección de extremo más largo de la caja, así se indica en los siguientes 2 diagramas: f2f1 F2F1 Q1 Q3Q2 f2f1 F2F1 Q1 Q3Q2 sesgo f2f1 F2F1 Q1 Q3Q2
  • 4. ✓ Cuando se grafican 2 diagramas de caja sobre el mismo eje se puede hacer una comparación visual de la dispersión, el sesgo y la asimetría entre los dos conjuntos de datos. Los valores de los cuartiles. ✓ Los cuartiles y valores límites para los datos atípicos y extremos no se marcan en el eje, esto se hizo como un medio didáctico. Ejemplo 1: Observemos los siguientes diagramas de caja: • El grupo II es más simétrico y menos disperso (o más homogéneo) que el grupo I, pues la barra central de la mediana está en el centro, los bigotes tienen aproximadamente la misma longitud y la media y la mediana coinciden en su valor. Estas son las características visuales más representativas de una distribución simétrica. • El grupo I es más disperso que el grupo II, esto se observa por su caja que es más larga; por otro lado, presenta un sesgo a la izquierda y un valor atípico y otro extremo también la izquierda, lo que influye sobre la media colocándola a la izquierda de la mediana. f2f1 F2F1 Q1 Q3Q2 sesgo Grupo I Grupo II
  • 5. Tratamiento de los valores atípicos Puede demostrarse que si los datos vienen de una distribución normal (simétrica) sólo 7 valores de 1.000 caerán en las zonas entre f1 y F1 ó f2 y F2. Puesto que estos valores son muy inusuales o poco probables, se consideran datos atípicos. Los datos atípicos deben tratarse con cuidado, pues como se sabe su presencia tiene un impacto crucial sobre los estadísticos como la media, la varianza, la desviación típica y el rango, es decir, sobre medidas usuales de tendencia central y dispersión. Cuando se encuentra un dato atípico deberá considerarse su origen, ¿es un dato legítimo cuyo valor, inusualmente, es grande o pequeño? ¿es un valor mal registrado? ¿es el resultado de un error o accidente en la experimentación? En los dos últimos casos puede borrarse el punto del conjunto de datos y completarse el análisis con los datos restantes. En el primer caso se sugiere que se dé a conocer la presencia del dato atípico y se calculen los estadísticos con y sin el dato atípico. De esta forma el investigador, que es el experto en la materia, puede tomar la decisión de incluir o no el dato atípico en futuros análisis. Ejemplo 2. A continuación se muestran las edades de un grupo de pacientes en un día de consulta en de la unidad de nefrología de cierto hospital. Hacer el diagrama de caja para los datos. 20 50 55 58 59 60 62 63 65 68 75 Calculamos los cuartiles y los límites para valores atípicos y extremos, así: Q1 = 55; Q2= 60; Q3= 65; RI =10 Valores atípicos Datos entre F1 y f1 entre 25 y 40: No hay datos Datos entre f2 y F2 entre 80 y 95: No hay datos f1 = Q1 - 1,5*RI = 55 +1,5*10 = 40 f2 = Q3 + 1,5*RI = 65 +1,5*10 = 80 F1 = Q1 - 2*(1,5*RI) = 55 +3*10 = 25 F2 = Q3 + 2*(1,5*RI) = 65 +3*30 = 95
  • 6. Valores extremos Datos menores que F1 menor que 25: hay 1 dato: 20 Datos mayores que F2 mayor que 95: no hay datos Hay un paciente de 20 años en la consulta de nefrología, esto representa un valor extremo para este grupo particular de datos, es decir, de edades en este grupo de pacientes, por lo tanto, el bigote izquierdo se extiende hasta el valor más cercano a f1, esto es 50 y el bigote derecho hasta el valor máximo de los datos que es 75, pues a la derecha no hay valores atípicos ni extremos. La media es 56,8 y se marca a la izquierda de la mediana, esto era de esperarse pues los datos están sesgados a la izquierda. El diagrama de caja para la edad del grupo de pacientes de la consulta de nefrología se muestra a continuación: En los paquetes (programas) estadísticos el diagrama de caja suele presentarse con el eje de datos en forma vertical. A continuación, se muestra la gráfica obtenida con el programa Excel para el ejemplo anterior, observe que el valor extremo en este programa es simbolizado por un pequeño círculo (◦) en lugar de un asterisco (*). 25 353020 * 40 8580757050 f2f1 F2F1 55 656045 95 X Edad
  • 7. Ejemplo 3. En un estudio de la eficacia de 2 medicamentos para la diabetes tipo II se tomaron 16 pacientes diabéticos en condiciones similares, se dividieron en 2 grupos al azar y a cada uno se le administró un tratamiento distinto, al primer grupo el tratamiento I y al segundo grupo el tratamiento II. Al cabo de 1 mes de tratamiento se les tomaron muestras de sangre y se midió la glicemia, los resultados se muestran en la tabla 1. Se pide comparar los 2 grupos de tratamiento mediante los diagramas de caja: Tabla 1. Glicemia en sangre (mg/dl) en 2 grupos pacientes diabéticos tipo II medicados con 2 tratamientos concentraciones distintas de metformina Tratamiento I 90 95 77 98 100 110 120 130 Tratamiento II 90 100 102 110 115 120 140 200 Para el grupo del tratamiento I: Q1 = 96; Q2= 99; Q3= 115; RI =11 f1 = Q1 - 1,5*RI = 96 +1,5*11 = 79,5 f2 = Q3 + 1,5*RI = 115 +1,5*11 = 131,5 F1 = Q1 - 2*(1,5*RI) = 96 +3*11 = 63 F2 = Q3 + 2*(1,5*RI) = 115 +3*11 = 148 𝑋̅1 = 105 Valores atípicos Datos entre F1 y f1 entre 63 y 79,5: No hay datos Datos entre f2 y F2 entre 131,5 y 148: No hay datos Valores extremos Datos menores que F1 menor que 63: no hay datos Datos mayores que F2 mayor que 140: no hay datos
  • 8. Como no hay valores atípicos ni extremos, el bigote izquierdo se extiende hasta el valor mínimo de los datos 90; y el bigote derecho se extiende hasta el máximo de los datos 130, el diagrama queda entonces así: En el diagrama se observa un sesgo de los datos hacia la derecha Para el grupo del tratamiento II: Q1 = 101; Q2= 113; Q3= 130; RI = 29 f1 = Q1 - 1,5*RI = 101 +1,5*29 = 57,5 f2 = Q3 + 1,5*RI = 130 +1,5*29 = 173,5 F1 = Q1 - 2*(1,5*RI) = 101 +3*29 = 14 F2 = Q3 + 2*(1,5*RI) = 130 +3*29 = 217 𝑋̅1 = 122 Valores atípicos Datos entre F1 y f1 entre 14 y 57,5: No hay datos Datos entre f2 y F2 entre 173,5 y 217: hay 1 dato: 200 Valores extremos Datos menores que F1 menor que 14: No hay datos Datos mayores que F2 mayor que 217: No hay datos Tenemos un valor atípico: 200 significa que, para la población a la que pertenece este grupo de pacientes, este nivel de glicemia se considera un valor poco probable. Se recomienda entonces calcular la media y la desviación típica con y sin este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al paciente y de ser un dato real reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con respecto al rango normal de 80-110 mg/dl. 40 22020018016080 100 1401206020 XTratamiento I
  • 9. Como hay sólo un dato atípico a la derecha, el bigote izquierdo se extiende hasta el valor mínimo de los datos que es 90; y el bigote derecho se extiende hasta el máximo de los datos que sea menor a F2, esto es el dato 140. Vamos a graficar este diagrama de caja sobre el anterior para comparar los 2 tratamientos, así tenemos entonces en siguiente diagrama: En el tratamiento II se observa una mayor dispersión de los datos, pues la caja es más larga; sin embargo, la caja es más simétrica que la del tratamiento I, aunque la media no coincide con la mediana pues se ve muy afectada por el valor atípico de glicemia de 200. Considerando el rango normal de glicemia ¿Qué opinión le merece estos dos tratamientos? Vamos a mostrar el diagrama de caja dado por el Excel (el eje de datos es vertical): En el Excel se utiliza otra fórmula particular más complicada para calcular los cuartiles que la de la mediana para los dos grupos de datos vista en clase. Cuando n 40 22020018016080 100 1401206020 XTratamiento I XTratamiento II ○
  • 10. es par, esta fórmula hace una interpolación de los datos que están al lado de la posición de un cuartil particular Qj según la distancia que separe al este par de datos y la posición i calculada del cuartil j. Como vimos un cuartil Qj en particular es un valor que garantiza que el j% de los datos estarán por debajo de él, esa es la única restricción, por eso existen varias formas de calcularlo. En este ejemplo en particular, si calculamos los cuartiles con el Excel usando la función “QUARTILE:EXC” obtendremos los siguientes resultados: "QUARLE.EXC" Tratamiento I Tratamiento II Q1 95,5 100,5 Q2 99 112,5 Q3 117,5 135 RI 22 34,5 Si observamos con detalle el gráfico de caja generado por el Excel observaremos que cada caja está limitada por estos valores particulares de Q1 y Q2, quedando ligeramente desplazada con respecto a los valores de los cuartiles obtenidos con la fórmula de la mediana vista en clase. Esto no representa un problema siempre y cuando se utilice el mismo método para calcular los cuartiles en todas las cajas en un problema en particular y el resultado del análisis es el mismo. Los dos grupos de pacientes provienen de una misma población de pacientes diabetes tipo 2; sin embargo, cuando se dividen en 2 grupos y se cada grupo a un tratamiento en particular por un período de tiempo, el análisis teórico en principio es como si pertenecieran a 2 poblaciones distintas una son los pacientes con el tratamiento I y la otra son los pacientes con el tratamiento II. El valor atípico de 200 significa que, para la población a la que pertenece el grupo de pacientes del tratamiento II, este nivel de glicemia se considera un valor poco probable. Se recomienda entonces calcular la media y la desviación típica con y sin este valor para decidir si se incluye o no en futuros análisis. Para efectos clínicos se debe revisar al paciente con el dato atípico y de ser un dato real en este caso reconsiderar su tratamiento, pues su nivel de glicemia está muy elevado con respecto al rango normal de 80-110 mg/dl. Los cálculos de la media y la desviación típica se muestran en la siguiente tabla:
  • 11. Tratamiento II con el valor atípico 200 sin el valor atípico 200 media 122 111 desv tip 33 15 Observamos que al eliminar el valor atípico la media de glicemia del grupo II baja hasta un valor considerado normal, por ende, la desviación típica también se reduce. Queda la decisión de eliminar o no este dato en futuros análisis en manos de los expertos. En este caso por ser un ejemplo didáctico no contamos con suficientes datos para tomar decisiones estadísticas sobre la efectividad de los tratamientos. Bibliografía Milton, Susan. Estadística para Ciencias de la Salud