1. Bioestadística y Demografía – sesión 09
Análisis de datos categóricos
César A. Gutiérrez Villafuerte
Departamento Académico de Medicina Preventiva y Salud Pública
Facultad de Medicina, UNMSM
2. Temas a desarrollar
Prueba de chi cuadrado:
• Valores esperados y observados.
• Prueba de independencia y de homogeneidad.
Indicadores de fuerza de asociación:
• Riesgo relativo
• Razón de odds
3. Situación
Variables cuantitativas con
distribución normal:
Prueba Paramétrica
Variables cuantitativas sin
distribución normal y cualitativas:
Prueba No Paramétrica
Comparación de medias:
2 grupos independientes t de Student – prueba Z U de Mann Withney
2 grupos pareados t de Student Wilcoxon
3 o más grupos independientes ANOVA Kruskal Wallis
3 o más grupos pareados ANOVA Friedman
Asociación entre dos variables
cualitativas
------ 2, prueba exacta de Fisher
Datos relacionados: MacNemar,
Kappa
Correlación entre dos variables
cuantitativas
Coeficiente de correlación de
Pearson
Coeficiente de correlación de
Spearman
4. Distribución chi-cuadrado (2)
Nos ayuda a determinar si existe asociación o no entre dos variables
categóricas, aplicando las pruebas de independencia y de
homogeneidad.
En ambos casos se trata de comparar las frecuencias observadas con
las frecuencias esperadas, bajo la hipótesis de no asociación entre las
variables.
5.
6.
7. Con estos datos podemos elaborar la siguiente tabla:
Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 14 18 32
No 48 223 271
Total 62 241 303
8. ¿Cómo deberían distribuirse los valores de esta tabla, manteniendo los
totales marginales constantes, para que no existe asociación entre ambas
variables?
Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 14 18 32
No 48 223 271
Total 62 241 303
11. Variable A Variable B Total
Sí No
Sí a b a+b
No c d c+d
Total a+c b+d a+b+c+d
12. Variable A Variable B Total
Sí No
Sí a b a+b
No c d c+d
Total a+c b+d a+b+c+d
Si A y B son independientes, deberá cumplirse entonces:
p(A) x p(B) = p(A B)
13. Variable A Variable B Total
Sí No
Sí a b a+b
No c d c+d
Total a+c b+d a+b+c+d
Si A y B son independientes, deberá cumplirse entonces:
p(A) x p(B) = p(A B)
p(A) x p(B) = p(A B)
14. Variable A Variable B Total
Sí No
Sí a b a+b
No c d c+d
Total a+c b+d a+b+c+d
Si A y B son independientes, deberá cumplirse entonces:
p(A) x p(B) = p(A B)
p(A) x p(B) = p(A B)
[(a+b)/(a+b+c+d)] x [(a+c)/(a+b+c+d)] = a/(a+b+c+d)
15. Variable A Variable B Total
Sí No
Sí a b a+b
No c d c+d
Total a+c b+d a+b+c+d
Si A y B son independientes, deberá cumplirse entonces:
p(A) x p(B) = p(A B)
p(A) x p(B) = p(A B)
[(a+b)/(a+b+c+d)] x [(a+c)/(a+b+c+d)] = a/(a+b+c+d)
16. Variable A Variable B Total
Sí No
Sí a b a+b
No c d c+d
Total a+c b+d a+b+c+d
Si A y B son independientes, deberá cumplirse entonces:
p(A) x p(B) = p(A B)
p(A) x p(B) = p(A B)
[(a+b)x(a+c)] / (a+b+c+d) = a
17. Frecuencia esperada
El cálculo de las frecuencias esperadas, por la propiedad de la
multiplicación de las probabilidades (eventos independientes), es el
siguiente:
Total de la fila x Total de la columna
Total de datos
E =
18. ¿Cómo deberían distribuirse los valores de esta tabla, manteniendo los
totales marginales constantes, para que no existe asociación entre ambas
variables?
Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 14 18 32
No 48 223 271
Total 62 241 303
19. Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 14 18 32
No 48 223 271
Total 62 241 303
Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 6,55 25,45 32
No 55,45 215,55 271
Total 62 241 303
Valores observados
Valores esperados (bajo la situación de no asociación- H0)
21. Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 14 (23,58%) 18( 7,47%) 32 (10,56%)
No 48 (77,42%) 223 (92,53%) 271 (89,44%)
Total 62 (100%) 241 (100%) 303 (100%)
Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 6,55 (10,56%) 25,45 (10,56%) 32 (10,56%)
No 55,45 (89,44%) 215,55 (89,44%) 271 (89,44%)
Total 62 (100%) 241 (100%) 303 (100%)
Valores observados
Valores esperados (bajo la situación de no asociación- H0)
22. Prueba estadística
Mide el grado en que los pares de frecuencias observadas y esperadas
son iguales bajo el supuesto de la no asociación entre las variables.
2
=
(𝑂 − 𝐸)2
𝐸
23. Pruebas de independencia y homogeneidad
Prueba de independencia:
Selección de un solo grupo en la investigación (estudio transversal p.e.)
y los sujetos son clasificados bajo dos criterios (variables).
La hipótesis nula señala que las variables A y B son independientes (no
existe asociación entre ambas variables).
24. Pruebas de independencia y homogeneidad
Prueba de homogeneidad:
Selección de dos o más grupos (estudio casos y controles, cohortes,
ensayo clínico, p.e.) y entre los grupos se compara una variable
cualitativa.
La hipótesis nula señala que los grupos en estudio son homogéneos
(iguales) en la distribución de la variable cualitativa que se está
comparando.
25. Pruebas de independencia y homogeneidad
En la práctica, al no haber diferencia en el cálculo del valor chi-
cuadrado cuando se realiza una u otra prueba, se habla de “prueba chi-
cuadrado” y no se especifica si se está bajo una situación de
independencia u homogeneidad.
26. Grados de libertad
La distribución chi cuadrado presenta diferentes patrones según los
grados de libertad con la que se estará trabajando.
Los grados de libertad los obtenemos como:
(# de filas – 1) x (# de columnas – 1)
30. Prueba chi cuadrado
¿Existe asociación entre la infección por Toxocara y la hepatomegalia?
Hepatomegalia Infección por Toxocara Total
Seropositivo Seronegativo
Sí 14 18 32
No 48 223 271
Total 62 241 303
31. Prueba chi cuadrado
Paso 1. Formulación de hipótesis estadística (nula y alternativa).
H0 : No existe asociación entre la infección por Toxocara y la
hepatomegalia.
H1 : Existe asociación entre la infección por Toxocara y la
hepatomegalia.
33. Prueba chi cuadrado
Paso 3. Selección de la prueba estadística.
La prueba estadística es la prueba chi cuadrado.
El problema se refiere al análisis de la asociación entre variables
categóricas.
34. Prueba chi cuadrado
Paso 4. Establecer la regla de decisión.
Se rechaza H0 si 2
calc > 2
tab
Se rechaza H0 si 2
calc > 3,841 (1 gl)
2 1 gl = 3,841
= 0,05
35. Prueba chi cuadrado
Paso 5. Cálculo del estadístico de la prueba.
Paso 6. Obtención del valor p.
41. Prueba chi cuadrado
Paso 7. Decisión estadística.
Se rechaza la hipótesis nula.
Por lo tanto, nos quedamos con la hipótesis alternativa:
Existe asociación entre la infección por Toxocara y la hepatomegalia.
42. Prueba chi cuadrado
Paso 8. Conclusión en función al contexto del enunciado.
Con un nivel de significancia de 0,05 se puede afirmar que existe
asociación entre la infección por Toxocara y la hepatomegalia.
44. Consideraciones
Ambas variables deben ser medidas en escala nominal
Pruebas para comparar variables ordinales:
Gamma
d de Somers
Tau-b de Kendall
Tau-c de Kendall
(Con frecuencia esta consideración no se toma en cuenta, lo cual puede
afectar la interpretación de los datos)
45. Consideraciones
Los valores esperados deben ser mayores de 5.
Si más del 20% de los valores esperados son menores a 5, se debe
aplicar la prueba exacta de Fisher.
46.
47. Medidas de fuerza de asociación
Una manera de establecer si un factor está asociado o no con la
ocurrencia de una enfermedad, es comparar el riesgo del grupo
denominado “expuesto”, frente a un grupo que no presenta tal
exposición, mediante una razón.
Esta razón se denomina Riesgo Relativo (RR).
Indica cuantas veces probable es que el grupo expuesto sufra de una
enfermedad, respecto a los no expuestos.
48. Riesgo relativo (RR)
Riesgo Relativo (RR) =
Incidencia entre los expuestos
Incidencia entre los no expuestos
50. Riesgo relativo (RR)
=
0.0133
0.0029
= 4.53
1695
5
Con protección
1480
20
Sin protección
No
Sí
Exposición solar
Melanoma maligno cutáneo
Total
1500
1700
Riesgo
Relativo
=
20 / 1500
5 / 1700
51. Riesgo relativo (RR)
=
0.0027
0.0053
= 0.51
1691
9
No
1496
4
Sí
No
Sí
Consumo de
dieta rica en
fibra
Cáncer de colon
Total
1500
1700
Riesgo
Relativo
=
4 / 1500
9 / 1700
52. Odds ratio (OR)
No siempre es posible calcular la incidencia en los estudios de
investigación. Se calcula entonces la Odds Ratio - OR (razón de ventaja,
razón de chances, razón de momios, razón de productos cruzados,
razón de probabilidades).
Para un evento E, que ocurre con probabilidad P, la odds se define
como:
P / (1 - P)
Es decir, la probabilidad de “éxito” entre la probabilidad de “no éxito”.
54. Odds ratio (OR)
Enfermedad
Exposición Presente Ausente
Presente a b
Ausente c d
Total a + c b + d
Odds Ratio =
a / (a+c)
=
a
=
c / (a+c) c ad
b / (b+d) b bc
d / (b+d) d
55. Odds ratio (OR)
= 4.70
Odds
Ratio
=
40 x 27
23 x 10
27
10
Con protección
23
40
Sin protección
No
Sí
Exposición solar
Melanoma maligno cutáneo
50 50
56. Odds ratio (OR)
= 0.45
Odds
Ratio
=
28 x 13
37 x 22
13
22
No
37
28
Sí
No
Sí
Consumo de
dieta rica en
fibra
Cáncer de colon
50 50
57. Interpretación del riesgo relativo y razón de odds
0 1
Ie > Io
factor de
riesgo
Ie = Io Sin efecto
Ie < Io
factor
protector
OR RR =
Ie
Io
58. Interpretación del riesgo relativo y razón de odds
RR = 2
¿Los expuestos tienen
dos veces más riesgo o
tienen dos veces el
riesgo?
RR = 3
¿Los expuestos tienen
tres veces más riesgo o
tienen tres veces el
riesgo?
2%
1%
3%
1%
Incidencia en
expuestos
Incidencia en no
expuestos
Incidencia en
expuestos
Incidencia en no
expuestos
59. Interpretación del riesgo relativo y razón de odds
RR = 1.5
Los expuestos tienen 1.5 veces el
riesgo de los no expuestos.
También: los expuestos tienen
50% más riesgo.
RR = 1.33
Los expuestos tienen 1.33 veces
el riesgo de los no expuestos.
También: los expuestos tienen
33% más riesgo.
3%
2%
4%
3%
Incidencia en
expuestos
Incidencia en no
expuestos
Incidencia en
expuestos
Incidencia en no
expuestos
60. Interpretación del riesgo relativo y razón de odds
RR = 0.67
Los expuestos tienen 0.67 veces
el riesgo de los no expuestos.
También: los expuestos tienen
33% menos riesgo.
RR = 0.20
Los expuestos tienen 0.20 veces
el riesgo de los no expuestos.
También: los expuestos tienen
80% menos riesgo.
2%
3%
0.6%
3%
Incidencia en
expuestos
Incidencia en no
expuestos
Incidencia en
expuestos
Incidencia en no
expuestos
61. Interpretación del riesgo relativo y razón de odds
Al reportar los valores de RR y OR, deben estar acompañados de sus
intervalos de confianza.
Si el RR u OR incluye la unidad (1), el RR u OR encontrado no es
estadísticamente significativo.
62.
63.
64.
65.
66. Bioestadística y Demografía – sesión 09
Análisis de datos categóricos
César A. Gutiérrez Villafuerte
Departamento Académico de Medicina Preventiva y Salud Pública
Facultad de Medicina, UNMSM