Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Seminario 7
1. Seminario VII: Análisis
bivariado con variables
cualitativas (proporciones)
Beatriz Rojas Jíménez
Estadística y Tic’s
1º Enfermería Virgen del Rocío; subgrupo 16
Curso: 2015/16
2. Introducción
En R Commader podemos realizar operaciones diferentes. En este caso vamos a realizar operaciones para dos o
más variables cualitativas relacionadas (tablas de contingencia, chi-cuadrado y odds ratio).
1) Contrastar los resultados del ejercicio realizado manualmente con los resultados en R Commander:
Si queremos conocer si existe asociación entre el consumo de tabaco y el bajo peso al nacer; estudiamos a
250 mujeres fumadoras y a 1750 mujeres no fumadoras y encontramos que:
• De las 250 mujeres fumadoras, 43 tienen un niño con bajo peso al nacer.
• De las 1750 mujeres no fumadoras, 105 tienen un niño con bajo peso al nacer.
2) Establece y describe si existe asociación entre las variables del archivo “activossalud.Rdata” sexo y:
• Practicadeporte (Sí, No)
• Fruta: 1- “Nunca o casi nunca”, 2- “Menos de una vez por semana”, 3-“Una o dos veces a la semana”, 4-
“Tres o más veces a la semana”, 5 “A diario”
3. Ejercicio 1: Contrastar los resultados del
ejercicio realizado manualmente con los
resultados en R Commander
Si queremos conocer si existe asociación entre el consumo de tabaco y el bajo peso al
nacer; estudiamos a 250 mujeres fumadoras y a 1750 mujeres no fumadoras y
encontramos que:
• De las 250 mujeres fumadoras, 43 tienen un niño con bajo peso al nacer.
• De las 1750 mujeres no fumadoras, 105 tienen un niño con bajo peso al nacer.
4. 1º) Representa los datos en un tabla de contingencia
indicando las frecuencias observadas y porcentajes.
V1 = MUJERES V2 = NIÑOS
SÍ bajo peso al nacer NO bajo peso al nacer TOTAL
F1 = Fumadoras a = 43 b = 207 250 (a+b)
F1% 17’2 82’8 100
F2 = no fumadoras c =105 d = 1645 1750 (c+d)
F2% 6 94 100
TOTAL 148 (a+c) 1852 (b+d) N =2000
TOTAL% 7’4 92’6 100
5. 2º) Establece una hipótesis adecuada para el
estudio.
¿Existe asociación entre el consumo de tabaco de las mujeres y la probabilidad
de tener hijos con bajo peso al nacer?
• H0 = No existe asociación entre el consumo de tabaco en mujeres y tener
hijos con bajo peso.
• H1 = Existe asociación entre el consumo de tabaco en mujeres y tener hijos
con bajo peso.
6. 3º) Utiliza la prueba chi-cuadrado de Pearson para
contrastar tu hipótesis.
A. Primero debemos calcular las frecuencias esperadas a partir de las
observadas:
• FE11 =
𝑎+𝑏 ∗(𝑎+𝑐)
𝑛
=
43+207 ∗(43+105)
2000
= 18’5
• FE12 =
𝑏+𝑎 ∗(𝑏+𝑑)
𝑛
=
207+43 ∗(207+1645)
2000
= 231’5
• FE21 =
𝑐+𝑎 ∗(𝑐+𝑑)
𝑛
=
105+43 ∗(105+1645)
2000
= 129’5
• FE22 =
𝑑+𝑐 ∗(𝑑+𝑏)
𝑛
=
1645+105 ∗(1645+207)
2000
= 1620’5
7. B. Ahora ya podemos calcular la chi-cuadrado a partir de la fórmula:
X2 = ∑
(𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎𝑠 −𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎𝑠)2
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎𝑠
=
(43−18′5)2
18′5
+
(207−231′5)2
231′5
+
(105−129′5)2
129′5
+
(1645−1620′5)2
1620′5
= 40’04436402
V1 = MUJERES V2 = NIÑOS
SÍ bajo peso al nacer NO bajo peso al nacer TOTAL
F1 = Fumadoras a = 43 (FE = 18’5) b = 207 (FE = 231’5) 250 (a+b)
F1% 17’2 82’8 100
F2 = no fumadoras c =105 (FE = 129’5) d = 1645 (FE = 1620’5) 1750 (c+d)
F2% 6 94 100
TOTAL 148 (a+c) 1852 (b+d) N =2000
TOTAL% 7’4 92’6 100
8. C. Calculamos los grados de libertad:
g. i. = (Número de filas – 1)*(Número de columnas – 1) = (2 – 1)*(2 – 1) = 1
Es una variable dicotómica, tabla 2x2.
9. D. Buscamos la chi-cuadrado teórica en las tablas de chi-cuadrado
asociada al margen de error establecido (0’05)
X2 = 3’8415
• Aceptamos H0 X2 real < X2 teórica (no existe relación entre las variables).
• Rechazamos H0 X2 real > X2 teórica (existe relación entre las variables).
Por tanto, en nuestro caso 40’044 > 3’8415 Rechazamos la hipótesis nula (H0) Existe
relación entre las variables.
10. 4º) Calcula la Odds ratio
OR =
(𝒂∗𝒅)
(𝒄∗𝒃)
=
(43∗1645)
(105∗207)
= 3’2544
• Si OR = 1 no hay asociación, son independientes
• Si OR > 1 la presencia del factor se asocia a mayor ocurrencia del evento.
• Si OR < 1 la presencia del factor se asocia a menor ocurrencia del evento.
En nuestro caso, 3’2544 > 1 por tanto, la presencia del factor se asocia a
mayor ocurrencia del evento.
11. 5º) Repite el ejercicio con R Commander ¿Los
resultados son los mismos?
Como siempre que empezamos con R Commander: establecemos el directorio de trabajo y cargamos los datos que vamos a
utilizar.
A) Estadísticos Tablas de contingencia Introducir y analizar una tabla de doble entrada Introducir datos en la
tabla 2x2
12. Aquí podemos comprobar como:
• X2 = 40’044.
• “P”
• FE
• Test exacto de Fisher’s
• Odds ratio = 3’25158
Por tanto, podemos ver como los valores son similares a los resultados obtenidos
manualmente (aceptamos H1).
13. Ejercicio 2:
Establece y describe si existe asociación entre las variables del archivo
“activossalud.Rdata” sexo y:
• Practicadeporte (Sí, No)
• Fruta: 1- “Nunca o casi nunca”, 2- “Menos de una vez por semana”, 3-
“Una o dos veces a la semana”, 4- “Tres o más veces a la semana”, 5 “A
diario”
14. Abrimos de nuevo R Commander, establecemos el directorio de trabajo y cargamos los
datos de “activossalud” (como en los seminarios anteriores).
1º) Realizamos una tabla de contingencia: Estadísticos Tablas de contingencia
Tabla de doble entrada… Elegir variables (sexo-practicadeporte)
15. Tenemos una chi-cuadrado de 19’163.
Sabiendo que la chi-cuadrado teórica es 3’84 establecemos que:
Como real > X2 teórica (19’163 > 3’84), rechazamos la hipótesis nula (H0) y por tanto, aceptamos la
hipótesis alternativa (H1). Esto significa que existe asociación entre las variables “sexo” y
“practicadeporte”.
16. 2) Ahora cambiamos las variables y elegimos, “sexo” y “fruta”
En este caso, X2 real > X2 teórica
(7’6036>3’84) por tanto,
rechazamos la hipótesis nula (H0)
y podemos afirmar que las variables
“sexo” y “fruta” están relacionadas.