Estadistica bivariada

ESTADÍSTICA BIVARIADA
María Roldán Colinet | 1º Enfermería | 29-05-2018

ÍNDICE
1. INTRODUCCIÓN ……………………………………………2
2. OBJETIVOS……………………………………………………3
3. METODOLOGÍA…………………………………………....3
3.1 POBLACIÓN DE ESTUDIO………………….….3
3.2 VARIABLES A ANALIZAR……………………….4
3.3 ANÁLISIS DE DATOS……………………….……4
4. RESULTADOS………………………………………………..5
5. CONCLUSIONES………………………….…………………9

1. INTRODUCCIÓN
La estadística es la ciencia que utiliza conjunto de datos numéricos para obtener, a partir de
ellos, inferencias basadas en el cálculo de probabilidades. Es un estudio que reúne, clasifica y
recuenta todos los hechos que tienen una determinada característica en común, para poder llegar
a conclusiones a partir de los datos numéricos extraídos. (RAE)
La estadística se divide en dos:
 Estadística descriptiva: Describe y analiza los datos de un colectivo / muestra o una
población, con el fin de descubrir las regularidades o características existentes en sus
elementos. Se clasifica en:
o Descriptiva univariable: Analiza la distribución de una característica o
dimensión en una población, y elabora una serie de medidas resumen de esa
distribución.
o Descriptiva bivariable: Se ocupa de analizar la distribución conjunta de dos
variables en la población y la asociación entre esas variables.
 Estadística Inferencial: Su función es extrapolar las características al conjunto del
colectivo de dónde se extrae el subconjunto.
En conclusión, la estadística descriptiva bivariada sirve para describir conjuntamente dos
variables estadísticas y establecer si existe asociación o relación entre estas dos variables ya
sean dependientes o independientes. Para ello se puede combinar en el estudio dos cualitativas,
dos cuantitativas o una cualitativa con una cuantitativa.

2. OBJETIVOS
1. General: Utilizar la estadística bivariada para establecer la asociación entre dos
variables de nuestro fichero de datos activos en salud, dando respuesta a hipótesis de
investigación específicas.
2. Específico:
2.1 Queremos conocer si existe asociación entre las variables del archivo
“activossalud.Rdata” “sexo” y Consumo de fruta (“fruta): “Nunca o casi nunca”, 2-
“Menos de una vez por semana”, 3-“Una o dos veces a la semana”, 4- “Tres o más
veces a la semana”, 5 “A diario. Para ello y usando el software “Rcommander”:
a. Describe y representa los datos en una tabla
b. Establece una hipótesis adecuada para el estudio
c. Utiliza la prueba más adecuada para contrastar tu hipótesis
d. Interpreta los resultados.
2.2 Determina si existe relación y como de fuerte es entre las variables “altura” y “peso”.
Para ello y usando el software “Rcommander”:
a. Describe y representa los datos gráficamente.
b. Establece una hipótesis adecuada para el estudio.
c. Utiliza la prueba más adecuada para contrastar tu hipótesis
3. METODOLOGÍA
3.1 POBLACIÓN DE ESTUDIO
Para el estudio he usado la base Activos en Salud, donde tengo una muestra N= 291, donde
todos son estudiantes de 1o Enfermería de la Universidad de Sevilla, centros propios y adscritos.
Estos datos han sido obtenidos mediante la realización de una encuesta a todos los alumnos
para conocer sus estilos de vida y activos en salud.
3.2 VARIABLES A ANALIZAR

En este conjunto de datos tenemos tanto variables cualitativas-factor como variables
cuantitativas. En concreto, voy a usar:
 Caso 1: En este caso analizaré dos variables cualitativas por lo que tendré que hacer
Chi cuadrado.
o Sexo: variable cualitativa factor con dos categorías; 1Varón, 2  Mujer
o Consumo de fruta (“fruta”): Es una variable cualitativa factor con varias
categorías; 1 “Nunca o casi nunca”, 2 “Menos de una vez por semana”,
3“Una o dos veces a la semana”, 4 “Tres o más veces a la semana”, 5
“A diario”
 Caso 2: En este caso analizaré dos variables cuantitativas por lo que tendré que hacer
Pearson para mirar si hay o no correlación entre ambas variables.
o Altura: Variable cuantitativa, es un vector numérico dónde la unidad usada es
el metro.
o Peso: Variable cuantitativa, es un vector numérico, dónde la unidad usada es el
kg.
3.3 ANÁLISIS DE DATOS
Para ello usaré el programa Rcommander y Rgraphics, ambos son parte del paquete R, el cual
es un software estadístico que se encuentra en Internet de manera gratuita.
 Caso 1: Para el análisis de las dos variables cualitativas usaré las tablas de contingencia de
doble entrada para describir los datos. Para contrastar la hipótesis usaré chi cuadrado en el
caso de que las Frecuencias Esperadas (FE) sean mayor de 5, esto vale para variables
cualitativas de 2 o más categorías, en el caso de que alguna de las variables tenga una FE
menor de 5 intentaré reagrupar alguna categoría, si no se puede, tendré que usar Fischer.
Este test solo se puede usar en variables cualitativas de 2 categorías. Por último, miraré la
Odd Ratio.
 Caso 2: Para el análisis de las dos variables cuantitativas para saber si tienen o no
correlación usaré Pearson en el caso de que se cumpla Normalidad (comprobada con Test
de Shapiro- Wilk o histograma) y Linealidad (comprobada con el gráfico de dispersión). Si
no se cumple usaré Spearman que es la prueba no paramétrica. Según los datos que me den
ambos test miraré el coeficiente de correlación para ver de qué fuerza es la relación.

4. RESULTADOS
1. Conocer si existe asociación entre las variables “sexo” y Consumo de fruta (“fruta):
a. Describe y representa los datos en una tabla de contingencia de doble entrada.
TABLA CONTINGENCIA
Nunca o casi
nunca
Menos de 1
vez semana
1 o 2 veces
semana
3 o más veces
semana
A diario
Varón 2 6 10 18 15
Mujer 30 26 57 48 78
Como en el caso del Varón hay una FE menor de 5 en una de las categorías, tengo que reagrupar
dos categorías, pero para poder usar Fischer y que me de la Odd ratio voy a dicotomizar la
variable consumo de fruta: c("Nunca o casi nunca","Menos de una vez por semana","Una o dos
veces a la semana")="Alguna vez" y c("Tres o mas veces a la semana pero no a diario","A
diario")="A diario".
Ahora que todas las Frecuencias Esperadas son mayores de 5, sí se puede realizar Chi cuadrado.
TABLA CONTINGENCIA
A diario Alguna vez
Varón 33 18
Mujer 126 113
H0 = No hay asociación entre sexo y consumo de fruta, es decir, son variables independientes.
(p > 0.05)
Hi = Hay asociación entre sexo y consumo de fruta, es decir, son variables dependientes.
(p < 0.05)
c. Utiliza la prueba más adecuada para contrastar tu hipótesis.
Para contrastar la hipótesis usaré los datos obtenidos en Rcommander al realizar la tabla de
contingencia de doble entrada, la prueba de chi cuadrado y la Odd ratio.

X-squared = 2.4382, df = 1, p-value = 0.1184
Como la p > 0.05 aceptamos la hipótesis nula, es decir, no hay asociación entre el sexo y
consumo de fruta. Son variables independientes.
Gracias a la Odd Ratio podemos decir que por cada 1.641401 hombres que consumen fruta a
diario hay 1 mujer que consume fruta a diario.
2. Conocer si hay relación y como de fuerte es entre las variables “peso” y “altura”:
a. Describe y representa los datos gráficamente.
Para realizar Spearman las variables deben de cumplir Normalidad y Linealidad. Para
comprobar la normalidad usaré el histograma, diagrama de cajas y gráficos QQ, a parte del test
de Shapiro-Wilk.
Peso:

Tras ver estas gráficas podemos ver que el peso no sigue una distribución normal
Altura:
Tras ver estas gráficas podemos ver que la altura no sigue una distribución normal. Con
el gráfico de dispersión (siguiente), vemos que son lineales.

H0 = No hay correlación entre el peso y la altura. (p > 0.05)
Hi = Hay correlación entre el peso y la altura. (p < 0.05)
c. Utiliza la prueba más adecuada para contrastar tu hipótesis.
Primero que nada, usaré el test de Shapiro-Wilk para asegurarme de la normalidad de ambas
variables.
Peso  W = 0.89614, p-value = 8.406e-13
Altura  W = 0.96796, p-value = 0.000004686
Sabiendo que H0 = Normalidad (p > 0.05) y Hi = No normalidad (p < 0.05), como el valor de
p en ambos casos es menor de 0.05 vemos que ninguna de las variables sigue una distribución
normal.
Como no se cumple el requisito de normalidad, tengo que usar Spearman que es la prueba no
paramétrica. Al hacer Spearman obtenemos:
S = 1308800, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates: rho = 0.6224114
Pero como ambas son lineales y la linealidad tiene más fuerza que la normalidad, también
hacemos Pearson y nos quedamos con el test que de un valor de p más alto. Al hacerlo
obtenemos:
t = 13.444, df = 273, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval: 0.5542190 0.6973539
sample estimates: cor = 0.6311292
Como la p < 0.05 aceptamos la hipótesis nula, es decir, hay correlación entre el peso y la
altura. Una vez sabemos que hay correlación vemos que como el cor y rho son mayores de
0.5, tienen una correlación fuerte.

5. CONCLUSIONES
 Caso 1: Gracias al estudio de las dos variables hemos visto que el sexo y el consumo de
fruta no están relacionados, es decir son variables independientes y gracias a la Odd ratio
vemos como los hombres consumen más fruta que las muejres, aunque al ser el valor de p
mayor de 0.05 esto no es significativo.
 Caso 2: Gracias al estudio de las dos variables hemos visto como entre el sexo y la altura
si existe correlación y la fuerza de relación entre ambas es fuerte, por lo que vemos como
el peso y la altura están conjuntamente enlazados, aparte de saber que con ambas medidas
y siguiendo la fórmula podemos ver cuál es nuestro Índice de Masa Corporal (IMC) y ver
si nos encontramos o no entre los valores adecuados.
IMC = Peso / (Altura)2

Estadistica bivariada

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Estadistica bivariada

Similar a Estadistica bivariada (20)

Último

Último (20)

Estadistica bivariada