1. Análisis de variables
Dr. Jéshua Dos santos
Residente de cuarto año de Cirugía General
Área de investigación
Hospital Roosevelt
2022.
2. Como categorizar variables
• Dependientes: variable resultado o efecto. Es la que pensamos que
esta condicionada por la otra variable.
• Independientes: variable explicativa o de exposición. Es la que
condiciona la otra variable.
3. Ejemplos
I D
• Edad y grado de Wagner.
I D
• Tipo de donador y tiempo de cirugía.
4. Número de variables
Continuas: pueden ir de un número infinito. Pueden fraccionarse.
• Ej: peso, talla
• Se miden con escalas de razón
Discretas: son posibilidades finitas. No pueden fraccionarse
• Ej: sexo, numero de intervenciones quirúrgicas.
• Se miden en escalas nominales u ordinales.
5. Escalas de medición de variables
• Depende del número de variables.
• 3 tipos principales
• Nominal
• Ordinal
• De razones
6. Escala nominal
• Consta de dos (dicotómica ej, sexo.) o más categorías.
• ejemplos: religión, lugar de nacimiento
Escala ordinal
• Sus categorías están ordenas por rangos, van escalonadas.
• Ejemplos: escala de Wagner, grado académico.
7. Escalas de Razón
• En esta el 0 sí indica ausencia de atributo, son continuas porque
pueden ser infinitas.
• También se les llaman métricas o dimensionales y también de
intervalos.
• Ejemplos: peso, nivel de glucosa, tiempo quirúrgico.
8. • Cuando se categorizan algunas variables pueden convertirse de
variables de razón a variables ordinales o nominales.
• Ejemplos:
• Edad: variable de razón
• Edad de 10 a 20 años, de 20 a 30 años, de 30 a 40 años: variable
ordinal
• Edad mayores y menores de 40 años: variable nominal dicotómica.
9. Elección de las escalas.
• Se determina por la definición operativa de la variable y por los
métodos de los que disponemos para medirlas.
• Según las variables asociadas tendremos solo un tipo de método
estadístico, para otras tendremos varias alternativas.
10.
11.
12. Normalidad
• Dice el diccionario que algo normal es la que se halla en su estado
natural o que se ajusta a normas fijadas de antemano.
• En estadística es una distribución de probabilidad determinada
normal. (Campana de Gauss)
13.
14. Normalidad
• Cuando se analizan datos de variables continuas. Las pruebas
estadísticas empleas se basan en suponer si una muestra obtenida
aleatoria tiene una distribución normal.
• En muchos escenarios esto no es verdad o válido y en otras existe
sospecha de que no es valido o adecuado por ser muestras pequeñas.
• La ventaja de la distribución normal es que permite calcular
probabilidad de datos de la distribución.
17. ¿Normalidad?
• Dos mecanismos.
• Los datos de pueden trasformar
• Utilizar pruebas que no se basan en ninguna suposición en cuanto a la
distribución de probabilidad. (no paramétricas)
18.
19. Pruebas no paramétricas
• Son las que a pesar de basarse en suposiciones, los datos analizados
no tienen una distribución normal.
• No presumen ninguna distribución de probabilidad teórica de la
distribución de los datos.
• Conveniente en muestras pequeñas (<10)
• Menos exactas que las paramétricas.
20. Pruebas paramétricas
• Se basan en suponer que los valores de las variables se distribuyen de
forma determinada.
• Son más exactas que las pruebas no paramétricas.
La edad seria independiente y el grado Wagner queremos ver si depende de la variable edad.
Si queremos estudiar seria el tipo de donador este sería el independiente y la cirugía la dependería de este tipo de donador.
A cada categoría se asigna un número de código para facilitar su introducción en la base de datos.
Lo primero que tenemos que hacer es darnos cuenta de que la variable no sigue una distribución normal. Existen una serie de métodos gráficos que nos permiten aproximar de forma visual si los datos siguen la normal, tal como vemos en la figura. El histograma o el diagrama de cajas (box-plot) nos permiten comprobar si la distribución está sesgada, si es demasiado plana o picuda, o si tiene valores extremos. El gráfico más específico para este fin es el de probabilidad normal (q-q plot), en el que los valores se ajustan a la línea diagonal si la distribución sigue una normal.
Otra posibilidad es emplear pruebas de contraste numéricas como la de Shapiro-Wilk o la de Kolmogorov-Smirnov. El problema de estas pruebas es que son muy sensibles al efecto del tamaño de la muestra. Si la muestra es grande pueden afectarse por desviaciones de la normalidad poco importantes. Al contrario, si la muestra es pequeña, pueden fracasar en la detección de desviaciones grandes de la normalidad.
La variable edad es una variblae nominal dicotómica y la variable insulina es numérica continua: el mejor método método estadístico a utilizar es el chi-cuadrado. Se obtiene valor de 0.114 que es > 0.05, lo que indica que no existe una relación significativa entre las dos variables, (sexo y uso de insulina), ninguna ejerce influencia sobre la otra.
Edad es una variable cuantitativa (escalar) y el grado de Wagner al ingreso es un variable ordinal, por lo que para medir la asociación entre estas se utilizó el Coeficiente de correlación de Spearman. Este mide el grado de correspondencia que existe entre los rangos que se asignan a los valores de las variables analizadas. La interpretación del coeficiente rho de Spearman concuerda en valores próximos a 1; indican una correlación fuerte y positiva. Valores próximos a –1 indican una correlación fuerte y negativa. Valores próximos a cero indican que no hay correlación lineal, puede que exista otro tipo de correlación, pero no lineal. Los signos positivos o negativos solo indican la dirección de la relación; un signo negativo indica que una variable aumenta a medida que la otra disminuye o viceversa, y uno positivo que una variable aumenta conforme la otra también lo haga disminuye, si la otra también lo hace.
En este caso la Rho de Spearman tiene un valor de 0.208, que indica una relación escasa o nula entre la edad y el grado de Wagner al ingreso, con un nivel de significancia 0.038 menor a 0.05, por lo que el resultado es confiable. En la siguiente imagen se observa una grafica de cajas y bigotes representativa de los datos edad y escala de Wagner al ingreso.
Se obtiene un valor de 4.23 con un valor de p de 0.040 que es menor a 0.05, lo que indica que existe una relación significativa entre las dos variables, con un nivel de significancia del 95%.
Variable nominal + nominal= chicuadrado o fisher
Variable nominal + continua (numérica)= chicuadrado
Variable nominal (más de 2 variables) + continua= ANOVA
Dos continuas= Pearson
Se calculó la sobrevida con el test de Kaplan-Meier. Se obtuvo una estimación de sobrevida de 66.0 meses para el estadio I, de 74.9 meses para el estadio II, de 70.5 meses para el estadio III y de 64.6 meses para el estadio IV; con una sobrevida global media de 68.3 meses. No obstante, presenta un valor de long Rank de 4.149 con una p de 0.246 que es mayor a 0.05, lo que indica que no existe una relación significativa entre las variables estadio y sobrevida.
Se utilizó la curva de ROC para validad la escala EDEA para predecir la mortalidad. Un test diagnóstico se considera no-discriminativo si su curva ROC coincide con la línea de no-discriminación, la cual posee Área bajo la curva = 0,50. A medida que el área bajo la curva de un test diagnóstico se acerca al valor 1,00 (test diagnóstico perfecto), mayor será su capacidad discriminativa. Para esta escala se obtuve un área bajo la curva de 0.55, esto refleja que la escala EDEA es muy poco discriminativa para determinar la mortalidad en los primeros 30 días post-operatorio. Asimismo también es importante resaltar que presenta un valor de P de 0.444, por lo que no es significativo el resultado.