SlideShare una empresa de Scribd logo
METODOLOGÍA DE LA
INVESTIGACIÓN
Introducción al análisis estadístico de datos con SPSS
Vanesa Balboa Barreiro
Vanesa.Balboa.Barreiro@sergas.es
I. Manejo de datos con SPSS: organización, carga y edición
II. Estadística descriptiva e inferencia estadística
 Análisis descriptivo y exploratorio de datos
 Introducción a la inferencia estadística: contrastes de hipótesis e intervalos de
confianza
 Análisis bivariante
III. Introducción al análisis multivariante: regresión lineal y logística binaria
IV. Ejercicio de evaluación
I. Manejo de datos con SPSS: organización, carga y edición
I. Manejo de datos con SPSS
SPSS ofrece tres ventanas:
Editor de Datos (semejante a una hoja de cálculo), estructurado en dos hojas:
• Vista de datos: contiene los datos del fichero. Sólo puede haber un conjunto de datos activo. Extensión: .sav
• Vista de variables: contiene una lista de las variables recogidas en el fichero de datos.
Visor de resultados: almacena los resultados generamos. Extensión: *.spo
Editor de sintaxis: contiene los ficheros de sintaxis o lenguaje de comandos. Extensión: *.sps.
I. Manejo de datos con SPSS
I. Manejo de datos con SPSS
Generación de bases de datos: pueden crearse directamente en el editor de datos o importarse desde otro
programa (.csv, por ejemplo)
Archivo → Abrir Archivo → Importar Datos
I. Manejo de datos con SPSS
Generación de bases de datos: pueden crearse directamente en el editor de datos o importarse desde otro
programa (.csv, por ejemplo)
1. Asignar un nombre y una etiqueta
2. Definir el tipo de variable
3. Definir valores y asignarles etiquetas descriptivas
I. Manejo de datos con SPSS.
Generar una base de datos llamada ‘’Práctica0’’
Crear una base de datos con 5 registros (pacientes). De los cuales se desea recoger la siguiente
información
1. Crear las variables:
ID = variable numérica, número de identificación del paciente
Edad = variable numérica, edad del paciente en años
Sexo = variable categórica (0=hombre, 1=mujer)
Tipo de cirugía = variable cualitativa (1=A, 2=B, 3=C)
Fecha de la cirugía = fecha
Éxitus = variable categórica (0=vivo,1=exitus)
Causa de la muerte = variable categórica (0=no relacionada con el evento,1=relacionada
con el evento)
Fecha de fallecimiento = fecha de fallecimiento
Fecha de fin de seguimiento = fecha de último contacto o fallecimiento
Práctica 1
I. Manejo de datos con SPSS.
Práctica 1
https://xxicoruna.sergas.gal/DPInformacionparaamiasaude/Deseno_base_datos_en_folla_calculo.pdf
Importar la base de datos llamada “MET_cbp.xlsx’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tarea:
Depuración de la base de datos
eliminar cadenas (sex)
poner etiquetas (variables cualitativas)
poner etiqueta con descripción de las variables y unidades
I. Manejo de datos con SPSS.
Práctica 2
I. Manejo de datos con SPSS.
Variables:
id Identificador
time Tiempo (días) hasta evento mas próximo (Muerte / Transplante / Fin de estudio)
status Status 0: Censura - 1: Transplante - 2: Muerte
trt Tratamiento 1: Si 2: Placebo
age Edad (años)
sex Sexo m: male / f: female
ascites Ascitis 0: No / 1: Si
hepato Hepatomegalia: 0: No / 1: Si
spiders Arañas vasculares 0: No / 1: Si
Bili, bili_2 Bilirrubina (mg/dl) Visita inicial y visita final
Chol, chol _2 Colesterol (mg/dl) Visita inicial y visita final
Albumin, albumin_2 Albúmina (gr/dl) Visita inicial y visita final
copper Cobre en orina (mcg/día)
alk.phos Fosfatasa alcalina (U/l)
sgot SGOT (U/ml)
trig Triglicéridos (mg/dl)
platelet Plaquetas (recuento)
protime Tiempo de protombina (sg)
Stage, stage_2 Grado histológico Visita inicial y final
day Dias desde 1ª a última visita
Práctica 2
I. Manejo de datos con SPSS
Permite ordenar los casos del archivo utilizando una o más variables
Introducimos las
variables de
ordenación
Indicamos el sentido
de la ordenación
I. Manejo de datos con SPSS
Permite definir una variable de agrupación para realizar el análisis por
grupos
Introducimos la variable
de segmentación o
división
Indicamos que tipo de
división deseamos
Comparar grupos: los resultados de
cada procedimiento se muestran juntos
para cada grupo de segmentación del
archivo.
Organizar los resultados por grupos:
los resultados de cada procedimiento se
muestran por separado.
I. Manejo de datos con SPSS
Permite filtrar la base para el análisis sobre un subconjunto de datos
Indicamos que tipo de
selección deseada
Abrir la base de datos llamada “MET_cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tarea:
Construcción de nuevas variables y análisis descriptivo
Calcular:
Tiempo de seguimiento (días): desde 1er contacto hasta fecha de censura o de evento
Tiempo hasta visita 2 (días): desde 1er contacto hasta última visita
IMC
Recodificar IMC en infra-Normopeso / sobrepeso / obesidad
Recodificar IMC en obesidad si / no
I. Manejo de datos con SPSS.
Práctica 3
I. Manejo de datos con SPSS.
Variables:
id Identificador
status Status 0: Censura - 1: Transplante - 2: Muerte
trt Tratamiento 1: Si 2: Placebo
age Edad (años)
sex Sexo m: male / f: female
Talla y peso Talla (cm) y peso (kg)
ascites Ascitis 0: No / 1: Si
hepato Hepatomegalia: 0: No / 1: Si
spiders Arañas vasculares 0: No / 1: Si
Bili, bili_2 Bilirrubina (mg/dl) Visita inicial y visita final
Chol, chol _2 Colesterol (mg/dl) Visita inicial y visita final
Albumin, albumin_2 Albúmina (gr/dl) Visita inicial y visita final
copper Cobre en orina (mcg/día)
alk.phos Fosfatasa alcalina (U/l)
sgot SGOT (U/ml)
trig Triglicéridos (mg/dl)
platelet Plaquetas (recuento)
protime Tiempo de protombina (sg)
Stage, stage_2 Grado histológico Visita inicial y final
Fechapc Fecha del primer contacto (entrada en el estudio)
Fechavisita2 Fecha de la última visita
Fechaucont Fecha de último contacto (censura, transplante o éxitus)
Práctica 3
I. Manejo de datos con SPSS
Permite crear nuevas variables a partir de valores de las variables existentes
Nombre para la
nueva variable
Expresión numérica para los valores que deban
asignarse a esa nueva variable
Ejemplo:
𝒊𝒎𝒄 = 𝒑𝒆𝒔𝒐 ÷ 𝒕𝒂𝒍𝒍𝒂^𝟐
I. Manejo de datos con SPSS
Permite reagrupar los valores de una variable existente o crear una nueva
variable en base a los valores de una que ya existe
En las mismas variables: reasigna los valores o reduce el rango de valores de variables
existentes en al misma variable.
En variables diferentes: crea una nueva variable reasignando o reduciendo el rango de
valores de variables existentes.
I. Manejo de datos con SPSS
Permite reagrupar los valores de una variable existente o crear una nueva
variable en base a los valores de una que ya existe
En las mismas variables: reasigna los valores o reduce el rango de valores de variables
existentes en al misma variable.
En variables diferentes: crea una nueva variable reasignando o reduciendo el rango de
valores de variables existentes.
≤ 216  1
> 216  2
< 216  1
≥ 216  2
II. ESTADÍSTICA DESCRIPTIVA E INFERENCIA ESTADÍSTICA
I. Manejo de datos con SPSS: organización, carga y edición
II. Estadística descriptiva e inferencia estadística
 Análisis descriptivo y exploratorio de datos
 Introducción a la inferencia estadística: contrastes de hipótesis e intervalos de
confianza
 Análisis bivariante
III. Introducción al análisis multivariante: regresión lineal y logística binaria
II. Estadística descriptiva e inferencia estadística
1. ¿Cuál es el objetivo del análisis?
 Describir: ¿Qué características tiene nuestra muestra?
 Asociar: ¿Existe relación entre las variables?
 Comparar: ¿Las poblaciones son similares? ¿Qué variables explican esas diferencias?
 Predecir: ¿Puedo predecir un evento a partir de mis datos?
2. ¿Qué tipo de variables tengo?
3. ¿Son muestras independientes o relacionadas?
4. ¿Se pueden aplicar técnicas paramétricas?
5. ¿Qué prueba debo realizar?
6. ¿La asociación/comparación es estadísticamente significativa?
7. Interpretación de los resultados obtenidos
8. Presentación de los resultados
Preguntas clave:
II. Estadística descriptiva e inferencia estadística
ESTADÍSTICA BÁSICA
ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA
Describe
Analiza
Representa
las características
observadas en la
muestra
Efectuar estimaciones
Tomar decisiones
Dar predicciones u otras
generalizaciones
sobre la población a partir
de los datos obtenidos a
partir de una muestra.
II. Estadística descriptiva e inferencia estadística
ESTADÍSTICA BÁSICA
ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA
Tipos de
variables
Tablas y
gráficas
Medidas de centralización,
dispersión, posición y forma
ESTIMACIÓN CONTRASTE DE HIPÓTESIS
Métodos
paramétricos
Puntual Por
intervalos
Métodos no
paramétricos
T-Student
ANOVA
Fisher
Pearson
U-Mann Whitney
Kruskall-Wallis
Tablas de
contingencia
II. Estadística descriptiva e inferencia estadística
ESTADÍSTICA DESCRIPTIVA: Conceptos
Permite analizar, describir y representar un grupo de datos (muestra) mediante métodos numéricos y gráficos.
 MUESTRA: conjunto de individuos que pueden ser estudiados en el momento de realizar el estudio
cumplen los criterios de inclusión. Representan la población de interés
En general la población es inaccesible, por eso se opta por tomar una muestra representativa
 INDIVIDUO: cada elemento de la población
 VARIABLE: característica (numérica o no) de cada individuo a estudio
Ejemplo: edad, sexo, niveles de glucemia, …
 PARÁMETRO: medida que interesa conocer en una variable aleatoria en una población
Ejemplo: 𝜇=media, 𝜎=desviación típica, p=proporción, …
 ESTADÍSTICO MUESTRAL: estimación de la muestra aleatoria que permite aproximar el parámetro de interés
Ejemplo: Ƹ
𝜇=media muestral, …
II. Estadística descriptiva e inferencia estadística
ESTADÍSTICA DESCRIPTIVA: Tipos de variables
CONTINUAS: pueden tomar cualquier valor dentro de un rango determinado
Ejemplo: edad, peso, IMC, …
DISCRETAS: podrán tomar ciertos valores concretos (habitualmente números enteros)
Ejemplo: nº de aciertos en un test, …
ORDINALES: las posibles respuestas admiten una ordenación lógica
Ejemplo: gravedad de un infarto (leve, moderado, fuerte), …
NOMINALES: las posibles respuestas NO admiten ningún tipo de ordenación
Ejemplo: sexo (hombre, mujer), color de ojos (verde, azul, marrón), …
CUANTITATIVAS
¿Cuánto?
CUALITATIVAS
¿De qué tipo?
II. Estadística descriptiva e inferencia estadística
VARIABLES CUALITATIVAS VARIABLES CUANTITATIVAS
ESTADÍSTICOS
Tablas de frecuencias
Porcentajes
De tendencia central, posición y
dispersión
n (%)
media±dt, mediana
Rango, RIC
GRÁFICOS
Diagrama de barras y/o
sectores
Histogramas
Diagramas de cajas
II. Estadística descriptiva e inferencia estadística
𝑓(𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒂) =
𝑓(𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎)
𝑛º 𝑑𝑒 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
Variables cualitativas: binarias (dicotómicas) o con k-categorías: se expresarán como
frecuencias absolutas y relativas
Sexo n %
%
válido
%
acumulado
Hombre 112 46,5 46,5 46,5
Mujer 129 53,5 53,5 100
Total 241 100 100
Frecuencia
absoluta
Frecuencia
relativa·100
Frecuencia
relativa
acumulada
IMC n %
%
válido
%
acumulado
Normopeso 130 35,0 35,6 35,6
Sobrepeso 156 42,1 42,8 78,4
Obesidad 79 21,3 21,6 100
Perdidos 6 1,6 365
Total 371 100
Frecuencia
absoluta
Frecuencia
relativa·100
Frecuencia
relativa
acumulada
Frecuencias absolutas: número de observaciones
Frecuencias relativas: porcentaje
II. Estadística descriptiva e inferencia estadística
Variables cualitativas: Frecuencias
Estadísticos:
solo si se trata
de variables
cuantitativas.
II. Estadística descriptiva e inferencia estadística
Variables cualitativas: Frecuencias
Sintaxis: podemos pegarla en la hoja de sintaxis para
reproducir de nuevos los análisis.
Seguimos trabajando con la base “MET_cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
1. Identificar las variables cualitativas recogidas en la base de datos
2. Describirlas utilizando los estadísticos adecuados
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística
Variables cuantitativas: Medidas de centralización, posición, dispersión, forma, …
MEDIDAS DE:
 CENTRALIZACIÓN: resumen la localización alrededor de la cual se distribuyen los datos.
Ejemplo: media, moda y mediana
 DISPERSIÓN: resumen la variabilidad que presentan los datos alrededor de alguno de los estadísticos de
centralización, indican una mayor o menor concentración.
Ejemplo: varianza (𝜎2
) y desviación típica (𝝈), rango, rango intercuartílico, coeficiente de variación, …
 POSICIÓN: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Ejemplo: percentiles, deciles, cuartiles, …
 FORMA: informan sobre el comportamiento de la distribución de los datos.
Ejemplo: simetría
II. Estadística descriptiva e inferencia estadística
Variables cuantitativas:
Medidas de centralización
• Media aritmética (mean): es la suma de los datos dividido por el tamaño muestral.
• Mediana (median):
Es el valor que deja la mitad de los datos por encima de ese valor y la otra mitad por debajo de ese
valor
Si el número de datos es impar (n impar), la mediana es el dato central
Si el número de datos es par (n par), se elige la media de los dos datos centrales
• Moda (mode): es el valor o valores más frecuente o que más se repite dentro de las observaciones.
NOTA: la media es muy sensible a la existencia de valores extremos de la variable, ya que todas las
observaciones intervienen en el cálculo de la media, la aparición de un dato extremo hará que la media
se desplace en esa dirección.
II. Estadística descriptiva e inferencia estadística
Variables cuantitativas:
Medidas de centralización
Media = (17 + 19 + … + 40 + 44) / 15 = 28,3 años
Mediana = 27 años
Moda = 26 y 27 años
Nº
paciente Edad
1 17
2 19
3 24
4 25
5 26
6 26
7 27
8 27
9 28
10 29
11 30
12 31
13 32
14 40
15 44
II. Estadística descriptiva e inferencia estadística
Variables cuantitativas:
Media = (17 + 19 + … + 40 + 44) / 15 = 28,3 años
Mediana = 27 años
Moda = 26 y 27 años
Nº
paciente Edad
1 17
2 19
3 24
4 25
5 26
6 26
7 27
8 27
9 28
10 29
11 30
12 31
13 32
14 40
15 44
Medidas de centralización y posición
1º cuartil = 25 años, 3º cuartil = 31 años
II. Estadística descriptiva e inferencia estadística
Variables cuantitativas:
Medidas de dispersión
Rango: diferencia entre el valor máximo y mínimo observados
Rango intercuartílico (RIC): diferencia entre el tercer (Q3) y primer cuartil (Q1) 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 𝑃75 − 𝑃25
NOTA: El RIC es menos sensible a la presencia de valores anómalos, mientras que el rango se suele ver
bastante afectado por cualquier valor anormalmente alto o bajo.
Desviación típica (σ): resume la distancia existente entre cada observación y la media. 𝜎 =
σ𝑖=1
𝑛 (𝑥𝑖− ҧ
𝑥)2
𝑛−1
permite trabajar en las unidades de medida
Varianza (𝝈𝟐
): resume la variabilidad de la muestra respecto a la media. Valores más altos corresponden a
muestras con mayor variabilidad
• Utiliza toda la información, cada una de las observaciones
• Es nula o positiva
• A mayor valor de la varianza, mayor dispersión
• Si todas las observaciones toman el mismo valor, la varianza será nula
• La desviación típica se expresa en las mismas unidades que la variable
II. Estadística descriptiva e inferencia estadística
Variables cuantitativas: Gráficos
Media 56,38
Mediana 56,99
Moda 57,50
Desv.est. 11,46
Mínimo 24,25
Máximo 81,77
Percentiles
25 48,85
50 56,99
75 65,40
DIAGRAMA DE CAJAS
HISTOGRAMA
Seguimos trabajando con la base “MET_cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
3. Identificar las variables cuantitativas recogidas en la base de datos
4. Describirlas utilizando los estadísticos adecuados
5. Hacer un histograma con curva de densidad para la edad. ¿Tiene una distribución normal?
6. Representar sexo mediante un diagrama de sectores e, IMC mediante un diagrama de barras
7. Recodificar la edad en edad.rec (0: <65 años, 1: ≥65 años) y describirla
I. Manejo de datos con SPSS.
Práctica 3. Continuación
I. Manejo de datos con SPSS.
Práctica 3. Continuación
Tabla 1. Descripción de la muestra a estudio
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística
ESTADÍSTICA BÁSICA
ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA
Describe
Analiza
Representa
las características
observadas en la
muestra
Efectuar estimaciones
Tomar decisiones
Dar predicciones u otras
generalizaciones
sobre la población a partir
de los datos obtenidos a
partir de una muestra.
II. Estadística descriptiva e inferencia estadística
ESTADÍSTICA BÁSICA
ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA
Tipos de
variables
Tablas y
gráficas
Medidas de centralización,
dispersión, posición y forma
ESTIMACIÓN CONTRASTE DE HIPÓTESIS
Métodos
paramétricos
Puntual Por
intervalos
Métodos no
paramétricos
T-Student
ANOVA
Fisher
Pearson
U-Mann Whitney
Kruskall-Wallis
Tablas de
contingencia
II. Estadística descriptiva e inferencia estadística
Inferencia estadística
1. Estimación por intervalos de confianza
2. Contrastes de hipótesis
3. Tablas de contingencia
4. Comparación de medias
5. Anova
6. Correlaciones
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
INFERENCIA ESTADÍSTICA: permite inducir, a través de una muestra, el comportamiento de una
determinada población. En resumen, permite conclusiones sobre los parámetros de población de datos.
 ESTIMACIÓN PUNTUAL: estima un valor, a partir de la muestra, que esté lo más próximo posible al
verdadero parámetro de la población
Ejemplo: la media muestral es un estimador de la media poblacional
 INTERVALOS DE CONFIANZA: con la estimación puntual se comete cierto error, para solventarlo se
construyen intervalos de confianza que, con alta probabilidad, contendrán al verdadero valor. Su
amplitud nos dará información sobre el margen de error de la estimación.
 CONTRASTES DE HIPÓTESIS: permiten tomar decisiones sobre la veracidad de ciertas hipótesis.
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
Intervalos de confianza (IC)
Sea cual sea la medida utilizada, las estimaciones puntuales deben acompañarse de su
correspondiente intervalo de confianza (IC).
𝑰𝑪 𝟗𝟓 % = 𝒆𝒔𝒕𝒊𝒎𝒂𝒄𝒊ó𝒏 𝒑𝒖𝒏𝒕𝒖𝒂𝒍 ± 𝟏, 𝟗𝟔 ∙ 𝑬𝑬
El error estándar (EE) (standar error (SE), error típico (ET)) es una medida de la variabilidad de la media
muestral con respecto a la media poblacional. Se usa cuando se pretende cuantificar el error cometido al
estimar la media poblacional mediante la media muestral.
Intervalo de confianza para la media: Intervalo de confianza para la proporción:
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
Intervalos de confianza (IC)
Sea cual sea la medida utilizada, las estimaciones puntuales deben acompañarse de su
correspondiente intervalo de confianza (IC).
𝑰𝑪 𝟗𝟓 % = 𝒆𝒔𝒕𝒊𝒎𝒂𝒄𝒊ó𝒏 𝒑𝒖𝒏𝒕𝒖𝒂𝒍 ± 𝟏, 𝟗𝟔 ∙ 𝑬𝑬
El error estándar (EE) (standar error (SE), error típico (ET)) es una medida de la variabilidad de la media
muestral con respecto a la media poblacional. Se usa cuando se pretende cuantificar el error cometido al
estimar la media poblacional mediante la media muestral.
Intervalo de confianza para la media: Intervalo de confianza para la proporción:
El IC proporciona más información que la
estimación puntual:
Permite conocer la precisión
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
Intervalos de confianza (IC) para la media
𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔
𝑫𝑻
𝒏
Ejemplo:
Muestra A: 10 pacientes con edades: 21, 32, 15, 59, 60, 61, 64, 60, 71 y 80
Media muestral = 52,3 años
DT = 20,68
Muestra B: 100 pacientes de edad: 20, 30, 37, 40, …, 58, 78, 72, 66 y 80
Media muestral = 50,0 años
DT = 19,96
¿Podemos sacar
alguna conclusión
sobre la población
a estudio?
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
Intervalos de confianza (IC) para la media
𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔
𝑫𝑻
𝒏
Ejemplo:
Muestra A: Media muestral = 52,3 años
DT = 20,68
Media muestral = 50,0 años
DT = 19,96
𝟓𝟐,𝟑 ± 𝟏, 𝟗𝟔 ∙ 𝟔, 𝟓𝟒 = (𝟑𝟗, 𝟓; 𝟔𝟓, 𝟏)
𝟓𝟎, 𝟎 ± 𝟏, 𝟗𝟔 ∙ 𝟏, 𝟗𝟗𝟔 = (𝟒𝟔, 𝟏; 𝟓𝟑, 𝟗)
Muestra B:
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
Intervalos de confianza (IC) para la media
𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔
𝑫𝑻
𝒏
II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
Intervalos de confianza (IC) para la media
𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔
𝑫𝑻
𝒏
𝑰𝑪 𝟗𝟓 % = 𝟔𝟔, 𝟓𝟐 ± 𝟏, 𝟗𝟔
𝟏𝟓, 𝟐𝟔𝟐
𝟐𝟒𝟏
= 𝟔𝟔, 𝟓𝟐 ±𝟏, 𝟗𝟔 ∙ 𝟎, 𝟗𝟖𝟑
Seguimos trabajando con la base “MET_cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
8. Calcular los intervalos de confianza al 95% para edad y tiempo de seguimiento
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
CONTRASTE DE HIPÓTESIS: prueba estadística o proceso mediante el cual decidimos si una hipótesis
respecto de la población debe ser aceptada o no
 se basa en datos muestrales
 es una regla de decisión que nos dice cuando aceptar o rechazar las hipótesis
 permite determinar si es aceptable que la característica o parámetro poblacional a estudio
toma determinado valor o está dentro de unos determinados valores
 consiste en averiguar si los datos observados en las muestras respaldan las hipótesis sobre las
poblaciones
II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
HIPÓTESIS: asunción relativa a una o varias poblaciones que se desea contrastar con la información
extraída de las muestras.
Hipótesis nula (𝑯𝟎): define la hipótesis a contrastar, es decir, se formula con intención de rechazarla
Se puede pensar en ella como la hipótesis considerada correcta antes de realizar el test
Hipótesis alternativa (𝑯𝟏): opuesta a la que se contrasta (hipótesis nula)
Habitualmente es la hipótesis por la que se decanta el investigador (la que desea probar)
ቊ
𝑯𝟎: 𝑛𝑜 ℎ𝑎𝑦 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
𝑯𝟏: 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠
II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
Contraste unilateral o direccional: decidimos rechazar 𝑯𝟎 para valores muy grandes “o” muy
pequeños del estadístico de contraste
Contraste bilateral o no direccional: en este tipo de contraste se utilizan para la toma de decisión los
valores muy grandes “y” muy pequeños del estadístico de contraste
La elección de uno u otro está condicionada al planteamiento de la hipótesis alternativa.
CONTRASTE UNILATERAL
ቊ
𝑯𝟎: 𝜃 ≤ 𝜃0
𝑯𝟏: 𝜃 > 𝜃0
CONTRASTE BILATERAL
ቊ
𝑯𝟎: 𝜃 = 𝜃0
𝑯𝟏: 𝜃 ≠ 𝜃0
II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
Estadístico de contraste: es el estadístico que se utilizará para tomar una decisión en un contraste de
hipótesis. Aporta las probabilidades asociadas a un valor o un determinado intervalo de valores del
estadístico de contrate.
Ejemplo:
Estadístico más común para estimar la media poblacional es la media muestral, ഥ
𝑿
ቊ
𝑯𝟎: 𝜇 = 𝜇0
𝑯𝟏: 𝜇 ≠ 𝜇0
ቊ
𝑯𝟎: 𝜇 ≤ 𝜇0
𝑯𝟏: 𝜇 > 𝜇0
ቊ
𝑯𝟎: 𝜇 ≥ 𝜇0
𝑯𝟏: 𝜇 < 𝜇0
p-valor: indica el nivel de significación a partir del cual la hipótesis nula se va a rechazar.
𝒑 < 𝟎, 𝟎𝟓 → se rechaza la hipótesis nula, es decir, existen diferencias significativas entre los grupos
𝒑 ≥ 𝟎, 𝟎𝟓 → se acepta la hipótesis nula, es decir, no existen evidencias de que los grupos sean diferentes
II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
CUALITATIVA
NOMINAL
K=2
CUALITATIVA
NOMINAL
K>2
CUALITATIVA
ORDINAL o
CUANTITATIVA NO
PARAMÉTRICA
CUANTITATIVA
PARAMÉTRICA
CUALITATIVA
grupos
independient
es
K=2 Test 𝝌𝟐
Test exacto de Fisher
Z comparación de
proporciones
Test 𝝌𝟐 U de Mann-Whitney T de Student
K>2 Test 𝝌𝟐
Test 𝝌𝟐 Prueba de Kruskal-
Wallis
ANOVA (análisis de la
varianza)
CUALITATIVA
grupos
dependientes
K=2 Test de McNemar Q de Cochran Prueba de los rangos
de Wilcoxon
T de Student para
datos emparejados
K>2 Q de Cochran Q de Cochran Prueba de Friedman Análisis de la varianza
de dos vías
CUANTITATIVA Regresión logística Regresión logística Correlación de
Spearman
Tau de Kendall
Correlación de
Pearson
Regresión lineal
II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
CUALITATIVA CUANTITATIVA
CUALITATIVA
Test 𝝌𝟐
Test exacto de Fisher
TABLAS DE
CONTINGENCIA
T de Student
U de Mann-Whitney
ANOVA
Test de Kruskal-Wallis
COMPARACIÓN DE
MEDIAS
CUANTITATIVA
Regresión logística Correlación
Regresión lineal
COEFICIENTE DE
CORRELACIÓN
II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TABLAS DE CONTINGENCIA: cualitativa vs cualitativa
Ante una tabla de contingencia puede plantearse la siguiente cuestión:
¿existe una relación estadísticamente significativa entre las variables estudiadas?
VARIABLE
RESULTADO
SI NO Total
SI a b a+b
NO c d c+d
Total a+c b+d n
http://www.fisterra.com/mbe/investiga/chi/chi.pdf
http://www.fisterra.com/mbe/investiga/fisher/fisher.pdf
𝝌2
=
𝑛 (𝑎𝑑 − 𝑏𝑐)2
(𝑎 + 𝑏)(𝑐 + 𝑑)(𝑎 + 𝑐)(𝑏 + 𝑑)
= ෍
𝑖=1
𝑘
෍
𝑗=1
𝑚
(𝑜𝑖𝑗 − 𝑒𝑖𝑗)2
𝑒𝑖𝑗
~𝝌𝑔,𝛼
2
G𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑(𝑔) = (𝑘 − 1)(𝑚 − 1)
CONTRASTE DE HIPÓTESIS:
𝑯𝟎: ambas variables son independientes
𝑯𝟏: existe una relación de dependencia
II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TEST CHI-CUADRADO
Permite comprobar si dos variables cualitativas están asociadas entre si, de no estarlo podremos
concluir que ambas variables son independientes, con un determinado nivel de confianza.
Condiciones necesarias y suficientes de aplicación:
 Ambas variables deben ser cualitativas nominales
 Tamaño muestral n>40
 Ninguno de los valores esperados en cada celda debe ser menor de 5
Importante:
Es un test no dirigido (bilateral), es decir, indica si existe o no relación entre dos variables pero NO en
qué sentido se produce tal, ni cuantifica la intensidad de dicha asociación.
II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TEST CHI-CUADRADO
Alternativas
 Corrección de Yates (en tablas 2x2)
Permite analizar si dos variables dicotómicas están asociadas cuando la muestra es pequeña
(n<40) y no se cumplen las condiciones necesarias para la aplicación del test chi-cuadrado
(una de las celdas tiene una frecuencia esperada inferior a 5)
 Test exacto de Fisher (en tablas 2x2)
Permite analizar si dos variables dicotómicas están asociadas cuando la muestra es
demasiado pequeña y no se cumplen las condiciones necesarias para la aplicación del test
chi-cuadrado ni corrección de Yates, es decir, cuando la frecuencia esperada es inferior a 5
en 2 o más celdas.
II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TEST CHI-CUADRADO
Seguimos trabajando con la base “MET_cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
9. Crear una variable que indique el evento combinado (trasplante o éxitus), denominada
evento.combinado donde 0: censurado y 1: trasplante o éxitus
10. Describir esta nueva variable con los estadísticos oportunos
11. ¿Existe asociación entre la presencia de este evento combinado y las patologías recogidas en el
estudio?
12. ¿Existe asociación entre el tratamiento recibido y el evento combinado?
13. ¿Los factores anteriores se asocian con el status?
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TEST CHI-CUADRADO
Ejemplo: ¿Existe asociación entre el evento combinado y presentar ascitis?
II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TEST CHI-CUADRADO
Ejemplo: ¿Existe asociación entre el evento combinado y el tratamiento recibido?
II. Estadística descriptiva e inferencia estadística. Comparación de medias
MODELOS
2 GRUPOS PARAMÉTRICOS NO PARAMÉTRICOS
INDEPENDIENTES T de Student para
muestras
independientes
U de Mann-Whitney
DEPENDIENTES T de Student para
muestras apareadas
Wilcoxon
II. Estadística descriptiva e inferencia estadística. Comparación de medias
T de Student para dos muestras independientes
Condiciones de aplicación:
 Tamaño ≥ 30 en cada grupo o
 Normalidad
• Test de Kolmogorov-Smirnov
• Test de Shapiro-Wilks (recomendado para muestras pequeñas)
 Homogeneidad de las varianzas (Homocedasticidad)
• Prueba F de Snedecor
• Test de Barttlet
• Test de Levene
Si p<0,05: rechazamos 𝐻0, siendo
𝑯𝟎: Las varianzas de ambos grupos son iguales
Alternativa no paramétrica:
 Prueba U de Mann-Whitney
Seguimos trabajando con la base “MET_cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
14. Comprobar si la edad y el tiempo de seguimiento siguen una distribución normal
15. ¿Existen diferencias significativas en estas variables según el tipo de evento combinado o las patologías
presentadas?
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística. Comparación de medias
Comparación de medias para dos muestras independientes
Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: test Kolmogorov-Smirnov
II. Estadística descriptiva e inferencia estadística. Comparación de medias
Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: test Shapiro-Wilks
Comparación de medias para dos muestras independientes
II. Estadística descriptiva e inferencia estadística. Comparación de medias
Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: gráficamente
Comparación de medias para dos muestras independientes
II. Estadística descriptiva e inferencia estadística. Comparación de medias
Paso 2. Tomar el test adecuado (paramétrico o no paramétrico)
Comparación de medias para dos muestras independientes
T de Student para dos muestras independientes (test paramétrico)
Prueba U de Mann-Whitney para dos muestras independientes (test no paramétrico)
II. Estadística descriptiva e inferencia estadística. Comparación de medias
Comparación de medias para dos muestras independientes
T de Student para dos muestras independientes (test paramétrico)
II. Estadística descriptiva e inferencia estadística. Comparación de medias
Comparación de medias para dos muestras independientes
Prueba U de Mann-Whitney para dos muestras independientes (test no paramétrico)
II. Estadística descriptiva e inferencia estadística. Comparación de medias
T de Student para dos muestras independientes (test paramétrico)
Paso 3. Comprobar el supuesto de igualdad de varianzas (Test de Levene)
p≥0,05: se asume igualdad de varianzas
II. Estadística descriptiva e inferencia estadística. Comparación de medias
U de Mann-Whitney para dos muestras independientes (test no paramétrico)
En este caso no necesitamos comprobar el supuesto de normalidad
No ofrece un descriptivo de los datos por grupo
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
MODELOS
K>2 GRUPOS PARAMÉTRICOS NO PARAMÉTRICOS
INDEPENDIENTES ANOVA Kruskal-Wallis
DEPENDIENTES Análisis de la varianza
de 2 vías
Prueba de Friedman
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
ANOVA: análisis de la varianza
Condiciones de aplicación:
 Si la variable dependiente (respuesta) es cuantitativa y la variable predictora cualitativa policotómica
 Normalidad
• Test de Kolmogorov-Smirnov
• Test de Shapiro-Wilks
 Homogeneidad de las varianzas (Homocedasticidad)
• Prueba F de Snedecor
• Test de Barttlet
• Test de Levene
𝑯𝟎: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝒌
𝑯𝟏: al menos una de las medias 𝝁𝒊 es distinta
Alternativa no paramétrica:
 Prueba Kruskal-Wallis
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
ANOVA: análisis de la varianza
Observaciones:
 Se trata de una técnica robusta frente a desviaciones de la normalidad: los resultados del contraste F
en la prueba ANOVA son sustancialmente válidos aunque los datos no sean normales.
 El efecto de desigualdad de las varianzas en los grupos sobre el contraste F y los contrastes de medias
dependen de que el número de observaciones en cada grupo sea igual o muy distinto.
Si todos los grupos tienen el mismo número de observaciones el contraste F es igualmente exacto
aunque las varianzas sean distintas.
Es decir, podemos despreocuparnos de las varianzas a efectos de contrastes de medias, siempre que
haya aproximadamente el mismo número de observaciones por grupo, en caso contrario, diferencias
entre las varianzas pueden ser graves.
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
KRUSKAL-WALLIS
Aplicación:
 Es una alternativa no paramétrica a la prueba F del ANOVA (análisis de la varianza) para diseños
donde no se cumple la normalidad de la variable cuantitativa.
 Contraste entre más de 2 grupos, usando la mediana de cada uno de ellos en lugar de las medias:
𝐻 =
12
𝑛(𝑛 + 1)
෍
𝑖=1
𝑘
𝑅𝑖
2
𝑛𝑖
− 3(𝑛 + 1)
Donde n es el total de datos y k el número de grupos.
𝑯𝟏: al menos una de las poblaciones tiene una mediana distinta a las otras
𝑯𝟎: las medianas de las k poblaciones consideradas son iguales
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
VENTAJAS INCONVENIENTES
Permite datos ordinales y cuantitativos
discretos
Menor potencia estadística
No es necesaria la normalidad Menor sensibilidad para detectar
diferencias entre los grupos
Permite tamaños muestrales pequeños No permite construir intervalos de
confianza
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
ANOVA KRUSKAL-WALLIS
Seguimos trabajando con la base “MET_01cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
16. Analizar la relación entre los valores medios de la edad y el tiempo de seguimiento según el status
17. Representar gráficamente los resultados obtenidos
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
KRUSKAL-WALLIS
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
El coeficiente de correlación de Pearson (r) es un índice que mide la fuerza y la dirección de la relación
lineal entre dos variables cuantitativas. La alternativa no paramétrica es el coeficiente rho de
Spearman.
Puede ser positivo o negativo y su valor oscila entre −1 ≤ 𝑟𝑥𝑦 ≤ 1:
𝑟𝑥𝑦 ≅ −1 𝑟𝑥𝑦 ≅ 0 𝑟𝑥𝑦 ≅ 1
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
Observaciones:
 El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación
de Pearson calculado sobre el rango de observaciones.
 Ante la presencia de variables ordinales sólo se podrá usar el coeficiente de Spearman.
 El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante
distribuciones no normales.
𝑯𝟎: 𝑟𝑥𝑦 = 𝟎 El coeficiente de correlación obtenido procede de una población cuya correlación es 0
𝑯𝟏: 𝑟𝑥𝑦 ≠ 𝟎 El coeficiente de correlación obtenido procede de una población cuyo coeficiente de
correlación es distinto de 0
Seguimos trabajando con la base “MET_01cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
18. Analizar la correlación entre las variables continuas (edad, imc, cobre en orina, fosfatasa alcalina, SGOT,
triglicéridos, plaquetas, tiempo en protombina, bilirrubina, colesterol y albúmina)
19. Analizar la correlación entre las medidas analíticas (bilirrubina, colesterol y albúmina) de la medición basal y
última visita
I. Manejo de datos con SPSS.
Práctica 3. Continuación
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
Paso 1. Comprobar normalidad
Paso 2. Visualizar el gráfico de dispersión
Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
Paso 1. Comprobar normalidad
Paso 2. Visualizar el gráfico de dispersión
Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
Paso 1. Comprobar normalidad
Paso 2. Visualizar el gráfico de dispersión
Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
III. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE: regresión lineal y logística binaria
III. Introducción al análisis multivariante
Un modelo de regresión es un modelo matemático que permite describir cómo influye una variable 𝑋 o un
conjunto de variables 𝑋1, … , 𝑋𝑛 sobre otra variable 𝑌, donde
𝑋: variable independiente o explicativa
𝑌: variable dependiente o respuesta
El objetivo es obtener estimaciones razonables de 𝑌 para los distintos valores de 𝑋 a partir de una muestra
de 𝑛 pares de valores 𝑥1, 𝑦1 , … , (𝑥𝑛, 𝑦𝑛)
Según el tipo de variable dependiente (o respuesta):
 LOGÍSTICA: variable dependiente dicotómica
 LINEAL: variable dependiente cuantitativa continua
III. Introducción al análisis multivariante. Regresión logística binaria
Los modelos de regresión logística son de gran utilidad cuando se pretende estudiar el efecto de
determinadas variables sobre una variable respuesta de tipo dicotómico (por ejemplo: vivo vs muerto,
sano vs enfermo).
Su objetivo es estudiar si la probabilidad de éxito (𝑝) de una variable dicotómica depende, o no, de
una o más variables explicativas.
Un modelo de regresión logística quedaría definido de la siguiente forma:
Donde:
𝑝 representa la probabilidad o riesgo de evento de interés,
𝛼0 y 𝛼1 son los coeficientes de regresión, estimados mediante el método de máxima verosimilitud
𝑥 es la variable explicativa
Esta expresión es equivalente a:
III. Introducción al análisis multivariante. Regresión logística binaria
Interpretación de los coeficientes de regresión:
 Odds:
Indica cuánto más probable es el éxito que el fracaso cuando la variable o variables explicativas toman
el valor 0
 Odds Ratio (OR):
Indica cuánto varía la probabilidad de éxito (p) cuando la variable explicativa aumenta una unidad o
cambia de categoría. Es decir, indica cuanto se ve multiplicado el riesgo de presentar el evento a
estudio al aumentar una unidad el valor de la variable explicativa
III. Introducción al análisis multivariante. Regresión logística binaria
Interpretación de los coeficientes de regresión:
OR<1
OR=1
OR>1
Factor protector: el aumento en una unidad en la variable explicativa
provoca la disminución de la probabilidad de éxito (riesgo)
No es un factor de riesgo
Factor de riesgo: el aumento en una unidad en la variable explicativa
provoca el aumento de la probabilidad de éxito o riesgo
III. Introducción al análisis multivariante. Regresión logística binaria
III. Introducción al análisis multivariante. Regresión logística binaria
Seguimos trabajando con la base “MET_01cbp.sav’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tareas:
20. Analizar la asociación entre arañas y edad, sexo, imc y stage. Análisis univariante
21. Ajustar un modelo de regresión logística para las arañas resultantes utilizando las covariables edad,
sexo, bilis, etapa y ascitis.
22. Interpretar la salida del resumen del modelo.
¿Hubo valores faltantes en los datos?
¿Qué pasó con esos casos?
¿Cuál es la interpretación del coeficiente de bili en este modelo?
¿Cuál es la interpretación de los coeficientes para la etapa?
I. Manejo de datos con SPSS.
Práctica 3. Continuación
I. Manejo de datos con SPSS.
Práctica 3. Continuación
P(arañas| edad )
P(arañas| sexo)
OR
p
I. Manejo de datos con SPSS.
Práctica 3. Continuación
OR
I. Manejo de datos con SPSS.
Práctica 3. Continuación
22. Interpretar la salida del resumen del modelo: ¿Hubo valores faltantes en los datos?
No hay valores perdidos.
Si existen variables en el modelo con valores perdidos, esa
información estaría recogida en esta tabla.
Los casos con valores perdidos en las variables que
forman el modelo son excluidos del análisis
I. Manejo de datos con SPSS.
Práctica 3. Continuación
22. Interpretar la salida del resumen del modelo: ¿Cuál es la interpretación del coeficiente de bili en este modelo?
Con el aumento de una unidad en bilirrubina, el logaritmo de la probabilidad de tener
arañas, i.e., 𝑙𝑜𝑔(
𝑃 𝑎𝑟𝑎ñ𝑎𝑠=1
1−𝑃 𝑎𝑟𝑎ñ𝑎𝑠=1
) , aumenta en 𝛽𝑏𝑖𝑙𝑖 = 0,099
Esto significa que el Odds ratio de bili es: 𝑶𝑹 = 𝒆𝜷𝒃𝒊𝒍𝒊 = 𝐞𝐱𝐩 𝟎, 𝟎𝟗𝟗 = 𝟏, 𝟏𝟎𝟒
(mientras las demás variables del modelo se mantienen constantes)
I. Manejo de datos con SPSS.
Práctica 3. Continuación
22. Interpretar la salida del resumen del modelo: ¿Cuál es la interpretación del coeficiente de stage?
Un paciente con estadio 2 tiene 𝛽𝑠𝑡𝑎𝑔𝑒2 = 0,651 probabilidades logarítmicas más altas
de tener el evento que un paciente en estadio 1 (referencia) (con los mismos valores en
las demás covariables).
El OR de stage = 2 es: 𝑶𝑹 = 𝒆𝜷𝒔𝒕𝒂𝒈𝒆𝟐 = 𝐞𝐱𝐩 𝟎, 𝟔𝟓𝟏 = 𝟏, 𝟗𝟏𝟖
Un paciente en estadio 2 tiene casi dos veces más riesgo de presentar arañas que un
paciente en estadio 1.
III. Introducción al análisis multivariante. Regresión lineal
Un modelo de regresión lineal estudia la relación lineal entre las variables independientes (X) y la
variable respuesta (Y).
El caso más sencillo es el modelo de regresión lineal simple, en el que solo figura una variable
independiente o explicativa.
Su objetivo es analizar la relación existente entre dos variables 𝑋 e 𝑌, de forma que podamos predecir o
aproximar el valor de la variable respuesta o dependiente a partir del valor tomado por la variable
independiente.
El problema que subyace a la metodología de la regresión lineal simple es el de encontrar la recta que
mejor se ajuste a la nube de puntos del diagrama de dispersión, en el que los valores de la variable X
(independiente) se disponen en el eje horizontal y los de Y (dependiente) en el vertical y que pueda ser
utilizada para predecir los valores de Y a partir de los de X.
III. Introducción al análisis multivariante. Regresión lineal
Un modelo de regresión lineal simple es:
Donde:
𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝒊 + 𝜺𝒊
𝜷𝟎y 𝜷𝟏: coeficientes de regresión tales que
𝜷𝟎: representa el valor medio de la respuesta Y cuando la variable explicativa X vale 0
(intercepto)
𝜷𝟏: representa la variación que experimenta en media la respuesta Y cuando la
variable explicativa X aumenta en una unidad (pendiente de la recta de regresión)
𝜺𝒊: error entre el valor real y la estimación en cada observación i-ésima (residuos),
se asume normal 𝜺𝒊~N(0, σ)
𝜺𝒊 = 𝑦𝑖 − ෝ
𝑦𝑖
NOTA: el término aleatorio 𝜺𝒊 recoge la información de Y que no queda reflejada en el modelo
determinista 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝒊.
III. Introducción al análisis multivariante. Regresión lineal
Problema estadístico:
Obtener las estimaciones ෢
𝜷𝟎 y ෢
𝜷𝟏 de 𝜷𝟎 y 𝜷𝟏 a partir de los datos 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑛 para obtener la recta
que mejor se ajuste a los datos:
ෝ
𝒚𝒊 = ෢
𝜷𝟎 + ෢
𝜷𝟏𝒙𝒊 + 𝜺𝒊
Hipótesis básicas:
 Linealidad
 Homogeneidad
 Homocedasticidad
 Independencia
 Normalidad
𝒚 = 𝜷𝟎 + 𝜷𝟏𝒙
𝑬 𝜺𝒊 = 𝟎
𝑽𝒂𝒓(𝜺𝒊) = 𝝈𝟐
𝑬 𝜺𝒊𝜺𝒋 = 𝟎
𝜺𝒊~𝐍(𝟎, σ)
Si no se dan estas
condiciones se usarán
como alternativa modelos
no paramétricos
III. Introducción al análisis multivariante. Regresión lineal
Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno
por déficit de atención con hiperactividad (x): (base_reglineal.sav)
III. Introducción al análisis multivariante. Regresión lineal
Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno
por déficit de atención con hiperactividad (x):
III. Introducción al análisis multivariante. Regresión lineal
Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno
por déficit de atención con hiperactividad (x):
𝑹𝟐
: medida de bondad de ajuste del modelo
Interpretación: la edad del TDM se relaciona en el
30% de los casos con la edad de TDAH,
debiéndose el 70% a otros factores no incluídos en
el modelo
Suma de cuadrados de la regresión: indica qué tanta variabilidad de la variable
dependiente (y) explica el modelo (nivel de fluctuación de la variable y que el
modelo es capaz de explicar)
Suma de cuadrados de los residuos: indica qué tanta variación de la variable
dependiente (y) no explica el modelo (nivel de error del modelo o porcentaje no
explicado del modelo)
III. Introducción al análisis multivariante. Regresión lineal
Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno
por déficit de atención con hiperactividad (x):
Constante = 3,85 (𝜷𝟎): valor de y (edad.tdm) cuando x
(edad.tdah) es igual a 0
Coeficiente de regresión para x (edad.tdah) = 1,13 (𝜷𝟏)
𝒆𝒅𝒂𝒅. 𝒕𝒅𝒎 = 𝟑, 𝟖𝟓 + 𝟏, 𝟏𝟑 ∙ 𝒆𝒅𝒂𝒅. 𝒕𝒅𝒂𝒉
IV. PRESENTACIÓN DE RESULTADOS
IV. Presentación de resultados
IV. Presentación de resultados
V. EJERCICIO DE EVALUACIÓN
Abrir la base de datos llamada “MET_Colon.sav’’
Datos de uno de los primeros ensayos exitosos de quimioterapia adyuvante para el cáncer de colon, con
929 participantes. Un grupo fue tratado con levamisol (un compuesto de baja toxicidad utilizado
anteriormente para tratar infestaciones de gusanos en animales) y el otro con 5-FU (un agente de
quimioterapia moderadamente tóxico).
Variables:
I. Manejo de datos con SPSS.
Práctica 4
Base“MET_Colon.sav’’
Tareas:
1. Describir las variables recogidas en la base de datos
2. Hacer un histograma con curva de densidad para la edad. ¿Tiene una distribución normal?
3. Calcular el IMC y recodificarlo en 4 categorías (<18,5; [18,5-25); [25-30); ≥30)
4. Describir las nuevas variables y aportar el IC95% para la variable numérica. ¿Cuál es la prevalencia de obesidad
en esta muestra?
5. Representar sexo mediante un diagrama de sectores e, IMC.rec y nodes mediante diagrama de barras
6. Recodificar la edad en edad.rec (0: <65 años, 1: ≥65 años) y describirla
7. Calcular el tiempo de seguimiento en años
8. Recodificar rx (tratamiento) en tratamiento.sino (0: No (observación), 1: Si (Lev ó 5FU-Lev))
9. Estudiar si la edad y el sexo se asocian a recibir o no tratamiento y con el tipo de tratamiento
10. Representar mediante un boxplot la edad y el tipo de tratamiento (rx)
11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?
I. Manejo de datos con SPSS.
Práctica 4.
Base“MET_Colon.sav’’
Tareas:
12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)
13. Ajustar un modelo de regresión logística para las recidivas resultantes utilizando las covariables edad, sexo, IMC,
rx, y nº de ganglios.
14. Interpretar la salida del resumen del modelo.
¿Hubo valores faltantes en los datos?
¿Qué pasó con esos casos?
¿Cuál es la interpretación del coeficiente de edad en este modelo?
¿Cuál es la interpretación de los coeficientes para rx?
I. Manejo de datos con SPSS.
Práctica 4.
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
1. Describir las variables recogidas en la base de datos
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
3. Calcular el IMC y recodificarlo en 4 categorías (<18,5; [18,5-25); [25-30); ≥30)
Transformar > Calcular variable Transformar > Recodificar en diferente variable
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
5. Representar sexo mediante un diagrama de sectores e, IMC.rec y nodes mediante diagrama de barras
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
9. Estudiar si la edad y el sexo se asocian a recibir o no tratamiento y con el tipo de tratamiento
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
9. Estudiar si sexo se asocia a recibir o no tratamiento y tipo de tratamiento
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
10. Representar mediante un boxplot la edad y el tipo de tratamiento (rx)
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)
I. Manejo de datos con SPSS.
Práctica 4. MET_Colon.sav
13. Ajustar un modelo de regresión logística para las recidivas resultantes utilizando las covariables edad, sexo, IMC, rx,
y nº de ganglios.
CURSO DE METODOLOGÍA DE LA
INVESTIGACIÓN
Ponencia
Ponente

Más contenido relacionado

Similar a Curso metodología - Análisis con SPSS.pdf

Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
nomedejandescargar
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
Andres Montoya
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
Ruby Longa
 
Análisi de epss
Análisi de epssAnálisi de epss
Análisi de epss
Deysi Palma
 
1 to etapas de una investigacion [2] alumnos
1 to etapas de una investigacion [2] alumnos1 to etapas de una investigacion [2] alumnos
1 to etapas de una investigacion [2] alumnos
Cecy Var
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
Adolfo Castillo Navarro
 
Redes sociales presentación 30 08 2010 carlos f. de angelis
Redes sociales presentación 30 08 2010 carlos f. de angelisRedes sociales presentación 30 08 2010 carlos f. de angelis
Redes sociales presentación 30 08 2010 carlos f. de angelis
Mario Sullivan
 
Definiciones basicas de spss
Definiciones basicas de spss Definiciones basicas de spss
Definiciones basicas de spss
Adrianaely31
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
ximenitacoba
 

Similar a Curso metodología - Análisis con SPSS.pdf (20)

Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Análisi de epss
Análisi de epssAnálisi de epss
Análisi de epss
 
1 to etapas de una investigacion [2] alumnos
1 to etapas de una investigacion [2] alumnos1 to etapas de una investigacion [2] alumnos
1 to etapas de una investigacion [2] alumnos
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Pasw Antes Spss
Pasw Antes SpssPasw Antes Spss
Pasw Antes Spss
 
Redes sociales presentación 30 08 2010 carlos f. de angelis
Redes sociales presentación 30 08 2010 carlos f. de angelisRedes sociales presentación 30 08 2010 carlos f. de angelis
Redes sociales presentación 30 08 2010 carlos f. de angelis
 
Definiciones basicas de spss
Definiciones basicas de spss Definiciones basicas de spss
Definiciones basicas de spss
 
Estadistica 2
Estadistica 2Estadistica 2
Estadistica 2
 

Último

Explora el boletín del 5 de junio de 2024.doc
Explora el boletín del 5 de junio de 2024.docExplora el boletín del 5 de junio de 2024.doc
Explora el boletín del 5 de junio de 2024.doc
Yes Europa
 
Sesión 1 - Redacción de los Documentos Administrativos.pdf
Sesión 1 - Redacción de los Documentos Administrativos.pdfSesión 1 - Redacción de los Documentos Administrativos.pdf
Sesión 1 - Redacción de los Documentos Administrativos.pdf
JoseMatos426297
 
Análisis de Políticas Educativas (presentación).pptx
Análisis de Políticas Educativas (presentación).pptxAnálisis de Políticas Educativas (presentación).pptx
Análisis de Políticas Educativas (presentación).pptx
GabrielaBianchini6
 
Mapa-conceptual-de-los-Carbohidratos.docx
Mapa-conceptual-de-los-Carbohidratos.docxMapa-conceptual-de-los-Carbohidratos.docx
Mapa-conceptual-de-los-Carbohidratos.docx
t2rsm8p5kc
 
miocardiopatia chagasica 1 de la universidade ufano
miocardiopatia chagasica 1 de la universidade ufanomiocardiopatia chagasica 1 de la universidade ufano
miocardiopatia chagasica 1 de la universidade ufano
OnismarLopes
 
Manual de Marca Municipalidad de Rosario
Manual de Marca Municipalidad de RosarioManual de Marca Municipalidad de Rosario
Manual de Marca Municipalidad de Rosario
estacionmartinezestr
 
Explora el boletin del 17 de mayo de 2024
Explora el boletin del 17 de mayo de 2024Explora el boletin del 17 de mayo de 2024
Explora el boletin del 17 de mayo de 2024
Yes Europa
 
VIAS DE ADMINISTRACION MED Aves de coralpptx
VIAS DE ADMINISTRACION MED Aves de coralpptxVIAS DE ADMINISTRACION MED Aves de coralpptx
VIAS DE ADMINISTRACION MED Aves de coralpptx
sandramescua12
 
Explora el boletín del 3 de junio de 2024
Explora el boletín del 3 de junio de 2024Explora el boletín del 3 de junio de 2024
Explora el boletín del 3 de junio de 2024
Yes Europa
 
Sangre que me da la paz C_letra y acordes.pdf
Sangre que me da la paz C_letra y acordes.pdfSangre que me da la paz C_letra y acordes.pdf
Sangre que me da la paz C_letra y acordes.pdf
Ani Ann
 
Explora el boletín del 10 de junio de 2024
Explora el boletín del 10 de junio de 2024Explora el boletín del 10 de junio de 2024
Explora el boletín del 10 de junio de 2024
Yes Europa
 

Último (11)

Explora el boletín del 5 de junio de 2024.doc
Explora el boletín del 5 de junio de 2024.docExplora el boletín del 5 de junio de 2024.doc
Explora el boletín del 5 de junio de 2024.doc
 
Sesión 1 - Redacción de los Documentos Administrativos.pdf
Sesión 1 - Redacción de los Documentos Administrativos.pdfSesión 1 - Redacción de los Documentos Administrativos.pdf
Sesión 1 - Redacción de los Documentos Administrativos.pdf
 
Análisis de Políticas Educativas (presentación).pptx
Análisis de Políticas Educativas (presentación).pptxAnálisis de Políticas Educativas (presentación).pptx
Análisis de Políticas Educativas (presentación).pptx
 
Mapa-conceptual-de-los-Carbohidratos.docx
Mapa-conceptual-de-los-Carbohidratos.docxMapa-conceptual-de-los-Carbohidratos.docx
Mapa-conceptual-de-los-Carbohidratos.docx
 
miocardiopatia chagasica 1 de la universidade ufano
miocardiopatia chagasica 1 de la universidade ufanomiocardiopatia chagasica 1 de la universidade ufano
miocardiopatia chagasica 1 de la universidade ufano
 
Manual de Marca Municipalidad de Rosario
Manual de Marca Municipalidad de RosarioManual de Marca Municipalidad de Rosario
Manual de Marca Municipalidad de Rosario
 
Explora el boletin del 17 de mayo de 2024
Explora el boletin del 17 de mayo de 2024Explora el boletin del 17 de mayo de 2024
Explora el boletin del 17 de mayo de 2024
 
VIAS DE ADMINISTRACION MED Aves de coralpptx
VIAS DE ADMINISTRACION MED Aves de coralpptxVIAS DE ADMINISTRACION MED Aves de coralpptx
VIAS DE ADMINISTRACION MED Aves de coralpptx
 
Explora el boletín del 3 de junio de 2024
Explora el boletín del 3 de junio de 2024Explora el boletín del 3 de junio de 2024
Explora el boletín del 3 de junio de 2024
 
Sangre que me da la paz C_letra y acordes.pdf
Sangre que me da la paz C_letra y acordes.pdfSangre que me da la paz C_letra y acordes.pdf
Sangre que me da la paz C_letra y acordes.pdf
 
Explora el boletín del 10 de junio de 2024
Explora el boletín del 10 de junio de 2024Explora el boletín del 10 de junio de 2024
Explora el boletín del 10 de junio de 2024
 

Curso metodología - Análisis con SPSS.pdf

  • 1. METODOLOGÍA DE LA INVESTIGACIÓN Introducción al análisis estadístico de datos con SPSS Vanesa Balboa Barreiro Vanesa.Balboa.Barreiro@sergas.es
  • 2. I. Manejo de datos con SPSS: organización, carga y edición II. Estadística descriptiva e inferencia estadística  Análisis descriptivo y exploratorio de datos  Introducción a la inferencia estadística: contrastes de hipótesis e intervalos de confianza  Análisis bivariante III. Introducción al análisis multivariante: regresión lineal y logística binaria IV. Ejercicio de evaluación
  • 3. I. Manejo de datos con SPSS: organización, carga y edición
  • 4. I. Manejo de datos con SPSS SPSS ofrece tres ventanas: Editor de Datos (semejante a una hoja de cálculo), estructurado en dos hojas: • Vista de datos: contiene los datos del fichero. Sólo puede haber un conjunto de datos activo. Extensión: .sav • Vista de variables: contiene una lista de las variables recogidas en el fichero de datos. Visor de resultados: almacena los resultados generamos. Extensión: *.spo Editor de sintaxis: contiene los ficheros de sintaxis o lenguaje de comandos. Extensión: *.sps.
  • 5. I. Manejo de datos con SPSS
  • 6. I. Manejo de datos con SPSS Generación de bases de datos: pueden crearse directamente en el editor de datos o importarse desde otro programa (.csv, por ejemplo) Archivo → Abrir Archivo → Importar Datos
  • 7. I. Manejo de datos con SPSS Generación de bases de datos: pueden crearse directamente en el editor de datos o importarse desde otro programa (.csv, por ejemplo) 1. Asignar un nombre y una etiqueta 2. Definir el tipo de variable 3. Definir valores y asignarles etiquetas descriptivas
  • 8. I. Manejo de datos con SPSS. Generar una base de datos llamada ‘’Práctica0’’ Crear una base de datos con 5 registros (pacientes). De los cuales se desea recoger la siguiente información 1. Crear las variables: ID = variable numérica, número de identificación del paciente Edad = variable numérica, edad del paciente en años Sexo = variable categórica (0=hombre, 1=mujer) Tipo de cirugía = variable cualitativa (1=A, 2=B, 3=C) Fecha de la cirugía = fecha Éxitus = variable categórica (0=vivo,1=exitus) Causa de la muerte = variable categórica (0=no relacionada con el evento,1=relacionada con el evento) Fecha de fallecimiento = fecha de fallecimiento Fecha de fin de seguimiento = fecha de último contacto o fallecimiento Práctica 1
  • 9. I. Manejo de datos con SPSS. Práctica 1 https://xxicoruna.sergas.gal/DPInformacionparaamiasaude/Deseno_base_datos_en_folla_calculo.pdf
  • 10. Importar la base de datos llamada “MET_cbp.xlsx’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tarea: Depuración de la base de datos eliminar cadenas (sex) poner etiquetas (variables cualitativas) poner etiqueta con descripción de las variables y unidades I. Manejo de datos con SPSS. Práctica 2
  • 11. I. Manejo de datos con SPSS. Variables: id Identificador time Tiempo (días) hasta evento mas próximo (Muerte / Transplante / Fin de estudio) status Status 0: Censura - 1: Transplante - 2: Muerte trt Tratamiento 1: Si 2: Placebo age Edad (años) sex Sexo m: male / f: female ascites Ascitis 0: No / 1: Si hepato Hepatomegalia: 0: No / 1: Si spiders Arañas vasculares 0: No / 1: Si Bili, bili_2 Bilirrubina (mg/dl) Visita inicial y visita final Chol, chol _2 Colesterol (mg/dl) Visita inicial y visita final Albumin, albumin_2 Albúmina (gr/dl) Visita inicial y visita final copper Cobre en orina (mcg/día) alk.phos Fosfatasa alcalina (U/l) sgot SGOT (U/ml) trig Triglicéridos (mg/dl) platelet Plaquetas (recuento) protime Tiempo de protombina (sg) Stage, stage_2 Grado histológico Visita inicial y final day Dias desde 1ª a última visita Práctica 2
  • 12. I. Manejo de datos con SPSS Permite ordenar los casos del archivo utilizando una o más variables Introducimos las variables de ordenación Indicamos el sentido de la ordenación
  • 13. I. Manejo de datos con SPSS Permite definir una variable de agrupación para realizar el análisis por grupos Introducimos la variable de segmentación o división Indicamos que tipo de división deseamos Comparar grupos: los resultados de cada procedimiento se muestran juntos para cada grupo de segmentación del archivo. Organizar los resultados por grupos: los resultados de cada procedimiento se muestran por separado.
  • 14. I. Manejo de datos con SPSS Permite filtrar la base para el análisis sobre un subconjunto de datos Indicamos que tipo de selección deseada
  • 15. Abrir la base de datos llamada “MET_cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tarea: Construcción de nuevas variables y análisis descriptivo Calcular: Tiempo de seguimiento (días): desde 1er contacto hasta fecha de censura o de evento Tiempo hasta visita 2 (días): desde 1er contacto hasta última visita IMC Recodificar IMC en infra-Normopeso / sobrepeso / obesidad Recodificar IMC en obesidad si / no I. Manejo de datos con SPSS. Práctica 3
  • 16. I. Manejo de datos con SPSS. Variables: id Identificador status Status 0: Censura - 1: Transplante - 2: Muerte trt Tratamiento 1: Si 2: Placebo age Edad (años) sex Sexo m: male / f: female Talla y peso Talla (cm) y peso (kg) ascites Ascitis 0: No / 1: Si hepato Hepatomegalia: 0: No / 1: Si spiders Arañas vasculares 0: No / 1: Si Bili, bili_2 Bilirrubina (mg/dl) Visita inicial y visita final Chol, chol _2 Colesterol (mg/dl) Visita inicial y visita final Albumin, albumin_2 Albúmina (gr/dl) Visita inicial y visita final copper Cobre en orina (mcg/día) alk.phos Fosfatasa alcalina (U/l) sgot SGOT (U/ml) trig Triglicéridos (mg/dl) platelet Plaquetas (recuento) protime Tiempo de protombina (sg) Stage, stage_2 Grado histológico Visita inicial y final Fechapc Fecha del primer contacto (entrada en el estudio) Fechavisita2 Fecha de la última visita Fechaucont Fecha de último contacto (censura, transplante o éxitus) Práctica 3
  • 17. I. Manejo de datos con SPSS Permite crear nuevas variables a partir de valores de las variables existentes Nombre para la nueva variable Expresión numérica para los valores que deban asignarse a esa nueva variable Ejemplo: 𝒊𝒎𝒄 = 𝒑𝒆𝒔𝒐 ÷ 𝒕𝒂𝒍𝒍𝒂^𝟐
  • 18. I. Manejo de datos con SPSS Permite reagrupar los valores de una variable existente o crear una nueva variable en base a los valores de una que ya existe En las mismas variables: reasigna los valores o reduce el rango de valores de variables existentes en al misma variable. En variables diferentes: crea una nueva variable reasignando o reduciendo el rango de valores de variables existentes.
  • 19. I. Manejo de datos con SPSS Permite reagrupar los valores de una variable existente o crear una nueva variable en base a los valores de una que ya existe En las mismas variables: reasigna los valores o reduce el rango de valores de variables existentes en al misma variable. En variables diferentes: crea una nueva variable reasignando o reduciendo el rango de valores de variables existentes. ≤ 216  1 > 216  2 < 216  1 ≥ 216  2
  • 20. II. ESTADÍSTICA DESCRIPTIVA E INFERENCIA ESTADÍSTICA
  • 21. I. Manejo de datos con SPSS: organización, carga y edición II. Estadística descriptiva e inferencia estadística  Análisis descriptivo y exploratorio de datos  Introducción a la inferencia estadística: contrastes de hipótesis e intervalos de confianza  Análisis bivariante III. Introducción al análisis multivariante: regresión lineal y logística binaria
  • 22. II. Estadística descriptiva e inferencia estadística 1. ¿Cuál es el objetivo del análisis?  Describir: ¿Qué características tiene nuestra muestra?  Asociar: ¿Existe relación entre las variables?  Comparar: ¿Las poblaciones son similares? ¿Qué variables explican esas diferencias?  Predecir: ¿Puedo predecir un evento a partir de mis datos? 2. ¿Qué tipo de variables tengo? 3. ¿Son muestras independientes o relacionadas? 4. ¿Se pueden aplicar técnicas paramétricas? 5. ¿Qué prueba debo realizar? 6. ¿La asociación/comparación es estadísticamente significativa? 7. Interpretación de los resultados obtenidos 8. Presentación de los resultados Preguntas clave:
  • 23. II. Estadística descriptiva e inferencia estadística ESTADÍSTICA BÁSICA ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA Describe Analiza Representa las características observadas en la muestra Efectuar estimaciones Tomar decisiones Dar predicciones u otras generalizaciones sobre la población a partir de los datos obtenidos a partir de una muestra.
  • 24. II. Estadística descriptiva e inferencia estadística ESTADÍSTICA BÁSICA ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA Tipos de variables Tablas y gráficas Medidas de centralización, dispersión, posición y forma ESTIMACIÓN CONTRASTE DE HIPÓTESIS Métodos paramétricos Puntual Por intervalos Métodos no paramétricos T-Student ANOVA Fisher Pearson U-Mann Whitney Kruskall-Wallis Tablas de contingencia
  • 25. II. Estadística descriptiva e inferencia estadística ESTADÍSTICA DESCRIPTIVA: Conceptos Permite analizar, describir y representar un grupo de datos (muestra) mediante métodos numéricos y gráficos.  MUESTRA: conjunto de individuos que pueden ser estudiados en el momento de realizar el estudio cumplen los criterios de inclusión. Representan la población de interés En general la población es inaccesible, por eso se opta por tomar una muestra representativa  INDIVIDUO: cada elemento de la población  VARIABLE: característica (numérica o no) de cada individuo a estudio Ejemplo: edad, sexo, niveles de glucemia, …  PARÁMETRO: medida que interesa conocer en una variable aleatoria en una población Ejemplo: 𝜇=media, 𝜎=desviación típica, p=proporción, …  ESTADÍSTICO MUESTRAL: estimación de la muestra aleatoria que permite aproximar el parámetro de interés Ejemplo: Ƹ 𝜇=media muestral, …
  • 26. II. Estadística descriptiva e inferencia estadística ESTADÍSTICA DESCRIPTIVA: Tipos de variables CONTINUAS: pueden tomar cualquier valor dentro de un rango determinado Ejemplo: edad, peso, IMC, … DISCRETAS: podrán tomar ciertos valores concretos (habitualmente números enteros) Ejemplo: nº de aciertos en un test, … ORDINALES: las posibles respuestas admiten una ordenación lógica Ejemplo: gravedad de un infarto (leve, moderado, fuerte), … NOMINALES: las posibles respuestas NO admiten ningún tipo de ordenación Ejemplo: sexo (hombre, mujer), color de ojos (verde, azul, marrón), … CUANTITATIVAS ¿Cuánto? CUALITATIVAS ¿De qué tipo?
  • 27. II. Estadística descriptiva e inferencia estadística VARIABLES CUALITATIVAS VARIABLES CUANTITATIVAS ESTADÍSTICOS Tablas de frecuencias Porcentajes De tendencia central, posición y dispersión n (%) media±dt, mediana Rango, RIC GRÁFICOS Diagrama de barras y/o sectores Histogramas Diagramas de cajas
  • 28. II. Estadística descriptiva e inferencia estadística 𝑓(𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒂) = 𝑓(𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎) 𝑛º 𝑑𝑒 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠 Variables cualitativas: binarias (dicotómicas) o con k-categorías: se expresarán como frecuencias absolutas y relativas Sexo n % % válido % acumulado Hombre 112 46,5 46,5 46,5 Mujer 129 53,5 53,5 100 Total 241 100 100 Frecuencia absoluta Frecuencia relativa·100 Frecuencia relativa acumulada IMC n % % válido % acumulado Normopeso 130 35,0 35,6 35,6 Sobrepeso 156 42,1 42,8 78,4 Obesidad 79 21,3 21,6 100 Perdidos 6 1,6 365 Total 371 100 Frecuencia absoluta Frecuencia relativa·100 Frecuencia relativa acumulada Frecuencias absolutas: número de observaciones Frecuencias relativas: porcentaje
  • 29. II. Estadística descriptiva e inferencia estadística Variables cualitativas: Frecuencias Estadísticos: solo si se trata de variables cuantitativas.
  • 30. II. Estadística descriptiva e inferencia estadística Variables cualitativas: Frecuencias Sintaxis: podemos pegarla en la hoja de sintaxis para reproducir de nuevos los análisis.
  • 31. Seguimos trabajando con la base “MET_cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 1. Identificar las variables cualitativas recogidas en la base de datos 2. Describirlas utilizando los estadísticos adecuados I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 32. II. Estadística descriptiva e inferencia estadística Variables cuantitativas: Medidas de centralización, posición, dispersión, forma, … MEDIDAS DE:  CENTRALIZACIÓN: resumen la localización alrededor de la cual se distribuyen los datos. Ejemplo: media, moda y mediana  DISPERSIÓN: resumen la variabilidad que presentan los datos alrededor de alguno de los estadísticos de centralización, indican una mayor o menor concentración. Ejemplo: varianza (𝜎2 ) y desviación típica (𝝈), rango, rango intercuartílico, coeficiente de variación, …  POSICIÓN: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Ejemplo: percentiles, deciles, cuartiles, …  FORMA: informan sobre el comportamiento de la distribución de los datos. Ejemplo: simetría
  • 33. II. Estadística descriptiva e inferencia estadística Variables cuantitativas: Medidas de centralización • Media aritmética (mean): es la suma de los datos dividido por el tamaño muestral. • Mediana (median): Es el valor que deja la mitad de los datos por encima de ese valor y la otra mitad por debajo de ese valor Si el número de datos es impar (n impar), la mediana es el dato central Si el número de datos es par (n par), se elige la media de los dos datos centrales • Moda (mode): es el valor o valores más frecuente o que más se repite dentro de las observaciones. NOTA: la media es muy sensible a la existencia de valores extremos de la variable, ya que todas las observaciones intervienen en el cálculo de la media, la aparición de un dato extremo hará que la media se desplace en esa dirección.
  • 34. II. Estadística descriptiva e inferencia estadística Variables cuantitativas: Medidas de centralización Media = (17 + 19 + … + 40 + 44) / 15 = 28,3 años Mediana = 27 años Moda = 26 y 27 años Nº paciente Edad 1 17 2 19 3 24 4 25 5 26 6 26 7 27 8 27 9 28 10 29 11 30 12 31 13 32 14 40 15 44
  • 35. II. Estadística descriptiva e inferencia estadística Variables cuantitativas: Media = (17 + 19 + … + 40 + 44) / 15 = 28,3 años Mediana = 27 años Moda = 26 y 27 años Nº paciente Edad 1 17 2 19 3 24 4 25 5 26 6 26 7 27 8 27 9 28 10 29 11 30 12 31 13 32 14 40 15 44 Medidas de centralización y posición 1º cuartil = 25 años, 3º cuartil = 31 años
  • 36. II. Estadística descriptiva e inferencia estadística Variables cuantitativas: Medidas de dispersión Rango: diferencia entre el valor máximo y mínimo observados Rango intercuartílico (RIC): diferencia entre el tercer (Q3) y primer cuartil (Q1) 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 𝑃75 − 𝑃25 NOTA: El RIC es menos sensible a la presencia de valores anómalos, mientras que el rango se suele ver bastante afectado por cualquier valor anormalmente alto o bajo. Desviación típica (σ): resume la distancia existente entre cada observación y la media. 𝜎 = σ𝑖=1 𝑛 (𝑥𝑖− ҧ 𝑥)2 𝑛−1 permite trabajar en las unidades de medida Varianza (𝝈𝟐 ): resume la variabilidad de la muestra respecto a la media. Valores más altos corresponden a muestras con mayor variabilidad • Utiliza toda la información, cada una de las observaciones • Es nula o positiva • A mayor valor de la varianza, mayor dispersión • Si todas las observaciones toman el mismo valor, la varianza será nula • La desviación típica se expresa en las mismas unidades que la variable
  • 37. II. Estadística descriptiva e inferencia estadística Variables cuantitativas: Gráficos Media 56,38 Mediana 56,99 Moda 57,50 Desv.est. 11,46 Mínimo 24,25 Máximo 81,77 Percentiles 25 48,85 50 56,99 75 65,40 DIAGRAMA DE CAJAS HISTOGRAMA
  • 38. Seguimos trabajando con la base “MET_cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 3. Identificar las variables cuantitativas recogidas en la base de datos 4. Describirlas utilizando los estadísticos adecuados 5. Hacer un histograma con curva de densidad para la edad. ¿Tiene una distribución normal? 6. Representar sexo mediante un diagrama de sectores e, IMC mediante un diagrama de barras 7. Recodificar la edad en edad.rec (0: <65 años, 1: ≥65 años) y describirla I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 39. I. Manejo de datos con SPSS. Práctica 3. Continuación Tabla 1. Descripción de la muestra a estudio
  • 40. I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 41. II. Estadística descriptiva e inferencia estadística ESTADÍSTICA BÁSICA ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA Describe Analiza Representa las características observadas en la muestra Efectuar estimaciones Tomar decisiones Dar predicciones u otras generalizaciones sobre la población a partir de los datos obtenidos a partir de una muestra.
  • 42. II. Estadística descriptiva e inferencia estadística ESTADÍSTICA BÁSICA ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA Tipos de variables Tablas y gráficas Medidas de centralización, dispersión, posición y forma ESTIMACIÓN CONTRASTE DE HIPÓTESIS Métodos paramétricos Puntual Por intervalos Métodos no paramétricos T-Student ANOVA Fisher Pearson U-Mann Whitney Kruskall-Wallis Tablas de contingencia
  • 43. II. Estadística descriptiva e inferencia estadística Inferencia estadística 1. Estimación por intervalos de confianza 2. Contrastes de hipótesis 3. Tablas de contingencia 4. Comparación de medias 5. Anova 6. Correlaciones
  • 44. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza INFERENCIA ESTADÍSTICA: permite inducir, a través de una muestra, el comportamiento de una determinada población. En resumen, permite conclusiones sobre los parámetros de población de datos.  ESTIMACIÓN PUNTUAL: estima un valor, a partir de la muestra, que esté lo más próximo posible al verdadero parámetro de la población Ejemplo: la media muestral es un estimador de la media poblacional  INTERVALOS DE CONFIANZA: con la estimación puntual se comete cierto error, para solventarlo se construyen intervalos de confianza que, con alta probabilidad, contendrán al verdadero valor. Su amplitud nos dará información sobre el margen de error de la estimación.  CONTRASTES DE HIPÓTESIS: permiten tomar decisiones sobre la veracidad de ciertas hipótesis.
  • 45. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza Intervalos de confianza (IC) Sea cual sea la medida utilizada, las estimaciones puntuales deben acompañarse de su correspondiente intervalo de confianza (IC). 𝑰𝑪 𝟗𝟓 % = 𝒆𝒔𝒕𝒊𝒎𝒂𝒄𝒊ó𝒏 𝒑𝒖𝒏𝒕𝒖𝒂𝒍 ± 𝟏, 𝟗𝟔 ∙ 𝑬𝑬 El error estándar (EE) (standar error (SE), error típico (ET)) es una medida de la variabilidad de la media muestral con respecto a la media poblacional. Se usa cuando se pretende cuantificar el error cometido al estimar la media poblacional mediante la media muestral. Intervalo de confianza para la media: Intervalo de confianza para la proporción:
  • 46. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza Intervalos de confianza (IC) Sea cual sea la medida utilizada, las estimaciones puntuales deben acompañarse de su correspondiente intervalo de confianza (IC). 𝑰𝑪 𝟗𝟓 % = 𝒆𝒔𝒕𝒊𝒎𝒂𝒄𝒊ó𝒏 𝒑𝒖𝒏𝒕𝒖𝒂𝒍 ± 𝟏, 𝟗𝟔 ∙ 𝑬𝑬 El error estándar (EE) (standar error (SE), error típico (ET)) es una medida de la variabilidad de la media muestral con respecto a la media poblacional. Se usa cuando se pretende cuantificar el error cometido al estimar la media poblacional mediante la media muestral. Intervalo de confianza para la media: Intervalo de confianza para la proporción: El IC proporciona más información que la estimación puntual: Permite conocer la precisión
  • 47. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza Intervalos de confianza (IC) para la media 𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔 𝑫𝑻 𝒏 Ejemplo: Muestra A: 10 pacientes con edades: 21, 32, 15, 59, 60, 61, 64, 60, 71 y 80 Media muestral = 52,3 años DT = 20,68 Muestra B: 100 pacientes de edad: 20, 30, 37, 40, …, 58, 78, 72, 66 y 80 Media muestral = 50,0 años DT = 19,96 ¿Podemos sacar alguna conclusión sobre la población a estudio?
  • 48. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza Intervalos de confianza (IC) para la media 𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔 𝑫𝑻 𝒏 Ejemplo: Muestra A: Media muestral = 52,3 años DT = 20,68 Media muestral = 50,0 años DT = 19,96 𝟓𝟐,𝟑 ± 𝟏, 𝟗𝟔 ∙ 𝟔, 𝟓𝟒 = (𝟑𝟗, 𝟓; 𝟔𝟓, 𝟏) 𝟓𝟎, 𝟎 ± 𝟏, 𝟗𝟔 ∙ 𝟏, 𝟗𝟗𝟔 = (𝟒𝟔, 𝟏; 𝟓𝟑, 𝟗) Muestra B:
  • 49. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza Intervalos de confianza (IC) para la media 𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔 𝑫𝑻 𝒏
  • 50. II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza Intervalos de confianza (IC) para la media 𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔 𝑫𝑻 𝒏 𝑰𝑪 𝟗𝟓 % = 𝟔𝟔, 𝟓𝟐 ± 𝟏, 𝟗𝟔 𝟏𝟓, 𝟐𝟔𝟐 𝟐𝟒𝟏 = 𝟔𝟔, 𝟓𝟐 ±𝟏, 𝟗𝟔 ∙ 𝟎, 𝟗𝟖𝟑
  • 51. Seguimos trabajando con la base “MET_cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 8. Calcular los intervalos de confianza al 95% para edad y tiempo de seguimiento I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 52. II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis CONTRASTE DE HIPÓTESIS: prueba estadística o proceso mediante el cual decidimos si una hipótesis respecto de la población debe ser aceptada o no  se basa en datos muestrales  es una regla de decisión que nos dice cuando aceptar o rechazar las hipótesis  permite determinar si es aceptable que la característica o parámetro poblacional a estudio toma determinado valor o está dentro de unos determinados valores  consiste en averiguar si los datos observados en las muestras respaldan las hipótesis sobre las poblaciones
  • 53. II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis HIPÓTESIS: asunción relativa a una o varias poblaciones que se desea contrastar con la información extraída de las muestras. Hipótesis nula (𝑯𝟎): define la hipótesis a contrastar, es decir, se formula con intención de rechazarla Se puede pensar en ella como la hipótesis considerada correcta antes de realizar el test Hipótesis alternativa (𝑯𝟏): opuesta a la que se contrasta (hipótesis nula) Habitualmente es la hipótesis por la que se decanta el investigador (la que desea probar) ቊ 𝑯𝟎: 𝑛𝑜 ℎ𝑎𝑦 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑯𝟏: 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠
  • 54. II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis Contraste unilateral o direccional: decidimos rechazar 𝑯𝟎 para valores muy grandes “o” muy pequeños del estadístico de contraste Contraste bilateral o no direccional: en este tipo de contraste se utilizan para la toma de decisión los valores muy grandes “y” muy pequeños del estadístico de contraste La elección de uno u otro está condicionada al planteamiento de la hipótesis alternativa. CONTRASTE UNILATERAL ቊ 𝑯𝟎: 𝜃 ≤ 𝜃0 𝑯𝟏: 𝜃 > 𝜃0 CONTRASTE BILATERAL ቊ 𝑯𝟎: 𝜃 = 𝜃0 𝑯𝟏: 𝜃 ≠ 𝜃0
  • 55. II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis Estadístico de contraste: es el estadístico que se utilizará para tomar una decisión en un contraste de hipótesis. Aporta las probabilidades asociadas a un valor o un determinado intervalo de valores del estadístico de contrate. Ejemplo: Estadístico más común para estimar la media poblacional es la media muestral, ഥ 𝑿 ቊ 𝑯𝟎: 𝜇 = 𝜇0 𝑯𝟏: 𝜇 ≠ 𝜇0 ቊ 𝑯𝟎: 𝜇 ≤ 𝜇0 𝑯𝟏: 𝜇 > 𝜇0 ቊ 𝑯𝟎: 𝜇 ≥ 𝜇0 𝑯𝟏: 𝜇 < 𝜇0 p-valor: indica el nivel de significación a partir del cual la hipótesis nula se va a rechazar. 𝒑 < 𝟎, 𝟎𝟓 → se rechaza la hipótesis nula, es decir, existen diferencias significativas entre los grupos 𝒑 ≥ 𝟎, 𝟎𝟓 → se acepta la hipótesis nula, es decir, no existen evidencias de que los grupos sean diferentes
  • 56. II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis CUALITATIVA NOMINAL K=2 CUALITATIVA NOMINAL K>2 CUALITATIVA ORDINAL o CUANTITATIVA NO PARAMÉTRICA CUANTITATIVA PARAMÉTRICA CUALITATIVA grupos independient es K=2 Test 𝝌𝟐 Test exacto de Fisher Z comparación de proporciones Test 𝝌𝟐 U de Mann-Whitney T de Student K>2 Test 𝝌𝟐 Test 𝝌𝟐 Prueba de Kruskal- Wallis ANOVA (análisis de la varianza) CUALITATIVA grupos dependientes K=2 Test de McNemar Q de Cochran Prueba de los rangos de Wilcoxon T de Student para datos emparejados K>2 Q de Cochran Q de Cochran Prueba de Friedman Análisis de la varianza de dos vías CUANTITATIVA Regresión logística Regresión logística Correlación de Spearman Tau de Kendall Correlación de Pearson Regresión lineal
  • 57. II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis CUALITATIVA CUANTITATIVA CUALITATIVA Test 𝝌𝟐 Test exacto de Fisher TABLAS DE CONTINGENCIA T de Student U de Mann-Whitney ANOVA Test de Kruskal-Wallis COMPARACIÓN DE MEDIAS CUANTITATIVA Regresión logística Correlación Regresión lineal COEFICIENTE DE CORRELACIÓN
  • 58. II. Estadística descriptiva e inferencia estadística. Tablas de contingencia TABLAS DE CONTINGENCIA: cualitativa vs cualitativa Ante una tabla de contingencia puede plantearse la siguiente cuestión: ¿existe una relación estadísticamente significativa entre las variables estudiadas? VARIABLE RESULTADO SI NO Total SI a b a+b NO c d c+d Total a+c b+d n http://www.fisterra.com/mbe/investiga/chi/chi.pdf http://www.fisterra.com/mbe/investiga/fisher/fisher.pdf 𝝌2 = 𝑛 (𝑎𝑑 − 𝑏𝑐)2 (𝑎 + 𝑏)(𝑐 + 𝑑)(𝑎 + 𝑐)(𝑏 + 𝑑) = ෍ 𝑖=1 𝑘 ෍ 𝑗=1 𝑚 (𝑜𝑖𝑗 − 𝑒𝑖𝑗)2 𝑒𝑖𝑗 ~𝝌𝑔,𝛼 2 G𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑(𝑔) = (𝑘 − 1)(𝑚 − 1) CONTRASTE DE HIPÓTESIS: 𝑯𝟎: ambas variables son independientes 𝑯𝟏: existe una relación de dependencia
  • 59. II. Estadística descriptiva e inferencia estadística. Tablas de contingencia TEST CHI-CUADRADO Permite comprobar si dos variables cualitativas están asociadas entre si, de no estarlo podremos concluir que ambas variables son independientes, con un determinado nivel de confianza. Condiciones necesarias y suficientes de aplicación:  Ambas variables deben ser cualitativas nominales  Tamaño muestral n>40  Ninguno de los valores esperados en cada celda debe ser menor de 5 Importante: Es un test no dirigido (bilateral), es decir, indica si existe o no relación entre dos variables pero NO en qué sentido se produce tal, ni cuantifica la intensidad de dicha asociación.
  • 60. II. Estadística descriptiva e inferencia estadística. Tablas de contingencia TEST CHI-CUADRADO Alternativas  Corrección de Yates (en tablas 2x2) Permite analizar si dos variables dicotómicas están asociadas cuando la muestra es pequeña (n<40) y no se cumplen las condiciones necesarias para la aplicación del test chi-cuadrado (una de las celdas tiene una frecuencia esperada inferior a 5)  Test exacto de Fisher (en tablas 2x2) Permite analizar si dos variables dicotómicas están asociadas cuando la muestra es demasiado pequeña y no se cumplen las condiciones necesarias para la aplicación del test chi-cuadrado ni corrección de Yates, es decir, cuando la frecuencia esperada es inferior a 5 en 2 o más celdas.
  • 61. II. Estadística descriptiva e inferencia estadística. Tablas de contingencia TEST CHI-CUADRADO
  • 62. Seguimos trabajando con la base “MET_cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 9. Crear una variable que indique el evento combinado (trasplante o éxitus), denominada evento.combinado donde 0: censurado y 1: trasplante o éxitus 10. Describir esta nueva variable con los estadísticos oportunos 11. ¿Existe asociación entre la presencia de este evento combinado y las patologías recogidas en el estudio? 12. ¿Existe asociación entre el tratamiento recibido y el evento combinado? 13. ¿Los factores anteriores se asocian con el status? I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 63. II. Estadística descriptiva e inferencia estadística. Tablas de contingencia TEST CHI-CUADRADO Ejemplo: ¿Existe asociación entre el evento combinado y presentar ascitis?
  • 64. II. Estadística descriptiva e inferencia estadística. Tablas de contingencia TEST CHI-CUADRADO Ejemplo: ¿Existe asociación entre el evento combinado y el tratamiento recibido?
  • 65. II. Estadística descriptiva e inferencia estadística. Comparación de medias MODELOS 2 GRUPOS PARAMÉTRICOS NO PARAMÉTRICOS INDEPENDIENTES T de Student para muestras independientes U de Mann-Whitney DEPENDIENTES T de Student para muestras apareadas Wilcoxon
  • 66. II. Estadística descriptiva e inferencia estadística. Comparación de medias T de Student para dos muestras independientes Condiciones de aplicación:  Tamaño ≥ 30 en cada grupo o  Normalidad • Test de Kolmogorov-Smirnov • Test de Shapiro-Wilks (recomendado para muestras pequeñas)  Homogeneidad de las varianzas (Homocedasticidad) • Prueba F de Snedecor • Test de Barttlet • Test de Levene Si p<0,05: rechazamos 𝐻0, siendo 𝑯𝟎: Las varianzas de ambos grupos son iguales Alternativa no paramétrica:  Prueba U de Mann-Whitney
  • 67. Seguimos trabajando con la base “MET_cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 14. Comprobar si la edad y el tiempo de seguimiento siguen una distribución normal 15. ¿Existen diferencias significativas en estas variables según el tipo de evento combinado o las patologías presentadas? I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 68. II. Estadística descriptiva e inferencia estadística. Comparación de medias Comparación de medias para dos muestras independientes Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: test Kolmogorov-Smirnov
  • 69. II. Estadística descriptiva e inferencia estadística. Comparación de medias Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: test Shapiro-Wilks Comparación de medias para dos muestras independientes
  • 70. II. Estadística descriptiva e inferencia estadística. Comparación de medias Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: gráficamente Comparación de medias para dos muestras independientes
  • 71. II. Estadística descriptiva e inferencia estadística. Comparación de medias Paso 2. Tomar el test adecuado (paramétrico o no paramétrico) Comparación de medias para dos muestras independientes T de Student para dos muestras independientes (test paramétrico) Prueba U de Mann-Whitney para dos muestras independientes (test no paramétrico)
  • 72. II. Estadística descriptiva e inferencia estadística. Comparación de medias Comparación de medias para dos muestras independientes T de Student para dos muestras independientes (test paramétrico)
  • 73. II. Estadística descriptiva e inferencia estadística. Comparación de medias Comparación de medias para dos muestras independientes Prueba U de Mann-Whitney para dos muestras independientes (test no paramétrico)
  • 74. II. Estadística descriptiva e inferencia estadística. Comparación de medias T de Student para dos muestras independientes (test paramétrico) Paso 3. Comprobar el supuesto de igualdad de varianzas (Test de Levene) p≥0,05: se asume igualdad de varianzas
  • 75. II. Estadística descriptiva e inferencia estadística. Comparación de medias U de Mann-Whitney para dos muestras independientes (test no paramétrico) En este caso no necesitamos comprobar el supuesto de normalidad No ofrece un descriptivo de los datos por grupo
  • 76. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias MODELOS K>2 GRUPOS PARAMÉTRICOS NO PARAMÉTRICOS INDEPENDIENTES ANOVA Kruskal-Wallis DEPENDIENTES Análisis de la varianza de 2 vías Prueba de Friedman
  • 77. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias ANOVA: análisis de la varianza Condiciones de aplicación:  Si la variable dependiente (respuesta) es cuantitativa y la variable predictora cualitativa policotómica  Normalidad • Test de Kolmogorov-Smirnov • Test de Shapiro-Wilks  Homogeneidad de las varianzas (Homocedasticidad) • Prueba F de Snedecor • Test de Barttlet • Test de Levene 𝑯𝟎: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝒌 𝑯𝟏: al menos una de las medias 𝝁𝒊 es distinta Alternativa no paramétrica:  Prueba Kruskal-Wallis
  • 78. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias ANOVA: análisis de la varianza Observaciones:  Se trata de una técnica robusta frente a desviaciones de la normalidad: los resultados del contraste F en la prueba ANOVA son sustancialmente válidos aunque los datos no sean normales.  El efecto de desigualdad de las varianzas en los grupos sobre el contraste F y los contrastes de medias dependen de que el número de observaciones en cada grupo sea igual o muy distinto. Si todos los grupos tienen el mismo número de observaciones el contraste F es igualmente exacto aunque las varianzas sean distintas. Es decir, podemos despreocuparnos de las varianzas a efectos de contrastes de medias, siempre que haya aproximadamente el mismo número de observaciones por grupo, en caso contrario, diferencias entre las varianzas pueden ser graves.
  • 79. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias KRUSKAL-WALLIS Aplicación:  Es una alternativa no paramétrica a la prueba F del ANOVA (análisis de la varianza) para diseños donde no se cumple la normalidad de la variable cuantitativa.  Contraste entre más de 2 grupos, usando la mediana de cada uno de ellos en lugar de las medias: 𝐻 = 12 𝑛(𝑛 + 1) ෍ 𝑖=1 𝑘 𝑅𝑖 2 𝑛𝑖 − 3(𝑛 + 1) Donde n es el total de datos y k el número de grupos. 𝑯𝟏: al menos una de las poblaciones tiene una mediana distinta a las otras 𝑯𝟎: las medianas de las k poblaciones consideradas son iguales
  • 80. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias VENTAJAS INCONVENIENTES Permite datos ordinales y cuantitativos discretos Menor potencia estadística No es necesaria la normalidad Menor sensibilidad para detectar diferencias entre los grupos Permite tamaños muestrales pequeños No permite construir intervalos de confianza
  • 81. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias ANOVA KRUSKAL-WALLIS
  • 82. Seguimos trabajando con la base “MET_01cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 16. Analizar la relación entre los valores medios de la edad y el tiempo de seguimiento según el status 17. Representar gráficamente los resultados obtenidos I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 83. II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias KRUSKAL-WALLIS
  • 84. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación El coeficiente de correlación de Pearson (r) es un índice que mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas. La alternativa no paramétrica es el coeficiente rho de Spearman. Puede ser positivo o negativo y su valor oscila entre −1 ≤ 𝑟𝑥𝑦 ≤ 1: 𝑟𝑥𝑦 ≅ −1 𝑟𝑥𝑦 ≅ 0 𝑟𝑥𝑦 ≅ 1
  • 85. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación Observaciones:  El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson calculado sobre el rango de observaciones.  Ante la presencia de variables ordinales sólo se podrá usar el coeficiente de Spearman.  El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales. 𝑯𝟎: 𝑟𝑥𝑦 = 𝟎 El coeficiente de correlación obtenido procede de una población cuya correlación es 0 𝑯𝟏: 𝑟𝑥𝑦 ≠ 𝟎 El coeficiente de correlación obtenido procede de una población cuyo coeficiente de correlación es distinto de 0
  • 86. Seguimos trabajando con la base “MET_01cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 18. Analizar la correlación entre las variables continuas (edad, imc, cobre en orina, fosfatasa alcalina, SGOT, triglicéridos, plaquetas, tiempo en protombina, bilirrubina, colesterol y albúmina) 19. Analizar la correlación entre las medidas analíticas (bilirrubina, colesterol y albúmina) de la medición basal y última visita I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 87. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación Paso 1. Comprobar normalidad Paso 2. Visualizar el gráfico de dispersión Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)
  • 88. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación Paso 1. Comprobar normalidad Paso 2. Visualizar el gráfico de dispersión Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)
  • 89. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación Paso 1. Comprobar normalidad Paso 2. Visualizar el gráfico de dispersión Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)
  • 90. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
  • 91. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
  • 92. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
  • 93. II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
  • 94. III. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE: regresión lineal y logística binaria
  • 95. III. Introducción al análisis multivariante Un modelo de regresión es un modelo matemático que permite describir cómo influye una variable 𝑋 o un conjunto de variables 𝑋1, … , 𝑋𝑛 sobre otra variable 𝑌, donde 𝑋: variable independiente o explicativa 𝑌: variable dependiente o respuesta El objetivo es obtener estimaciones razonables de 𝑌 para los distintos valores de 𝑋 a partir de una muestra de 𝑛 pares de valores 𝑥1, 𝑦1 , … , (𝑥𝑛, 𝑦𝑛) Según el tipo de variable dependiente (o respuesta):  LOGÍSTICA: variable dependiente dicotómica  LINEAL: variable dependiente cuantitativa continua
  • 96. III. Introducción al análisis multivariante. Regresión logística binaria Los modelos de regresión logística son de gran utilidad cuando se pretende estudiar el efecto de determinadas variables sobre una variable respuesta de tipo dicotómico (por ejemplo: vivo vs muerto, sano vs enfermo). Su objetivo es estudiar si la probabilidad de éxito (𝑝) de una variable dicotómica depende, o no, de una o más variables explicativas. Un modelo de regresión logística quedaría definido de la siguiente forma: Donde: 𝑝 representa la probabilidad o riesgo de evento de interés, 𝛼0 y 𝛼1 son los coeficientes de regresión, estimados mediante el método de máxima verosimilitud 𝑥 es la variable explicativa Esta expresión es equivalente a:
  • 97. III. Introducción al análisis multivariante. Regresión logística binaria Interpretación de los coeficientes de regresión:  Odds: Indica cuánto más probable es el éxito que el fracaso cuando la variable o variables explicativas toman el valor 0  Odds Ratio (OR): Indica cuánto varía la probabilidad de éxito (p) cuando la variable explicativa aumenta una unidad o cambia de categoría. Es decir, indica cuanto se ve multiplicado el riesgo de presentar el evento a estudio al aumentar una unidad el valor de la variable explicativa
  • 98. III. Introducción al análisis multivariante. Regresión logística binaria Interpretación de los coeficientes de regresión: OR<1 OR=1 OR>1 Factor protector: el aumento en una unidad en la variable explicativa provoca la disminución de la probabilidad de éxito (riesgo) No es un factor de riesgo Factor de riesgo: el aumento en una unidad en la variable explicativa provoca el aumento de la probabilidad de éxito o riesgo
  • 99. III. Introducción al análisis multivariante. Regresión logística binaria
  • 100. III. Introducción al análisis multivariante. Regresión logística binaria
  • 101. Seguimos trabajando con la base “MET_01cbp.sav’’ Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado controlado con placebo del fármaco D-penicilamina Tareas: 20. Analizar la asociación entre arañas y edad, sexo, imc y stage. Análisis univariante 21. Ajustar un modelo de regresión logística para las arañas resultantes utilizando las covariables edad, sexo, bilis, etapa y ascitis. 22. Interpretar la salida del resumen del modelo. ¿Hubo valores faltantes en los datos? ¿Qué pasó con esos casos? ¿Cuál es la interpretación del coeficiente de bili en este modelo? ¿Cuál es la interpretación de los coeficientes para la etapa? I. Manejo de datos con SPSS. Práctica 3. Continuación
  • 102. I. Manejo de datos con SPSS. Práctica 3. Continuación P(arañas| edad ) P(arañas| sexo) OR p
  • 103. I. Manejo de datos con SPSS. Práctica 3. Continuación OR
  • 104. I. Manejo de datos con SPSS. Práctica 3. Continuación 22. Interpretar la salida del resumen del modelo: ¿Hubo valores faltantes en los datos? No hay valores perdidos. Si existen variables en el modelo con valores perdidos, esa información estaría recogida en esta tabla. Los casos con valores perdidos en las variables que forman el modelo son excluidos del análisis
  • 105. I. Manejo de datos con SPSS. Práctica 3. Continuación 22. Interpretar la salida del resumen del modelo: ¿Cuál es la interpretación del coeficiente de bili en este modelo? Con el aumento de una unidad en bilirrubina, el logaritmo de la probabilidad de tener arañas, i.e., 𝑙𝑜𝑔( 𝑃 𝑎𝑟𝑎ñ𝑎𝑠=1 1−𝑃 𝑎𝑟𝑎ñ𝑎𝑠=1 ) , aumenta en 𝛽𝑏𝑖𝑙𝑖 = 0,099 Esto significa que el Odds ratio de bili es: 𝑶𝑹 = 𝒆𝜷𝒃𝒊𝒍𝒊 = 𝐞𝐱𝐩 𝟎, 𝟎𝟗𝟗 = 𝟏, 𝟏𝟎𝟒 (mientras las demás variables del modelo se mantienen constantes)
  • 106. I. Manejo de datos con SPSS. Práctica 3. Continuación 22. Interpretar la salida del resumen del modelo: ¿Cuál es la interpretación del coeficiente de stage? Un paciente con estadio 2 tiene 𝛽𝑠𝑡𝑎𝑔𝑒2 = 0,651 probabilidades logarítmicas más altas de tener el evento que un paciente en estadio 1 (referencia) (con los mismos valores en las demás covariables). El OR de stage = 2 es: 𝑶𝑹 = 𝒆𝜷𝒔𝒕𝒂𝒈𝒆𝟐 = 𝐞𝐱𝐩 𝟎, 𝟔𝟓𝟏 = 𝟏, 𝟗𝟏𝟖 Un paciente en estadio 2 tiene casi dos veces más riesgo de presentar arañas que un paciente en estadio 1.
  • 107. III. Introducción al análisis multivariante. Regresión lineal Un modelo de regresión lineal estudia la relación lineal entre las variables independientes (X) y la variable respuesta (Y). El caso más sencillo es el modelo de regresión lineal simple, en el que solo figura una variable independiente o explicativa. Su objetivo es analizar la relación existente entre dos variables 𝑋 e 𝑌, de forma que podamos predecir o aproximar el valor de la variable respuesta o dependiente a partir del valor tomado por la variable independiente. El problema que subyace a la metodología de la regresión lineal simple es el de encontrar la recta que mejor se ajuste a la nube de puntos del diagrama de dispersión, en el que los valores de la variable X (independiente) se disponen en el eje horizontal y los de Y (dependiente) en el vertical y que pueda ser utilizada para predecir los valores de Y a partir de los de X.
  • 108. III. Introducción al análisis multivariante. Regresión lineal Un modelo de regresión lineal simple es: Donde: 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝒊 + 𝜺𝒊 𝜷𝟎y 𝜷𝟏: coeficientes de regresión tales que 𝜷𝟎: representa el valor medio de la respuesta Y cuando la variable explicativa X vale 0 (intercepto) 𝜷𝟏: representa la variación que experimenta en media la respuesta Y cuando la variable explicativa X aumenta en una unidad (pendiente de la recta de regresión) 𝜺𝒊: error entre el valor real y la estimación en cada observación i-ésima (residuos), se asume normal 𝜺𝒊~N(0, σ) 𝜺𝒊 = 𝑦𝑖 − ෝ 𝑦𝑖 NOTA: el término aleatorio 𝜺𝒊 recoge la información de Y que no queda reflejada en el modelo determinista 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝒊.
  • 109. III. Introducción al análisis multivariante. Regresión lineal Problema estadístico: Obtener las estimaciones ෢ 𝜷𝟎 y ෢ 𝜷𝟏 de 𝜷𝟎 y 𝜷𝟏 a partir de los datos 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑛 para obtener la recta que mejor se ajuste a los datos: ෝ 𝒚𝒊 = ෢ 𝜷𝟎 + ෢ 𝜷𝟏𝒙𝒊 + 𝜺𝒊 Hipótesis básicas:  Linealidad  Homogeneidad  Homocedasticidad  Independencia  Normalidad 𝒚 = 𝜷𝟎 + 𝜷𝟏𝒙 𝑬 𝜺𝒊 = 𝟎 𝑽𝒂𝒓(𝜺𝒊) = 𝝈𝟐 𝑬 𝜺𝒊𝜺𝒋 = 𝟎 𝜺𝒊~𝐍(𝟎, σ) Si no se dan estas condiciones se usarán como alternativa modelos no paramétricos
  • 110. III. Introducción al análisis multivariante. Regresión lineal Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno por déficit de atención con hiperactividad (x): (base_reglineal.sav)
  • 111. III. Introducción al análisis multivariante. Regresión lineal Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno por déficit de atención con hiperactividad (x):
  • 112. III. Introducción al análisis multivariante. Regresión lineal Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno por déficit de atención con hiperactividad (x): 𝑹𝟐 : medida de bondad de ajuste del modelo Interpretación: la edad del TDM se relaciona en el 30% de los casos con la edad de TDAH, debiéndose el 70% a otros factores no incluídos en el modelo Suma de cuadrados de la regresión: indica qué tanta variabilidad de la variable dependiente (y) explica el modelo (nivel de fluctuación de la variable y que el modelo es capaz de explicar) Suma de cuadrados de los residuos: indica qué tanta variación de la variable dependiente (y) no explica el modelo (nivel de error del modelo o porcentaje no explicado del modelo)
  • 113. III. Introducción al análisis multivariante. Regresión lineal Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno por déficit de atención con hiperactividad (x): Constante = 3,85 (𝜷𝟎): valor de y (edad.tdm) cuando x (edad.tdah) es igual a 0 Coeficiente de regresión para x (edad.tdah) = 1,13 (𝜷𝟏) 𝒆𝒅𝒂𝒅. 𝒕𝒅𝒎 = 𝟑, 𝟖𝟓 + 𝟏, 𝟏𝟑 ∙ 𝒆𝒅𝒂𝒅. 𝒕𝒅𝒂𝒉
  • 114. IV. PRESENTACIÓN DE RESULTADOS
  • 115. IV. Presentación de resultados
  • 116. IV. Presentación de resultados
  • 117. V. EJERCICIO DE EVALUACIÓN
  • 118. Abrir la base de datos llamada “MET_Colon.sav’’ Datos de uno de los primeros ensayos exitosos de quimioterapia adyuvante para el cáncer de colon, con 929 participantes. Un grupo fue tratado con levamisol (un compuesto de baja toxicidad utilizado anteriormente para tratar infestaciones de gusanos en animales) y el otro con 5-FU (un agente de quimioterapia moderadamente tóxico). Variables: I. Manejo de datos con SPSS. Práctica 4
  • 119. Base“MET_Colon.sav’’ Tareas: 1. Describir las variables recogidas en la base de datos 2. Hacer un histograma con curva de densidad para la edad. ¿Tiene una distribución normal? 3. Calcular el IMC y recodificarlo en 4 categorías (<18,5; [18,5-25); [25-30); ≥30) 4. Describir las nuevas variables y aportar el IC95% para la variable numérica. ¿Cuál es la prevalencia de obesidad en esta muestra? 5. Representar sexo mediante un diagrama de sectores e, IMC.rec y nodes mediante diagrama de barras 6. Recodificar la edad en edad.rec (0: <65 años, 1: ≥65 años) y describirla 7. Calcular el tiempo de seguimiento en años 8. Recodificar rx (tratamiento) en tratamiento.sino (0: No (observación), 1: Si (Lev ó 5FU-Lev)) 9. Estudiar si la edad y el sexo se asocian a recibir o no tratamiento y con el tipo de tratamiento 10. Representar mediante un boxplot la edad y el tipo de tratamiento (rx) 11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición? I. Manejo de datos con SPSS. Práctica 4.
  • 120. Base“MET_Colon.sav’’ Tareas: 12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…) 13. Ajustar un modelo de regresión logística para las recidivas resultantes utilizando las covariables edad, sexo, IMC, rx, y nº de ganglios. 14. Interpretar la salida del resumen del modelo. ¿Hubo valores faltantes en los datos? ¿Qué pasó con esos casos? ¿Cuál es la interpretación del coeficiente de edad en este modelo? ¿Cuál es la interpretación de los coeficientes para rx? I. Manejo de datos con SPSS. Práctica 4.
  • 121. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 1. Describir las variables recogidas en la base de datos
  • 122. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 3. Calcular el IMC y recodificarlo en 4 categorías (<18,5; [18,5-25); [25-30); ≥30) Transformar > Calcular variable Transformar > Recodificar en diferente variable
  • 123. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 5. Representar sexo mediante un diagrama de sectores e, IMC.rec y nodes mediante diagrama de barras
  • 124. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 9. Estudiar si la edad y el sexo se asocian a recibir o no tratamiento y con el tipo de tratamiento
  • 125. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav
  • 126. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 9. Estudiar si sexo se asocia a recibir o no tratamiento y tipo de tratamiento
  • 127. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 10. Representar mediante un boxplot la edad y el tipo de tratamiento (rx)
  • 128. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?
  • 129. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?
  • 130. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)
  • 131. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)
  • 132. I. Manejo de datos con SPSS. Práctica 4. MET_Colon.sav 13. Ajustar un modelo de regresión logística para las recidivas resultantes utilizando las covariables edad, sexo, IMC, rx, y nº de ganglios.
  • 133. CURSO DE METODOLOGÍA DE LA INVESTIGACIÓN Ponencia Ponente