Curso metodología - Análisis con SPSS.pdf

METODOLOGÍA DE LA
INVESTIGACIÓN
Introducción al análisis estadístico de datos con SPSS
Vanesa Balboa Barreiro
Vanesa.Balboa.Barreiro@sergas.es

I. Manejo de datos con SPSS: organización, carga y edición
II. Estadística descriptiva e inferencia estadística
 Análisis descriptivo y exploratorio de datos
 Introducción a la inferencia estadística: contrastes de hipótesis e intervalos de
confianza
 Análisis bivariante
III. Introducción al análisis multivariante: regresión lineal y logística binaria
IV. Ejercicio de evaluación

I. Manejo de datos con SPSS
SPSS ofrece tres ventanas:
Editor de Datos (semejante a una hoja de cálculo), estructurado en dos hojas:
• Vista de datos: contiene los datos del fichero. Sólo puede haber un conjunto de datos activo. Extensión: .sav
• Vista de variables: contiene una lista de las variables recogidas en el fichero de datos.
Visor de resultados: almacena los resultados generamos. Extensión: *.spo
Editor de sintaxis: contiene los ficheros de sintaxis o lenguaje de comandos. Extensión: *.sps.

Generación de bases de datos: pueden crearse directamente en el editor de datos o importarse desde otro
programa (.csv, por ejemplo)
Archivo → Abrir Archivo → Importar Datos

Generación de bases de datos: pueden crearse directamente en el editor de datos o importarse desde otro
programa (.csv, por ejemplo)
1. Asignar un nombre y una etiqueta
2. Definir el tipo de variable
3. Definir valores y asignarles etiquetas descriptivas

I. Manejo de datos con SPSS.
Generar una base de datos llamada ‘’Práctica0’’
Crear una base de datos con 5 registros (pacientes). De los cuales se desea recoger la siguiente
información
1. Crear las variables:
ID = variable numérica, número de identificación del paciente
Edad = variable numérica, edad del paciente en años
Sexo = variable categórica (0=hombre, 1=mujer)
Tipo de cirugía = variable cualitativa (1=A, 2=B, 3=C)
Fecha de la cirugía = fecha
Éxitus = variable categórica (0=vivo,1=exitus)
Causa de la muerte = variable categórica (0=no relacionada con el evento,1=relacionada
con el evento)
Fecha de fallecimiento = fecha de fallecimiento
Fecha de fin de seguimiento = fecha de último contacto o fallecimiento
Práctica 1

Práctica 1
https://xxicoruna.sergas.gal/DPInformacionparaamiasaude/Deseno_base_datos_en_folla_calculo.pdf

Importar la base de datos llamada “MET_cbp.xlsx’’
Un total de 312 pacientes con CBP (colangitis biliar primaria), participantes en un ensayo aleatorizado
controlado con placebo del fármaco D-penicilamina
Tarea:
Depuración de la base de datos
eliminar cadenas (sex)
poner etiquetas (variables cualitativas)
poner etiqueta con descripción de las variables y unidades
Práctica 2

Variables:
id Identificador
time Tiempo (días) hasta evento mas próximo (Muerte / Transplante / Fin de estudio)
status Status 0: Censura - 1: Transplante - 2: Muerte
trt Tratamiento 1: Si 2: Placebo
age Edad (años)
sex Sexo m: male / f: female
ascites Ascitis 0: No / 1: Si
hepato Hepatomegalia: 0: No / 1: Si
spiders Arañas vasculares 0: No / 1: Si
Bili, bili_2 Bilirrubina (mg/dl) Visita inicial y visita final
Chol, chol _2 Colesterol (mg/dl) Visita inicial y visita final
Albumin, albumin_2 Albúmina (gr/dl) Visita inicial y visita final
copper Cobre en orina (mcg/día)
alk.phos Fosfatasa alcalina (U/l)
sgot SGOT (U/ml)
trig Triglicéridos (mg/dl)
platelet Plaquetas (recuento)
protime Tiempo de protombina (sg)
Stage, stage_2 Grado histológico Visita inicial y final
day Dias desde 1ª a última visita
Práctica 2

Permite ordenar los casos del archivo utilizando una o más variables
Introducimos las
variables de
ordenación
Indicamos el sentido
de la ordenación

Permite definir una variable de agrupación para realizar el análisis por
grupos
Introducimos la variable
de segmentación o
división
Indicamos que tipo de
división deseamos
Comparar grupos: los resultados de
cada procedimiento se muestran juntos
para cada grupo de segmentación del
archivo.
Organizar los resultados por grupos:
los resultados de cada procedimiento se
muestran por separado.

Permite filtrar la base para el análisis sobre un subconjunto de datos
Indicamos que tipo de
selección deseada

Abrir la base de datos llamada “MET_cbp.sav’’
Tarea:
Construcción de nuevas variables y análisis descriptivo
Calcular:
Tiempo de seguimiento (días): desde 1er contacto hasta fecha de censura o de evento
Tiempo hasta visita 2 (días): desde 1er contacto hasta última visita
IMC
Recodificar IMC en infra-Normopeso / sobrepeso / obesidad
Recodificar IMC en obesidad si / no
Práctica 3

Variables:
id Identificador
status Status 0: Censura - 1: Transplante - 2: Muerte
trt Tratamiento 1: Si 2: Placebo
age Edad (años)
sex Sexo m: male / f: female
Talla y peso Talla (cm) y peso (kg)
ascites Ascitis 0: No / 1: Si
hepato Hepatomegalia: 0: No / 1: Si
spiders Arañas vasculares 0: No / 1: Si
Bili, bili_2 Bilirrubina (mg/dl) Visita inicial y visita final
Chol, chol _2 Colesterol (mg/dl) Visita inicial y visita final
Albumin, albumin_2 Albúmina (gr/dl) Visita inicial y visita final
copper Cobre en orina (mcg/día)
alk.phos Fosfatasa alcalina (U/l)
sgot SGOT (U/ml)
trig Triglicéridos (mg/dl)
platelet Plaquetas (recuento)
protime Tiempo de protombina (sg)
Stage, stage_2 Grado histológico Visita inicial y final
Fechapc Fecha del primer contacto (entrada en el estudio)
Fechavisita2 Fecha de la última visita
Fechaucont Fecha de último contacto (censura, transplante o éxitus)
Práctica 3

Permite crear nuevas variables a partir de valores de las variables existentes
Nombre para la
nueva variable
Expresión numérica para los valores que deban
asignarse a esa nueva variable
Ejemplo:
𝒊𝒎𝒄 = 𝒑𝒆𝒔𝒐 ÷ 𝒕𝒂𝒍𝒍𝒂^𝟐

Permite reagrupar los valores de una variable existente o crear una nueva
variable en base a los valores de una que ya existe
En las mismas variables: reasigna los valores o reduce el rango de valores de variables
existentes en al misma variable.
En variables diferentes: crea una nueva variable reasignando o reduciendo el rango de
valores de variables existentes.

Permite reagrupar los valores de una variable existente o crear una nueva
variable en base a los valores de una que ya existe
En las mismas variables: reasigna los valores o reduce el rango de valores de variables
existentes en al misma variable.
En variables diferentes: crea una nueva variable reasignando o reduciendo el rango de
valores de variables existentes.
≤ 216  1
> 216  2
< 216  1
≥ 216  2

II. ESTADÍSTICA DESCRIPTIVA E INFERENCIA ESTADÍSTICA

 Análisis descriptivo y exploratorio de datos
 Introducción a la inferencia estadística: contrastes de hipótesis e intervalos de
confianza
 Análisis bivariante
III. Introducción al análisis multivariante: regresión lineal y logística binaria

1. ¿Cuál es el objetivo del análisis?
 Describir: ¿Qué características tiene nuestra muestra?
 Asociar: ¿Existe relación entre las variables?
 Comparar: ¿Las poblaciones son similares? ¿Qué variables explican esas diferencias?
 Predecir: ¿Puedo predecir un evento a partir de mis datos?
2. ¿Qué tipo de variables tengo?
3. ¿Son muestras independientes o relacionadas?
4. ¿Se pueden aplicar técnicas paramétricas?
5. ¿Qué prueba debo realizar?
6. ¿La asociación/comparación es estadísticamente significativa?
7. Interpretación de los resultados obtenidos
8. Presentación de los resultados
Preguntas clave:

ESTADÍSTICA BÁSICA
ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA
Describe
Analiza
Representa
las características
observadas en la
muestra
Efectuar estimaciones
Tomar decisiones
Dar predicciones u otras
generalizaciones
sobre la población a partir
de los datos obtenidos a
partir de una muestra.

ESTADÍSTICA BÁSICA
ESTADÍSTICA DESCRIPTIVA INFERENCIA ESTADÍSTICA
Tipos de
variables
Tablas y
gráficas
Medidas de centralización,
dispersión, posición y forma
ESTIMACIÓN CONTRASTE DE HIPÓTESIS
Métodos
paramétricos
Puntual Por
intervalos
Métodos no
paramétricos
T-Student
ANOVA
Fisher
Pearson
U-Mann Whitney
Kruskall-Wallis
Tablas de
contingencia

ESTADÍSTICA DESCRIPTIVA: Conceptos
Permite analizar, describir y representar un grupo de datos (muestra) mediante métodos numéricos y gráficos.
 MUESTRA: conjunto de individuos que pueden ser estudiados en el momento de realizar el estudio
cumplen los criterios de inclusión. Representan la población de interés
En general la población es inaccesible, por eso se opta por tomar una muestra representativa
 INDIVIDUO: cada elemento de la población
 VARIABLE: característica (numérica o no) de cada individuo a estudio
Ejemplo: edad, sexo, niveles de glucemia, …
 PARÁMETRO: medida que interesa conocer en una variable aleatoria en una población
Ejemplo: 𝜇=media, 𝜎=desviación típica, p=proporción, …
 ESTADÍSTICO MUESTRAL: estimación de la muestra aleatoria que permite aproximar el parámetro de interés
Ejemplo: Ƹ
𝜇=media muestral, …

ESTADÍSTICA DESCRIPTIVA: Tipos de variables
CONTINUAS: pueden tomar cualquier valor dentro de un rango determinado
Ejemplo: edad, peso, IMC, …
DISCRETAS: podrán tomar ciertos valores concretos (habitualmente números enteros)
Ejemplo: nº de aciertos en un test, …
ORDINALES: las posibles respuestas admiten una ordenación lógica
Ejemplo: gravedad de un infarto (leve, moderado, fuerte), …
NOMINALES: las posibles respuestas NO admiten ningún tipo de ordenación
Ejemplo: sexo (hombre, mujer), color de ojos (verde, azul, marrón), …
CUANTITATIVAS
¿Cuánto?
CUALITATIVAS
¿De qué tipo?

VARIABLES CUALITATIVAS VARIABLES CUANTITATIVAS
ESTADÍSTICOS
Tablas de frecuencias
Porcentajes
De tendencia central, posición y
dispersión
n (%)
media±dt, mediana
Rango, RIC
GRÁFICOS
Diagrama de barras y/o
sectores
Histogramas
Diagramas de cajas

𝑓(𝒓𝒆𝒍𝒂𝒕𝒊𝒗𝒂) =
𝑓(𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎)
𝑛º 𝑑𝑒 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
Variables cualitativas: binarias (dicotómicas) o con k-categorías: se expresarán como
frecuencias absolutas y relativas
Sexo n %
%
válido
%
acumulado
Hombre 112 46,5 46,5 46,5
Mujer 129 53,5 53,5 100
Total 241 100 100
Frecuencia
absoluta
Frecuencia
relativa·100
Frecuencia
relativa
acumulada
IMC n %
%
válido
%
acumulado
Normopeso 130 35,0 35,6 35,6
Sobrepeso 156 42,1 42,8 78,4
Obesidad 79 21,3 21,6 100
Perdidos 6 1,6 365
Total 371 100
Frecuencia
absoluta
Frecuencia
relativa·100
Frecuencia
relativa
acumulada
Frecuencias absolutas: número de observaciones
Frecuencias relativas: porcentaje

Variables cualitativas: Frecuencias
Estadísticos:
solo si se trata
de variables
cuantitativas.

Variables cualitativas: Frecuencias
Sintaxis: podemos pegarla en la hoja de sintaxis para
reproducir de nuevos los análisis.

Seguimos trabajando con la base “MET_cbp.sav’’
Tareas:
1. Identificar las variables cualitativas recogidas en la base de datos
2. Describirlas utilizando los estadísticos adecuados
Práctica 3. Continuación

Variables cuantitativas: Medidas de centralización, posición, dispersión, forma, …
MEDIDAS DE:
 CENTRALIZACIÓN: resumen la localización alrededor de la cual se distribuyen los datos.
Ejemplo: media, moda y mediana
 DISPERSIÓN: resumen la variabilidad que presentan los datos alrededor de alguno de los estadísticos de
centralización, indican una mayor o menor concentración.
Ejemplo: varianza (𝜎2
) y desviación típica (𝝈), rango, rango intercuartílico, coeficiente de variación, …
 POSICIÓN: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
Ejemplo: percentiles, deciles, cuartiles, …
 FORMA: informan sobre el comportamiento de la distribución de los datos.
Ejemplo: simetría

Variables cuantitativas:
Medidas de centralización
• Media aritmética (mean): es la suma de los datos dividido por el tamaño muestral.
• Mediana (median):
Es el valor que deja la mitad de los datos por encima de ese valor y la otra mitad por debajo de ese
valor
Si el número de datos es impar (n impar), la mediana es el dato central
Si el número de datos es par (n par), se elige la media de los dos datos centrales
• Moda (mode): es el valor o valores más frecuente o que más se repite dentro de las observaciones.
NOTA: la media es muy sensible a la existencia de valores extremos de la variable, ya que todas las
observaciones intervienen en el cálculo de la media, la aparición de un dato extremo hará que la media
se desplace en esa dirección.

Medidas de centralización
Media = (17 + 19 + … + 40 + 44) / 15 = 28,3 años
Mediana = 27 años
Moda = 26 y 27 años
Nº
paciente Edad
1 17
2 19
3 24
4 25
5 26
6 26
7 27
8 27
9 28
10 29
11 30
12 31
13 32
14 40
15 44

Media = (17 + 19 + … + 40 + 44) / 15 = 28,3 años
Mediana = 27 años
Moda = 26 y 27 años
Nº
paciente Edad
1 17
2 19
3 24
4 25
5 26
6 26
7 27
8 27
9 28
10 29
11 30
12 31
13 32
14 40
15 44
Medidas de centralización y posición
1º cuartil = 25 años, 3º cuartil = 31 años

Medidas de dispersión
Rango: diferencia entre el valor máximo y mínimo observados
Rango intercuartílico (RIC): diferencia entre el tercer (Q3) y primer cuartil (Q1) 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 𝑃75 − 𝑃25
NOTA: El RIC es menos sensible a la presencia de valores anómalos, mientras que el rango se suele ver
bastante afectado por cualquier valor anormalmente alto o bajo.
Desviación típica (σ): resume la distancia existente entre cada observación y la media. 𝜎 =
σ𝑖=1
𝑛 (𝑥𝑖− ҧ
𝑥)2
𝑛−1
permite trabajar en las unidades de medida
Varianza (𝝈𝟐
): resume la variabilidad de la muestra respecto a la media. Valores más altos corresponden a
muestras con mayor variabilidad
• Utiliza toda la información, cada una de las observaciones
• Es nula o positiva
• A mayor valor de la varianza, mayor dispersión
• Si todas las observaciones toman el mismo valor, la varianza será nula
• La desviación típica se expresa en las mismas unidades que la variable

Variables cuantitativas: Gráficos
Media 56,38
Mediana 56,99
Moda 57,50
Desv.est. 11,46
Mínimo 24,25
Máximo 81,77
Percentiles
25 48,85
50 56,99
75 65,40
DIAGRAMA DE CAJAS
HISTOGRAMA

Tareas:
3. Identificar las variables cuantitativas recogidas en la base de datos
4. Describirlas utilizando los estadísticos adecuados
5. Hacer un histograma con curva de densidad para la edad. ¿Tiene una distribución normal?
6. Representar sexo mediante un diagrama de sectores e, IMC mediante un diagrama de barras
7. Recodificar la edad en edad.rec (0: <65 años, 1: ≥65 años) y describirla

Tabla 1. Descripción de la muestra a estudio

Inferencia estadística
1. Estimación por intervalos de confianza
2. Contrastes de hipótesis
3. Tablas de contingencia
4. Comparación de medias
5. Anova
6. Correlaciones

II. Estadística descriptiva e inferencia estadística. Estimación por intervalos de confianza
INFERENCIA ESTADÍSTICA: permite inducir, a través de una muestra, el comportamiento de una
determinada población. En resumen, permite conclusiones sobre los parámetros de población de datos.
 ESTIMACIÓN PUNTUAL: estima un valor, a partir de la muestra, que esté lo más próximo posible al
verdadero parámetro de la población
Ejemplo: la media muestral es un estimador de la media poblacional
 INTERVALOS DE CONFIANZA: con la estimación puntual se comete cierto error, para solventarlo se
construyen intervalos de confianza que, con alta probabilidad, contendrán al verdadero valor. Su
amplitud nos dará información sobre el margen de error de la estimación.
 CONTRASTES DE HIPÓTESIS: permiten tomar decisiones sobre la veracidad de ciertas hipótesis.

Intervalos de confianza (IC)
Sea cual sea la medida utilizada, las estimaciones puntuales deben acompañarse de su
correspondiente intervalo de confianza (IC).
𝑰𝑪 𝟗𝟓 % = 𝒆𝒔𝒕𝒊𝒎𝒂𝒄𝒊ó𝒏 𝒑𝒖𝒏𝒕𝒖𝒂𝒍 ± 𝟏, 𝟗𝟔 ∙ 𝑬𝑬
El error estándar (EE) (standar error (SE), error típico (ET)) es una medida de la variabilidad de la media
muestral con respecto a la media poblacional. Se usa cuando se pretende cuantificar el error cometido al
estimar la media poblacional mediante la media muestral.
Intervalo de confianza para la media: Intervalo de confianza para la proporción:

Intervalos de confianza (IC)
Sea cual sea la medida utilizada, las estimaciones puntuales deben acompañarse de su
correspondiente intervalo de confianza (IC).
𝑰𝑪 𝟗𝟓 % = 𝒆𝒔𝒕𝒊𝒎𝒂𝒄𝒊ó𝒏 𝒑𝒖𝒏𝒕𝒖𝒂𝒍 ± 𝟏, 𝟗𝟔 ∙ 𝑬𝑬
El error estándar (EE) (standar error (SE), error típico (ET)) es una medida de la variabilidad de la media
muestral con respecto a la media poblacional. Se usa cuando se pretende cuantificar el error cometido al
estimar la media poblacional mediante la media muestral.
Intervalo de confianza para la media: Intervalo de confianza para la proporción:
El IC proporciona más información que la
estimación puntual:
Permite conocer la precisión

Intervalos de confianza (IC) para la media
𝑰𝑪 𝟗𝟓 % = 𝒎𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 ± 𝟏, 𝟗𝟔
𝑫𝑻
𝒏
Ejemplo:
Muestra A: 10 pacientes con edades: 21, 32, 15, 59, 60, 61, 64, 60, 71 y 80
Media muestral = 52,3 años
DT = 20,68
Muestra B: 100 pacientes de edad: 20, 30, 37, 40, …, 58, 78, 72, 66 y 80
DT = 19,96
¿Podemos sacar
alguna conclusión
sobre la población
a estudio?

𝑫𝑻
𝒏
Ejemplo:
Muestra A: Media muestral = 52,3 años
DT = 20,68
DT = 19,96
𝟓𝟐,𝟑 ± 𝟏, 𝟗𝟔 ∙ 𝟔, 𝟓𝟒 = (𝟑𝟗, 𝟓; 𝟔𝟓, 𝟏)
𝟓𝟎, 𝟎 ± 𝟏, 𝟗𝟔 ∙ 𝟏, 𝟗𝟗𝟔 = (𝟒𝟔, 𝟏; 𝟓𝟑, 𝟗)
Muestra B:

𝑫𝑻
𝒏

𝑫𝑻
𝒏
𝑰𝑪 𝟗𝟓 % = 𝟔𝟔, 𝟓𝟐 ± 𝟏, 𝟗𝟔
𝟏𝟓, 𝟐𝟔𝟐
𝟐𝟒𝟏
= 𝟔𝟔, 𝟓𝟐 ±𝟏, 𝟗𝟔 ∙ 𝟎, 𝟗𝟖𝟑

Tareas:
8. Calcular los intervalos de confianza al 95% para edad y tiempo de seguimiento

II. Estadística descriptiva e inferencia estadística. Contrastes de hipótesis
CONTRASTE DE HIPÓTESIS: prueba estadística o proceso mediante el cual decidimos si una hipótesis
respecto de la población debe ser aceptada o no
 se basa en datos muestrales
 es una regla de decisión que nos dice cuando aceptar o rechazar las hipótesis
 permite determinar si es aceptable que la característica o parámetro poblacional a estudio
toma determinado valor o está dentro de unos determinados valores
 consiste en averiguar si los datos observados en las muestras respaldan las hipótesis sobre las
poblaciones

HIPÓTESIS: asunción relativa a una o varias poblaciones que se desea contrastar con la información
extraída de las muestras.
Hipótesis nula (𝑯𝟎): define la hipótesis a contrastar, es decir, se formula con intención de rechazarla
Se puede pensar en ella como la hipótesis considerada correcta antes de realizar el test
Hipótesis alternativa (𝑯𝟏): opuesta a la que se contrasta (hipótesis nula)
Habitualmente es la hipótesis por la que se decanta el investigador (la que desea probar)
ቊ
𝑯𝟎: 𝑛𝑜 ℎ𝑎𝑦 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠
𝑯𝟏: 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠

Contraste unilateral o direccional: decidimos rechazar 𝑯𝟎 para valores muy grandes “o” muy
pequeños del estadístico de contraste
Contraste bilateral o no direccional: en este tipo de contraste se utilizan para la toma de decisión los
valores muy grandes “y” muy pequeños del estadístico de contraste
La elección de uno u otro está condicionada al planteamiento de la hipótesis alternativa.
CONTRASTE UNILATERAL
ቊ
𝑯𝟎: 𝜃 ≤ 𝜃0
𝑯𝟏: 𝜃 > 𝜃0
CONTRASTE BILATERAL
ቊ
𝑯𝟎: 𝜃 = 𝜃0
𝑯𝟏: 𝜃 ≠ 𝜃0

Estadístico de contraste: es el estadístico que se utilizará para tomar una decisión en un contraste de
hipótesis. Aporta las probabilidades asociadas a un valor o un determinado intervalo de valores del
estadístico de contrate.
Ejemplo:
Estadístico más común para estimar la media poblacional es la media muestral, ഥ
𝑿
ቊ
𝑯𝟎: 𝜇 = 𝜇0
𝑯𝟏: 𝜇 ≠ 𝜇0
ቊ
𝑯𝟎: 𝜇 ≤ 𝜇0
𝑯𝟏: 𝜇 > 𝜇0
ቊ
𝑯𝟎: 𝜇 ≥ 𝜇0
𝑯𝟏: 𝜇 < 𝜇0
p-valor: indica el nivel de significación a partir del cual la hipótesis nula se va a rechazar.
𝒑 < 𝟎, 𝟎𝟓 → se rechaza la hipótesis nula, es decir, existen diferencias significativas entre los grupos
𝒑 ≥ 𝟎, 𝟎𝟓 → se acepta la hipótesis nula, es decir, no existen evidencias de que los grupos sean diferentes

CUALITATIVA
NOMINAL
K=2
CUALITATIVA
NOMINAL
K>2
CUALITATIVA
ORDINAL o
CUANTITATIVA NO
PARAMÉTRICA
CUANTITATIVA
PARAMÉTRICA
CUALITATIVA
grupos
independient
es
K=2 Test 𝝌𝟐
Test exacto de Fisher
Z comparación de
proporciones
Test 𝝌𝟐 U de Mann-Whitney T de Student
K>2 Test 𝝌𝟐
Test 𝝌𝟐 Prueba de Kruskal-
Wallis
ANOVA (análisis de la
varianza)
CUALITATIVA
grupos
dependientes
K=2 Test de McNemar Q de Cochran Prueba de los rangos
de Wilcoxon
T de Student para
datos emparejados
K>2 Q de Cochran Q de Cochran Prueba de Friedman Análisis de la varianza
de dos vías
CUANTITATIVA Regresión logística Regresión logística Correlación de
Spearman
Tau de Kendall
Correlación de
Pearson
Regresión lineal

CUALITATIVA CUANTITATIVA
CUALITATIVA
Test 𝝌𝟐
Test exacto de Fisher
TABLAS DE
CONTINGENCIA
T de Student
U de Mann-Whitney
ANOVA
Test de Kruskal-Wallis
COMPARACIÓN DE
MEDIAS
CUANTITATIVA
Regresión logística Correlación
Regresión lineal
COEFICIENTE DE
CORRELACIÓN

II. Estadística descriptiva e inferencia estadística. Tablas de contingencia
TABLAS DE CONTINGENCIA: cualitativa vs cualitativa
Ante una tabla de contingencia puede plantearse la siguiente cuestión:
¿existe una relación estadísticamente significativa entre las variables estudiadas?
VARIABLE
RESULTADO
SI NO Total
SI a b a+b
NO c d c+d
Total a+c b+d n
http://www.fisterra.com/mbe/investiga/chi/chi.pdf
http://www.fisterra.com/mbe/investiga/fisher/fisher.pdf
𝝌2
=
𝑛 (𝑎𝑑 − 𝑏𝑐)2
(𝑎 + 𝑏)(𝑐 + 𝑑)(𝑎 + 𝑐)(𝑏 + 𝑑)
= ෍
𝑖=1
𝑘
෍
𝑗=1
𝑚
(𝑜𝑖𝑗 − 𝑒𝑖𝑗)2
𝑒𝑖𝑗
~𝝌𝑔,𝛼
2
G𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑(𝑔) = (𝑘 − 1)(𝑚 − 1)
CONTRASTE DE HIPÓTESIS:
𝑯𝟎: ambas variables son independientes
𝑯𝟏: existe una relación de dependencia

TEST CHI-CUADRADO
Permite comprobar si dos variables cualitativas están asociadas entre si, de no estarlo podremos
concluir que ambas variables son independientes, con un determinado nivel de confianza.
Condiciones necesarias y suficientes de aplicación:
 Ambas variables deben ser cualitativas nominales
 Tamaño muestral n>40
 Ninguno de los valores esperados en cada celda debe ser menor de 5
Importante:
Es un test no dirigido (bilateral), es decir, indica si existe o no relación entre dos variables pero NO en
qué sentido se produce tal, ni cuantifica la intensidad de dicha asociación.

TEST CHI-CUADRADO
Alternativas
 Corrección de Yates (en tablas 2x2)
Permite analizar si dos variables dicotómicas están asociadas cuando la muestra es pequeña
(n<40) y no se cumplen las condiciones necesarias para la aplicación del test chi-cuadrado
(una de las celdas tiene una frecuencia esperada inferior a 5)
 Test exacto de Fisher (en tablas 2x2)
Permite analizar si dos variables dicotómicas están asociadas cuando la muestra es
demasiado pequeña y no se cumplen las condiciones necesarias para la aplicación del test
chi-cuadrado ni corrección de Yates, es decir, cuando la frecuencia esperada es inferior a 5
en 2 o más celdas.

TEST CHI-CUADRADO

Tareas:
9. Crear una variable que indique el evento combinado (trasplante o éxitus), denominada
evento.combinado donde 0: censurado y 1: trasplante o éxitus
10. Describir esta nueva variable con los estadísticos oportunos
11. ¿Existe asociación entre la presencia de este evento combinado y las patologías recogidas en el
estudio?
12. ¿Existe asociación entre el tratamiento recibido y el evento combinado?
13. ¿Los factores anteriores se asocian con el status?

TEST CHI-CUADRADO
Ejemplo: ¿Existe asociación entre el evento combinado y presentar ascitis?

TEST CHI-CUADRADO
Ejemplo: ¿Existe asociación entre el evento combinado y el tratamiento recibido?

II. Estadística descriptiva e inferencia estadística. Comparación de medias
MODELOS
2 GRUPOS PARAMÉTRICOS NO PARAMÉTRICOS
INDEPENDIENTES T de Student para
muestras
independientes
U de Mann-Whitney
DEPENDIENTES T de Student para
muestras apareadas
Wilcoxon

T de Student para dos muestras independientes
Condiciones de aplicación:
 Tamaño ≥ 30 en cada grupo o
 Normalidad
• Test de Kolmogorov-Smirnov
• Test de Shapiro-Wilks (recomendado para muestras pequeñas)
 Homogeneidad de las varianzas (Homocedasticidad)
• Prueba F de Snedecor
• Test de Barttlet
• Test de Levene
Si p<0,05: rechazamos 𝐻0, siendo
𝑯𝟎: Las varianzas de ambos grupos son iguales
Alternativa no paramétrica:
 Prueba U de Mann-Whitney

Tareas:
14. Comprobar si la edad y el tiempo de seguimiento siguen una distribución normal
15. ¿Existen diferencias significativas en estas variables según el tipo de evento combinado o las patologías
presentadas?

Comparación de medias para dos muestras independientes
Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: test Kolmogorov-Smirnov

Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: test Shapiro-Wilks

Paso 1. Comprobamos si la variable cuantitativa sigue una distribución normal: gráficamente

Paso 2. Tomar el test adecuado (paramétrico o no paramétrico)
T de Student para dos muestras independientes (test paramétrico)
Prueba U de Mann-Whitney para dos muestras independientes (test no paramétrico)

Prueba U de Mann-Whitney para dos muestras independientes (test no paramétrico)

Paso 3. Comprobar el supuesto de igualdad de varianzas (Test de Levene)
p≥0,05: se asume igualdad de varianzas

U de Mann-Whitney para dos muestras independientes (test no paramétrico)
En este caso no necesitamos comprobar el supuesto de normalidad
No ofrece un descriptivo de los datos por grupo

II. Estadística descriptiva e inferencia estadística. Comparación de k>2 medias
MODELOS
K>2 GRUPOS PARAMÉTRICOS NO PARAMÉTRICOS
INDEPENDIENTES ANOVA Kruskal-Wallis
DEPENDIENTES Análisis de la varianza
de 2 vías
Prueba de Friedman

ANOVA: análisis de la varianza
Condiciones de aplicación:
 Si la variable dependiente (respuesta) es cuantitativa y la variable predictora cualitativa policotómica
 Normalidad
• Test de Kolmogorov-Smirnov
• Test de Shapiro-Wilks
 Homogeneidad de las varianzas (Homocedasticidad)
• Prueba F de Snedecor
• Test de Barttlet
• Test de Levene
𝑯𝟎: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝒌
𝑯𝟏: al menos una de las medias 𝝁𝒊 es distinta
Alternativa no paramétrica:
 Prueba Kruskal-Wallis

ANOVA: análisis de la varianza
Observaciones:
 Se trata de una técnica robusta frente a desviaciones de la normalidad: los resultados del contraste F
en la prueba ANOVA son sustancialmente válidos aunque los datos no sean normales.
 El efecto de desigualdad de las varianzas en los grupos sobre el contraste F y los contrastes de medias
dependen de que el número de observaciones en cada grupo sea igual o muy distinto.
Si todos los grupos tienen el mismo número de observaciones el contraste F es igualmente exacto
aunque las varianzas sean distintas.
Es decir, podemos despreocuparnos de las varianzas a efectos de contrastes de medias, siempre que
haya aproximadamente el mismo número de observaciones por grupo, en caso contrario, diferencias
entre las varianzas pueden ser graves.

KRUSKAL-WALLIS
Aplicación:
 Es una alternativa no paramétrica a la prueba F del ANOVA (análisis de la varianza) para diseños
donde no se cumple la normalidad de la variable cuantitativa.
 Contraste entre más de 2 grupos, usando la mediana de cada uno de ellos en lugar de las medias:
𝐻 =
12
𝑛(𝑛 + 1)
෍
𝑖=1
𝑘
𝑅𝑖
2
𝑛𝑖
− 3(𝑛 + 1)
Donde n es el total de datos y k el número de grupos.
𝑯𝟏: al menos una de las poblaciones tiene una mediana distinta a las otras
𝑯𝟎: las medianas de las k poblaciones consideradas son iguales

VENTAJAS INCONVENIENTES
Permite datos ordinales y cuantitativos
discretos
Menor potencia estadística
No es necesaria la normalidad Menor sensibilidad para detectar
diferencias entre los grupos
Permite tamaños muestrales pequeños No permite construir intervalos de
confianza

ANOVA KRUSKAL-WALLIS

Seguimos trabajando con la base “MET_01cbp.sav’’
Tareas:
16. Analizar la relación entre los valores medios de la edad y el tiempo de seguimiento según el status
17. Representar gráficamente los resultados obtenidos

KRUSKAL-WALLIS

II. Estadística descriptiva e inferencia estadística. Coeficiente de correlación
El coeficiente de correlación de Pearson (r) es un índice que mide la fuerza y la dirección de la relación
lineal entre dos variables cuantitativas. La alternativa no paramétrica es el coeficiente rho de
Spearman.
Puede ser positivo o negativo y su valor oscila entre −1 ≤ 𝑟𝑥𝑦 ≤ 1:
𝑟𝑥𝑦 ≅ −1 𝑟𝑥𝑦 ≅ 0 𝑟𝑥𝑦 ≅ 1

Observaciones:
 El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación
de Pearson calculado sobre el rango de observaciones.
 Ante la presencia de variables ordinales sólo se podrá usar el coeficiente de Spearman.
 El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan
valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante
distribuciones no normales.
𝑯𝟎: 𝑟𝑥𝑦 = 𝟎 El coeficiente de correlación obtenido procede de una población cuya correlación es 0
𝑯𝟏: 𝑟𝑥𝑦 ≠ 𝟎 El coeficiente de correlación obtenido procede de una población cuyo coeficiente de
correlación es distinto de 0

Tareas:
18. Analizar la correlación entre las variables continuas (edad, imc, cobre en orina, fosfatasa alcalina, SGOT,
triglicéridos, plaquetas, tiempo en protombina, bilirrubina, colesterol y albúmina)
19. Analizar la correlación entre las medidas analíticas (bilirrubina, colesterol y albúmina) de la medición basal y
última visita

Paso 1. Comprobar normalidad
Paso 2. Visualizar el gráfico de dispersión
Paso 3. Tomar el coeficiente de correlación adecuado (paramétrico o no paramétrico)

III. INTRODUCCIÓN AL ANÁLISIS MULTIVARIANTE: regresión lineal y logística binaria

III. Introducción al análisis multivariante
Un modelo de regresión es un modelo matemático que permite describir cómo influye una variable 𝑋 o un
conjunto de variables 𝑋1, … , 𝑋𝑛 sobre otra variable 𝑌, donde
𝑋: variable independiente o explicativa
𝑌: variable dependiente o respuesta
El objetivo es obtener estimaciones razonables de 𝑌 para los distintos valores de 𝑋 a partir de una muestra
de 𝑛 pares de valores 𝑥1, 𝑦1 , … , (𝑥𝑛, 𝑦𝑛)
Según el tipo de variable dependiente (o respuesta):
 LOGÍSTICA: variable dependiente dicotómica
 LINEAL: variable dependiente cuantitativa continua

III. Introducción al análisis multivariante. Regresión logística binaria
Los modelos de regresión logística son de gran utilidad cuando se pretende estudiar el efecto de
determinadas variables sobre una variable respuesta de tipo dicotómico (por ejemplo: vivo vs muerto,
sano vs enfermo).
Su objetivo es estudiar si la probabilidad de éxito (𝑝) de una variable dicotómica depende, o no, de
una o más variables explicativas.
Un modelo de regresión logística quedaría definido de la siguiente forma:
Donde:
𝑝 representa la probabilidad o riesgo de evento de interés,
𝛼0 y 𝛼1 son los coeficientes de regresión, estimados mediante el método de máxima verosimilitud
𝑥 es la variable explicativa
Esta expresión es equivalente a:

Interpretación de los coeficientes de regresión:
 Odds:
Indica cuánto más probable es el éxito que el fracaso cuando la variable o variables explicativas toman
el valor 0
 Odds Ratio (OR):
Indica cuánto varía la probabilidad de éxito (p) cuando la variable explicativa aumenta una unidad o
cambia de categoría. Es decir, indica cuanto se ve multiplicado el riesgo de presentar el evento a
estudio al aumentar una unidad el valor de la variable explicativa

Interpretación de los coeficientes de regresión:
OR<1
OR=1
OR>1
Factor protector: el aumento en una unidad en la variable explicativa
provoca la disminución de la probabilidad de éxito (riesgo)
No es un factor de riesgo
Factor de riesgo: el aumento en una unidad en la variable explicativa
provoca el aumento de la probabilidad de éxito o riesgo

Tareas:
20. Analizar la asociación entre arañas y edad, sexo, imc y stage. Análisis univariante
21. Ajustar un modelo de regresión logística para las arañas resultantes utilizando las covariables edad,
sexo, bilis, etapa y ascitis.
22. Interpretar la salida del resumen del modelo.
¿Hubo valores faltantes en los datos?
¿Qué pasó con esos casos?
¿Cuál es la interpretación del coeficiente de bili en este modelo?
¿Cuál es la interpretación de los coeficientes para la etapa?

P(arañas| edad )
P(arañas| sexo)
OR
p

OR

22. Interpretar la salida del resumen del modelo: ¿Hubo valores faltantes en los datos?
No hay valores perdidos.
Si existen variables en el modelo con valores perdidos, esa
información estaría recogida en esta tabla.
Los casos con valores perdidos en las variables que
forman el modelo son excluidos del análisis

22. Interpretar la salida del resumen del modelo: ¿Cuál es la interpretación del coeficiente de bili en este modelo?
Con el aumento de una unidad en bilirrubina, el logaritmo de la probabilidad de tener
arañas, i.e., 𝑙𝑜𝑔(
𝑃 𝑎𝑟𝑎ñ𝑎𝑠=1
1−𝑃 𝑎𝑟𝑎ñ𝑎𝑠=1
) , aumenta en 𝛽𝑏𝑖𝑙𝑖 = 0,099
Esto significa que el Odds ratio de bili es: 𝑶𝑹 = 𝒆𝜷𝒃𝒊𝒍𝒊 = 𝐞𝐱𝐩 𝟎, 𝟎𝟗𝟗 = 𝟏, 𝟏𝟎𝟒
(mientras las demás variables del modelo se mantienen constantes)

22. Interpretar la salida del resumen del modelo: ¿Cuál es la interpretación del coeficiente de stage?
Un paciente con estadio 2 tiene 𝛽𝑠𝑡𝑎𝑔𝑒2 = 0,651 probabilidades logarítmicas más altas
de tener el evento que un paciente en estadio 1 (referencia) (con los mismos valores en
las demás covariables).
El OR de stage = 2 es: 𝑶𝑹 = 𝒆𝜷𝒔𝒕𝒂𝒈𝒆𝟐 = 𝐞𝐱𝐩 𝟎, 𝟔𝟓𝟏 = 𝟏, 𝟗𝟏𝟖
Un paciente en estadio 2 tiene casi dos veces más riesgo de presentar arañas que un
paciente en estadio 1.

III. Introducción al análisis multivariante. Regresión lineal
Un modelo de regresión lineal estudia la relación lineal entre las variables independientes (X) y la
variable respuesta (Y).
El caso más sencillo es el modelo de regresión lineal simple, en el que solo figura una variable
independiente o explicativa.
Su objetivo es analizar la relación existente entre dos variables 𝑋 e 𝑌, de forma que podamos predecir o
aproximar el valor de la variable respuesta o dependiente a partir del valor tomado por la variable
independiente.
El problema que subyace a la metodología de la regresión lineal simple es el de encontrar la recta que
mejor se ajuste a la nube de puntos del diagrama de dispersión, en el que los valores de la variable X
(independiente) se disponen en el eje horizontal y los de Y (dependiente) en el vertical y que pueda ser
utilizada para predecir los valores de Y a partir de los de X.

Un modelo de regresión lineal simple es:
Donde:
𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝒊 + 𝜺𝒊
𝜷𝟎y 𝜷𝟏: coeficientes de regresión tales que
𝜷𝟎: representa el valor medio de la respuesta Y cuando la variable explicativa X vale 0
(intercepto)
𝜷𝟏: representa la variación que experimenta en media la respuesta Y cuando la
variable explicativa X aumenta en una unidad (pendiente de la recta de regresión)
𝜺𝒊: error entre el valor real y la estimación en cada observación i-ésima (residuos),
se asume normal 𝜺𝒊~N(0, σ)
𝜺𝒊 = 𝑦𝑖 − ෝ
𝑦𝑖
NOTA: el término aleatorio 𝜺𝒊 recoge la información de Y que no queda reflejada en el modelo
determinista 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏𝒙𝒊.

Problema estadístico:
Obtener las estimaciones ෢
𝜷𝟎 y ෢
𝜷𝟏 de 𝜷𝟎 y 𝜷𝟏 a partir de los datos 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑛 para obtener la recta
que mejor se ajuste a los datos:
ෝ
𝒚𝒊 = ෢
𝜷𝟎 + ෢
𝜷𝟏𝒙𝒊 + 𝜺𝒊
Hipótesis básicas:
 Linealidad
 Homogeneidad
 Homocedasticidad
 Independencia
 Normalidad
𝒚 = 𝜷𝟎 + 𝜷𝟏𝒙
𝑬 𝜺𝒊 = 𝟎
𝑽𝒂𝒓(𝜺𝒊) = 𝝈𝟐
𝑬 𝜺𝒊𝜺𝒋 = 𝟎
𝜺𝒊~𝐍(𝟎, σ)
Si no se dan estas
condiciones se usarán
como alternativa modelos
no paramétricos

Ejemplo: Se pretende predecir la edad de inicio de depresión (y) a partir de la edad de inicio del trastorno
por déficit de atención con hiperactividad (x): (base_reglineal.sav)

por déficit de atención con hiperactividad (x):

𝑹𝟐
: medida de bondad de ajuste del modelo
Interpretación: la edad del TDM se relaciona en el
30% de los casos con la edad de TDAH,
debiéndose el 70% a otros factores no incluídos en
el modelo
Suma de cuadrados de la regresión: indica qué tanta variabilidad de la variable
dependiente (y) explica el modelo (nivel de fluctuación de la variable y que el
modelo es capaz de explicar)
Suma de cuadrados de los residuos: indica qué tanta variación de la variable
dependiente (y) no explica el modelo (nivel de error del modelo o porcentaje no
explicado del modelo)

Constante = 3,85 (𝜷𝟎): valor de y (edad.tdm) cuando x
(edad.tdah) es igual a 0
Coeficiente de regresión para x (edad.tdah) = 1,13 (𝜷𝟏)
𝒆𝒅𝒂𝒅. 𝒕𝒅𝒎 = 𝟑, 𝟖𝟓 + 𝟏, 𝟏𝟑 ∙ 𝒆𝒅𝒂𝒅. 𝒕𝒅𝒂𝒉

IV. PRESENTACIÓN DE RESULTADOS

IV. Presentación de resultados

Abrir la base de datos llamada “MET_Colon.sav’’
Datos de uno de los primeros ensayos exitosos de quimioterapia adyuvante para el cáncer de colon, con
929 participantes. Un grupo fue tratado con levamisol (un compuesto de baja toxicidad utilizado
anteriormente para tratar infestaciones de gusanos en animales) y el otro con 5-FU (un agente de
quimioterapia moderadamente tóxico).
Variables:
Práctica 4

Base“MET_Colon.sav’’
Tareas:
1. Describir las variables recogidas en la base de datos
2. Hacer un histograma con curva de densidad para la edad. ¿Tiene una distribución normal?
3. Calcular el IMC y recodificarlo en 4 categorías (<18,5; [18,5-25); [25-30); ≥30)
4. Describir las nuevas variables y aportar el IC95% para la variable numérica. ¿Cuál es la prevalencia de obesidad
en esta muestra?
5. Representar sexo mediante un diagrama de sectores e, IMC.rec y nodes mediante diagrama de barras
6. Recodificar la edad en edad.rec (0: <65 años, 1: ≥65 años) y describirla
7. Calcular el tiempo de seguimiento en años
8. Recodificar rx (tratamiento) en tratamiento.sino (0: No (observación), 1: Si (Lev ó 5FU-Lev))
9. Estudiar si la edad y el sexo se asocian a recibir o no tratamiento y con el tipo de tratamiento
10. Representar mediante un boxplot la edad y el tipo de tratamiento (rx)
11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?
Práctica 4.

Base“MET_Colon.sav’’
Tareas:
12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)
13. Ajustar un modelo de regresión logística para las recidivas resultantes utilizando las covariables edad, sexo, IMC,
rx, y nº de ganglios.
14. Interpretar la salida del resumen del modelo.
¿Hubo valores faltantes en los datos?
¿Qué pasó con esos casos?
¿Cuál es la interpretación del coeficiente de edad en este modelo?
¿Cuál es la interpretación de los coeficientes para rx?
Práctica 4.

Práctica 4. MET_Colon.sav
1. Describir las variables recogidas en la base de datos

3. Calcular el IMC y recodificarlo en 4 categorías (<18,5; [18,5-25); [25-30); ≥30)
Transformar > Calcular variable Transformar > Recodificar en diferente variable

5. Representar sexo mediante un diagrama de sectores e, IMC.rec y nodes mediante diagrama de barras

9. Estudiar si la edad y el sexo se asocian a recibir o no tratamiento y con el tipo de tratamiento

9. Estudiar si sexo se asocia a recibir o no tratamiento y tipo de tratamiento

10. Representar mediante un boxplot la edad y el tipo de tratamiento (rx)

11. Correlación entre Ácido úrico y HDL basales. ¿Se mantiene esa correlación en la última medición?

12. Estudiar factores asociados a presentar recidiva (edad, sexo, tratamiento, grado de diferenciación, cirugía,…)

13. Ajustar un modelo de regresión logística para las recidivas resultantes utilizando las covariables edad, sexo, IMC, rx,
y nº de ganglios.

CURSO DE METODOLOGÍA DE LA
INVESTIGACIÓN
Ponencia
Ponente

Curso metodología - Análisis con SPSS.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Curso metodología - Análisis con SPSS.pdf

Similar a Curso metodología - Análisis con SPSS.pdf (20)

Último

Último (11)

Curso metodología - Análisis con SPSS.pdf