Cálculo muestral clínica

Cálculo tamaño muestral en investigación
clínica …. para no estadísticos

"It is far better to foresee even without certainty than not to
foresee at all"
Henri Poincare in The Foundations of Science

Enrique Granados
5 Octubre 2011

Tan necesarios son los conocimientos
clínicos como los estadísticos
Esta maldita clínica no
me dice que efecto
Este maldito estadístico
espera encontrar en su
no me dice la N para mi
estudio
estudio

2 Presentation title in footer | 00 Month 0000

Importancia buen cálculo del tamaño
muestral

Tamaño Tamaño excesivo
insuficiente
Gasto de recursos Gasto de más
Económica sin obtener recursos que los
conocimiento (*) necesarios
Riesgo para ¿Estás “comprando”
pacientes sin la p a base de una N
Etica
avance de muy grande?1
conocimiento (*)

(*): posibilidad de metanálisis posteriores
1: Bacchetti, Am J Epidemiol 2005

El cálculo de tamaño muestral debe hacerse al
comienzo del proceso de investigación

Objetivo primario y Reformular
Endpoint primario objetivo 1ario

Cálculo de tamaño muestral

¿Excesivo para
No Sí
nuestros recursos?

Seguir con el resto
Descartar la idea
de la sinopsis

Ingredientes para el cálculo de
tamaño muestral
Una variable primaria
– Si hay más de una variable primaria
habrá que coger el mayor tamaño
muestral
Un test estadístico
Una hipótesis nula
Una hipótesis de trabajo (alternativa)
(con las asunciones del efecto
esperado o deseado). Lo más
complicado!!
Una probabilidad de error tipo I
Una probabilidad de error tipo II
Una estimación de las pérdidas
…… y un buen software

Dos tipos de error
H0 (hipótesis nula): los dos grupos son iguales
HA (hipótesis alternativa): los dos grupos son distintos
Realidad
No beneficio del Existe beneficio del
tratamiento tratamiento
(H0 es cierta) (HA es cierta)
No beneficio del Error de tipo II
tratamiento (se No hay error
Falso negativo
Resultado acepta H0)
del ensayo Existe beneficio
Error de tipo I
del tratamiento No hay error
Falso positivo
(se acepta HA)


Dos tipos de error
Error alfa o tipo I: probabilidad de producir un falso positivo.
– Se rechaza la hipótesis nula , aunque esta es cierta
– Error del exceso de credulidad
– También llamado “nivel de significación del test”
– Por convención se suele poner en el 5%. Más raro en el 1% o 10%
Error beta o tipo II: probabilidad de producir un falso negativo.
– No se rechaza la hipótesis nula, a pesar de ser falsa
– La potencia (1 - beta), representa la probabilidad de rechazar la Ho cuando
en realidad es falsa (decisión correcta)
– Error del exceso de escepticismo
– Por convención se suele poner en 10-20%
Convención: α=5%, β=20%. Se considera que el error tipo II es menos
serio que el error tipo I. Preferimos pasarnos de “escépticos”.


Para un tamaño muestral dado, los esfuerzos por
reducir un error conllevan un aumento del otro tipo
de error

La única manera de minimizar ambos errores es
aumentar el tamaño de la muestra

¿Qué error es más serio: el tipo I
(crédulo) o el tipo II (escéptico)?
Depende de la aplicación a la vida real, no es un problema estadístico

P (Error tipo I) en los juicios:

Juicio penal: “Más allá de una duda razonable”. 12 de 12 jurados
deben votar culpable unánimamanete. Como si fijáramos el nivel α
en 0.001.
Juicios civilies: “Preponderancia de la evidencia”. 9 de 12 jurados
deben votar culpable. Es como si fijásemos el nivel alfa en 0,1.


Un ruido en la noche en la sabana
africana …

Yo creo que es …

Tigre Rama

Error tipo II
Tigre Acertaste Eres
En realidad devorado
es… Error tipo I
Rama Falsa Acertaste
alarma


Un ruido en la noche en la sabana
africana …

Michael Shermer:

“Nuestro sistema
cognitivo ha ido
evolutivamente
sesgándose para ser
crédulos, para tolerar
errores tipo I “

La existencia de Dios y los errores
tipo I y II
Blaise Pascal1623-1662. Científico, filósofo
y escritor francés.

“Prefiero equivocarme creyendo en un Dios
que no existe, que equivocarme no
creyendo en un Dios que existe. Porque si
después no hay nada, evidentemente nunca
lo sabré, cuando me hunda en la nada
eterna; pero si hay algo, si hay Alguien,
tendré que dar cuenta de mi actitud de
rechazo.”


Si aumentamos el tamaño muestral,
aumentamos la precisión pero no la exactitud
Precisión: dispersión (desviación estándar) del conjunto de valores
obtenidos de mediciones repetidas.
– Cuanto menor es la dispersión mayor la precisión.

Exactitud (accuracy): cuán cerca del valor real se encuentra el valor medido.
Cuanto menor es el sesgo más exacta es una estimación.
– El problema de las variables de confusión de los estudios observacionales NO se
soluciona aumentando el tamaño muestral.

Baja precisión, Alta precisión,
Alta exactitud Baja exactitud


Reducción en la anchura del intervalo de
confianza al aumentar el tamaño de la muestra

Jones, EMJ online 2009

Efecto de la reducción del intervalo de confidencia
para demostrar una diferencia en las medias


Effect size (tamaño del efecto)
Es una manera de cuantificar la diferencia entre dos o más grupos
D de Cohen (tamaño del efecto estandarizado)1: la diferencia entre
las medias dividido por la desviación estándar de la población.
Ventaja no tiene unidades.

A menor d, mayor tamaño muestral se necesita
Es importante que esta diferencia esperada no sea alta de manera
poco realista, para no infraestimar el tamaño muestral requerido
El tamaño del efecto es un tema de juicio clínico: “¿Qué resultados
estimas o esperas que aparezcan?”

1: Cohen, J. (1988): Statistical Power Analysis for the behavioral sciences

A menor tamaño del efecto, más
tamaño muestral se necesita

18 Presentation title in footer | 00 Month 0000 Jones, EMJ online 2009

Tamaños del efecto estandarizados para
diversos tests estadísticos
Estos tamaños estandarizados facilitan el cálculo de tamaño muestral, pero no
reemplazan la necesidad de buscar la bibliografía adecuada que lo sustente.

19 Cunningham, Evidence Based Midwifery 2007
Presentation title in footer | 00 Month 0000

Ejemplos de tamaños muestrales estimados para
efectos pequeños, medianos y grandes

•El tamaño puede ser de 788, 128 o 52 en función del efecto que vayamos a
encontrar.
•¿Cómo es capaz un CEIC de asegurar cual de los efectos es el correcto?!!!!

20 Cunningham, Evidence Based Midwifery 2007
Presentation title in footer | 00 Month 0000

A favor y en contra de usar el tamaño
del efecto estandarizado

A favor En contra
No necesitas realizar un piloto o
buscar datos históricos para
determinar la desviación
estándar. Si no miras al numerador y
Los estándar de “pequeño”, denominador por separado estás
“medio” y “grande” se basan en obviando como de preciso es tu
una extensa revisión de la instrumento de medida.
literatura de las ciencias sociales
y por tanto son convenciones
realísticas 1

1: Cohen, J. (1988): Statistical Power Analysis for the behavioral sciences

La potencia (probabilidad de encontrar una
diferencia predeterminada si existe) aumenta si…
La Diferencia entre el valor bajo la hipótesis nula y la observada
es mayor
Si P( Error tipo I) = α es mayor
Si la desviación estándar es menor (precisión mayor de la
medida)
Si aumenta el tamaño muestral
Si usas pruebas paramétricas (p.e. t de Student) que no
paramétricas (U de Mann Whitney)
– Por eso a veces se intentan convertir los datos básicos a una
distribución normal


La potencia (probabilidad de encontrar una diferencia
predeterminada si existe) aumenta si…(II)

Se usan estudios cruzados en vez de paralelos
– Siempre que los sujetos estén estables durante el lavado.

Los estudios de medidas repetidas (antes – después) tienen más
potencia que los estudios de medidas no repetidas
El ratio del tamaño de las muestras de los grupos (N1 / N2) es 1
Si se usan contrastes de una cola que si se usan de dos.


¿Qué hacer si me sale una muestra
demasiado grande?
Disminuir la precisión de la medida: aumentar el intervalo de confianza
esperado
Revisar bibliografía: ¿existen datos publicados en que la variable se
presente con una desviación estándar menor?
Disminuir la potencia si se puede
Aumentar la probabilidad de error tipo I (alfa) si se puede
Intentar cambiar el objetivo primario, buscar otros tests estadísticos
Ver si se puede usar contraste de una cola en vez de dos colas (en el caso
que solo nos interese demostrar diferencias en un sentido)


¿Qué hacer si me sale una muestra
demasiado pequeña?
Enhorabuena!! Tienes dinero para pagar la mayor muestra.
Aumentar la precisión de la medida: aumentar el intervalo de
confianza esperado
Aumentar la potencia.
– OJO: al aumentar la potencia podrás detectar diferencias
estadísticamente significativas entre la hipótesis nula y la
hipótesis alternativa que sean irrelevantes clínicamente
– Importante conocer cual es el “la mínima diferencia clínicamente
significativa”.

Disminuir la probabilidad de error tipo I (alfa) si se puede


Ejemplos de estudios de una cola o de dos colas

I Fármaco A Eventos adversos / caro
Fármaco B No eventos adversos / barato
– A más eficaz
– A&B igual
– B más eficaz

II X Intervención en nutrición- Sesiones en grupo
Y Intervención en nutrición- Sesiones individuales
– X Reduce más la ingesta de sodio
– X&Y Igual
– Y Reduce más la ingesta de sodio

S.F.Kelsey/class2181/lecture 4-sample size 26

Una cola Rechazo H0 No rechazo H0

.05

Zcrit
-1.65

Dos colas Rechazo H0 No rechazo H0 Rechazo H0

.025 .025

Zcrit Zcrit
1.96
-1.96

Una sola cola

critical t = 1.65175

Distribución central H0 Distribución no central H1

0.3

0.2

0.1
ß a
0
-3 -2 -1 0 1 2 3 4 5


Dos colas

critical t = 1.96835
Distribución no central H1
Distribución central H0
0.3

0.2

0.1
ß a
2
0
-3 -2 -1 0 1 2 3 4 5


Significación clínica o estadística
Lo importante es siempre la clínica!!!

Estadísticamente significativo, clínicamente NO significativo
– “La p depende de la N”, “La significación estadística se puede comprar
con una N grande”
– Ejemplos:
• Aumento de una semana en la supervivencia del cáncer
• Aumento de 2-3 ovocitos en ciclos de FIV
– Insuficiente para obtener autorizaciones de comercialización

Estadísticamente NO significativo, clínicamente significativo
– Ejemplo: Aparición de eventos adversos muy graves que modifican el
perfil riesgo / beneficio
– Pueden llevar a la no aprobación o incluso a una posterior retirada de la
autorización de comercialización

Estudios de no-inferioridad frente a
un control activo
Aceptables cuando no es ético un estudio frente a placebo y
el nuevo medicamento sólo tiene ventajas en cuanto a efectos
secundarios o comodidad o costes, pero la misma eficacia
En general requieren un tamaño muestral mayor
Fundamental establecer el margen de no inferioridad:
diferencias entre el margen experimental y el control activo no
son superiores a una cifra prefijada.


Herramientas específicas para
el cálculo de tamaño muestral

Software libre para el cálculo de tamaño
muestral
GP Power 3.1
– Heinrich Heine University, Dusseldorf University
– http://www.psycho.uni-
duesseldorf.de/abteilungen/aap/gpower3/download-and-
register
PS Power and Sample size
– Department Biostatistics, Vanderbilt University
– http://biostat.mc.vanderbilt.edu/wiki/Main/PowerSampleSize

ST Plan
– MD Anderson Cancer Center
– https://biostatistics.mdanderson.org/SoftwareDownload/Singl
eSoftware.aspx?Software_Id=41

Webs para el cálculo de tamaño
muestral
http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp
http://stat.ubc.ca/~rollin/stats/ssize/
http://www.stat.uiowa.edu/~rlenth/Power/index.html
http://www.raosoft.com/samplesize.html
http://epitools.ausvet.com.au/content.php?page=SampleSize
http://statpages.org/index.html#Power


GP Power 3.1
Permite tres tipos de análisis:
– A priori: calcula el tamaño muestral a partir de alfa, beta y el tamaño observable del efecto
– Post hoc: calcula la potencia a partir de alfa, el tamaño observable del efecto y el tamaño de
la muestra.
• Para estudios piloto de detección de señales permite estimar la potencia a partir de un tamaño muestral
pragmático.

– Compromise: calcula un ratio alfa / beta a partir del tamaño observable del efecto y el tamaño
de la muestra
– Análisis de sensibilidad: calcula el tamaño del efecto a partir de la N (cuando sabemos que
no tenemos recursos para aumentarla), alfa, y beta

Util para:
– Medias: un grupo, un grupo antes y después, dos grupos independientes, muchos grupos
(ANOVA, ANCOVA)
– Proporciones: un grupo o dos
– Correlaciones y regresiones
– Tests paramétricos y no paramétricos


Ejemplo cálculo
basado en
diferencias de
medias en dos
grupos
independientes


GP Power 3.1
Posibilidad de hacer gráficos
t tests - Means: Difference between two independent means (two groups)
Tail(s) = Two, Allocation ratio N2/N1 = 1, a err prob = 0.05

1200

1000
Effect size d
Total sample size

= 0.2
800
= 0.25

600 = 0.3

400

200

0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95
Power (1-ß err prob)

PS Power and Sample Size
Permite tres tipos de cálculo:
– Tamaño muestral
– Potencia
– Tamaño efecto detectable
Util para estudios de:
– Supervivencia
– T Test
– Regresión
– Proporciones
– Mantel Haenszel
Sólo para estudios de dos colas


Ejemplo cálculo
basado en
diferencias de
medias en dos
grupos
independientes


ST PLAN
Interfaz poco amigable
Util para:
– Comparacion de medias
– Comparacion de
proporciones
– Supervivencia
– Correlacion


Estudios de estimar una proporcion
Ejemplo: estudios de prevalencia de una enfermedad
Para la misma precisión de la medida, el tamaño muestral es mayor
cuanto la proporción es más cercana al 50% (máxima
indeterminación) est

Herramientas
– http://www.cs.uiowa.edu/~rlenth/Power/
– http://department.obg.cuhk.edu.hk/researchsupport/Sample_size_EstPrev.asp
– http://epitools.ausvet.com.au/content.php?page=SampleSize


Estudios con dos proporciones
El tamaño muestral aumenta:
– Si la diferencia entre ambas proporciones disminuye
– Si la potencia aumenta.
– Cuanto más cercanas estén las proporciones al 50%
– Equivalencia > Superioridad > No inferiordad

P1 = 0.01 P1 = 0.05 P1 = 0.1 P1 = 0.2 P1 = 0.3 P1 = 0.4 P1 = 0.5 P1 = 0.6 P1 = 0.7 P1 = 0.8 P1 = 0.9 P1 = 0.95
P2 = 0.99 5 5 6 7 9 12 15 21 30 50 121 333
P2 = 0.95 5 6 7 8 11 14 19 27 43 88 474
P2 = 0.9 6 7 8 10 13 17 25 38 72 219
P2 = 0.8 7 8 10 13 19 28 45 91 313
P2 = 0.7 9 11 13 19 29 49 103 376
P2 = 0.6 12 14 17 28 49 107 408
P2 = 0.5 15 19 25 45 103 408
P2 = 0.4 21 27 38 91 376
P2 = 0.3 30 43 72 313
P2 = 0.2 50 88 219
P2 = 0.1 121 474
P2 = 0.05 333

Ejemplos de tamaños para un error alfa de 0,05 y un error beta de 0,8

Estudios con dos proporciones

Herramientas:
– http://epitools.ausvet.com.au/content.php?page=SampleSize
– GP Power
– PS


Estudios de estimar una media de un
solo grupo
El tamaño muestral debe justificarse mediante referencia a
un intervalo de confianza (normalmente 95%) alrededor de
una media de la variable de estudio (desviación estándar)

Herramientas:
– http://epitools.ausvet.com.au/content.php?page=1Mean
– http://stat.ubc.ca/~rollin/stats/ssize/n1.html
– http://department.obg.cuhk.edu.hk/researchsupport/Sample_size_E
stMean.asp


Estudios de comparar medias en dos
grupos
El tamaño muestral aumenta si:
– La diferencia entre las medias es menor
– La desviación estándar es mayor
– Si aumentamos la potencia


Estudios de comparar medias en dos
grupos

Herramientas:
– http://epitools.ausvet.com.au/content.php?page=2Means1
– http://stat.ubc.ca/~rollin/stats/ssize/n2.html


Normograma(*) para el cálculo de tamaño muestral
para comparar medias mediante alfa, beta y tamaño
del efecto (Gore & Altman 2001)

*: Válido si siguen
distribución normal


Estudios de variables de tiempos hasta un
evento (uso de log-rank)
El tamaño muestral será mayor:
–Cuanto menor sea la diferencia entre los tiempos de
supervivencia o más cercano esté el Hazard Ratio a 1.
–Si el tiempo de reclutamiento es más pequeño
–Si el tiempo de seguimiento es menor
–Si el ratio N2 / N1 se aleja de 1
Herramientas:
– http://hedwig.mgh.harvard.edu/sample_size/time_to_event/para_time.html


Estudios de concordancia (estadístico
kappa)

Sim, Physical Therapy 2005


Estudios diagnósticos


Estudios diagnósticos

Herramientas:
– http://department.obg.cuhk.edu.hk/researchsupport/
Sample_size_ROC.asp
– http://araw.mede.uic.edu/cgi-alansz/testcalc.pl


Buderer, Acad Emerg Med 1996

Estudios diagnósticos con datos de prevalencia



Carley, Emerg Med J 2005


54 Presentation title in footer | 00 Month 0000 Carley, Emerg Med J 2005

Buderer, Emerg Med J 2003

Normograma para estudios
diagnósticos


Conclusiones y mensajes (I)

Haz estos cálculos lo más pronto posible en la planificación de un
estudio.

Si leemos un estudio con resultados negativos hay que analizar la
potencia estadística de ese estudio.

Pon siempre los datos clínicos antes que los estadísticos tanto para
interpretar los resultados como para planificar la muestra.

Haz estudios piloto: no pretendas responder todas las preguntas del
mundo en un solo estudio.
Ojo con los diseños para estudiar los efectos en subgrupos porque
necesitarás aumentar el tamaño muestral.


Conclusiones y mensajes (II)
“¿Qué es un trabajador del conocimiento?:
– Su función es resolver problemas, mediante la creación,
distribución o aplicación de información / conocimiento.
– Son problemas no operativos, no existe una secuencia
protocolizada de acciones que los resuelvan.
– Necesita gran variedad de talentos y habilidades: buscar y
evaluar críticamente información; discriminar diferentes
fuentes, evaluando los intereses que hay detrás de cada
argumento; hacer preguntas y establecer hipótesis; desarrollar
análisis numéricos complejos, tener ideas y puntos de vista
propios y expresarlos de manera argumentada, clara y concisa
de forma oral y por escrito.”

Jorge Juan Fernández, Las Reglas de Juego, 2010


Cálculo muestral clínica

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Último

Último (20)

Cálculo muestral clínica