Este documento trata sobre el cálculo del tamaño muestral en investigación clínica. Explica la importancia de realizar este cálculo correctamente al comienzo de un estudio para evitar gastar recursos de más o de menos. También describe los conceptos de error tipo I, error tipo II, tamaño del efecto, potencia estadística e intervalo de confianza, los cuales son fundamentales para determinar el tamaño muestral adecuado. Además, proporciona consejos sobre qué hacer si el tamaño muestral calculado inicialmente
1. Cálculo tamaño muestral en investigación
clínica …. para no estadísticos
"It is far better to foresee even without certainty than not to
foresee at all"
Henri Poincare in The Foundations of Science
Enrique Granados
5 Octubre 2011
2. Tan necesarios son los conocimientos
clínicos como los estadísticos
Esta maldita clínica no
me dice que efecto
Este maldito estadístico
espera encontrar en su
no me dice la N para mi
estudio
estudio
2 Presentation title in footer | 00 Month 0000
3. Importancia buen cálculo del tamaño
muestral
Tamaño Tamaño excesivo
insuficiente
Gasto de recursos Gasto de más
Económica sin obtener recursos que los
conocimiento (*) necesarios
Riesgo para ¿Estás “comprando”
pacientes sin la p a base de una N
Etica
avance de muy grande?1
conocimiento (*)
(*): posibilidad de metanálisis posteriores
1: Bacchetti, Am J Epidemiol 2005
3 Presentation title in footer | 00 Month 0000
4. El cálculo de tamaño muestral debe hacerse al
comienzo del proceso de investigación
Objetivo primario y Reformular
Endpoint primario objetivo 1ario
Cálculo de tamaño muestral
¿Excesivo para
No Sí
nuestros recursos?
Seguir con el resto
Descartar la idea
de la sinopsis
4 Presentation title in footer | 00 Month 0000
5. Ingredientes para el cálculo de
tamaño muestral
Una variable primaria
– Si hay más de una variable primaria
habrá que coger el mayor tamaño
muestral
Un test estadístico
Una hipótesis nula
Una hipótesis de trabajo (alternativa)
(con las asunciones del efecto
esperado o deseado). Lo más
complicado!!
Una probabilidad de error tipo I
Una probabilidad de error tipo II
Una estimación de las pérdidas
…… y un buen software
5 Presentation title in footer | 00 Month 0000
6. Dos tipos de error
H0 (hipótesis nula): los dos grupos son iguales
HA (hipótesis alternativa): los dos grupos son distintos
Realidad
No beneficio del Existe beneficio del
tratamiento tratamiento
(H0 es cierta) (HA es cierta)
No beneficio del Error de tipo II
tratamiento (se No hay error
Falso negativo
Resultado acepta H0)
del ensayo Existe beneficio
Error de tipo I
del tratamiento No hay error
Falso positivo
(se acepta HA)
6 Presentation title in footer | 00 Month 0000
7. Dos tipos de error
Error alfa o tipo I: probabilidad de producir un falso positivo.
– Se rechaza la hipótesis nula , aunque esta es cierta
– Error del exceso de credulidad
– También llamado “nivel de significación del test”
– Por convención se suele poner en el 5%. Más raro en el 1% o 10%
Error beta o tipo II: probabilidad de producir un falso negativo.
– No se rechaza la hipótesis nula, a pesar de ser falsa
– La potencia (1 - beta), representa la probabilidad de rechazar la Ho cuando
en realidad es falsa (decisión correcta)
– Error del exceso de escepticismo
– Por convención se suele poner en 10-20%
Convención: α=5%, β=20%. Se considera que el error tipo II es menos
serio que el error tipo I. Preferimos pasarnos de “escépticos”.
7 Presentation title in footer | 00 Month 0000
8. Para un tamaño muestral dado, los esfuerzos por
reducir un error conllevan un aumento del otro tipo
de error
La única manera de minimizar ambos errores es
aumentar el tamaño de la muestra
8 Presentation title in footer | 00 Month 0000
9. ¿Qué error es más serio: el tipo I
(crédulo) o el tipo II (escéptico)?
Depende de la aplicación a la vida real, no es un problema estadístico
P (Error tipo I) en los juicios:
Juicio penal: “Más allá de una duda razonable”. 12 de 12 jurados
deben votar culpable unánimamanete. Como si fijáramos el nivel α
en 0.001.
Juicios civilies: “Preponderancia de la evidencia”. 9 de 12 jurados
deben votar culpable. Es como si fijásemos el nivel alfa en 0,1.
9 Presentation title in footer | 00 Month 0000
10. Un ruido en la noche en la sabana
africana …
Yo creo que es …
Tigre Rama
Error tipo II
Tigre Acertaste Eres
En realidad devorado
es… Error tipo I
Rama Falsa Acertaste
alarma
10 Presentation title in footer | 00 Month 0000
11. Un ruido en la noche en la sabana
africana …
Michael Shermer:
“Nuestro sistema
cognitivo ha ido
evolutivamente
sesgándose para ser
crédulos, para tolerar
errores tipo I “
11 Presentation title in footer | 00 Month 0000
12. La existencia de Dios y los errores
tipo I y II
Blaise Pascal1623-1662. Científico, filósofo
y escritor francés.
“Prefiero equivocarme creyendo en un Dios
que no existe, que equivocarme no
creyendo en un Dios que existe. Porque si
después no hay nada, evidentemente nunca
lo sabré, cuando me hunda en la nada
eterna; pero si hay algo, si hay Alguien,
tendré que dar cuenta de mi actitud de
rechazo.”
12 Presentation title in footer | 00 Month 0000
13. Si aumentamos el tamaño muestral,
aumentamos la precisión pero no la exactitud
Precisión: dispersión (desviación estándar) del conjunto de valores
obtenidos de mediciones repetidas.
– Cuanto menor es la dispersión mayor la precisión.
Exactitud (accuracy): cuán cerca del valor real se encuentra el valor medido.
Cuanto menor es el sesgo más exacta es una estimación.
– El problema de las variables de confusión de los estudios observacionales NO se
soluciona aumentando el tamaño muestral.
Baja precisión, Alta precisión,
Alta exactitud Baja exactitud
14 Presentation title in footer | 00 Month 0000
14. Reducción en la anchura del intervalo de
confianza al aumentar el tamaño de la muestra
Jones, EMJ online 2009
15 Presentation title in footer | 00 Month 0000
15. Efecto de la reducción del intervalo de confidencia
para demostrar una diferencia en las medias
Jones, EMJ online 2009
16 Presentation title in footer | 00 Month 0000
16. Effect size (tamaño del efecto)
Es una manera de cuantificar la diferencia entre dos o más grupos
D de Cohen (tamaño del efecto estandarizado)1: la diferencia entre
las medias dividido por la desviación estándar de la población.
Ventaja no tiene unidades.
A menor d, mayor tamaño muestral se necesita
Es importante que esta diferencia esperada no sea alta de manera
poco realista, para no infraestimar el tamaño muestral requerido
El tamaño del efecto es un tema de juicio clínico: “¿Qué resultados
estimas o esperas que aparezcan?”
17 Presentation title in footer | 00 Month 0000
1: Cohen, J. (1988): Statistical Power Analysis for the behavioral sciences
17. A menor tamaño del efecto, más
tamaño muestral se necesita
18 Presentation title in footer | 00 Month 0000 Jones, EMJ online 2009
18. Tamaños del efecto estandarizados para
diversos tests estadísticos
Estos tamaños estandarizados facilitan el cálculo de tamaño muestral, pero no
reemplazan la necesidad de buscar la bibliografía adecuada que lo sustente.
19 Cunningham, Evidence Based Midwifery 2007
Presentation title in footer | 00 Month 0000
19. Ejemplos de tamaños muestrales estimados para
efectos pequeños, medianos y grandes
•El tamaño puede ser de 788, 128 o 52 en función del efecto que vayamos a
encontrar.
•¿Cómo es capaz un CEIC de asegurar cual de los efectos es el correcto?!!!!
20 Cunningham, Evidence Based Midwifery 2007
Presentation title in footer | 00 Month 0000
20. A favor y en contra de usar el tamaño
del efecto estandarizado
A favor En contra
No necesitas realizar un piloto o
buscar datos históricos para
determinar la desviación
estándar. Si no miras al numerador y
Los estándar de “pequeño”, denominador por separado estás
“medio” y “grande” se basan en obviando como de preciso es tu
una extensa revisión de la instrumento de medida.
literatura de las ciencias sociales
y por tanto son convenciones
realísticas 1
21 Presentation title in footer | 00 Month 0000
1: Cohen, J. (1988): Statistical Power Analysis for the behavioral sciences
21. La potencia (probabilidad de encontrar una
diferencia predeterminada si existe) aumenta si…
La Diferencia entre el valor bajo la hipótesis nula y la observada
es mayor
Si P( Error tipo I) = α es mayor
Si la desviación estándar es menor (precisión mayor de la
medida)
Si aumenta el tamaño muestral
Si usas pruebas paramétricas (p.e. t de Student) que no
paramétricas (U de Mann Whitney)
– Por eso a veces se intentan convertir los datos básicos a una
distribución normal
22 Presentation title in footer | 00 Month 0000
22. La potencia (probabilidad de encontrar una diferencia
predeterminada si existe) aumenta si…(II)
Se usan estudios cruzados en vez de paralelos
– Siempre que los sujetos estén estables durante el lavado.
Los estudios de medidas repetidas (antes – después) tienen más
potencia que los estudios de medidas no repetidas
El ratio del tamaño de las muestras de los grupos (N1 / N2) es 1
Si se usan contrastes de una cola que si se usan de dos.
23 Presentation title in footer | 00 Month 0000
23. ¿Qué hacer si me sale una muestra
demasiado grande?
Disminuir la precisión de la medida: aumentar el intervalo de confianza
esperado
Revisar bibliografía: ¿existen datos publicados en que la variable se
presente con una desviación estándar menor?
Disminuir la potencia si se puede
Aumentar la probabilidad de error tipo I (alfa) si se puede
Intentar cambiar el objetivo primario, buscar otros tests estadísticos
Ver si se puede usar contraste de una cola en vez de dos colas (en el caso
que solo nos interese demostrar diferencias en un sentido)
24 Presentation title in footer | 00 Month 0000
24. ¿Qué hacer si me sale una muestra
demasiado pequeña?
Enhorabuena!! Tienes dinero para pagar la mayor muestra.
Aumentar la precisión de la medida: aumentar el intervalo de
confianza esperado
Aumentar la potencia.
– OJO: al aumentar la potencia podrás detectar diferencias
estadísticamente significativas entre la hipótesis nula y la
hipótesis alternativa que sean irrelevantes clínicamente
– Importante conocer cual es el “la mínima diferencia clínicamente
significativa”.
Disminuir la probabilidad de error tipo I (alfa) si se puede
25 Presentation title in footer | 00 Month 0000
25. Ejemplos de estudios de una cola o de dos colas
I Fármaco A Eventos adversos / caro
Fármaco B No eventos adversos / barato
– A más eficaz
– A&B igual
– B más eficaz
II X Intervención en nutrición- Sesiones en grupo
Y Intervención en nutrición- Sesiones individuales
– X Reduce más la ingesta de sodio
– X&Y Igual
– Y Reduce más la ingesta de sodio
S.F.Kelsey/class2181/lecture 4-sample size 26
26 Presentation title in footer | 00 Month 0000
26. Una cola Rechazo H0 No rechazo H0
.05
Zcrit
-1.65
Dos colas Rechazo H0 No rechazo H0 Rechazo H0
.025 .025
Zcrit Zcrit
1.96
-1.96
27 Presentation title in footer | 00 Month 0000
27. Una sola cola
critical t = 1.65175
Distribución central H0 Distribución no central H1
0.3
0.2
0.1
ß a
0
-3 -2 -1 0 1 2 3 4 5
28 Presentation title in footer | 00 Month 0000
28. Dos colas
critical t = 1.96835
Distribución no central H1
Distribución central H0
0.3
0.2
0.1
ß a
2
0
-3 -2 -1 0 1 2 3 4 5
29 Presentation title in footer | 00 Month 0000
29. Significación clínica o estadística
Lo importante es siempre la clínica!!!
Estadísticamente significativo, clínicamente NO significativo
– “La p depende de la N”, “La significación estadística se puede comprar
con una N grande”
– Ejemplos:
• Aumento de una semana en la supervivencia del cáncer
• Aumento de 2-3 ovocitos en ciclos de FIV
– Insuficiente para obtener autorizaciones de comercialización
Estadísticamente NO significativo, clínicamente significativo
– Ejemplo: Aparición de eventos adversos muy graves que modifican el
perfil riesgo / beneficio
– Pueden llevar a la no aprobación o incluso a una posterior retirada de la
autorización de comercialización
30 Presentation title in footer | 00 Month 0000
30. Estudios de no-inferioridad frente a
un control activo
Aceptables cuando no es ético un estudio frente a placebo y
el nuevo medicamento sólo tiene ventajas en cuanto a efectos
secundarios o comodidad o costes, pero la misma eficacia
En general requieren un tamaño muestral mayor
Fundamental establecer el margen de no inferioridad:
diferencias entre el margen experimental y el control activo no
son superiores a una cifra prefijada.
31 Presentation title in footer | 00 Month 0000
32. Software libre para el cálculo de tamaño
muestral
GP Power 3.1
– Heinrich Heine University, Dusseldorf University
– http://www.psycho.uni-
duesseldorf.de/abteilungen/aap/gpower3/download-and-
register
PS Power and Sample size
– Department Biostatistics, Vanderbilt University
– http://biostat.mc.vanderbilt.edu/wiki/Main/PowerSampleSize
ST Plan
– MD Anderson Cancer Center
– https://biostatistics.mdanderson.org/SoftwareDownload/Singl
eSoftware.aspx?Software_Id=41
33 Presentation title in footer | 00 Month 0000
33. Webs para el cálculo de tamaño
muestral
http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp
http://stat.ubc.ca/~rollin/stats/ssize/
http://www.stat.uiowa.edu/~rlenth/Power/index.html
http://www.raosoft.com/samplesize.html
http://epitools.ausvet.com.au/content.php?page=SampleSize
http://statpages.org/index.html#Power
34 Presentation title in footer | 00 Month 0000
34. GP Power 3.1
Permite tres tipos de análisis:
– A priori: calcula el tamaño muestral a partir de alfa, beta y el tamaño observable del efecto
– Post hoc: calcula la potencia a partir de alfa, el tamaño observable del efecto y el tamaño de
la muestra.
• Para estudios piloto de detección de señales permite estimar la potencia a partir de un tamaño muestral
pragmático.
– Compromise: calcula un ratio alfa / beta a partir del tamaño observable del efecto y el tamaño
de la muestra
– Análisis de sensibilidad: calcula el tamaño del efecto a partir de la N (cuando sabemos que
no tenemos recursos para aumentarla), alfa, y beta
Util para:
– Medias: un grupo, un grupo antes y después, dos grupos independientes, muchos grupos
(ANOVA, ANCOVA)
– Proporciones: un grupo o dos
– Correlaciones y regresiones
– Tests paramétricos y no paramétricos
35 Presentation title in footer | 00 Month 0000
36. GP Power 3.1
Posibilidad de hacer gráficos
t tests - Means: Difference between two independent means (two groups)
Tail(s) = Two, Allocation ratio N2/N1 = 1, a err prob = 0.05
1200
1000
Effect size d
Total sample size
= 0.2
800
= 0.25
600 = 0.3
400
200
0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95
Power (1-ß err prob)
37 Presentation title in footer | 00 Month 0000
37. PS Power and Sample Size
Permite tres tipos de cálculo:
– Tamaño muestral
– Potencia
– Tamaño efecto detectable
Util para estudios de:
– Supervivencia
– T Test
– Regresión
– Proporciones
– Mantel Haenszel
Sólo para estudios de dos colas
38 Presentation title in footer | 00 Month 0000
39. ST PLAN
Interfaz poco amigable
Util para:
– Comparacion de medias
– Comparacion de
proporciones
– Supervivencia
– Correlacion
40 Presentation title in footer | 00 Month 0000
40. Estudios de estimar una proporcion
Ejemplo: estudios de prevalencia de una enfermedad
Para la misma precisión de la medida, el tamaño muestral es mayor
cuanto la proporción es más cercana al 50% (máxima
indeterminación) est
Herramientas
– http://www.cs.uiowa.edu/~rlenth/Power/
– http://department.obg.cuhk.edu.hk/researchsupport/Sample_size_EstPrev.asp
– http://epitools.ausvet.com.au/content.php?page=SampleSize
41 Presentation title in footer | 00 Month 0000
41. Estudios con dos proporciones
El tamaño muestral aumenta:
– Si la diferencia entre ambas proporciones disminuye
– Si la potencia aumenta.
– Cuanto más cercanas estén las proporciones al 50%
– Equivalencia > Superioridad > No inferiordad
P1 = 0.01 P1 = 0.05 P1 = 0.1 P1 = 0.2 P1 = 0.3 P1 = 0.4 P1 = 0.5 P1 = 0.6 P1 = 0.7 P1 = 0.8 P1 = 0.9 P1 = 0.95
P2 = 0.99 5 5 6 7 9 12 15 21 30 50 121 333
P2 = 0.95 5 6 7 8 11 14 19 27 43 88 474
P2 = 0.9 6 7 8 10 13 17 25 38 72 219
P2 = 0.8 7 8 10 13 19 28 45 91 313
P2 = 0.7 9 11 13 19 29 49 103 376
P2 = 0.6 12 14 17 28 49 107 408
P2 = 0.5 15 19 25 45 103 408
P2 = 0.4 21 27 38 91 376
P2 = 0.3 30 43 72 313
P2 = 0.2 50 88 219
P2 = 0.1 121 474
P2 = 0.05 333
Ejemplos de tamaños para un error alfa de 0,05 y un error beta de 0,8
42 Presentation title in footer | 00 Month 0000
42. Estudios con dos proporciones
Herramientas:
– http://epitools.ausvet.com.au/content.php?page=SampleSize
– GP Power
– PS
43 Presentation title in footer | 00 Month 0000
43. Estudios de estimar una media de un
solo grupo
El tamaño muestral debe justificarse mediante referencia a
un intervalo de confianza (normalmente 95%) alrededor de
una media de la variable de estudio (desviación estándar)
Herramientas:
– http://epitools.ausvet.com.au/content.php?page=1Mean
– http://stat.ubc.ca/~rollin/stats/ssize/n1.html
– http://department.obg.cuhk.edu.hk/researchsupport/Sample_size_E
stMean.asp
44 Presentation title in footer | 00 Month 0000
44. Estudios de comparar medias en dos
grupos
El tamaño muestral aumenta si:
– La diferencia entre las medias es menor
– La desviación estándar es mayor
– Si aumentamos la potencia
45 Presentation title in footer | 00 Month 0000
45. Estudios de comparar medias en dos
grupos
Herramientas:
– http://epitools.ausvet.com.au/content.php?page=2Means1
– http://stat.ubc.ca/~rollin/stats/ssize/n2.html
46 Presentation title in footer | 00 Month 0000
46. Normograma(*) para el cálculo de tamaño muestral
para comparar medias mediante alfa, beta y tamaño
del efecto (Gore & Altman 2001)
*: Válido si siguen
distribución normal
Jones, EMJ online 2009
47 Presentation title in footer | 00 Month 0000
47. Estudios de variables de tiempos hasta un
evento (uso de log-rank)
El tamaño muestral será mayor:
–Cuanto menor sea la diferencia entre los tiempos de
supervivencia o más cercano esté el Hazard Ratio a 1.
–Si el tiempo de reclutamiento es más pequeño
–Si el tiempo de seguimiento es menor
–Si el ratio N2 / N1 se aleja de 1
Herramientas:
– http://hedwig.mgh.harvard.edu/sample_size/time_to_event/para_time.html
48 Presentation title in footer | 00 Month 0000
48. Estudios de concordancia (estadístico
kappa)
Sim, Physical Therapy 2005
49 Presentation title in footer | 00 Month 0000
50. Estudios diagnósticos
Herramientas:
– http://department.obg.cuhk.edu.hk/researchsupport/
Sample_size_ROC.asp
– http://araw.mede.uic.edu/cgi-alansz/testcalc.pl
51 Presentation title in footer | 00 Month 0000
51. Buderer, Acad Emerg Med 1996
Estudios diagnósticos con datos de prevalencia
52 Presentation title in footer | 00 Month 0000
52. Estudios diagnósticos con datos de prevalencia
53 Presentation title in footer | 00 Month 0000
Carley, Emerg Med J 2005
53. Estudios diagnósticos con datos de prevalencia
54 Presentation title in footer | 00 Month 0000 Carley, Emerg Med J 2005
54. Buderer, Emerg Med J 2003
Normograma para estudios
diagnósticos
55 Presentation title in footer | 00 Month 0000
55. Conclusiones y mensajes (I)
Haz estos cálculos lo más pronto posible en la planificación de un
estudio.
Si leemos un estudio con resultados negativos hay que analizar la
potencia estadística de ese estudio.
Pon siempre los datos clínicos antes que los estadísticos tanto para
interpretar los resultados como para planificar la muestra.
Haz estudios piloto: no pretendas responder todas las preguntas del
mundo en un solo estudio.
Ojo con los diseños para estudiar los efectos en subgrupos porque
necesitarás aumentar el tamaño muestral.
56 Presentation title in footer | 00 Month 0000
56. Conclusiones y mensajes (II)
“¿Qué es un trabajador del conocimiento?:
– Su función es resolver problemas, mediante la creación,
distribución o aplicación de información / conocimiento.
– Son problemas no operativos, no existe una secuencia
protocolizada de acciones que los resuelvan.
– Necesita gran variedad de talentos y habilidades: buscar y
evaluar críticamente información; discriminar diferentes
fuentes, evaluando los intereses que hay detrás de cada
argumento; hacer preguntas y establecer hipótesis; desarrollar
análisis numéricos complejos, tener ideas y puntos de vista
propios y expresarlos de manera argumentada, clara y concisa
de forma oral y por escrito.”
Jorge Juan Fernández, Las Reglas de Juego, 2010
57 Presentation title in footer | 00 Month 0000
57. 58 Presentation title in footer | 00 Month 0000