2. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Razonamiento inductivo:
Es aquel que utiliza observaciones específicas para
construir principios generales.
Es ir de lo particular a lo general.
Asunción filosófica: si algo es cierto en algunas
ocasiones también lo es en situaciones similares
aunque no se hayan observado, y la probabilidad de
acierto depende del número de fenómenos observados.
Asunción filosófica: si algo es cierto en algunas
ocasiones también lo es en situaciones similares
aunque no se hayan observado, y la probabilidad de
acierto depende del número de fenómenos observados.
Replicación
Introducción
3. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Tamaño de muestra adecuado,Tamaño de muestra adecuado,
aleatorización y replicaciónaleatorización y replicación
Garantía de la
independencia de las
observaciones
Mejores
estimaciones
(+precisión; +exactitud)
Resultados
representativos
Adecuada
potencia
Introducción
permitir las
estadísticas
inferenciales
4. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Introducción
- El lenguaje es cercano a lo incomprensible
- Los problemas asociados a la P
- Las asunciones son irreales en la naturaleza
- La filosofía de las pruebas de hipótesis no se
ajusta a la lógica común
- Existen aspectos básicos muy arbitrarios
Problemas con la estadística frecuentista
5. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Introducción
Homogeneidad de varianzas2
Aleatorización
Independencia de errores4
Asunciones de las pruebas:
Rutinariamente
comprobadas
Normalidad (pruebas paramétricas)1
3 ¿¿ ??
¿¿ ??
6. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Ubicación aleatoria de
las unidades muestrales
¿Elimina los sesgos?
(error sistemático repetitivo)
7. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Ejemplo: Geweke et al. (2003) demostró cómo el
proceso de admisión de pacientes en los hospitales no
es aleatorio, ya que determinados hospitales atraen
más a enfermos con una alta percepción de la
gravedad de la enfermedad que otros.
Ejemplo: Geweke et al. (2003) demostró cómo el
proceso de admisión de pacientes en los hospitales no
es aleatorio, ya que determinados hospitales atraen
más a enfermos con una alta percepción de la
gravedad de la enfermedad que otros.
8. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Todas las muestras de parámetros
tomados de un mismo individuo
están relacionadas y alteran los
estimados de variabilidad
poblacional.
aa
bb
cc
dda’a’
b’b’
c’c’
d’d’
9. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Las muestras tomadas en
lugares cercanos entre si
tendrán mayores
probabilidades de ser
más similares.
10. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Al trabajar con varias
especies las especies más
cercanas filogenéticamente
tienen más probabilidades
de ser o responder de
forma más similar.
11. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Los experimentos desarrollados durante un mismo día o mes
pueden dar resultados más semejantes entre si que los que
se hacen en días diferentes
marzo mayo
septiembre noviembre diciembre
enero
a a’
a’’
b b’
c c’
d’d e f’f
12. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Efecto despreciableEfecto despreciable
13. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Introducción
Efectos de
estas
dependencias
•Se altera fuertemente los niveles
de significación
•Reflejan falta de profundidad
y diseños descuidados
•Se disminuye la potencia
•Se cambian las varianzas
de los datos
14. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Discutir la violación estadística más
frecuente en todos los trabajos: la
pseudorreplicaciónpseudorreplicación, específicando
sus variantes o fuentes principales.
Introducción
Objetivo:
15. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorréplica: 48 %
de los trabajos
Pseudorreplicación
Tema de los análisis
estadísticos incorrectos
Innis (1979)
Underwood (1981)
Connell (1974)
Hurlbert (1984)Hurlbert (1984)
enfoque directo y agresivo provocativo
“demasiado educadas e
incluso apologísticas”
176 estudios
experimentales
(e/ 1974-1980)
16. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Autocorrelación
de los datos
Dependencia
entre las
unidades
Diseño de muestreo
o análisis
incorrectos
Pseudorreplicación
defecto de la planificación de los estudios, en los que hay una
malinterpretación del tamaño real de muestra: se exagera el
número de réplicas que componen la muestra, al considerar
como estadísticamente independientes datos que no lo son.
Definición “ligera” Neologismo ≈ “efectos confundidos”
17. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
En la terminología de los ANOVAS:
es la prueba de un tratamiento cuyo término de error
es inapropiado para la hipótesis bajo consideración.
Pseudorreplicación
El uso de estadística inferencial para probar efecto de
tratamientos con datos de experimentos donde estos
tratamientos no están adecuadamente replicados (aunque las
muestras si pueden estarlo) o cuando las réplicas no son
estadísticamente independientes.
Definición estricta:
18. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
“el principal proposito [de la replicación], que no
tiene otro método alternativo de lograrse, es proveer
un estimado del error por el cual la significación de las
comparaciones será juzgada... [y] el propósito de la
aleatorización... es garantizar la validez de una prueba
de significación, que se basa en un estimado del error,
hecho posible por la replicación”.
Fisher (1927; 1:63-64):Fisher (1927; 1:63-64):
Pseudorreplicación
20. Seminarios de BioestadísticaSeminarios de Bioestadística
XX
Pseudorreplicación
Pseudorreplicación
… si las diferencias pueden
ser detectadas a través de
esta variabilidad: son
“estadísticamenteestadísticamente
significativassignificativas”.
Pruebas
estadísticas
XX
El estimado de variabilidad debeEl estimado de variabilidad debe
corresponder a los niveles que secorresponder a los niveles que se
estan comparandoestan comparando
El estimado de variabilidad debeEl estimado de variabilidad debe
corresponder a los niveles que secorresponder a los niveles que se
estan comparandoestan comparando
21. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Selección inadecuada de las réplicasSelección inadecuada de las réplicas
Autocorrelación en los datosAutocorrelación en los datos
Dependencia entre muestrasDependencia entre muestras
Estimados deEstimados de
variabilidadvariabilidad
inválidosinválidos
22. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
campo de cultivo
población de
escarabajos
Densidad media= 51 escarabajos/m2
Varianza = 100
Hurlbert (1984)
Ejemplo:
Se tiene…
Pseudorreplicación
¿Efecto de un insecticida?
Dos experimentos con dos diseños
23. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo: Diseño 1
Con insecticida
Sin insecticida
n=6 n=7
d1= 52 d2= 50Muestreo piloto inicial: ns
48 h después…
24. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo: Diseño 2
Controles
(sin insecticida)
Muestras
(con insecticida)
Parcelas de 1 m2
Muestreo previo:
1 m2
por cuadrante
ns
Aplico insecticida
48 h
Muestreamos
25. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
Diseño 2Diseño 1
Tratamientos? Con insecticida y sin insecticida
Tamaño de muestra?
Número de réplicas?
n=1 n=5
6 15
Pseudorréplicas
26. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Prueba estadística: diferencias NS
Diseño 1
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
Diseño 2
¿Cual es el efecto estadístico?
27. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Diseño 1
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
Diseño 2
Si se repite el estudio aumentando el número de “réplicas”:
Figura. Relación entre la probabilidad de cometer error de
tipo I y la cantidad de réplicas (n) para dos diseños
experimentales, donde el resultado ya era conocido.
El diseño 1 no prueba el
efecto del herbicida sino
diferencias entre áreas, que
siempre se pueden detectar:
solo hay que aumentar la n.
¿Cual es el efecto estadístico?
28. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
La pseudorreplicación aumenta laLa pseudorreplicación aumenta la
probabilidad de detectar efectosprobabilidad de detectar efectos
espúrios de los tratamientos.espúrios de los tratamientos.
Conclusión
30. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Diseño de
muestreo
No es un problema único
del diseño experimental
CombinaciCombinaci
ónón
Análisis
estadístico
¿Hipótesi¿Hipótesi
s?s?
31. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Clasificación
Hurlbert (1984)
1
Simple
2
Sacrificial
3
Temporal
32. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Se consideran como réplicas independientes las
medidas sobre una misma unidad de estudio.
Pseudorreplicación
1
Simple
33. Seminarios de BioestadísticaSeminarios de Bioestadística
1
Simple
Pseudorreplicación
Pseudorreplicación
Ejemplo: deseo comparar dos tratamientos…
… tomo dos unidades de muestreo “representativas”…
… y tomo varias muestras
dentro de ellas.
y
A1
A B
A2
A3
A4
B1
B2
B3
B4
34. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Planilla:
Planilla:
1-
2-
3-
4-
5-
6-
7-
8-
Pseudorreplicación
¿ocho muestras?
(4+4)
1 muestra de A
(4 réplicas)
1 muestra de B
(4 réplicas)
1
Simple
35. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
1
Simple
Prueba de comparación
(X1=X2) ¿A=B?
1muestraA=1muestraB
36. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
1
Simple
Varianza 1 Varianza 2
Prueba de comparación
X1 X2
37. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
1
Simple
Prueba de comparación
¿A=B?
A
A
A
A
A
A
A
B
B
B
B
B
B
B
Varianza A Varianza B
38. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Espacio implícito en la hipótesis
espacio
muestreal real
GeneralizaciónGeneralización
Pseudorreplicación
1
Simple
39. Seminarios de BioestadísticaSeminarios de Bioestadística
1
Simple
Pseudorreplicación
Muchas veces se origina por la confusión en
la determinación de cuáles son las réplicasréplicas,
las unidades de muestreounidades de muestreo y las muestrasmuestras.
Pseudorreplicación
40. Seminarios de BioestadísticaSeminarios de Bioestadística
Ejercicio: Identifique la respuesta correcta:
El tamaño de muestra es…
a) ... el número total de unidades que se toman con el instrumento de muestreo
b) ... la cantidad de unidades que se toman para hacer mediciones en ellas por
cada nivel de diseño
c) … la cantidad de mediciones que se hacen en cada nivel del diseño
d) ... el número de niveles del diseño
Pseudorreplicación
¿Sabemos diferenciar correctamente las muestras
de las unidades muestrales o de las réplicas en
nuestras investigaciones?
Pseudorreplicación
41. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio 2:
Se toman seis extracciones de 1 000 mm3
de agua en un sitio, con una
pipeta, para determinar la densidad promedio de protozoos en un río.
Pseudorreplicación
¿Población biológica?:
Todas las agrupaciones de protozoos de
una misma especie.
¿Población estadística?:
Virtual. Todos los volúmenes de 1 000
mm3
susceptibles de ser tomados por la
pipeta.
¿Variable?:
Densidad de protozoos.
¿Unidad de muestreo?:
Una extracción de agua con la
pipeta.
¿Número de muestras?:
1 sola
¿Cuántas réplicas?:
Seis
42. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio 3:
Objetivo: comparar tamaños de los cráneos en cuatro grupos
poblacionales. Tomo 15 cráneos de cada grupo y los mido.
Pseudorreplicación
¿Población biológica?:
Cuatro poblaciones con n
individuos.
¿Variables?:
Ejemplo: “Alto” y “ancho”
¿Población estadística?:
Todos los cráneos de que podría
disponer para estudiar.
¿Número de muestras?:
Cuatro (una por grupo)
¿Unidad de muestreo?:
Un cráneo
Tamaño de muestra:
15
43. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación 1
Simple
2
Sacrificial
Aparece cuando se exagera el tamaño de muestra al
considerar como independientes varias medidas tomadas
sobre cada unidad de muestreo (los datos de muestras
verdaderas se mezclan con las réplicas).
B1
B2
B3
B4
B1B1
B2B2
B3B3
B4B4
¿Muestras?¿Muestras?
¿Réplicas?¿Réplicas?
2 por tratamiento2 por tratamiento
4 por muestra4 por muestra
44. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Normalidad (pruebas paramétricas)
Homogeneidad de varianzas2
Aleatorización
Independencia de errores4
Las pruebas estadísticas se apoyan para su
efectividad en una serie de asunciones conocidas:
1
3
45. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
El valor obtenido en una observación no debe estar
afectado por los valores de las restantes observaciones.
El resultado de un evento no influye o afecta las
probabilidades de otro.
Definición formal (probabilística):
dos eventos A y B se dicen independientes si la P(A y B) = P(A)P(B)
Por ejemplo:
- si el sexo de un bebé de una madre es
independiente del sexo de sus hermanos
- la probabilidad que tiene un bebé de
ser varón es ½
Pseudorreplicación
… entonces la probabilidad
de que una madre tenga
cuatro varones es:
P(varón y varón y varón y varón) = P(varón)P(varón)P(varón)P(varón)
= (1/2)(1/2)(1/2)(1/2) = 1/16
Independencia de errores
46. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Independencia de errores
AA BB
P(A y B) = P(A)P(B)P(A y B) = P(A)P(B)
P(A) P(B)
1 gl 1 glPrueba de hipótesis
P(A y B) < P(A)P(B)P(A y B) < P(A)P(B)
Se pierden fracciones
de grados de libertad
Mientras menos gl existen es menor la
probabilidad de detectar diferencias.
El valor obtenido en una observación no debe estar
afectado por los valores de las restantes observaciones.
El resultado de un evento no influye o afecta las
probabilidades de otro.
Definición formal (probabilística):
dos eventos A y B se dicen independientes si la P(A y B) = P(A)P(B)
47. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Si es posible identificar un efecto externo que
afecte simultáneamente a un subconjunto de
datos y no a otros, potencialmente se está
ante un experimento con datos dependientes.
Pseudorreplicación
Dependencia de errores
¿Cómo identificarla?¿Cómo identificarla?
48. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Dependencia de errores
•Probabilidad de
ocurrencia
•Errores asociados
Individuales
Si algún efecto actúa sobre
un grupo de muestras y no
sobre otras…
No independenciaNo independencia
en los erroresen los errores
49. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
Unidad de muestreo:
el pez individual
Unidad experimental (tratamiento):
pecera con una temperatura dada
XX oo
CC
50. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
¿Una pecera con
cada temperatura?
AA oo
CC
BB oo
CC
Pseudorréplica
sacrificial
51. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
AA oo
CC
52. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
AA oo
CC AA oo
CC AA oo
CC AA oo
CC
53. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
Pseudorreplicación
Dependencia de errores
-Todas las muestras que se toman en un laboratorio en un mismo día,
pueden estar sujetas a los mismos factores ambientales causantes de
ruido o efectos espúrios.
-Todos los experimentos que se hacen con un mismo lote de animales, o
con un mismo frasco de reactivo, etc. pueden presentar dependencia de
errores (si hay diferencias entre ellos).
- En estudios multiespecíficos, las especies no son muestras
independientes a causa de las relaciones filogenéticas: las especies más
cercanas evolutivamente, de las mismas familias u órdenes, tenderán a
ser más similares entre si que con las de otras familias u órdenes.
54. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Dependencia de errores
¿No son “sutilezas” exageradas?
¿Es real el peligro?
La falta de independencia impideLa falta de independencia impide
conocer la significación real en unaconocer la significación real en una
prueba estadísticaprueba estadística
(significa que la P obtenida no se puede comparar con alfa 0,05
porque está sobre- o subestimada).
55. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
- No hay pruebas robustas ante ella
- Es muy difícil de detectar
- No puede ser “eliminada” estadísticamente
Pseudorreplicación
Dependencia de errores
Por tanto:
NUNCA sabremos si tuvo efecto o nó
¿No son “sutilezas” exageradas?
¿Es real el peligro?
56. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Cómo puede identificarse?
Problemas:
- Es a posteriori, si hay datos inservibles
- Es una prueba de hipótesis ¿confiable?
Run Test
Detallado análisis del
diseño del muestreo
Pseudorreplicación
Dependencia de errores
57. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Cómo se puede controlar la falta
de independencia en los errores?
- Diseño adecuado del muestreo
- Buena aleatorización
- Dispersión de la toma de muestras en
tiempo y espacio
- Métodos insesgados de muestreo
Pseudorreplicación
¿Tomamos
muestras realmente
aleatorias?
¿Tomamos
muestras realmente
aleatorias?
58. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
El valor de las pruebas depende de la
capacidad del científico para demostrar
que tomó sus datos de forma aleatoria.
Un científico cuidadoso y objetivo está entrenado
para ser escéptico y nunca aceptaría ninguna
evidencia cuya validez dependa totalmente de las
habilidades o del juicio de otra persona.
Pseudorreplicación
59. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio:
Seleccionen un número del uno al cuatro (1 2 3 4) y anótenlo
¿Cuál sacaron?
La selección humana no es aleatoria
1 2 3 4
20 %
5 %
20 %
45 %
25 %
Pseudorreplicación
60. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Es muy difícil tomar muestras
totalmente aleatorias cuando se
trabaja fuera de un laboratorio.
Pseudorreplicación
- Los conteos de organismos dependen de su tamaño, vistosidad,
conducta, hora del día, fecha, patrón de distribución de la población, etc.
- El estado anímico del investigador, sus habilidades y sus características
físicas influyen en los datos.
-Los muestreos se tienden a hacer en los lugares donde lógicamente uno
espera que va a encontrar individuos.
- Para recorrer las áreas se siguen los caminos.
- Se muestrean más las zonas accesibles que en las difíciles o
inaccesibles.
61. Seminarios de BioestadísticaSeminarios de Bioestadística
2
Sacrificial
3
Temporal
Pseudorreplicación
Pseudorreplicación
Cuando se consideran como réplicas las
medidas tomadas sobre una misma unidad
en diferentes momentos.
A1
B1
A2
B2
A3
B3
An
Bn
AutocorrelaciónAutocorrelación
62. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Forma especial de pseudorreplicación por falta de
independencia, cuando existe una correlación de una
serie de datos con sus propios valores, alternados por
un salto particular de k observaciones.
* También se llama dependencia serial porque un valor puede
ser parcialmente predicho por los valores que le anteceden.
AutocorrelaciónAutocorrelación
63. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
5 2 8 3 6 1 4 8 9
5 5 6 4 7 3 8 2 9
Ejemplo simple:
Patrón:
Cada dos datos aparece un incremento de una unidad o
una disminución de una unidad
Serie de datos:
A)
B)
¿Aleatorios?
AutocorrelaciónAutocorrelación
64. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Series de datos con autocorrelación intrínseca:Series de datos con autocorrelación intrínseca:
- Datos posicionales
- Datos de crecimiento
- Datos de diferentes localidades geográficas
- Datos de dinámica (cambios en el tiempo)
- Datos climáticos
Autocorrelación
Temporal
Espacial
AutocorrelaciónAutocorrelación
65. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Efecto estadístico: subestima la variabilidad y
estrecha artificialmente los limites de confianza de
los estimadores.
Pseudorreplicación
AutocorrelaciónAutocorrelación
Produce que:
-los estimados por cuadrados mínimos no sean eficientes
-los intervalos de confianza estan distorsionados
-no sesga los estimadores del efecto pero si el error
estándar de estos
-invalida seriamente las pruebas de hipótesis
66. Seminarios de BioestadísticaSeminarios de Bioestadística
PseudorreplicaciónPseudorreplicación
Efecto estadístico: subestima la variabilidad y
estrecha artificialmente los limites de confianza de
los estimadores.
0 r Teniendo en cuenta la autocorrelación
r Sin tener en cuenta la autocorrelación
Ejemplo:
Pseudorreplicación
En la práctica: “infla” los estadísticos de las pruebas (en un factor de tres
o más) y lleva a rechazar muchas hipótesis nulas que realmente
deberían haberse retenido.
AutocorrelaciónAutocorrelación
67. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Solución?
Métodos estadísticos específicos:
- Análisis de series de tiempo
- Estadística espacial o geoestadística
Pseudorreplicación
AutocorrelaciónAutocorrelación
68. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Autocorrelación espacial: es intrínseca a casi todas
las variables ecológicas tomadas a través de
espacios geográficos.
No existe aleatoriedad en los patrones de
distribucion de especies, individuos ni
fenómenos biológicos.
Pseudorreplicación
Parches & gradientesParches & gradientes
AutocorrelaciónAutocorrelación
69. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Autocorrelación espacial: es intrínseca a casi todas
las variables ecológicas tomadas a través de
espacios geográficos.
Pseudorreplicación
Variables físicas ambientales
Fuente
Procesos biológicos “contagiosos”
condiciones
recursos abióticos
Especies de loc.
aledañas
Mortalidad Natalidad
Dispersión
Migración
Resultado: cada valor puede ser
parcialmente predicho por
los aledaños.
AutocorrelaciónAutocorrelación
70. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
La autocorrelación de las variables ecológicas no debe ser
eliminada ni ignorada sino descrita y cuantificada
Los patrones espaciales son
funcionales en los ecosistemas
Pseudorreplicación
Estudiar la estructura espacialEstudiar la estructura espacial
de los procesos biológicos esde los procesos biológicos es
un requerimiento y a la vez unun requerimiento y a la vez un
reto fuerte para los ecólogos.reto fuerte para los ecólogos.
AutocorrelaciónAutocorrelación
71. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pruebas para su detección:
- estadístico Q de Durbin-Watson
- estadísticos de Box-Pierce y Ljung-Box
- modelos auto-regresivos integrados de promedio
móviles (ARIMA) en el análisis de las series de tiempo.
Pseudorreplicación
AutocorrelaciónAutocorrelación
72. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hay métodos estadísticos clásicosestadísticos clásicos con variantes corregidas para
la autocorrelación:
- Cliff y Ord (1973) proponen un método de corrección del ES del
estimador de la regresión lineal simple en presencia de autocorrelación,
que luego se extiende a las correlaciones, regresiones multiples, pruebas
t (Cliff y Ord, 1981) y al anova de clasificación simple (Griffith 1978, 1987).
Otras propuestas de estadísticos para su manejo: ajustes de
covarianzas, permutaciones, métodos de ordenación, análisis de
gradientes, prueba de Mantel, etc.
Pseudorreplicación
AutocorrelaciónAutocorrelación
73. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Geoestadística o Estadística espacial
Emplea:
- funciones de estructura (correlogramas o variogramas)
- análisis de patrones espaciales (de puntos o de superficies)
- métodos de mapeos (kriging, polígonos de Dirichlet o Thiessen,
triangulación Delaunay, etc.).
Pseudorreplicación
AutocorrelaciónAutocorrelación
74. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
La frecuencia había
disminuido entre 1991 y 1992
Pseudorreplicación
Pseudorréplica: 48 % de
176 artículos entre 1974 y 1980.
… pero aun era
“preocupantemente
alta”
PseudorreplicaciónPseudorreplicación
Dependencia de datosDependencia de datos
AutocorrelaciónAutocorrelación
Hulbert (1984)Hulbert (1984)
HeffnerHeffner et alet al.. (1996)(1996)
75. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Qué se puede hacer en general
para combatir este problema?
En muchos estudios la replicación es difícil de obtener por
la escala, escaso presupuesto, poco tiempo, etc.
Pseudorreplicación
¿Deben dejarse de hacer¿Deben dejarse de hacer
estas investigaciones?estas investigaciones?
NO. Solo seguir una metodología adecuada
76. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
1) Mejorar los diseños de muestreos, incluyendo controles, réplicas,
asignación al azar e intercalamiento de las UM (en el tiempo y en el
espacio).
2) Replicar todo lo posible (si no puedo replicar el efecto a medir (ej.:
disturbios), puedo replicar al menos los controles).
3) Describir adecuadamente los experimentos realizados o el diseño de los
muestreos
Pseudorreplicación
Metodología adecuada
Esta descripción completa debe incluir:
•naturaleza de las unidades experimentales (UE) a usar
•número y tipo de tratamientos (incluyendo los controles)
•propiedades o respuesta que se medirá en las UE
•manera en que los tratamientos son asignados a las UE
disponibles
•número de réplicas de cada tratamiento
•distribución física de las unidades experimentales
•secuencia temporal en que los tratamientos son aplicados
Esta descripción completa debe incluir:
•naturaleza de las unidades experimentales (UE) a usar
•número y tipo de tratamientos (incluyendo los controles)
•propiedades o respuesta que se medirá en las UE
•manera en que los tratamientos son asignados a las UE
disponibles
•número de réplicas de cada tratamiento
•distribución física de las unidades experimentales
•secuencia temporal en que los tratamientos son aplicados
77. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
4) Indicar explícitamente la falta de replicación.
5) No utilizar inferencia estadística cuando no es adecuada.
6) Si se utiliza inferencia estadística, sin la adecuada replicación,
interpretar adecuadamente los resultados.
7) Hacer muestreos verdaderamente independientes.
8) Utilizar estadísticas apropiadas para muestreos sucesivos.
1) Mejorar los diseños de muestreos, incluyendo controles, réplicas,
asignación al azar e intercalamiento de las UM (en el tiempo y en el
espacio).
2) Replicar todo lo posible (si no puedo replicar el efecto a medir (ej.:
disturbios), puedo replicar al menos los controles.
3) Describir adecuadamente los experimentos realizados o el diseño de los
muestreos.
Pseudorreplicación
Metodología adecuada
78. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
En investigaciones de campo la falta de
replicación no es sorprendente ni
“mala”: muchas veces es inevitable.
Lo que es altamente cuestionable es que a las
conclusiones tentativas derivadas de estudios sin replicar,
se les quiera dar apariencia inmerecida de generalidad o
rigor por la aplicación errónea de estadística inferencial.
Pseudorreplicación
79. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
“La Seudorreplicación es una epidemia de los
trabajos de campo. Si bien su efecto no es medible, y
por tanto no puede decirse que sea extremadamente
dañina, tampoco puede decirse lo contrario. Sea como
sea, es un cancer oculto que en cualquier momento
puede explotar y que en sus formas básicas puede
ser controlada solo con un mayor análisis de las
estrategias de toma de muestras”
Conclusiones
80. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
El diseño experimental o del muestreo es un pasoes un paso
vitalvital para el desarrollo de investigaciones de calidad.
Conclusiones
Sin embargo, la calidad de una investigación
depende de mucho más que de un buen diseño
experimental, ya que “este por si mismo no eseste por si mismo no es
ninguna garantía del valor de un estudioninguna garantía del valor de un estudio”.
A pesar de los errores de diseño o estadísticos, las
investigaciones publicadas contienen información útil,
pero esto no puede ser una justificación para
continuar cometiendo errores.
83. Seminarios de BioestadísticaSeminarios de Bioestadística
Fig. 34. Promedio de huevos por tortuga a lo largo de la temporada para la
Península de Guanahacabibes. En rojo, línea de ttendencia
Ejercicio: Identifica el problema estadístico:
84. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
La abundancia de la especie X se correlaciona
negativamente con la abundancia del depredador Y.
Underwood (1990)
Se escogen dos áreas: una experimental donde Y se elimina y una
control. Se mide abundancia de X usando cuadrantes replicados en
cada una de las áreas, bajo la hipótesis nula de que la abundancia de X
será la misma en ambos lugares.
Ejercicio:
Una hipótesis plausible es que el efecto de Y es responsable de
las diferencias en abundancias de X
Una predicción apropiada sería que X aumentaría su abundancia
si se remueve Y.
(se plantea
como objetivo).
¿Qué creen de este experimento?¿Qué creen de este experimento?
85. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Consecuencias:
1) no se puede discriminar si la diferencia detectada es por efecto de Y o por
diferencias propias de las áreas
2) no se pueden extrapolar los resultados a cualquier área donde pudiera
aparecer X y Y porque se usó un modelo de efectos fijos (sin réplicas) para
intentar corroborar una hipótesis que requeriría de un modelo de efectos
aleatorios (muestrear varias áreas).
La abundancia de la especie X se correlaciona
negativamente con la abundancia del depredador Y.
Ejercicio:
La hipótesis
sobre el efecto de
los tratamientos
Hipótesis de
diferencia entre
dos áreas
… se ha transformado en…
86. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Identifique el tipo de pseudorréplica:
A) Para caracterizar la longitud de las alas de una especie
de ave colecto seis ejemplares y les mido ambas alas
obteniendo 12 medidas.
Ejercicio:
Rta./: Pseudorreplicación simple: considera las dos alas de
un ave como medidas independientes.
87. Seminarios de BioestadísticaSeminarios de Bioestadística
PseudorreplicaciónPseudorreplicación
B) Para caracterizar las llamadas de una especie de
murciélago voy al campo y registro las llamadas de todos
los que salen de la cueva en un periodo de 10 minutos.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./: Pseudorreplicación sacrificial: un mismo individuo puede emitir
varias llamadas mientras está saliendo de la cueva. El resultado de la
grabación es una mezcla de varias llamadas de varios individuos. Es
imposible conocer el tamaño de muestra real.
88. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
C) Para caracterizar el efecto de la quema de un
bosque sobre una población de hierbas, tomo dos
áreas, una quemada y otra no quemada, y distribuyo
aleatoriamente n unidades de muestreo (parcelas).
Comparo con una t de Student.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./ Pseudorréplica simple. Es un estudio sin réplica. Además,
hay autocorrelación espacial en las parcelas.
89. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
D) Para determinar las diferencias en abundancia de especies de
aves entre meses entre áreas con disturbio y sin disturbio.
Selecciono dos localidades (una con disturbio y otra sin disturbio),
a las que hago una expedición mensual de tres días hábiles,
durante un año, en los que efectúo seis conteos de aves, tres por
la mañana y tres por la tarde. Aplico un ANOVA de clasificación
doble y efectos fijos y un SNK.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./ Pseudorréplica simple. Es un estudio sin réplica, cada mes fue
muestreado una sola vez. Hay pseudorréplica por falta de independencia de
los datos porque los dos conteos de un mismo día no pueden ser
considerados independientes. Además, hay autocorrelación temporal. El
modelo de ANOVA no permite la extrapolación a otros hábitats.
90. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
E) Para medir la amplitud del subnicho trófico, se analizan los
contenidos estomacales de 20 individuos de la especie X colectados
al azar. En cada estómago se cuenta la cantidad de individuos por
cada tipo de artículo alimentario. Se hace un ANOVA para comparar
las abundancias de cada tipo de alimento y determinar cual es el
más importante.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./ Pseudorreplicación por falta de independencia (los artículos dentro
de cada estómago no son independientes). Además, hay sesgos: las aves
pueden haber sido aleatorio pero el consumo de los artículos por cada
individuo no lo es: hay un patrón de preferencia o disponibilidad.
91. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio:
¿Cuál es la conclusiones correcta?:
•la tasa de descomposición de las hojas de arce en el lago es de…
•la tasa de descomposición a 1 m de profundidad en un lago es de…
•la tasa de descomposición de hojas de arce en un punto del lago a 1
m de profundidad fue de…
(El experimento no está mal pero no da ninguna información acerca de la variabilidad
entre varios puntos a esa profundidad, por tanto no puede generalizarse)
Queremos determinar cuan rápido se
descomponen la hojas de arce en el borde
de los lagos. Hacemos ocho contenedores
con redes, se llenan de hojas y se ponen
en un punto a 1 m de profundidad.
Luego de un mes se extraen y se determina la cantidad de materia
orgánica perdida en cada una y se promedian.
92. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Si la hipótesis a demostrar fuera las
diferencias entre las tasas de
descomposición a dos profundidades
(ejemplo, a 1 y 10 m) y ponemos ocho
contenedores de hojas en un punto a 1
m y ocho más en otro punto a 10 m de
profundidad.
Ejercicio:
Resultado puntual.
No se estan probando las diferencias “entre profundidades” sino “entre
dos localidades” (no tendría estimado de variabilidad en las zonas) sino
en dos puntos.
Si se insiste en la generalización, se cometerá pseudorreplicación.
¿Diseño adecuado?:
Esperamos un mes y los recogemos y medimos. Aplicamos una prueba
estadística (ej.: t o U) para ver si hay diferencias significativas entre
localidades.
8
8
93. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Si la hipótesis a demostrar fuera las
diferencias entre las tasas de
descomposición a dos profundidades
(ejemplo, a 1 y 10 m) y ponemos ocho
contenedores de hojas en un punto a 1
m y ocho más en otro punto a 10 m de
profundidad.
Ejercicio:
Esperamos un mes y los recogemos y medimos. Aplicamos una prueba
estadística (ej.: t o U) para ver si hay diferencias significativas entre
localidades.
¿Diseño adecuado?:
- Ocho muestras (sitios) en
cada nivel, con varias
réplicas en cada una.
8
8
94. Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Identifique posibles fuentes de
pseudorréplica en los siguientes muestreos
Ejercicio:
Tabla N: Obtención del material biológico para los estudios genéticos en
tortugas.