SlideShare una empresa de Scribd logo
1 de 95
Pseudorreplicación,
dependencia de
errores y
autocorrelación:
los enemigos ignoradoslos enemigos ignorados
Dr. Dennis Denis Ávila
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Razonamiento inductivo:
Es aquel que utiliza observaciones específicas para
construir principios generales.
Es ir de lo particular a lo general.
Asunción filosófica: si algo es cierto en algunas
ocasiones también lo es en situaciones similares
aunque no se hayan observado, y la probabilidad de
acierto depende del número de fenómenos observados.
Asunción filosófica: si algo es cierto en algunas
ocasiones también lo es en situaciones similares
aunque no se hayan observado, y la probabilidad de
acierto depende del número de fenómenos observados.
Replicación
Introducción
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Tamaño de muestra adecuado,Tamaño de muestra adecuado,
aleatorización y replicaciónaleatorización y replicación
Garantía de la
independencia de las
observaciones
Mejores
estimaciones
(+precisión; +exactitud)
Resultados
representativos
Adecuada
potencia
Introducción
permitir las
estadísticas
inferenciales
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Introducción
- El lenguaje es cercano a lo incomprensible
- Los problemas asociados a la P
- Las asunciones son irreales en la naturaleza
- La filosofía de las pruebas de hipótesis no se
ajusta a la lógica común
- Existen aspectos básicos muy arbitrarios
Problemas con la estadística frecuentista
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Introducción
Homogeneidad de varianzas2
Aleatorización
Independencia de errores4
Asunciones de las pruebas:
Rutinariamente
comprobadas
Normalidad (pruebas paramétricas)1
3 ¿¿ ??
¿¿ ??
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Ubicación aleatoria de
las unidades muestrales
¿Elimina los sesgos?
(error sistemático repetitivo)
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Ejemplo: Geweke et al. (2003) demostró cómo el
proceso de admisión de pacientes en los hospitales no
es aleatorio, ya que determinados hospitales atraen
más a enfermos con una alta percepción de la
gravedad de la enfermedad que otros.
Ejemplo: Geweke et al. (2003) demostró cómo el
proceso de admisión de pacientes en los hospitales no
es aleatorio, ya que determinados hospitales atraen
más a enfermos con una alta percepción de la
gravedad de la enfermedad que otros.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Todas las muestras de parámetros
tomados de un mismo individuo
están relacionadas y alteran los
estimados de variabilidad
poblacional.
aa
bb
cc
dda’a’
b’b’
c’c’
d’d’
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Las muestras tomadas en
lugares cercanos entre si
tendrán mayores
probabilidades de ser
más similares.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Al trabajar con varias
especies las especies más
cercanas filogenéticamente
tienen más probabilidades
de ser o responder de
forma más similar.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Elementos ignorados con frecuencia
Los experimentos desarrollados durante un mismo día o mes
pueden dar resultados más semejantes entre si que los que
se hacen en días diferentes
marzo mayo
septiembre noviembre diciembre
enero
a a’
a’’
b b’
c c’
d’d e f’f
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Aleatorización Independencia
Introducción
&
Efecto despreciableEfecto despreciable
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Introducción
Efectos de
estas
dependencias
•Se altera fuertemente los niveles
de significación
•Reflejan falta de profundidad
y diseños descuidados
•Se disminuye la potencia
•Se cambian las varianzas
de los datos
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Discutir la violación estadística más
frecuente en todos los trabajos: la
pseudorreplicaciónpseudorreplicación, específicando
sus variantes o fuentes principales.
Introducción
Objetivo:
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorréplica: 48 %
de los trabajos
Pseudorreplicación
Tema de los análisis
estadísticos incorrectos
Innis (1979)
Underwood (1981)
Connell (1974)
Hurlbert (1984)Hurlbert (1984)
enfoque directo y agresivo  provocativo
“demasiado educadas e
incluso apologísticas”
176 estudios
experimentales
(e/ 1974-1980)
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Autocorrelación
de los datos
Dependencia
entre las
unidades
Diseño de muestreo
o análisis
incorrectos
Pseudorreplicación
defecto de la planificación de los estudios, en los que hay una
malinterpretación del tamaño real de muestra: se exagera el
número de réplicas que componen la muestra, al considerar
como estadísticamente independientes datos que no lo son.
Definición “ligera” Neologismo ≈ “efectos confundidos”
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
En la terminología de los ANOVAS:
es la prueba de un tratamiento cuyo término de error
es inapropiado para la hipótesis bajo consideración.
Pseudorreplicación
El uso de estadística inferencial para probar efecto de
tratamientos con datos de experimentos donde estos
tratamientos no están adecuadamente replicados (aunque las
muestras si pueden estarlo) o cuando las réplicas no son
estadísticamente independientes.
Definición estricta:
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
“el principal proposito [de la replicación], que no
tiene otro método alternativo de lograrse, es proveer
un estimado del error por el cual la significación de las
comparaciones será juzgada... [y] el propósito de la
aleatorización... es garantizar la validez de una prueba
de significación, que se basa en un estimado del error,
hecho posible por la replicación”.
Fisher (1927; 1:63-64):Fisher (1927; 1:63-64):
Pseudorreplicación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Pruebas
estadísticas
XX
XX
Seminarios de BioestadísticaSeminarios de Bioestadística
XX
Pseudorreplicación
Pseudorreplicación
… si las diferencias pueden
ser detectadas a través de
esta variabilidad: son
“estadísticamenteestadísticamente
significativassignificativas”.
Pruebas
estadísticas
XX
El estimado de variabilidad debeEl estimado de variabilidad debe
corresponder a los niveles que secorresponder a los niveles que se
estan comparandoestan comparando
El estimado de variabilidad debeEl estimado de variabilidad debe
corresponder a los niveles que secorresponder a los niveles que se
estan comparandoestan comparando
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Selección inadecuada de las réplicasSelección inadecuada de las réplicas
Autocorrelación en los datosAutocorrelación en los datos
Dependencia entre muestrasDependencia entre muestras
Estimados deEstimados de
variabilidadvariabilidad
inválidosinválidos
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
campo de cultivo
población de
escarabajos
Densidad media= 51 escarabajos/m2
Varianza = 100
Hurlbert (1984)
Ejemplo:
Se tiene…
Pseudorreplicación
¿Efecto de un insecticida?
Dos experimentos con dos diseños
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo: Diseño 1
Con insecticida
Sin insecticida
n=6 n=7
d1= 52 d2= 50Muestreo piloto inicial: ns
48 h después…
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo: Diseño 2
Controles
(sin insecticida)
Muestras
(con insecticida)
Parcelas de 1 m2
Muestreo previo:
1 m2
por cuadrante
 ns
Aplico insecticida
48 h
Muestreamos
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
Diseño 2Diseño 1
Tratamientos? Con insecticida y sin insecticida
Tamaño de muestra?
Número de réplicas?
n=1 n=5
6 15
Pseudorréplicas
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Prueba estadística: diferencias NS
Diseño 1
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
Diseño 2
¿Cual es el efecto estadístico?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Diseño 1
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
Diseño 2
Si se repite el estudio aumentando el número de “réplicas”:
Figura. Relación entre la probabilidad de cometer error de
tipo I y la cantidad de réplicas (n) para dos diseños
experimentales, donde el resultado ya era conocido.
El diseño 1 no prueba el
efecto del herbicida sino
diferencias entre áreas, que
siempre se pueden detectar:
solo hay que aumentar la n.
¿Cual es el efecto estadístico?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hurlbert (1984)
Pseudorreplicación
Ejemplo:
La pseudorreplicación aumenta laLa pseudorreplicación aumenta la
probabilidad de detectar efectosprobabilidad de detectar efectos
espúrios de los tratamientos.espúrios de los tratamientos.
Conclusión
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Diseño 2Diseño 1
Pseudorreplicación
¿Es ilógico este diseño?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Diseño de
muestreo
No es un problema único
del diseño experimental
CombinaciCombinaci
ónón
Análisis
estadístico
¿Hipótesi¿Hipótesi
s?s?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Clasificación
Hurlbert (1984)
1
Simple
2
Sacrificial
3
Temporal
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Se consideran como réplicas independientes las
medidas sobre una misma unidad de estudio.
Pseudorreplicación
1
Simple
Seminarios de BioestadísticaSeminarios de Bioestadística
1
Simple
Pseudorreplicación
Pseudorreplicación
Ejemplo: deseo comparar dos tratamientos…
… tomo dos unidades de muestreo “representativas”…
… y tomo varias muestras
dentro de ellas.
y
A1
A B
A2
A3
A4
B1
B2
B3
B4
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Planilla:
Planilla:
1-
2-
3-
4-
5-
6-
7-
8-
Pseudorreplicación
¿ocho muestras?
(4+4)
1 muestra de A
(4 réplicas)
1 muestra de B
(4 réplicas)
1
Simple
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
1
Simple
Prueba de comparación
(X1=X2) ¿A=B?
1muestraA=1muestraB
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
1
Simple
Varianza 1 Varianza 2
Prueba de comparación
X1 X2
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
1
Simple
Prueba de comparación
¿A=B?
A
A
A
A
A
A
A
B
B
B
B
B
B
B
Varianza A Varianza B
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Espacio implícito en la hipótesis
espacio
muestreal real
GeneralizaciónGeneralización
Pseudorreplicación
1
Simple
Seminarios de BioestadísticaSeminarios de Bioestadística
1
Simple
Pseudorreplicación
Muchas veces se origina por la confusión en
la determinación de cuáles son las réplicasréplicas,
las unidades de muestreounidades de muestreo y las muestrasmuestras.
Pseudorreplicación
Seminarios de BioestadísticaSeminarios de Bioestadística
Ejercicio: Identifique la respuesta correcta:
El tamaño de muestra es…
a) ... el número total de unidades que se toman con el instrumento de muestreo
b) ... la cantidad de unidades que se toman para hacer mediciones en ellas por
cada nivel de diseño
c) … la cantidad de mediciones que se hacen en cada nivel del diseño
d) ... el número de niveles del diseño
Pseudorreplicación
¿Sabemos diferenciar correctamente las muestras
de las unidades muestrales o de las réplicas en
nuestras investigaciones?
Pseudorreplicación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio 2:
Se toman seis extracciones de 1 000 mm3
de agua en un sitio, con una
pipeta, para determinar la densidad promedio de protozoos en un río.
Pseudorreplicación
¿Población biológica?:
Todas las agrupaciones de protozoos de
una misma especie.
¿Población estadística?:
Virtual. Todos los volúmenes de 1 000
mm3
susceptibles de ser tomados por la
pipeta.
¿Variable?:
Densidad de protozoos.
¿Unidad de muestreo?:
Una extracción de agua con la
pipeta.
¿Número de muestras?:
1 sola
¿Cuántas réplicas?:
Seis
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio 3:
Objetivo: comparar tamaños de los cráneos en cuatro grupos
poblacionales. Tomo 15 cráneos de cada grupo y los mido.
Pseudorreplicación
¿Población biológica?:
Cuatro poblaciones con n
individuos.
¿Variables?:
Ejemplo: “Alto” y “ancho”
¿Población estadística?:
Todos los cráneos de que podría
disponer para estudiar.
¿Número de muestras?:
Cuatro (una por grupo)
¿Unidad de muestreo?:
Un cráneo
Tamaño de muestra:
15
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación 1
Simple
2
Sacrificial
Aparece cuando se exagera el tamaño de muestra al
considerar como independientes varias medidas tomadas
sobre cada unidad de muestreo (los datos de muestras
verdaderas se mezclan con las réplicas).
B1
B2
B3
B4
B1B1
B2B2
B3B3
B4B4
¿Muestras?¿Muestras?
¿Réplicas?¿Réplicas?
2 por tratamiento2 por tratamiento
4 por muestra4 por muestra
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Normalidad (pruebas paramétricas)
Homogeneidad de varianzas2
Aleatorización
Independencia de errores4
Las pruebas estadísticas se apoyan para su
efectividad en una serie de asunciones conocidas:
1
3
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
El valor obtenido en una observación no debe estar
afectado por los valores de las restantes observaciones.
El resultado de un evento no influye o afecta las
probabilidades de otro.
Definición formal (probabilística):
dos eventos A y B se dicen independientes si la P(A y B) = P(A)P(B)
Por ejemplo:
- si el sexo de un bebé de una madre es
independiente del sexo de sus hermanos
- la probabilidad que tiene un bebé de
ser varón es ½
Pseudorreplicación
… entonces la probabilidad
de que una madre tenga
cuatro varones es:
P(varón y varón y varón y varón) = P(varón)P(varón)P(varón)P(varón)
= (1/2)(1/2)(1/2)(1/2) = 1/16
Independencia de errores
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Independencia de errores
AA BB
P(A y B) = P(A)P(B)P(A y B) = P(A)P(B)
P(A) P(B)
1 gl 1 glPrueba de hipótesis
P(A y B) < P(A)P(B)P(A y B) < P(A)P(B)
Se pierden fracciones
de grados de libertad
Mientras menos gl existen es menor la
probabilidad de detectar diferencias.
El valor obtenido en una observación no debe estar
afectado por los valores de las restantes observaciones.
El resultado de un evento no influye o afecta las
probabilidades de otro.
Definición formal (probabilística):
dos eventos A y B se dicen independientes si la P(A y B) = P(A)P(B)
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Si es posible identificar un efecto externo que
afecte simultáneamente a un subconjunto de
datos y no a otros, potencialmente se está
ante un experimento con datos dependientes.
Pseudorreplicación
Dependencia de errores
¿Cómo identificarla?¿Cómo identificarla?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Dependencia de errores
•Probabilidad de
ocurrencia
•Errores asociados
Individuales
Si algún efecto actúa sobre
un grupo de muestras y no
sobre otras…
No independenciaNo independencia
en los erroresen los errores
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
Unidad de muestreo:
el pez individual
Unidad experimental (tratamiento):
pecera con una temperatura dada
XX oo
CC
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
¿Una pecera con
cada temperatura?
AA oo
CC
BB oo
CC
Pseudorréplica
sacrificial
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
AA oo
CC
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
estudios en peces (efecto de la temperatura sobre el crecimiento)
Pseudorreplicación
Dependencia de errores
AA oo
CC AA oo
CC AA oo
CC AA oo
CC
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Por ejemplo:
Pseudorreplicación
Dependencia de errores
-Todas las muestras que se toman en un laboratorio en un mismo día,
pueden estar sujetas a los mismos factores ambientales causantes de
ruido o efectos espúrios.
-Todos los experimentos que se hacen con un mismo lote de animales, o
con un mismo frasco de reactivo, etc. pueden presentar dependencia de
errores (si hay diferencias entre ellos).
- En estudios multiespecíficos, las especies no son muestras
independientes a causa de las relaciones filogenéticas: las especies más
cercanas evolutivamente, de las mismas familias u órdenes, tenderán a
ser más similares entre si que con las de otras familias u órdenes.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Dependencia de errores
¿No son “sutilezas” exageradas?
¿Es real el peligro?
La falta de independencia impideLa falta de independencia impide
conocer la significación real en unaconocer la significación real en una
prueba estadísticaprueba estadística
(significa que la P obtenida no se puede comparar con alfa 0,05
porque está sobre- o subestimada).
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
- No hay pruebas robustas ante ella
- Es muy difícil de detectar
- No puede ser “eliminada” estadísticamente
Pseudorreplicación
Dependencia de errores
Por tanto:
NUNCA sabremos si tuvo efecto o nó
¿No son “sutilezas” exageradas?
¿Es real el peligro?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Cómo puede identificarse?
Problemas:
- Es a posteriori, si hay datos inservibles
- Es una prueba de hipótesis ¿confiable?
Run Test
Detallado análisis del
diseño del muestreo
Pseudorreplicación
Dependencia de errores
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Cómo se puede controlar la falta
de independencia en los errores?
- Diseño adecuado del muestreo
- Buena aleatorización
- Dispersión de la toma de muestras en
tiempo y espacio
- Métodos insesgados de muestreo
Pseudorreplicación
¿Tomamos
muestras realmente
aleatorias?
¿Tomamos
muestras realmente
aleatorias?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
El valor de las pruebas depende de la
capacidad del científico para demostrar
que tomó sus datos de forma aleatoria.
Un científico cuidadoso y objetivo está entrenado
para ser escéptico y nunca aceptaría ninguna
evidencia cuya validez dependa totalmente de las
habilidades o del juicio de otra persona.
Pseudorreplicación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio:
Seleccionen un número del uno al cuatro (1 2 3 4) y anótenlo
¿Cuál sacaron?
La selección humana no es aleatoria
1 2 3 4
20 %
5 %
20 %
45 %
25 %
Pseudorreplicación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Es muy difícil tomar muestras
totalmente aleatorias cuando se
trabaja fuera de un laboratorio.
Pseudorreplicación
- Los conteos de organismos dependen de su tamaño, vistosidad,
conducta, hora del día, fecha, patrón de distribución de la población, etc.
- El estado anímico del investigador, sus habilidades y sus características
físicas influyen en los datos.
-Los muestreos se tienden a hacer en los lugares donde lógicamente uno
espera que va a encontrar individuos.
- Para recorrer las áreas se siguen los caminos.
- Se muestrean más las zonas accesibles que en las difíciles o
inaccesibles.
Seminarios de BioestadísticaSeminarios de Bioestadística
2
Sacrificial
3
Temporal
Pseudorreplicación
Pseudorreplicación
Cuando se consideran como réplicas las
medidas tomadas sobre una misma unidad
en diferentes momentos.
A1
B1
A2
B2
A3
B3
An
Bn
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Forma especial de pseudorreplicación por falta de
independencia, cuando existe una correlación de una
serie de datos con sus propios valores, alternados por
un salto particular de k observaciones.
* También se llama dependencia serial porque un valor puede
ser parcialmente predicho por los valores que le anteceden.
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
5 2 8 3 6 1 4 8 9
5 5 6 4 7 3 8 2 9
Ejemplo simple:
Patrón:
Cada dos datos aparece un incremento de una unidad o
una disminución de una unidad
Serie de datos:
A)
B)
¿Aleatorios?
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pseudorreplicación
Series de datos con autocorrelación intrínseca:Series de datos con autocorrelación intrínseca:
- Datos posicionales
- Datos de crecimiento
- Datos de diferentes localidades geográficas
- Datos de dinámica (cambios en el tiempo)
- Datos climáticos
Autocorrelación
Temporal
Espacial
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Efecto estadístico: subestima la variabilidad y
estrecha artificialmente los limites de confianza de
los estimadores.
Pseudorreplicación
AutocorrelaciónAutocorrelación
Produce que:
-los estimados por cuadrados mínimos no sean eficientes
-los intervalos de confianza estan distorsionados
-no sesga los estimadores del efecto pero si el error
estándar de estos
-invalida seriamente las pruebas de hipótesis
Seminarios de BioestadísticaSeminarios de Bioestadística
PseudorreplicaciónPseudorreplicación
Efecto estadístico: subestima la variabilidad y
estrecha artificialmente los limites de confianza de
los estimadores.
0 r Teniendo en cuenta la autocorrelación
r Sin tener en cuenta la autocorrelación
Ejemplo:
Pseudorreplicación
En la práctica: “infla” los estadísticos de las pruebas (en un factor de tres
o más) y lleva a rechazar muchas hipótesis nulas que realmente
deberían haberse retenido.
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Solución?
Métodos estadísticos específicos:
- Análisis de series de tiempo
- Estadística espacial o geoestadística
Pseudorreplicación
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Autocorrelación espacial: es intrínseca a casi todas
las variables ecológicas tomadas a través de
espacios geográficos.
No existe aleatoriedad en los patrones de
distribucion de especies, individuos ni
fenómenos biológicos.
Pseudorreplicación
Parches & gradientesParches & gradientes
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Autocorrelación espacial: es intrínseca a casi todas
las variables ecológicas tomadas a través de
espacios geográficos.
Pseudorreplicación
Variables físicas ambientales
Fuente
Procesos biológicos “contagiosos”
condiciones
recursos abióticos
Especies de loc.
aledañas
Mortalidad Natalidad
Dispersión
Migración
Resultado: cada valor puede ser
parcialmente predicho por
los aledaños.
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
La autocorrelación de las variables ecológicas no debe ser
eliminada ni ignorada sino descrita y cuantificada
Los patrones espaciales son
funcionales en los ecosistemas
Pseudorreplicación
Estudiar la estructura espacialEstudiar la estructura espacial
de los procesos biológicos esde los procesos biológicos es
un requerimiento y a la vez unun requerimiento y a la vez un
reto fuerte para los ecólogos.reto fuerte para los ecólogos.
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Pruebas para su detección:
- estadístico Q de Durbin-Watson
- estadísticos de Box-Pierce y Ljung-Box
- modelos auto-regresivos integrados de promedio
móviles (ARIMA) en el análisis de las series de tiempo.
Pseudorreplicación
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Hay métodos estadísticos clásicosestadísticos clásicos con variantes corregidas para
la autocorrelación:
- Cliff y Ord (1973) proponen un método de corrección del ES del
estimador de la regresión lineal simple en presencia de autocorrelación,
que luego se extiende a las correlaciones, regresiones multiples, pruebas
t (Cliff y Ord, 1981) y al anova de clasificación simple (Griffith 1978, 1987).
Otras propuestas de estadísticos para su manejo: ajustes de
covarianzas, permutaciones, métodos de ordenación, análisis de
gradientes, prueba de Mantel, etc.
Pseudorreplicación
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Geoestadística o Estadística espacial
Emplea:
- funciones de estructura (correlogramas o variogramas)
- análisis de patrones espaciales (de puntos o de superficies)
- métodos de mapeos (kriging, polígonos de Dirichlet o Thiessen,
triangulación Delaunay, etc.).
Pseudorreplicación
AutocorrelaciónAutocorrelación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
La frecuencia había
disminuido entre 1991 y 1992
Pseudorreplicación
Pseudorréplica: 48 % de
176 artículos entre 1974 y 1980.
… pero aun era
“preocupantemente
alta”
PseudorreplicaciónPseudorreplicación
Dependencia de datosDependencia de datos
AutocorrelaciónAutocorrelación
Hulbert (1984)Hulbert (1984)
HeffnerHeffner et alet al.. (1996)(1996)
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
¿Qué se puede hacer en general
para combatir este problema?
En muchos estudios la replicación es difícil de obtener por
la escala, escaso presupuesto, poco tiempo, etc.
Pseudorreplicación
¿Deben dejarse de hacer¿Deben dejarse de hacer
estas investigaciones?estas investigaciones?
NO. Solo seguir una metodología adecuada
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
1) Mejorar los diseños de muestreos, incluyendo controles, réplicas,
asignación al azar e intercalamiento de las UM (en el tiempo y en el
espacio).
2) Replicar todo lo posible (si no puedo replicar el efecto a medir (ej.:
disturbios), puedo replicar al menos los controles).
3) Describir adecuadamente los experimentos realizados o el diseño de los
muestreos
Pseudorreplicación
Metodología adecuada
Esta descripción completa debe incluir:
•naturaleza de las unidades experimentales (UE) a usar
•número y tipo de tratamientos (incluyendo los controles)
•propiedades o respuesta que se medirá en las UE
•manera en que los tratamientos son asignados a las UE
disponibles
•número de réplicas de cada tratamiento
•distribución física de las unidades experimentales
•secuencia temporal en que los tratamientos son aplicados
Esta descripción completa debe incluir:
•naturaleza de las unidades experimentales (UE) a usar
•número y tipo de tratamientos (incluyendo los controles)
•propiedades o respuesta que se medirá en las UE
•manera en que los tratamientos son asignados a las UE
disponibles
•número de réplicas de cada tratamiento
•distribución física de las unidades experimentales
•secuencia temporal en que los tratamientos son aplicados
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
4) Indicar explícitamente la falta de replicación.
5) No utilizar inferencia estadística cuando no es adecuada.
6) Si se utiliza inferencia estadística, sin la adecuada replicación,
interpretar adecuadamente los resultados.
7) Hacer muestreos verdaderamente independientes.
8) Utilizar estadísticas apropiadas para muestreos sucesivos.
1) Mejorar los diseños de muestreos, incluyendo controles, réplicas,
asignación al azar e intercalamiento de las UM (en el tiempo y en el
espacio).
2) Replicar todo lo posible (si no puedo replicar el efecto a medir (ej.:
disturbios), puedo replicar al menos los controles.
3) Describir adecuadamente los experimentos realizados o el diseño de los
muestreos.
Pseudorreplicación
Metodología adecuada
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
En investigaciones de campo la falta de
replicación no es sorprendente ni
“mala”: muchas veces es inevitable.
Lo que es altamente cuestionable es que a las
conclusiones tentativas derivadas de estudios sin replicar,
se les quiera dar apariencia inmerecida de generalidad o
rigor por la aplicación errónea de estadística inferencial.
Pseudorreplicación
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
“La Seudorreplicación es una epidemia de los
trabajos de campo. Si bien su efecto no es medible, y
por tanto no puede decirse que sea extremadamente
dañina, tampoco puede decirse lo contrario. Sea como
sea, es un cancer oculto que en cualquier momento
puede explotar y que en sus formas básicas puede
ser controlada solo con un mayor análisis de las
estrategias de toma de muestras”
Conclusiones
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
El diseño experimental o del muestreo es un pasoes un paso
vitalvital para el desarrollo de investigaciones de calidad.
Conclusiones
Sin embargo, la calidad de una investigación
depende de mucho más que de un buen diseño
experimental, ya que “este por si mismo no eseste por si mismo no es
ninguna garantía del valor de un estudioninguna garantía del valor de un estudio”.
A pesar de los errores de diseño o estadísticos, las
investigaciones publicadas contienen información útil,
pero esto no puede ser una justificación para
continuar cometiendo errores.
Seminarios de Estadística
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicios
Seminarios de BioestadísticaSeminarios de Bioestadística
Fig. 34. Promedio de huevos por tortuga a lo largo de la temporada para la
Península de Guanahacabibes. En rojo, línea de ttendencia
Ejercicio: Identifica el problema estadístico:
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
La abundancia de la especie X se correlaciona
negativamente con la abundancia del depredador Y.
Underwood (1990)
Se escogen dos áreas: una experimental donde Y se elimina y una
control. Se mide abundancia de X usando cuadrantes replicados en
cada una de las áreas, bajo la hipótesis nula de que la abundancia de X
será la misma en ambos lugares.
Ejercicio:
 Una hipótesis plausible es que el efecto de Y es responsable de
las diferencias en abundancias de X
 Una predicción apropiada sería que X aumentaría su abundancia
si se remueve Y.
(se plantea
como objetivo).
¿Qué creen de este experimento?¿Qué creen de este experimento?
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Consecuencias:
1) no se puede discriminar si la diferencia detectada es por efecto de Y o por
diferencias propias de las áreas
2) no se pueden extrapolar los resultados a cualquier área donde pudiera
aparecer X y Y porque se usó un modelo de efectos fijos (sin réplicas) para
intentar corroborar una hipótesis que requeriría de un modelo de efectos
aleatorios (muestrear varias áreas).
La abundancia de la especie X se correlaciona
negativamente con la abundancia del depredador Y.
Ejercicio:
La hipótesis
sobre el efecto de
los tratamientos
Hipótesis de
diferencia entre
dos áreas
… se ha transformado en…
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Identifique el tipo de pseudorréplica:
A) Para caracterizar la longitud de las alas de una especie
de ave colecto seis ejemplares y les mido ambas alas
obteniendo 12 medidas.
Ejercicio:
Rta./: Pseudorreplicación simple: considera las dos alas de
un ave como medidas independientes.
Seminarios de BioestadísticaSeminarios de Bioestadística
PseudorreplicaciónPseudorreplicación
B) Para caracterizar las llamadas de una especie de
murciélago voy al campo y registro las llamadas de todos
los que salen de la cueva en un periodo de 10 minutos.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./: Pseudorreplicación sacrificial: un mismo individuo puede emitir
varias llamadas mientras está saliendo de la cueva. El resultado de la
grabación es una mezcla de varias llamadas de varios individuos. Es
imposible conocer el tamaño de muestra real.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
C) Para caracterizar el efecto de la quema de un
bosque sobre una población de hierbas, tomo dos
áreas, una quemada y otra no quemada, y distribuyo
aleatoriamente n unidades de muestreo (parcelas).
Comparo con una t de Student.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./ Pseudorréplica simple. Es un estudio sin réplica. Además,
hay autocorrelación espacial en las parcelas.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
D) Para determinar las diferencias en abundancia de especies de
aves entre meses entre áreas con disturbio y sin disturbio.
Selecciono dos localidades (una con disturbio y otra sin disturbio),
a las que hago una expedición mensual de tres días hábiles,
durante un año, en los que efectúo seis conteos de aves, tres por
la mañana y tres por la tarde. Aplico un ANOVA de clasificación
doble y efectos fijos y un SNK.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./ Pseudorréplica simple. Es un estudio sin réplica, cada mes fue
muestreado una sola vez. Hay pseudorréplica por falta de independencia de
los datos porque los dos conteos de un mismo día no pueden ser
considerados independientes. Además, hay autocorrelación temporal. El
modelo de ANOVA no permite la extrapolación a otros hábitats.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
E) Para medir la amplitud del subnicho trófico, se analizan los
contenidos estomacales de 20 individuos de la especie X colectados
al azar. En cada estómago se cuenta la cantidad de individuos por
cada tipo de artículo alimentario. Se hace un ANOVA para comparar
las abundancias de cada tipo de alimento y determinar cual es el
más importante.
Identifique el tipo de pseudorréplica:Ejercicio:
Rta./ Pseudorreplicación por falta de independencia (los artículos dentro
de cada estómago no son independientes). Además, hay sesgos: las aves
pueden haber sido aleatorio pero el consumo de los artículos por cada
individuo no lo es: hay un patrón de preferencia o disponibilidad.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Ejercicio:
¿Cuál es la conclusiones correcta?:
•la tasa de descomposición de las hojas de arce en el lago es de…
•la tasa de descomposición a 1 m de profundidad en un lago es de…
•la tasa de descomposición de hojas de arce en un punto del lago a 1
m de profundidad fue de…
(El experimento no está mal pero no da ninguna información acerca de la variabilidad
entre varios puntos a esa profundidad, por tanto no puede generalizarse)
Queremos determinar cuan rápido se
descomponen la hojas de arce en el borde
de los lagos. Hacemos ocho contenedores
con redes, se llenan de hojas y se ponen
en un punto a 1 m de profundidad.
Luego de un mes se extraen y se determina la cantidad de materia
orgánica perdida en cada una y se promedian.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Si la hipótesis a demostrar fuera las
diferencias entre las tasas de
descomposición a dos profundidades
(ejemplo, a 1 y 10 m) y ponemos ocho
contenedores de hojas en un punto a 1
m y ocho más en otro punto a 10 m de
profundidad.
Ejercicio:
 Resultado puntual.
 No se estan probando las diferencias “entre profundidades” sino “entre
dos localidades” (no tendría estimado de variabilidad en las zonas) sino
en dos puntos.
 Si se insiste en la generalización, se cometerá pseudorreplicación.
¿Diseño adecuado?:
Esperamos un mes y los recogemos y medimos. Aplicamos una prueba
estadística (ej.: t o U) para ver si hay diferencias significativas entre
localidades.
8
8
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Si la hipótesis a demostrar fuera las
diferencias entre las tasas de
descomposición a dos profundidades
(ejemplo, a 1 y 10 m) y ponemos ocho
contenedores de hojas en un punto a 1
m y ocho más en otro punto a 10 m de
profundidad.
Ejercicio:
Esperamos un mes y los recogemos y medimos. Aplicamos una prueba
estadística (ej.: t o U) para ver si hay diferencias significativas entre
localidades.
¿Diseño adecuado?:
- Ocho muestras (sitios) en
cada nivel, con varias
réplicas en cada una.
8
8
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación
Identifique posibles fuentes de
pseudorréplica en los siguientes muestreos
Ejercicio:
Tabla N: Obtención del material biológico para los estudios genéticos en
tortugas.
Seminarios de BioestadísticaSeminarios de Bioestadística
Pseudorreplicación

Más contenido relacionado

Destacado

Historia de la medicina
Historia de la medicinaHistoria de la medicina
Historia de la medicina
Jorge Amarante
 
Aplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas cienciasAplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas ciencias
LouiseValliere
 
01.2. variables medicion
01.2. variables medicion01.2. variables medicion
01.2. variables medicion
SCSF2011
 

Destacado (15)

Probabilidad I
Probabilidad IProbabilidad I
Probabilidad I
 
Consideraciones generales de Bioestadística
Consideraciones generales de BioestadísticaConsideraciones generales de Bioestadística
Consideraciones generales de Bioestadística
 
Técnicas de conteo
Técnicas de conteoTécnicas de conteo
Técnicas de conteo
 
Teoría de conjuntos
Teoría de conjuntosTeoría de conjuntos
Teoría de conjuntos
 
Tablas de contigencia2012
Tablas de contigencia2012Tablas de contigencia2012
Tablas de contigencia2012
 
Generalidades de bioestadística
Generalidades de bioestadística  Generalidades de bioestadística
Generalidades de bioestadística
 
Bioestadística , Variables
Bioestadística , Variables   Bioestadística , Variables
Bioestadística , Variables
 
Historia de la medicina
Historia de la medicinaHistoria de la medicina
Historia de la medicina
 
Conceptos básicos de estadistica
Conceptos básicos de estadistica  Conceptos básicos de estadistica
Conceptos básicos de estadistica
 
Bioestadística
BioestadísticaBioestadística
Bioestadística
 
Estadistica Aplicada A La Salud
Estadistica Aplicada A La SaludEstadistica Aplicada A La Salud
Estadistica Aplicada A La Salud
 
Aplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas cienciasAplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas ciencias
 
01.2. variables medicion
01.2. variables medicion01.2. variables medicion
01.2. variables medicion
 
Clasificación de variables
Clasificación de variablesClasificación de variables
Clasificación de variables
 
Tipos de escalas y variables estadísticas
Tipos de escalas y variables estadísticasTipos de escalas y variables estadísticas
Tipos de escalas y variables estadísticas
 

Similar a Seudorreplica, dependencia de errores y autocorrelación: los enemigos ignorados

5. diseño de experimentos - principios
5.  diseño de experimentos - principios5.  diseño de experimentos - principios
5. diseño de experimentos - principios
rbarriosm
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docx
AndreaPacheco95
 
Muestra o analisis muestral
Muestra o analisis muestralMuestra o analisis muestral
Muestra o analisis muestral
Carlos Armando Garcia Laime
 

Similar a Seudorreplica, dependencia de errores y autocorrelación: los enemigos ignorados (20)

Manual práctico de quimiometría 2013
Manual práctico de quimiometría 2013Manual práctico de quimiometría 2013
Manual práctico de quimiometría 2013
 
5. diseño de experimentos - principios
5.  diseño de experimentos - principios5.  diseño de experimentos - principios
5. diseño de experimentos - principios
 
Expo sbs. poblacion muestra criterios selección instrumentos
Expo sbs. poblacion muestra criterios selección instrumentosExpo sbs. poblacion muestra criterios selección instrumentos
Expo sbs. poblacion muestra criterios selección instrumentos
 
Distribución de Poisson.pptx
Distribución de Poisson.pptxDistribución de Poisson.pptx
Distribución de Poisson.pptx
 
Casos y controles
Casos y controlesCasos y controles
Casos y controles
 
MuestreoEpVt
MuestreoEpVtMuestreoEpVt
MuestreoEpVt
 
Salud publica 3 Dr. García.pdf
Salud publica 3 Dr. García.pdfSalud publica 3 Dr. García.pdf
Salud publica 3 Dr. García.pdf
 
Sesion 10_Población y Muestra.pptx
Sesion 10_Población y Muestra.pptxSesion 10_Población y Muestra.pptx
Sesion 10_Población y Muestra.pptx
 
A5.pdf
A5.pdfA5.pdf
A5.pdf
 
Diseño estadistico
Diseño estadisticoDiseño estadistico
Diseño estadistico
 
A5.pdf
A5.pdfA5.pdf
A5.pdf
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docx
 
Medidas básicas en Bioestadística. Lic. Henry Andrade
Medidas básicas en Bioestadística. Lic. Henry Andrade Medidas básicas en Bioestadística. Lic. Henry Andrade
Medidas básicas en Bioestadística. Lic. Henry Andrade
 
Sesgos
SesgosSesgos
Sesgos
 
01 recopilacion de la informacion
01 recopilacion de la informacion01 recopilacion de la informacion
01 recopilacion de la informacion
 
Denia
DeniaDenia
Denia
 
Método Inductivo
Método InductivoMétodo Inductivo
Método Inductivo
 
Muestra o analisis muestral
Muestra o analisis muestralMuestra o analisis muestral
Muestra o analisis muestral
 
Diseños analiticos
Diseños analiticosDiseños analiticos
Diseños analiticos
 
Diseño completamente aleatorizado
Diseño completamente aleatorizadoDiseño completamente aleatorizado
Diseño completamente aleatorizado
 

Último

metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
MedicinaInternaresid1
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
IrisMoreno27
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
JC Díaz Herrera
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
ssuserbdc329
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
BESTTech1
 

Último (20)

metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 

Seudorreplica, dependencia de errores y autocorrelación: los enemigos ignorados

  • 1. Pseudorreplicación, dependencia de errores y autocorrelación: los enemigos ignoradoslos enemigos ignorados Dr. Dennis Denis Ávila
  • 2. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Razonamiento inductivo: Es aquel que utiliza observaciones específicas para construir principios generales. Es ir de lo particular a lo general. Asunción filosófica: si algo es cierto en algunas ocasiones también lo es en situaciones similares aunque no se hayan observado, y la probabilidad de acierto depende del número de fenómenos observados. Asunción filosófica: si algo es cierto en algunas ocasiones también lo es en situaciones similares aunque no se hayan observado, y la probabilidad de acierto depende del número de fenómenos observados. Replicación Introducción
  • 3. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Tamaño de muestra adecuado,Tamaño de muestra adecuado, aleatorización y replicaciónaleatorización y replicación Garantía de la independencia de las observaciones Mejores estimaciones (+precisión; +exactitud) Resultados representativos Adecuada potencia Introducción permitir las estadísticas inferenciales
  • 4. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Introducción - El lenguaje es cercano a lo incomprensible - Los problemas asociados a la P - Las asunciones son irreales en la naturaleza - La filosofía de las pruebas de hipótesis no se ajusta a la lógica común - Existen aspectos básicos muy arbitrarios Problemas con la estadística frecuentista
  • 5. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Introducción Homogeneidad de varianzas2 Aleatorización Independencia de errores4 Asunciones de las pruebas: Rutinariamente comprobadas Normalidad (pruebas paramétricas)1 3 ¿¿ ?? ¿¿ ??
  • 6. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Ubicación aleatoria de las unidades muestrales ¿Elimina los sesgos? (error sistemático repetitivo)
  • 7. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Ejemplo: Geweke et al. (2003) demostró cómo el proceso de admisión de pacientes en los hospitales no es aleatorio, ya que determinados hospitales atraen más a enfermos con una alta percepción de la gravedad de la enfermedad que otros. Ejemplo: Geweke et al. (2003) demostró cómo el proceso de admisión de pacientes en los hospitales no es aleatorio, ya que determinados hospitales atraen más a enfermos con una alta percepción de la gravedad de la enfermedad que otros.
  • 8. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Elementos ignorados con frecuencia Todas las muestras de parámetros tomados de un mismo individuo están relacionadas y alteran los estimados de variabilidad poblacional. aa bb cc dda’a’ b’b’ c’c’ d’d’
  • 9. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Elementos ignorados con frecuencia Las muestras tomadas en lugares cercanos entre si tendrán mayores probabilidades de ser más similares.
  • 10. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Elementos ignorados con frecuencia Al trabajar con varias especies las especies más cercanas filogenéticamente tienen más probabilidades de ser o responder de forma más similar.
  • 11. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Elementos ignorados con frecuencia Los experimentos desarrollados durante un mismo día o mes pueden dar resultados más semejantes entre si que los que se hacen en días diferentes marzo mayo septiembre noviembre diciembre enero a a’ a’’ b b’ c c’ d’d e f’f
  • 12. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Aleatorización Independencia Introducción & Efecto despreciableEfecto despreciable
  • 13. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Introducción Efectos de estas dependencias •Se altera fuertemente los niveles de significación •Reflejan falta de profundidad y diseños descuidados •Se disminuye la potencia •Se cambian las varianzas de los datos
  • 14. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Discutir la violación estadística más frecuente en todos los trabajos: la pseudorreplicaciónpseudorreplicación, específicando sus variantes o fuentes principales. Introducción Objetivo:
  • 15. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorréplica: 48 % de los trabajos Pseudorreplicación Tema de los análisis estadísticos incorrectos Innis (1979) Underwood (1981) Connell (1974) Hurlbert (1984)Hurlbert (1984) enfoque directo y agresivo  provocativo “demasiado educadas e incluso apologísticas” 176 estudios experimentales (e/ 1974-1980)
  • 16. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Autocorrelación de los datos Dependencia entre las unidades Diseño de muestreo o análisis incorrectos Pseudorreplicación defecto de la planificación de los estudios, en los que hay una malinterpretación del tamaño real de muestra: se exagera el número de réplicas que componen la muestra, al considerar como estadísticamente independientes datos que no lo son. Definición “ligera” Neologismo ≈ “efectos confundidos”
  • 17. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación En la terminología de los ANOVAS: es la prueba de un tratamiento cuyo término de error es inapropiado para la hipótesis bajo consideración. Pseudorreplicación El uso de estadística inferencial para probar efecto de tratamientos con datos de experimentos donde estos tratamientos no están adecuadamente replicados (aunque las muestras si pueden estarlo) o cuando las réplicas no son estadísticamente independientes. Definición estricta:
  • 18. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación “el principal proposito [de la replicación], que no tiene otro método alternativo de lograrse, es proveer un estimado del error por el cual la significación de las comparaciones será juzgada... [y] el propósito de la aleatorización... es garantizar la validez de una prueba de significación, que se basa en un estimado del error, hecho posible por la replicación”. Fisher (1927; 1:63-64):Fisher (1927; 1:63-64): Pseudorreplicación
  • 19. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Pruebas estadísticas XX XX
  • 20. Seminarios de BioestadísticaSeminarios de Bioestadística XX Pseudorreplicación Pseudorreplicación … si las diferencias pueden ser detectadas a través de esta variabilidad: son “estadísticamenteestadísticamente significativassignificativas”. Pruebas estadísticas XX El estimado de variabilidad debeEl estimado de variabilidad debe corresponder a los niveles que secorresponder a los niveles que se estan comparandoestan comparando El estimado de variabilidad debeEl estimado de variabilidad debe corresponder a los niveles que secorresponder a los niveles que se estan comparandoestan comparando
  • 21. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Selección inadecuada de las réplicasSelección inadecuada de las réplicas Autocorrelación en los datosAutocorrelación en los datos Dependencia entre muestrasDependencia entre muestras Estimados deEstimados de variabilidadvariabilidad inválidosinválidos
  • 22. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación campo de cultivo población de escarabajos Densidad media= 51 escarabajos/m2 Varianza = 100 Hurlbert (1984) Ejemplo: Se tiene… Pseudorreplicación ¿Efecto de un insecticida? Dos experimentos con dos diseños
  • 23. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Hurlbert (1984) Pseudorreplicación Ejemplo: Diseño 1 Con insecticida Sin insecticida n=6 n=7 d1= 52 d2= 50Muestreo piloto inicial: ns 48 h después…
  • 24. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Hurlbert (1984) Pseudorreplicación Ejemplo: Diseño 2 Controles (sin insecticida) Muestras (con insecticida) Parcelas de 1 m2 Muestreo previo: 1 m2 por cuadrante  ns Aplico insecticida 48 h Muestreamos
  • 25. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Hurlbert (1984) Pseudorreplicación Ejemplo: Diseño 2Diseño 1 Tratamientos? Con insecticida y sin insecticida Tamaño de muestra? Número de réplicas? n=1 n=5 6 15 Pseudorréplicas
  • 26. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Prueba estadística: diferencias NS Diseño 1 Hurlbert (1984) Pseudorreplicación Ejemplo: Diseño 2 ¿Cual es el efecto estadístico?
  • 27. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Diseño 1 Hurlbert (1984) Pseudorreplicación Ejemplo: Diseño 2 Si se repite el estudio aumentando el número de “réplicas”: Figura. Relación entre la probabilidad de cometer error de tipo I y la cantidad de réplicas (n) para dos diseños experimentales, donde el resultado ya era conocido. El diseño 1 no prueba el efecto del herbicida sino diferencias entre áreas, que siempre se pueden detectar: solo hay que aumentar la n. ¿Cual es el efecto estadístico?
  • 28. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Hurlbert (1984) Pseudorreplicación Ejemplo: La pseudorreplicación aumenta laLa pseudorreplicación aumenta la probabilidad de detectar efectosprobabilidad de detectar efectos espúrios de los tratamientos.espúrios de los tratamientos. Conclusión
  • 29. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Diseño 2Diseño 1 Pseudorreplicación ¿Es ilógico este diseño?
  • 30. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Diseño de muestreo No es un problema único del diseño experimental CombinaciCombinaci ónón Análisis estadístico ¿Hipótesi¿Hipótesi s?s?
  • 31. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Clasificación Hurlbert (1984) 1 Simple 2 Sacrificial 3 Temporal
  • 32. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Se consideran como réplicas independientes las medidas sobre una misma unidad de estudio. Pseudorreplicación 1 Simple
  • 33. Seminarios de BioestadísticaSeminarios de Bioestadística 1 Simple Pseudorreplicación Pseudorreplicación Ejemplo: deseo comparar dos tratamientos… … tomo dos unidades de muestreo “representativas”… … y tomo varias muestras dentro de ellas. y A1 A B A2 A3 A4 B1 B2 B3 B4
  • 34. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Planilla: Planilla: 1- 2- 3- 4- 5- 6- 7- 8- Pseudorreplicación ¿ocho muestras? (4+4) 1 muestra de A (4 réplicas) 1 muestra de B (4 réplicas) 1 Simple
  • 35. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación 1 Simple Prueba de comparación (X1=X2) ¿A=B? 1muestraA=1muestraB
  • 36. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación 1 Simple Varianza 1 Varianza 2 Prueba de comparación X1 X2
  • 37. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación 1 Simple Prueba de comparación ¿A=B? A A A A A A A B B B B B B B Varianza A Varianza B
  • 38. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Espacio implícito en la hipótesis espacio muestreal real GeneralizaciónGeneralización Pseudorreplicación 1 Simple
  • 39. Seminarios de BioestadísticaSeminarios de Bioestadística 1 Simple Pseudorreplicación Muchas veces se origina por la confusión en la determinación de cuáles son las réplicasréplicas, las unidades de muestreounidades de muestreo y las muestrasmuestras. Pseudorreplicación
  • 40. Seminarios de BioestadísticaSeminarios de Bioestadística Ejercicio: Identifique la respuesta correcta: El tamaño de muestra es… a) ... el número total de unidades que se toman con el instrumento de muestreo b) ... la cantidad de unidades que se toman para hacer mediciones en ellas por cada nivel de diseño c) … la cantidad de mediciones que se hacen en cada nivel del diseño d) ... el número de niveles del diseño Pseudorreplicación ¿Sabemos diferenciar correctamente las muestras de las unidades muestrales o de las réplicas en nuestras investigaciones? Pseudorreplicación
  • 41. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Ejercicio 2: Se toman seis extracciones de 1 000 mm3 de agua en un sitio, con una pipeta, para determinar la densidad promedio de protozoos en un río. Pseudorreplicación ¿Población biológica?: Todas las agrupaciones de protozoos de una misma especie. ¿Población estadística?: Virtual. Todos los volúmenes de 1 000 mm3 susceptibles de ser tomados por la pipeta. ¿Variable?: Densidad de protozoos. ¿Unidad de muestreo?: Una extracción de agua con la pipeta. ¿Número de muestras?: 1 sola ¿Cuántas réplicas?: Seis
  • 42. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Ejercicio 3: Objetivo: comparar tamaños de los cráneos en cuatro grupos poblacionales. Tomo 15 cráneos de cada grupo y los mido. Pseudorreplicación ¿Población biológica?: Cuatro poblaciones con n individuos. ¿Variables?: Ejemplo: “Alto” y “ancho” ¿Población estadística?: Todos los cráneos de que podría disponer para estudiar. ¿Número de muestras?: Cuatro (una por grupo) ¿Unidad de muestreo?: Un cráneo Tamaño de muestra: 15
  • 43. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación 1 Simple 2 Sacrificial Aparece cuando se exagera el tamaño de muestra al considerar como independientes varias medidas tomadas sobre cada unidad de muestreo (los datos de muestras verdaderas se mezclan con las réplicas). B1 B2 B3 B4 B1B1 B2B2 B3B3 B4B4 ¿Muestras?¿Muestras? ¿Réplicas?¿Réplicas? 2 por tratamiento2 por tratamiento 4 por muestra4 por muestra
  • 44. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Normalidad (pruebas paramétricas) Homogeneidad de varianzas2 Aleatorización Independencia de errores4 Las pruebas estadísticas se apoyan para su efectividad en una serie de asunciones conocidas: 1 3
  • 45. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación El valor obtenido en una observación no debe estar afectado por los valores de las restantes observaciones. El resultado de un evento no influye o afecta las probabilidades de otro. Definición formal (probabilística): dos eventos A y B se dicen independientes si la P(A y B) = P(A)P(B) Por ejemplo: - si el sexo de un bebé de una madre es independiente del sexo de sus hermanos - la probabilidad que tiene un bebé de ser varón es ½ Pseudorreplicación … entonces la probabilidad de que una madre tenga cuatro varones es: P(varón y varón y varón y varón) = P(varón)P(varón)P(varón)P(varón) = (1/2)(1/2)(1/2)(1/2) = 1/16 Independencia de errores
  • 46. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Independencia de errores AA BB P(A y B) = P(A)P(B)P(A y B) = P(A)P(B) P(A) P(B) 1 gl 1 glPrueba de hipótesis P(A y B) < P(A)P(B)P(A y B) < P(A)P(B) Se pierden fracciones de grados de libertad Mientras menos gl existen es menor la probabilidad de detectar diferencias. El valor obtenido en una observación no debe estar afectado por los valores de las restantes observaciones. El resultado de un evento no influye o afecta las probabilidades de otro. Definición formal (probabilística): dos eventos A y B se dicen independientes si la P(A y B) = P(A)P(B)
  • 47. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Si es posible identificar un efecto externo que afecte simultáneamente a un subconjunto de datos y no a otros, potencialmente se está ante un experimento con datos dependientes. Pseudorreplicación Dependencia de errores ¿Cómo identificarla?¿Cómo identificarla?
  • 48. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Dependencia de errores •Probabilidad de ocurrencia •Errores asociados Individuales Si algún efecto actúa sobre un grupo de muestras y no sobre otras… No independenciaNo independencia en los erroresen los errores
  • 49. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Por ejemplo: estudios en peces (efecto de la temperatura sobre el crecimiento) Pseudorreplicación Dependencia de errores Unidad de muestreo: el pez individual Unidad experimental (tratamiento): pecera con una temperatura dada XX oo CC
  • 50. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Por ejemplo: estudios en peces (efecto de la temperatura sobre el crecimiento) Pseudorreplicación Dependencia de errores ¿Una pecera con cada temperatura? AA oo CC BB oo CC Pseudorréplica sacrificial
  • 51. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Por ejemplo: estudios en peces (efecto de la temperatura sobre el crecimiento) Pseudorreplicación Dependencia de errores AA oo CC
  • 52. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Por ejemplo: estudios en peces (efecto de la temperatura sobre el crecimiento) Pseudorreplicación Dependencia de errores AA oo CC AA oo CC AA oo CC AA oo CC
  • 53. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Por ejemplo: Pseudorreplicación Dependencia de errores -Todas las muestras que se toman en un laboratorio en un mismo día, pueden estar sujetas a los mismos factores ambientales causantes de ruido o efectos espúrios. -Todos los experimentos que se hacen con un mismo lote de animales, o con un mismo frasco de reactivo, etc. pueden presentar dependencia de errores (si hay diferencias entre ellos). - En estudios multiespecíficos, las especies no son muestras independientes a causa de las relaciones filogenéticas: las especies más cercanas evolutivamente, de las mismas familias u órdenes, tenderán a ser más similares entre si que con las de otras familias u órdenes.
  • 54. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Dependencia de errores ¿No son “sutilezas” exageradas? ¿Es real el peligro? La falta de independencia impideLa falta de independencia impide conocer la significación real en unaconocer la significación real en una prueba estadísticaprueba estadística (significa que la P obtenida no se puede comparar con alfa 0,05 porque está sobre- o subestimada).
  • 55. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación - No hay pruebas robustas ante ella - Es muy difícil de detectar - No puede ser “eliminada” estadísticamente Pseudorreplicación Dependencia de errores Por tanto: NUNCA sabremos si tuvo efecto o nó ¿No son “sutilezas” exageradas? ¿Es real el peligro?
  • 56. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación ¿Cómo puede identificarse? Problemas: - Es a posteriori, si hay datos inservibles - Es una prueba de hipótesis ¿confiable? Run Test Detallado análisis del diseño del muestreo Pseudorreplicación Dependencia de errores
  • 57. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación ¿Cómo se puede controlar la falta de independencia en los errores? - Diseño adecuado del muestreo - Buena aleatorización - Dispersión de la toma de muestras en tiempo y espacio - Métodos insesgados de muestreo Pseudorreplicación ¿Tomamos muestras realmente aleatorias? ¿Tomamos muestras realmente aleatorias?
  • 58. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación El valor de las pruebas depende de la capacidad del científico para demostrar que tomó sus datos de forma aleatoria. Un científico cuidadoso y objetivo está entrenado para ser escéptico y nunca aceptaría ninguna evidencia cuya validez dependa totalmente de las habilidades o del juicio de otra persona. Pseudorreplicación
  • 59. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Ejercicio: Seleccionen un número del uno al cuatro (1 2 3 4) y anótenlo ¿Cuál sacaron? La selección humana no es aleatoria 1 2 3 4 20 % 5 % 20 % 45 % 25 % Pseudorreplicación
  • 60. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Es muy difícil tomar muestras totalmente aleatorias cuando se trabaja fuera de un laboratorio. Pseudorreplicación - Los conteos de organismos dependen de su tamaño, vistosidad, conducta, hora del día, fecha, patrón de distribución de la población, etc. - El estado anímico del investigador, sus habilidades y sus características físicas influyen en los datos. -Los muestreos se tienden a hacer en los lugares donde lógicamente uno espera que va a encontrar individuos. - Para recorrer las áreas se siguen los caminos. - Se muestrean más las zonas accesibles que en las difíciles o inaccesibles.
  • 61. Seminarios de BioestadísticaSeminarios de Bioestadística 2 Sacrificial 3 Temporal Pseudorreplicación Pseudorreplicación Cuando se consideran como réplicas las medidas tomadas sobre una misma unidad en diferentes momentos. A1 B1 A2 B2 A3 B3 An Bn AutocorrelaciónAutocorrelación
  • 62. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Forma especial de pseudorreplicación por falta de independencia, cuando existe una correlación de una serie de datos con sus propios valores, alternados por un salto particular de k observaciones. * También se llama dependencia serial porque un valor puede ser parcialmente predicho por los valores que le anteceden. AutocorrelaciónAutocorrelación
  • 63. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación 5 2 8 3 6 1 4 8 9 5 5 6 4 7 3 8 2 9 Ejemplo simple: Patrón: Cada dos datos aparece un incremento de una unidad o una disminución de una unidad Serie de datos: A) B) ¿Aleatorios? AutocorrelaciónAutocorrelación
  • 64. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pseudorreplicación Series de datos con autocorrelación intrínseca:Series de datos con autocorrelación intrínseca: - Datos posicionales - Datos de crecimiento - Datos de diferentes localidades geográficas - Datos de dinámica (cambios en el tiempo) - Datos climáticos Autocorrelación Temporal Espacial AutocorrelaciónAutocorrelación
  • 65. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Efecto estadístico: subestima la variabilidad y estrecha artificialmente los limites de confianza de los estimadores. Pseudorreplicación AutocorrelaciónAutocorrelación Produce que: -los estimados por cuadrados mínimos no sean eficientes -los intervalos de confianza estan distorsionados -no sesga los estimadores del efecto pero si el error estándar de estos -invalida seriamente las pruebas de hipótesis
  • 66. Seminarios de BioestadísticaSeminarios de Bioestadística PseudorreplicaciónPseudorreplicación Efecto estadístico: subestima la variabilidad y estrecha artificialmente los limites de confianza de los estimadores. 0 r Teniendo en cuenta la autocorrelación r Sin tener en cuenta la autocorrelación Ejemplo: Pseudorreplicación En la práctica: “infla” los estadísticos de las pruebas (en un factor de tres o más) y lleva a rechazar muchas hipótesis nulas que realmente deberían haberse retenido. AutocorrelaciónAutocorrelación
  • 67. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación ¿Solución? Métodos estadísticos específicos: - Análisis de series de tiempo - Estadística espacial o geoestadística Pseudorreplicación AutocorrelaciónAutocorrelación
  • 68. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Autocorrelación espacial: es intrínseca a casi todas las variables ecológicas tomadas a través de espacios geográficos. No existe aleatoriedad en los patrones de distribucion de especies, individuos ni fenómenos biológicos. Pseudorreplicación Parches & gradientesParches & gradientes AutocorrelaciónAutocorrelación
  • 69. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Autocorrelación espacial: es intrínseca a casi todas las variables ecológicas tomadas a través de espacios geográficos. Pseudorreplicación Variables físicas ambientales Fuente Procesos biológicos “contagiosos” condiciones recursos abióticos Especies de loc. aledañas Mortalidad Natalidad Dispersión Migración Resultado: cada valor puede ser parcialmente predicho por los aledaños. AutocorrelaciónAutocorrelación
  • 70. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación La autocorrelación de las variables ecológicas no debe ser eliminada ni ignorada sino descrita y cuantificada Los patrones espaciales son funcionales en los ecosistemas Pseudorreplicación Estudiar la estructura espacialEstudiar la estructura espacial de los procesos biológicos esde los procesos biológicos es un requerimiento y a la vez unun requerimiento y a la vez un reto fuerte para los ecólogos.reto fuerte para los ecólogos. AutocorrelaciónAutocorrelación
  • 71. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Pruebas para su detección: - estadístico Q de Durbin-Watson - estadísticos de Box-Pierce y Ljung-Box - modelos auto-regresivos integrados de promedio móviles (ARIMA) en el análisis de las series de tiempo. Pseudorreplicación AutocorrelaciónAutocorrelación
  • 72. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Hay métodos estadísticos clásicosestadísticos clásicos con variantes corregidas para la autocorrelación: - Cliff y Ord (1973) proponen un método de corrección del ES del estimador de la regresión lineal simple en presencia de autocorrelación, que luego se extiende a las correlaciones, regresiones multiples, pruebas t (Cliff y Ord, 1981) y al anova de clasificación simple (Griffith 1978, 1987). Otras propuestas de estadísticos para su manejo: ajustes de covarianzas, permutaciones, métodos de ordenación, análisis de gradientes, prueba de Mantel, etc. Pseudorreplicación AutocorrelaciónAutocorrelación
  • 73. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Geoestadística o Estadística espacial Emplea: - funciones de estructura (correlogramas o variogramas) - análisis de patrones espaciales (de puntos o de superficies) - métodos de mapeos (kriging, polígonos de Dirichlet o Thiessen, triangulación Delaunay, etc.). Pseudorreplicación AutocorrelaciónAutocorrelación
  • 74. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación La frecuencia había disminuido entre 1991 y 1992 Pseudorreplicación Pseudorréplica: 48 % de 176 artículos entre 1974 y 1980. … pero aun era “preocupantemente alta” PseudorreplicaciónPseudorreplicación Dependencia de datosDependencia de datos AutocorrelaciónAutocorrelación Hulbert (1984)Hulbert (1984) HeffnerHeffner et alet al.. (1996)(1996)
  • 75. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación ¿Qué se puede hacer en general para combatir este problema? En muchos estudios la replicación es difícil de obtener por la escala, escaso presupuesto, poco tiempo, etc. Pseudorreplicación ¿Deben dejarse de hacer¿Deben dejarse de hacer estas investigaciones?estas investigaciones? NO. Solo seguir una metodología adecuada
  • 76. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación 1) Mejorar los diseños de muestreos, incluyendo controles, réplicas, asignación al azar e intercalamiento de las UM (en el tiempo y en el espacio). 2) Replicar todo lo posible (si no puedo replicar el efecto a medir (ej.: disturbios), puedo replicar al menos los controles). 3) Describir adecuadamente los experimentos realizados o el diseño de los muestreos Pseudorreplicación Metodología adecuada Esta descripción completa debe incluir: •naturaleza de las unidades experimentales (UE) a usar •número y tipo de tratamientos (incluyendo los controles) •propiedades o respuesta que se medirá en las UE •manera en que los tratamientos son asignados a las UE disponibles •número de réplicas de cada tratamiento •distribución física de las unidades experimentales •secuencia temporal en que los tratamientos son aplicados Esta descripción completa debe incluir: •naturaleza de las unidades experimentales (UE) a usar •número y tipo de tratamientos (incluyendo los controles) •propiedades o respuesta que se medirá en las UE •manera en que los tratamientos son asignados a las UE disponibles •número de réplicas de cada tratamiento •distribución física de las unidades experimentales •secuencia temporal en que los tratamientos son aplicados
  • 77. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación 4) Indicar explícitamente la falta de replicación. 5) No utilizar inferencia estadística cuando no es adecuada. 6) Si se utiliza inferencia estadística, sin la adecuada replicación, interpretar adecuadamente los resultados. 7) Hacer muestreos verdaderamente independientes. 8) Utilizar estadísticas apropiadas para muestreos sucesivos. 1) Mejorar los diseños de muestreos, incluyendo controles, réplicas, asignación al azar e intercalamiento de las UM (en el tiempo y en el espacio). 2) Replicar todo lo posible (si no puedo replicar el efecto a medir (ej.: disturbios), puedo replicar al menos los controles. 3) Describir adecuadamente los experimentos realizados o el diseño de los muestreos. Pseudorreplicación Metodología adecuada
  • 78. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación En investigaciones de campo la falta de replicación no es sorprendente ni “mala”: muchas veces es inevitable. Lo que es altamente cuestionable es que a las conclusiones tentativas derivadas de estudios sin replicar, se les quiera dar apariencia inmerecida de generalidad o rigor por la aplicación errónea de estadística inferencial. Pseudorreplicación
  • 79. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación “La Seudorreplicación es una epidemia de los trabajos de campo. Si bien su efecto no es medible, y por tanto no puede decirse que sea extremadamente dañina, tampoco puede decirse lo contrario. Sea como sea, es un cancer oculto que en cualquier momento puede explotar y que en sus formas básicas puede ser controlada solo con un mayor análisis de las estrategias de toma de muestras” Conclusiones
  • 80. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación El diseño experimental o del muestreo es un pasoes un paso vitalvital para el desarrollo de investigaciones de calidad. Conclusiones Sin embargo, la calidad de una investigación depende de mucho más que de un buen diseño experimental, ya que “este por si mismo no eseste por si mismo no es ninguna garantía del valor de un estudioninguna garantía del valor de un estudio”. A pesar de los errores de diseño o estadísticos, las investigaciones publicadas contienen información útil, pero esto no puede ser una justificación para continuar cometiendo errores.
  • 82. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Ejercicios
  • 83. Seminarios de BioestadísticaSeminarios de Bioestadística Fig. 34. Promedio de huevos por tortuga a lo largo de la temporada para la Península de Guanahacabibes. En rojo, línea de ttendencia Ejercicio: Identifica el problema estadístico:
  • 84. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación La abundancia de la especie X se correlaciona negativamente con la abundancia del depredador Y. Underwood (1990) Se escogen dos áreas: una experimental donde Y se elimina y una control. Se mide abundancia de X usando cuadrantes replicados en cada una de las áreas, bajo la hipótesis nula de que la abundancia de X será la misma en ambos lugares. Ejercicio:  Una hipótesis plausible es que el efecto de Y es responsable de las diferencias en abundancias de X  Una predicción apropiada sería que X aumentaría su abundancia si se remueve Y. (se plantea como objetivo). ¿Qué creen de este experimento?¿Qué creen de este experimento?
  • 85. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Consecuencias: 1) no se puede discriminar si la diferencia detectada es por efecto de Y o por diferencias propias de las áreas 2) no se pueden extrapolar los resultados a cualquier área donde pudiera aparecer X y Y porque se usó un modelo de efectos fijos (sin réplicas) para intentar corroborar una hipótesis que requeriría de un modelo de efectos aleatorios (muestrear varias áreas). La abundancia de la especie X se correlaciona negativamente con la abundancia del depredador Y. Ejercicio: La hipótesis sobre el efecto de los tratamientos Hipótesis de diferencia entre dos áreas … se ha transformado en…
  • 86. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Identifique el tipo de pseudorréplica: A) Para caracterizar la longitud de las alas de una especie de ave colecto seis ejemplares y les mido ambas alas obteniendo 12 medidas. Ejercicio: Rta./: Pseudorreplicación simple: considera las dos alas de un ave como medidas independientes.
  • 87. Seminarios de BioestadísticaSeminarios de Bioestadística PseudorreplicaciónPseudorreplicación B) Para caracterizar las llamadas de una especie de murciélago voy al campo y registro las llamadas de todos los que salen de la cueva en un periodo de 10 minutos. Identifique el tipo de pseudorréplica:Ejercicio: Rta./: Pseudorreplicación sacrificial: un mismo individuo puede emitir varias llamadas mientras está saliendo de la cueva. El resultado de la grabación es una mezcla de varias llamadas de varios individuos. Es imposible conocer el tamaño de muestra real.
  • 88. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación C) Para caracterizar el efecto de la quema de un bosque sobre una población de hierbas, tomo dos áreas, una quemada y otra no quemada, y distribuyo aleatoriamente n unidades de muestreo (parcelas). Comparo con una t de Student. Identifique el tipo de pseudorréplica:Ejercicio: Rta./ Pseudorréplica simple. Es un estudio sin réplica. Además, hay autocorrelación espacial en las parcelas.
  • 89. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación D) Para determinar las diferencias en abundancia de especies de aves entre meses entre áreas con disturbio y sin disturbio. Selecciono dos localidades (una con disturbio y otra sin disturbio), a las que hago una expedición mensual de tres días hábiles, durante un año, en los que efectúo seis conteos de aves, tres por la mañana y tres por la tarde. Aplico un ANOVA de clasificación doble y efectos fijos y un SNK. Identifique el tipo de pseudorréplica:Ejercicio: Rta./ Pseudorréplica simple. Es un estudio sin réplica, cada mes fue muestreado una sola vez. Hay pseudorréplica por falta de independencia de los datos porque los dos conteos de un mismo día no pueden ser considerados independientes. Además, hay autocorrelación temporal. El modelo de ANOVA no permite la extrapolación a otros hábitats.
  • 90. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación E) Para medir la amplitud del subnicho trófico, se analizan los contenidos estomacales de 20 individuos de la especie X colectados al azar. En cada estómago se cuenta la cantidad de individuos por cada tipo de artículo alimentario. Se hace un ANOVA para comparar las abundancias de cada tipo de alimento y determinar cual es el más importante. Identifique el tipo de pseudorréplica:Ejercicio: Rta./ Pseudorreplicación por falta de independencia (los artículos dentro de cada estómago no son independientes). Además, hay sesgos: las aves pueden haber sido aleatorio pero el consumo de los artículos por cada individuo no lo es: hay un patrón de preferencia o disponibilidad.
  • 91. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Ejercicio: ¿Cuál es la conclusiones correcta?: •la tasa de descomposición de las hojas de arce en el lago es de… •la tasa de descomposición a 1 m de profundidad en un lago es de… •la tasa de descomposición de hojas de arce en un punto del lago a 1 m de profundidad fue de… (El experimento no está mal pero no da ninguna información acerca de la variabilidad entre varios puntos a esa profundidad, por tanto no puede generalizarse) Queremos determinar cuan rápido se descomponen la hojas de arce en el borde de los lagos. Hacemos ocho contenedores con redes, se llenan de hojas y se ponen en un punto a 1 m de profundidad. Luego de un mes se extraen y se determina la cantidad de materia orgánica perdida en cada una y se promedian.
  • 92. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Si la hipótesis a demostrar fuera las diferencias entre las tasas de descomposición a dos profundidades (ejemplo, a 1 y 10 m) y ponemos ocho contenedores de hojas en un punto a 1 m y ocho más en otro punto a 10 m de profundidad. Ejercicio:  Resultado puntual.  No se estan probando las diferencias “entre profundidades” sino “entre dos localidades” (no tendría estimado de variabilidad en las zonas) sino en dos puntos.  Si se insiste en la generalización, se cometerá pseudorreplicación. ¿Diseño adecuado?: Esperamos un mes y los recogemos y medimos. Aplicamos una prueba estadística (ej.: t o U) para ver si hay diferencias significativas entre localidades. 8 8
  • 93. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Si la hipótesis a demostrar fuera las diferencias entre las tasas de descomposición a dos profundidades (ejemplo, a 1 y 10 m) y ponemos ocho contenedores de hojas en un punto a 1 m y ocho más en otro punto a 10 m de profundidad. Ejercicio: Esperamos un mes y los recogemos y medimos. Aplicamos una prueba estadística (ej.: t o U) para ver si hay diferencias significativas entre localidades. ¿Diseño adecuado?: - Ocho muestras (sitios) en cada nivel, con varias réplicas en cada una. 8 8
  • 94. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación Identifique posibles fuentes de pseudorréplica en los siguientes muestreos Ejercicio: Tabla N: Obtención del material biológico para los estudios genéticos en tortugas.
  • 95. Seminarios de BioestadísticaSeminarios de Bioestadística Pseudorreplicación