Este documento describe modelos para predecir la distribución de especies. Explica la importancia de conocer la distribución ecológica y geográfica de las especies. Detalla los tipos de datos necesarios para hacer modelaje, incluyendo datos de ocurrencia y datos ambientales. También describe diferentes métodos de modelado como BIOCLIM, DOMAIN, GARP y MaxEnt. Finalmente, cubre temas como la evaluación de modelos a través de curvas ROC y la interpretación de los resultados.
3. Utilidad de conocer la distribución
ecológica y geográfica
• Conservación del recurso
• Predicción en climas pasados y futuros
• Entender patrones espaciales de diversidad
• Potencial invasivo de especies no-nativas
• Comparación entre especies relacionadas
4. ¿Qué es el área de distribución?
Es el producto de 3 factores:
• B: Bióticos
• A: Ambientales
• M: Movimiento
Es el espacio donde se encuentra una especie.
5. Áreas ocupadas vs Áreas potenciales
La modelación de áreas ocupadas
(GO), se conoce como
Environmental Niche Modelling
La modelación de áreas
potenciales (GI), se denomina
Species Distribution Modelling
8. Datos de ocurrencia
• Primarios: Ubican a un individuo
de una especie en un lugar y
tiempo (observación o ejemplar).
• Secundarios: Depende de la
interpretación, generalización,
promedio de los datos primarios.
9. Datos de ocurrencia
• Presencia: Se observó o colectó un individuo en un sitio
y tiempo dado.
• No-presencia
• Ausencias estrictas: La especie no aparece en
inventarios exhaustivos.
• Pseudoausencias: Se generan usando la distancia de
presencia. A mayor distancia->Más puntos de
ausencia. GARP los genera al azar.
• Trasfondo (background): Datos al azar para
caracterizar el ambiente en general. Puede coincidir
con puntos de presencia. Adecuados para Maxent.
10. Datos de ocurrencia
• Suelen ser escasos y obtenidos
sin planeación (museos y
herbarios).
• Considerar nomenclatura de
la especie, georeferenciación
y resolución.
• Usar datos disponibles
públicamente (repetible).
• Mínimo ideal 40 puntos. Sin
evaluar bastan 20 puntos. No
usar menos de 10. Más de 200
puede producir “sobreajuste”.
11. Datos de ocurrencia (fuentes)
• CONABIO (REMIB)
• UNAM (UNIBIO)
• Global Biodiversity Information Facility (GBIF)
• Vertebrados (VertNet )
• SpeciesLink
• Southwest Environmental Information Network (SEINet)
• National Biodiversity Institute (INBIO)
• Ocean Biogeographic Information System (OBIS)
• Australia’s Virtual Herbarium (AVH)
12. Datos ambientales
Son capas predictoras obtenidas de interpolaciones o
transformaciones de datos primarios climáticos o percepción
remota.
Se deben seleccionar variables que incidan en la ecología de
la especie.
Se debe conocer la precisión, la resolución y la fuente de
estos datos.
Eliminar variables correlacionadas (redundantes), usar no más
de 10 en total.
Usar interacciones entre variables para ajustar superficies
(sólo si hay más de 20 ocurrencias).
13. Datos ambientales: Vector vs. Raster
RASTER = La información está
contenida en celdas, organizada
por filas y columnas (v.g. fotografía
digital).
VECTOR =La información está
expresada en vectores,
manteniendo las características
geométricas de las figuras.
14. Datos en Vector
Ventajas
• Estructura de datos
compacta. Poca memoria.
• Codificación eficiente de
topología.
• Buena salida gráfica
(mapas).
• Re-escalado y re-proyección
fáciles de hacer.
Desventajas
• Estructura de datos
compleja.
• Superposición de capas
complicada.
• Poco eficaz con alta
variación de datos.
• Difícil de mantener
actualizado.
15. Datos en Raster
Ventajas
• Estructura de datos simple
• Superposición sencilla
• Optimo para registrar
variaciones altas
Desventajas
• Mucha memoria
• Mapas poco vistosos
(granulados) por baja
resolución.
16. Variables ambientales
Climáticas
• Temperaturas
– Promedio
– Mínima
– Máxima
• Precipitación
• Altitud
Bioclimáticas
BIO1 = Annual Mean Temperature
BIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp))
BIO3 = Isothermality (BIO2/BIO7) (* 100)
BIO4 = Temperature Seasonality (standard deviation *100)
BIO5 = Max Temperature of Warmest Month
BIO6 = Min Temperature of Coldest Month
BIO7 = Temperature Annual Range (BIO5-BIO6)
BIO8 = Mean Temperature of Wettest Quarter
BIO9 = Mean Temperature of Driest Quarter
BIO10 = Mean Temperature of Warmest Quarter
BIO11 = Mean Temperature of Coldest Quarter
BIO12 = Annual Precipitation
BIO13 = Precipitation of Wettest Month
BIO14 = Precipitation of Driest Month
BIO15 = Precipitation Seasonality (Coefficient of Variation)
BIO16 = Precipitation of Wettest Quarter
BIO17 = Precipitation of Driest Quarter
BIO18 = Precipitation of Warmest Quarter
BIO19 = Precipitation of Coldest Quarter
17. Filtros Ambientales
Se pueden determinar las variables limitantes en
el área de distribución: Most limiting factors.
Son variables que limitan el establecimiento de una
especie (usualmente los máximos y mínimos en
temperatura y precipitación).
18. Datos ambientales (fuentes)
• CONABIO: Topografía y clima
• WorldClim: 19 variables bioclimáticas.
• CRU: Coberturas globales. Relacionado con IPCC.
• EROS: Imágenes aéreas y satelitales, elevación e
hidrología.
19. Ejercicio 1
1. Descargar coordenadas para 1 especie presente en
México.
2. Transformarlas a decimales.
3. Proyectarlas en Google Maps.
– Transformar a formato KMZ en:
http://www.earthpoint.us/ExcelToKml.aspx
4. Proyectarlas en Diva-Gis.
– Cargar también un mapa de la República Mexicana
21. Modelos predictivos
• Hacen predicciones detalladas de la
distribución, asociando la presencia de la
especie a factores ambientales.
• Son una herramienta en estudios de ecología,
evolución y conservación.
• Se construyen con métodos muy variados
22. De acuerdo a su amplitud:
• Métodos de una especie: Predicen la distribución
usando datos para una sola especie.
• Métodos de comunidad: Definen un modelo usando
todos los sitios disponibles para todas las especies
del grupo biológico de interés.
23. De acuerdo a su resultado:
• Mapa Binario: No da información sobre la relación
de la especie con las variables ambientales ni de las
variables ambientales entre sí (útil para determinar
la distribución potencial, el riesgo de invasión
biológica, y encontrar nuevos lugares).
• Mapa Probabilístico: Informa sobre la relación de la
especie con las variables ambientales y entre ellas
(útil para encontrar las variables determinantes).
24. BIOCLIM
• Es el más simple y fácil de entender.
• Requiere datos de presencia.
• Algoritmo de Envoltura Bioclimática.
• Produce mapas binarios.
• No considera las relaciones entre las
variables.
• No asigna probabilidades.
Falso-Verdadero Factor más limitante
25. BIOCLIM
El usuario puede definir los
valores mínimos y máximos
para cada variable
ambiental donde la especie
está presente, creando una
envoltura ambiental
rectangular.
Es recomendable explorar los datos para evitar sesgo en la
distribución de las observaciones.
26. DOMAIN
• Requiere datos de presencia.
• Algoritmo de distancia.
• Usa un índice de similitud para comparar el sitio donde está
presente la especie contra un nuevo sitio. La similitud de las
variables ambientales entre los dos sitios es evaluada y se genera
un valor que muestra la similitud y confianza del cálculo.
También genera mapas de:
Verdadero-Falso y Factor Más Limitante.
27. GARP
(Genetic Algorithm for Rule-set Production)
• Requiere datos de presencia (genera sus propios datos de
ausencia).
• Algoritmo Genético que compara distintos algoritmos:
– Atómica
– Regresión logística,
– Envoltura bioclimática
– Envoltura bioclimática inversa
• Se deben hacer de 100 a 1000 simulaciones por grupo de
datos.
• Produce mapas binarios.
• No produce probabilidades, sino un índice de lo adecuado
que es el ambiente para la especie.
28. GARP
• GARP analiza estos algoritmos para encontrar correlaciones no-aleatorias
entre los datos de presencia y pseudo ausencia.
• El modelo se corre varias veces y los mapas de predicción se combinan
para crear un mapa final que muestre la frecuencia con que cada localidad
apareció en los mapas de predicción (selección natural).
Mapa 1 Mapa 2 Mapa n
Mapa combinado
29. MaxEnt
• Algoritmo de Distribución de Máxima Entropía
• Requiere datos de presencia (genera sus propios datos
de ausencia).
• Produce:
– Mapas probabilísticos
– Variables explicativas
– Curvas ROC
• Tiende a sobreajustar el modelo (no descarta datos).
30. MaxEnt
• Esta técnica usa el máximo valor de entropía para estimar la distribución
más uniforme de los datos de ocurrencia en el área de estudio.
• Esta distribución uniforme está restringida por los valores ambientales o la
proporción de ocurrencia de puntos en una categoría.
• La distribución predicha resultante es regularizada para evitar el
sobreajuste.
Los valores de salida se
representan como porcentajes
donde 100% es el más adecuado
y 0% el menos adecuado.
31. Software SIG
ArcView y ArcGIS: desarrollados por ESRI
Environmental Systems Research Institute
http://www.esri.com/
DIVA-GIS: gratuito, incluye DOMAIN y BIOCLIM
http://www.diva-gis.org/
GRASS: gratuito http://grass.osgeo.org/
32. Ejercicio 2
• Modelar los datos de ocurrencia de 1 especie
en.
– BIOCLIM
– DOMAIN
– Desktop GARP
– MaxEnt
34. Validar un modelo consiste en
contrastar sus predicciones respecto
a datos considerados independientes
para obtener una medida de:
I. Su significancia en relación con una
hipótesis nula.
II. Su desempeño (capacidad de clasificar
correctamente nuevos datos).
35. Errores que pueden ocurrir
• De omisión: El modelo no tomó en cuenta una
ocurrencia (subpredicción).
• De comisión: El modelo predijo una ocurrencia
donde no existe (sobrepredicción).
Matriz de Confusión
36. Errores duros y
Errores blandos
Un error de omisión es considerado un error
duro puede ocurrir por :
a) Mala identificación de la especie.
b) Mala georreferenciación.
c) Especies en tránsito, fuera de su nicho.
Un error de comisión es considerado un error
blando y ocurre porque:
a) Faltó esfuerzo de muestreo, pero el área es adecuada.
b) El área es adecuada pero la especie no está ahí por
algún evento histórico.
c) El área no es adecuada = verdadero error de comisión
37. Métodos de Evaluación
• Curvas ROC y AUC (Área Bajo la Curva)
• Curvas de omisión (Omission curves)
• Jackknife Model Testing
38. Receiver Operating Characteristic (ROC)
• Es una curva que describe la
tasa de identificación correcta
de presencias (sensitivity)
contra la tasa de falsas
alarmas (specificity).
• La línea recta no tiene valor
predictivo (es aleatoria).
39. Area Under the Curve (AUC)
• Es el área total bajo la
curva.
• Un clasificador aleatorio
tiene un área de 0.5; un
muy buen clasificador tiene
un área muy cercana a 1.
• Un ROC ≥ 0.9 es bueno.
40. Problemas de la AUC
• Requeriría de datos de ausencias verdaderas.
• Asigna igual ponderación a los errores de omisión y
comisión.
• Presupone que el clasificador (algoritmo de
modelación) genera todos los valores del rango, lo
cual no siempre es cierto.
Ausencias
verdade
ras
Omisión y
Comisión
Rango
ROC parcial
AUC parcial
42. 1. Mundo Clásico
• Las ausencias se deben a
razones radicalmente
diferentes dependiendo de la
zona.
• Las presencias están
determinadas por una
combinación de factores de tal
forma que se pueden cometer
errores por dos causas
distintas.
• G0 y A son distintas y los
métodos basados en
presencias solas tienden a
estimar un área intermedia
entre G0 y A.
43. 2. Mundo de Hutchinson
• Todas las ausencias tienen una
sola causa (medio ambiente
inadecuado).
• Las presencias se deben a un
único factor, por lo que todos
los errores de comisión se
deberían a una pobre
estimación de un factor para el
cual existen datos (variables
ambientales).
• En este escenario G0=A y los
métodos basados en
presencias solas harán un
buen o mal trabajo de estimar
ambas zonas por igual.
44. 3. Mundo de Wallace
• Todas las ausencias tienen una
sola causa (incapacidad de
dispersarse).
• Las presencias se deben a un
único factor, por lo que todos
los errores de comisión se
deberían a una pobre
estimación de un factor para el
cual no existe información (la
dispersión).
• En este escenario A contiene a
G0 y los métodos basados en
presencia solas, en el mejor de
los casos, proveerán una
estimación más o menos
completa de A.