SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
LecciLeccióón 5. Modelos de distribucin 5. Modelos de distribucióón potencial de especiesn potencial de especies
1. Elaboración de modelos de distribución de especies.
a. Planteamiento.
El modelado del nicho ambiental se basa en el principio de que la distribución estimada de una especie debe
coincidir con la distribución conocida o deducida a partir de las condiciones ambientales dónde ha sido
observada. El procedimiento consiste en usar algoritmos computerizados para generar mapas predictivos
sobre la distribución potencial de especies en el espacio geográfico a partir de las distribuciones (conocidas o
deducidas) de la especies en el espacio ambiental.
Los modelos de distribución de especies tienen un gran interés aplicado pues permiten evaluar
cuantitativamente la posibilidad de que una población de plantas o animales ocupe un determinado lugar. La
capacidad de predicción de estos modelos los ha convertido en una herramienta clave en temas relacionados
con la gestión ambiental cuyos objetivos son variados:
 Diseño de reservas naturales.
 Restauración de poblaciones.
 Predicción de invasiones biológicas.
 Evaluación de impacto del cambio climático sobre la distribución geográfica de las especies.
1. Elaboración de modelos de distribución.
b. Fuentes de información.
Su elaboración requiere modelos de abstracción tipo campo que representen la distribución espacial de las
variables ambientales (capas) y un conjunto de puntos georeferenciados que indiquen donde está presente la
especie.
Datos sobre
presencia de
las especies
Elaboración
de modelos de
distribución
Modelos sobre
variables
ambientales
1. Elaboración de modelos de distribución.
c. Incertidumbre asociada al proceso de modelado.
El grado de certidumbre de que tales modelos reflejan la verdadera distribución de una especie en el espacio
geográfico dependerá de varios factores:
 La naturaleza, la complejidad y exactitud de los modelos usados.
 La calidad de las capas de datos ambientales disponibles
 La disponibilidad de datos sobre la distribución de la especie que deben ser suficientes y confiables
como datos de entrada del modelo.
 También hay que tener en cuenta la influencia de otros factores del nicho como barreras para la
dispersión, la historia geológica o la competición entre especie, que pueden impedir la ocupación actual
de los nichos potenciales identificados por el modelo.
Elaboración
de modelos de
distribución
Evaluación
de los
modelos
-
Curva ROC
Test
Jackknife
Datos sobre
presencia de
las especies
Elaboración
de modelos de
distribución
Modelos sobre
variables
ambientales
Distribución
potencial de
especies
Cambio
climático
Gestión y
planificación
ambiental
Evaluación
de los
modelos
-
1. Elaboración de modelos de distribución.
b. Estrategia general de análisis.
2. Tipos de algoritmos empleados en el proceso de modelización.
Existen diferentes tipos de modelos en función de sus planteamientos teóricos y el tipo de datos que utilizan:
A project within the
European Commission
5th Euratom
Framework Programme
Contract FIKW-CT-
2000-00024s
Modelos basados en la envoltura
ambiental de las especies Biodiversity and Conservation 2, 667-680 (1993)
DOMAIN: a flexible modelling procedure for
mapping potential distributions of plants and
animals
G. CARPENTER, A.N. GILLISON, J. WINTER
Modelos basados en la métrica de Gower
Modelos basados en técnicas de regresión Modelos basados en la Entropía
máxima (MAXENT)
DATOS DE PRESENCIA
DATOS DE PRESENCIA
DATOS DE PRESENCIA Y PSEUDO-AUSENCIADATOS DE PRESENCIA Y AUSENCIA
2. Tipos de algoritmos empleados en el proceso de modelización..
a. Modelos basados en la envoltura ambiental de las especies (BIOCLIM).
Estima la envoltura de la especie dentro del rango de variación de cada variable ambiental y se identifican
los sitios que están ubicados dentro del híper-espacio ambiental ocupado por una especie.
En este modelo, cualquier celdilla puede ser clasificada como:
 Apropriada: si todas las variables ambientales asociadas se sitúan
dentro de la envoltura calculada.
 Marginal: si una o más variables ambientales asociadas se sitúan
fuera de la envoltura calculada, pero permanecen dentro de los límites
máximo y mínimo.
 Inadecuado: si una o más variables ambientales asociadas se sitúan
fuera de los límites máximo y mínimo de la envoltura.
Especie
95%
100%
Para cada variable ambiental en particular, el algoritmo calcula la media y la
desviación típica (asumiendo una distribución normal) asociada al conjunto
de puntos donde está presente la especie (ocurrencia).
Cada variable tiene su propia envoltura representada por el intervalo de
confianza de la media para una probabilidad del 95% o del 99% .
Además de la envoltura, cada variable ambiental tiene límites máximos y
mínimos adicionales tomados de los valores máximos y mínimos relativos
al conjunto de puntos de ocurrencia. Área estudio
2. Tipos de algoritmos empleados en el proceso de modelización.
b. Modelos basados en la métrica de Gower (DOMAIN).
Se calcula una matiz de distancias punto a punto para asignar valores de similitud a cada punto del espacio
geográfico en base su la proximidad en el espacio ambiental a los puntos de ocurrencia de la especie.
La métrica de Gower provee unos medios apropiados para cuantificar la similitud entre dos sitios. La
distancia (d) entre un punto candidato (A) y un punto de ocurrrencia (B) en un espacio Euclideo con p
dimensiones se define como:
la similitud entre ambos puntos (RAB), sería el complementario de la distancia:
Área estudio
Especie:
S = 0.95
S = 0.93








 

p
k k
kk
AB
rango
BA
p
d
1
1
ABAB dR 1
AT
m
j
TA j
RS max1

RAB está restringido entre los valores 0 y 1 para puntos
dentro de los rangos usados en la primera ecuación. De esta
forma, para el punto candidato (A) se obtiene un conjunto de
“m“ valores de similitud correspondientes a los puntos de
ocurrencia. Se define STA, como la similitud máxima entre el
punto candidato A y el conjunto de puntos de ocurrencia de
la especie T como:
Los valores de STA generados por el algoritmo se representan
en el mapa de una forma continua. Hay que tener en cuenta
que estos valores no se interpretan como probabilidades, sino
como grados de similitud.
2. Tipos de algoritmos empleados en el proceso de modelización.
b. Modelos basados en la similitud (DOMAIN).
2. Tipos de algoritmos empleados en el proceso de modelización.
c. Modelos basados en la Entropía máxima (MAXENT).
Maxent es uno método cuyo propósito general es caracterizar distribuciones de probabilidad cuya
información está incompleta. Se basa en el principio de que la distribución estimada de una especie debe
coincidir con la distribución conocida o deducida a partir de las condiciones ambientales dónde ha sido
observada, evitando hacer cualquier suposición que no sea soportada por los datos.
El enfoque consiste en encontrar la distribución de probabilidad de entropía máxima, que es la más cercana a
la distribución uniforme, condicionada por las restricciones impuestas por la información disponible sobre la
distribución observada de la especie y las condiciones ambientales del área de estudio.
El método de Maxent no requiere datos de ausencia de la especie para elaborar el modelo; en vez de ello, usa
los datos ambientales proporcionados por el área de estudio al completo como datos de pseudo-ausencia.
Puede utilizar variables tanto continuas como categóricas y el producto es un pronóstico continuo que varía
de 0 a 100 y se interpreta como un grado relativo de adecuación (en qué medida un lugar es adecuado para
que la especie esté presente).
Maxent ha demostrado funcionar bien en comparación con otros métodos alternativos como BIOCLIM y
DOMAINE, que tan sólo consideran datos de presencia de la especie, resultando difícil evaluar la
significación de los resultados que se obtienen mediante test estadísticos.
3. Validación de la capacidad predictiva del modelo.
a. Planteamiento.
La puesta en práctica del modelo tendrá poco interés si previamente no hemos validado la exactitud de sus
pronósticos. La validación nos permite determinar la conveniencia de un modelo para una aplicación
específica, así como, comparar diferentes métodos de modelado.
Este apartado aborda diferentes pasos para evaluar la capacidad predictiva de un modelo:
 Obtención de un conjunto de datos de prueba
 Elaboración de una matriz de confusión (o de contingencia)
 Aplicación de Test estadísticos sobre la matriz de confusión
 Selección de umbrales de presencia
 Valoración independiente del umbral
3. Validación de la capacidad predictiva del modelo.
b. Obtención de un conjunto de datos de prueba.
Para evaluar el rendimiento del modelo es necesario disponer de datos contra los que poder comparar los
pronósticos del modelo. A este conjunto de datos lo referimos como datos de prueba o de evaluación para
distinguirlos de los datos de entrenamiento o calibración que se han usado para desarrollar el modelo.
Idealmente, los datos de prueba deberían obtenerse por separado de los datos de entrenamiento del modelo.
Sin embargo, en la práctica muchas veces no es posible poder obtener los datos de prueba
independientemente y es por lo que generalmente se dividen los datos disponibles en un conjunto de datos de
entrenamiento y un conjunto de datos de prueba.
Pueden utilizarse diferentes estrategias para dividir los datos. La más simple y común consiste en agrupar los
datos aleatoriamente en dos conjuntos con una proporción de datos arbitraria que depende del número total
de puntos con datos disponibles, aunque por lo general se usa el 70% de los datos para el conjunto de datos
de entrenamiento y el 30% para el conjunto de datos de prueba.
3. Validación de la capacidad predictiva del modelo.
c. Elaboración de una matriz de confusión (o de contingencia).
Si se usan los resultados obtenidos por el modelo para pronosticar un conjunto de datos de prueba, el
rendimiento predictivo puede ser resumido en una matriz de confusión. Para ello es necesario que los
pronósticos del modelo sean binarios, o sea, que sólo indiquen las zonas apropiadas e inadecuadas para la
presencia de la especie (1 / 0) y para ello es necesario seleccionar previamente un umbral de presencia.
La matriz de confusión recoge las frecuencias de
cada uno de los cuatro tipos posibles de pronóstico y
nos indica el error que ha cometido el modelo en su
predicción.
Los falsos positivos (b) provocan una sobre-
predicción y se denominan ERROR POR
COMISIÓN.
Los falsos negativos (c) provocan una infra-
predicción y se denominan ERROR POR OMISIÓN.
El ERROR DE COMISIÓN puede ser real o aparente, ya que un “falso positivo” puede significar o una
sobre-predicción del modelo o una predicción de nicho potencial de la especie
El ERROR DE OMISIÓN: es mucho más importante y peor, pues NO predice lugares de presencia que
pueden ser de importancia crucial para la supervivencia de la población.
DATOS DE PRUEBA
DATOSDEENTRENAMIENTO
Especie
presente
Especie
ausente
+ -
Especie
predicha +
Verdadero
positivo
(a )
Falso
positivo
(b )
Especie
no
predicha
-
Falso
negativo
(c )
Verdadero
negativo
(d )
3. Validación de la capacidad predictiva del modelo.
d. Aplicación de Test estadísticos sobre la matriz de confusión.
Las frecuencias de la matriz de confusión constituyen la base para una gran variedad de pruebas estadísticas
diferentes que pueden ser usadas para evaluar el rendimiento del modelo.
El estadístico Kappa (k), estima de la exactitud del modelo y tiene en cuenta la proporción de
predicciones correctas que cabría esperar aleatoriamente. Se calcula como:
El estadístico Kappa usa todos los valores de la matriz de confusión
y requiere tanto datos de presencia como de ausencia. Sin embargo,
los datos de ausencia a menudo no están disponibles y resulta
inapropiado usarlos cuando se trata de calcular la distribución
potencial (debido a que el ambiente podría ser apropiado aunque la
especie esté ausente).
En nuestro ejemplo, el valor de Kappa sería: 0,62
3. Validación de la capacidad predictiva del modelo.
e. Aplicación de Test estadísticos sobre la matriz de confusión.
Cuándo solamente se usan datos de presencia, se puede calcular la
proporción de ocurrencias observadas correctamente predichas:
a / (a+c)
Este estadístico se denomina Sensibilidad o "Fracción de verdaderos
positivos". Por otra parte, podemos calcular:
c / (a+c)
Este estadístico se denomina Tasa de omisión o "Fracción de falsos
positivos".La suma de ambas medidas es igual a la unidad.
La significación de los resultados obtenidos con estos estadísticos puede ser estimada mediante un test
binomial exacto de una cola o, para tamaños de muestra grandes, con un test de ji-cuadrado.
Otro estadístico derivado de la matriz de confusión es la proporción de ausencias observadas que son
correctamente predichas, calculada como: d / (b + d).
Este estadístico se denomina Especificidad o “Fracción de verdaderos negativos”. Normalmente, esta
medida no se usa como test estadístico por sí mismo, sin embargo, adquiere una gran importancia en la
selección del umbral de presencias y en el análisis de las curvas ROC.
3. Validación de la capacidad predictiva del modelo.
f. Selección de umbrales de presencia.
Existen diferentes métodos para seleccionar el umbral de presencia de las especies:
 Valor fijado: se fija un valor arbitrario, por ejemplo una probabilidad = 0.5 (datos de presencia)
 Valor predicho más bajo: el valor predicho más bajo correspondiente a un registro de ocurrencia
observada (datos de presencia)
 Sensibilidad fijada: el umbral en el cual se alcanza una sensibilidad fijada arbitrariamente. Por ejemplo,
un valor de 0.95 significa que el 95% de las localidades observadas estarían incluidas en la predicción
(datos de presencia)
 Igualdad de sensibilidad-especificidad: el umbral en el que la sensibilidad y la especificidad se igualan
(datos de presencia-ausencia)
 Maximización de Kappa: el umbral en el que el estadístico Kappa es máximo (datos de presencia-
ausencia)
3. Validación de la capacidad predictiva del modelo.
g. Valoración independiente del umbral.
Cuando la salida del modelo es continua, la valoración de la predicción utilizando la estadística derivada de
la matriz de confusión será sensible al método utilizado para elegir el umbral para crear una predicción
binaria.
Además, si las predicciones son binarias, la evaluación del modelo no tiene en cuenta toda la información que
da el modelo. Por ello, normalmente es útil derivar un test estadístico que de una sola medida de evaluación
del poder predictivo a través de todo el rango de posibles umbrales.
Esto se consigue con un estadístico llamado AUC: El área bajo la curva ROC (Receiver Operating
Characteristic).
La curva ROC se obtiene al enfrentar la sensibilidad frente a
“1-Especificidad” a los largo de todos los posibles umbrales.
Se utilizan la sensibilidad y la especificidad porque estas dos
medidas tienen en cuenta los cuatro elementos de la matriz de
confusión.
Por conveniencia se calcula “1-Especificidad” para que la
sensibilidad y la especificidad varíen en la misma dirección
cuando se ajusta el umbral. FRACCIÓNDEVERDADEROSPOSITIVOS
FRACCIÓN DE FALSOS POSITIVOS
3. Validación de la capacidad predictiva del modelo.
g. Valoración independiente del umbral.
Un modelo que prediga perfectamente la distribución de una especie generará una curva ROC que siga el eje
izquierdo hasta lo alto del gráfico, mientras que un modelo que prediga “no mejor que al azar” generará una
curva ROC que siga la línea 1:1 (diagonal).

Más contenido relacionado

La actualidad más candente

muestreo y estimacion 2012
muestreo y estimacion 2012muestreo y estimacion 2012
muestreo y estimacion 2012jose_pabon_2012
 
Determinación de la muestra
Determinación de la muestraDeterminación de la muestra
Determinación de la muestraYoselin Torres
 
Como extraer muestra finita
Como extraer muestra finitaComo extraer muestra finita
Como extraer muestra finitaEliseo Tintaya
 
-Análisis multivariado
-Análisis multivariado-Análisis multivariado
-Análisis multivariadokimsora7524
 
2011 tortosa g. manual práctico de quimiometría
2011 tortosa g. manual práctico de quimiometría2011 tortosa g. manual práctico de quimiometría
2011 tortosa g. manual práctico de quimiometríaGermán Tortosa
 
Diseño muestral...teoria
Diseño muestral...teoriaDiseño muestral...teoria
Diseño muestral...teoriajavier4445
 
Disenos Muestrales y Distribucion Muestral
Disenos Muestrales y Distribucion MuestralDisenos Muestrales y Distribucion Muestral
Disenos Muestrales y Distribucion Muestralesojleinad09
 
Universidades soluciones actividades
Universidades soluciones actividadesUniversidades soluciones actividades
Universidades soluciones actividadesMaestros Online
 
Teoria de muestreo y prueba de hipotesis
Teoria de muestreo y prueba de hipotesisTeoria de muestreo y prueba de hipotesis
Teoria de muestreo y prueba de hipotesisZully Vèlez
 
Calculo de la muestra
Calculo de la muestraCalculo de la muestra
Calculo de la muestraguest62e60f
 

La actualidad más candente (14)

Tamaño muestra
Tamaño muestraTamaño muestra
Tamaño muestra
 
12. universo y muestra
12. universo y muestra12. universo y muestra
12. universo y muestra
 
muestreo y estimacion 2012
muestreo y estimacion 2012muestreo y estimacion 2012
muestreo y estimacion 2012
 
Determinación de la muestra
Determinación de la muestraDeterminación de la muestra
Determinación de la muestra
 
Como extraer muestra finita
Como extraer muestra finitaComo extraer muestra finita
Como extraer muestra finita
 
-Análisis multivariado
-Análisis multivariado-Análisis multivariado
-Análisis multivariado
 
2011 tortosa g. manual práctico de quimiometría
2011 tortosa g. manual práctico de quimiometría2011 tortosa g. manual práctico de quimiometría
2011 tortosa g. manual práctico de quimiometría
 
Diseño muestral...teoria
Diseño muestral...teoriaDiseño muestral...teoria
Diseño muestral...teoria
 
Disenos Muestrales y Distribucion Muestral
Disenos Muestrales y Distribucion MuestralDisenos Muestrales y Distribucion Muestral
Disenos Muestrales y Distribucion Muestral
 
Inferencia estadistica
Inferencia estadisticaInferencia estadistica
Inferencia estadistica
 
Universidades soluciones actividades
Universidades soluciones actividadesUniversidades soluciones actividades
Universidades soluciones actividades
 
Teoria de muestreo y prueba de hipotesis
Teoria de muestreo y prueba de hipotesisTeoria de muestreo y prueba de hipotesis
Teoria de muestreo y prueba de hipotesis
 
Calculo de la muestra
Calculo de la muestraCalculo de la muestra
Calculo de la muestra
 
Estadist. ii mx
Estadist. ii mxEstadist. ii mx
Estadist. ii mx
 

Similar a Tema 5

Modelos para la predicción de la distribución de especies
Modelos para la predicción de la distribución de especiesModelos para la predicción de la distribución de especies
Modelos para la predicción de la distribución de especiesAngel Bravo
 
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000Cleto de la Torre
 
Estadistica MI-23
Estadistica MI-23Estadistica MI-23
Estadistica MI-23knoshie
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodosDiskCom - Negocios
 
Presentation 8- Bfuture, Modela y Mcompare
Presentation 8- Bfuture, Modela y McomparePresentation 8- Bfuture, Modela y Mcompare
Presentation 8- Bfuture, Modela y McompareMauricio Parra Quijano
 
Toma De Muestras
Toma De MuestrasToma De Muestras
Toma De Muestrasyolichavez
 
Introduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS SignerIntroduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS Signerjsigner
 
Proyecto final modelos
Proyecto final modelosProyecto final modelos
Proyecto final modelosZuleyma014
 
Uso de modelación biofísica para analizar el impacto del cambio climático
Uso de modelación biofísica para analizar el impacto del cambio climáticoUso de modelación biofísica para analizar el impacto del cambio climático
Uso de modelación biofísica para analizar el impacto del cambio climáticoFAO
 

Similar a Tema 5 (20)

Pca. muestreo
Pca. muestreoPca. muestreo
Pca. muestreo
 
Modelos para la predicción de la distribución de especies
Modelos para la predicción de la distribución de especiesModelos para la predicción de la distribución de especies
Modelos para la predicción de la distribución de especies
 
Muestreo Farmacia
Muestreo  FarmaciaMuestreo  Farmacia
Muestreo Farmacia
 
Muestreo Farmacia
Muestreo  FarmaciaMuestreo  Farmacia
Muestreo Farmacia
 
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000T026800007004 0-felvir rivas-_trabajofinaldefensa-000
T026800007004 0-felvir rivas-_trabajofinaldefensa-000
 
Estadistica MI-23
Estadistica MI-23Estadistica MI-23
Estadistica MI-23
 
Introduccion al modelamiento
Introduccion al modelamientoIntroduccion al modelamiento
Introduccion al modelamiento
 
Sig clima
Sig climaSig clima
Sig clima
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodos
 
Presentation 8- Bfuture, Modela y Mcompare
Presentation 8- Bfuture, Modela y McomparePresentation 8- Bfuture, Modela y Mcompare
Presentation 8- Bfuture, Modela y Mcompare
 
Toma De Muestras
Toma De MuestrasToma De Muestras
Toma De Muestras
 
Introduction to sdm with Maxent Johannes S
Introduction to sdm with Maxent Johannes SIntroduction to sdm with Maxent Johannes S
Introduction to sdm with Maxent Johannes S
 
Introduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS SignerIntroduction to SDM with Maxent JohannesS Signer
Introduction to SDM with Maxent JohannesS Signer
 
Proyecto final modelos
Proyecto final modelosProyecto final modelos
Proyecto final modelos
 
Tamaño de muestra revisado
Tamaño de muestra revisadoTamaño de muestra revisado
Tamaño de muestra revisado
 
IV Seminario Regional de Agricultura y Cambio Climático - Comentario José Edu...
IV Seminario Regional de Agricultura y Cambio Climático - Comentario José Edu...IV Seminario Regional de Agricultura y Cambio Climático - Comentario José Edu...
IV Seminario Regional de Agricultura y Cambio Climático - Comentario José Edu...
 
Uso de modelación biofísica para analizar el impacto del cambio climático
Uso de modelación biofísica para analizar el impacto del cambio climáticoUso de modelación biofísica para analizar el impacto del cambio climático
Uso de modelación biofísica para analizar el impacto del cambio climático
 
MUESTREO
MUESTREOMUESTREO
MUESTREO
 
MUESTREO
MUESTREOMUESTREO
MUESTREO
 
2011tortosag manualprcticodequimiometra-111109145953-phpapp02
2011tortosag manualprcticodequimiometra-111109145953-phpapp022011tortosag manualprcticodequimiometra-111109145953-phpapp02
2011tortosag manualprcticodequimiometra-111109145953-phpapp02
 

Tema 5

  • 1. LecciLeccióón 5. Modelos de distribucin 5. Modelos de distribucióón potencial de especiesn potencial de especies
  • 2. 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución estimada de una especie debe coincidir con la distribución conocida o deducida a partir de las condiciones ambientales dónde ha sido observada. El procedimiento consiste en usar algoritmos computerizados para generar mapas predictivos sobre la distribución potencial de especies en el espacio geográfico a partir de las distribuciones (conocidas o deducidas) de la especies en el espacio ambiental. Los modelos de distribución de especies tienen un gran interés aplicado pues permiten evaluar cuantitativamente la posibilidad de que una población de plantas o animales ocupe un determinado lugar. La capacidad de predicción de estos modelos los ha convertido en una herramienta clave en temas relacionados con la gestión ambiental cuyos objetivos son variados:  Diseño de reservas naturales.  Restauración de poblaciones.  Predicción de invasiones biológicas.  Evaluación de impacto del cambio climático sobre la distribución geográfica de las especies.
  • 3. 1. Elaboración de modelos de distribución. b. Fuentes de información. Su elaboración requiere modelos de abstracción tipo campo que representen la distribución espacial de las variables ambientales (capas) y un conjunto de puntos georeferenciados que indiquen donde está presente la especie. Datos sobre presencia de las especies Elaboración de modelos de distribución Modelos sobre variables ambientales
  • 4. 1. Elaboración de modelos de distribución. c. Incertidumbre asociada al proceso de modelado. El grado de certidumbre de que tales modelos reflejan la verdadera distribución de una especie en el espacio geográfico dependerá de varios factores:  La naturaleza, la complejidad y exactitud de los modelos usados.  La calidad de las capas de datos ambientales disponibles  La disponibilidad de datos sobre la distribución de la especie que deben ser suficientes y confiables como datos de entrada del modelo.  También hay que tener en cuenta la influencia de otros factores del nicho como barreras para la dispersión, la historia geológica o la competición entre especie, que pueden impedir la ocupación actual de los nichos potenciales identificados por el modelo. Elaboración de modelos de distribución Evaluación de los modelos - Curva ROC Test Jackknife
  • 5. Datos sobre presencia de las especies Elaboración de modelos de distribución Modelos sobre variables ambientales Distribución potencial de especies Cambio climático Gestión y planificación ambiental Evaluación de los modelos - 1. Elaboración de modelos de distribución. b. Estrategia general de análisis.
  • 6. 2. Tipos de algoritmos empleados en el proceso de modelización. Existen diferentes tipos de modelos en función de sus planteamientos teóricos y el tipo de datos que utilizan: A project within the European Commission 5th Euratom Framework Programme Contract FIKW-CT- 2000-00024s Modelos basados en la envoltura ambiental de las especies Biodiversity and Conservation 2, 667-680 (1993) DOMAIN: a flexible modelling procedure for mapping potential distributions of plants and animals G. CARPENTER, A.N. GILLISON, J. WINTER Modelos basados en la métrica de Gower Modelos basados en técnicas de regresión Modelos basados en la Entropía máxima (MAXENT) DATOS DE PRESENCIA DATOS DE PRESENCIA DATOS DE PRESENCIA Y PSEUDO-AUSENCIADATOS DE PRESENCIA Y AUSENCIA
  • 7. 2. Tipos de algoritmos empleados en el proceso de modelización.. a. Modelos basados en la envoltura ambiental de las especies (BIOCLIM). Estima la envoltura de la especie dentro del rango de variación de cada variable ambiental y se identifican los sitios que están ubicados dentro del híper-espacio ambiental ocupado por una especie. En este modelo, cualquier celdilla puede ser clasificada como:  Apropriada: si todas las variables ambientales asociadas se sitúan dentro de la envoltura calculada.  Marginal: si una o más variables ambientales asociadas se sitúan fuera de la envoltura calculada, pero permanecen dentro de los límites máximo y mínimo.  Inadecuado: si una o más variables ambientales asociadas se sitúan fuera de los límites máximo y mínimo de la envoltura. Especie 95% 100% Para cada variable ambiental en particular, el algoritmo calcula la media y la desviación típica (asumiendo una distribución normal) asociada al conjunto de puntos donde está presente la especie (ocurrencia). Cada variable tiene su propia envoltura representada por el intervalo de confianza de la media para una probabilidad del 95% o del 99% . Además de la envoltura, cada variable ambiental tiene límites máximos y mínimos adicionales tomados de los valores máximos y mínimos relativos al conjunto de puntos de ocurrencia. Área estudio
  • 8. 2. Tipos de algoritmos empleados en el proceso de modelización. b. Modelos basados en la métrica de Gower (DOMAIN). Se calcula una matiz de distancias punto a punto para asignar valores de similitud a cada punto del espacio geográfico en base su la proximidad en el espacio ambiental a los puntos de ocurrencia de la especie. La métrica de Gower provee unos medios apropiados para cuantificar la similitud entre dos sitios. La distancia (d) entre un punto candidato (A) y un punto de ocurrrencia (B) en un espacio Euclideo con p dimensiones se define como: la similitud entre ambos puntos (RAB), sería el complementario de la distancia: Área estudio Especie: S = 0.95 S = 0.93            p k k kk AB rango BA p d 1 1 ABAB dR 1 AT m j TA j RS max1  RAB está restringido entre los valores 0 y 1 para puntos dentro de los rangos usados en la primera ecuación. De esta forma, para el punto candidato (A) se obtiene un conjunto de “m“ valores de similitud correspondientes a los puntos de ocurrencia. Se define STA, como la similitud máxima entre el punto candidato A y el conjunto de puntos de ocurrencia de la especie T como: Los valores de STA generados por el algoritmo se representan en el mapa de una forma continua. Hay que tener en cuenta que estos valores no se interpretan como probabilidades, sino como grados de similitud.
  • 9. 2. Tipos de algoritmos empleados en el proceso de modelización. b. Modelos basados en la similitud (DOMAIN).
  • 10.
  • 11. 2. Tipos de algoritmos empleados en el proceso de modelización. c. Modelos basados en la Entropía máxima (MAXENT). Maxent es uno método cuyo propósito general es caracterizar distribuciones de probabilidad cuya información está incompleta. Se basa en el principio de que la distribución estimada de una especie debe coincidir con la distribución conocida o deducida a partir de las condiciones ambientales dónde ha sido observada, evitando hacer cualquier suposición que no sea soportada por los datos. El enfoque consiste en encontrar la distribución de probabilidad de entropía máxima, que es la más cercana a la distribución uniforme, condicionada por las restricciones impuestas por la información disponible sobre la distribución observada de la especie y las condiciones ambientales del área de estudio. El método de Maxent no requiere datos de ausencia de la especie para elaborar el modelo; en vez de ello, usa los datos ambientales proporcionados por el área de estudio al completo como datos de pseudo-ausencia. Puede utilizar variables tanto continuas como categóricas y el producto es un pronóstico continuo que varía de 0 a 100 y se interpreta como un grado relativo de adecuación (en qué medida un lugar es adecuado para que la especie esté presente). Maxent ha demostrado funcionar bien en comparación con otros métodos alternativos como BIOCLIM y DOMAINE, que tan sólo consideran datos de presencia de la especie, resultando difícil evaluar la significación de los resultados que se obtienen mediante test estadísticos.
  • 12. 3. Validación de la capacidad predictiva del modelo. a. Planteamiento. La puesta en práctica del modelo tendrá poco interés si previamente no hemos validado la exactitud de sus pronósticos. La validación nos permite determinar la conveniencia de un modelo para una aplicación específica, así como, comparar diferentes métodos de modelado. Este apartado aborda diferentes pasos para evaluar la capacidad predictiva de un modelo:  Obtención de un conjunto de datos de prueba  Elaboración de una matriz de confusión (o de contingencia)  Aplicación de Test estadísticos sobre la matriz de confusión  Selección de umbrales de presencia  Valoración independiente del umbral
  • 13. 3. Validación de la capacidad predictiva del modelo. b. Obtención de un conjunto de datos de prueba. Para evaluar el rendimiento del modelo es necesario disponer de datos contra los que poder comparar los pronósticos del modelo. A este conjunto de datos lo referimos como datos de prueba o de evaluación para distinguirlos de los datos de entrenamiento o calibración que se han usado para desarrollar el modelo. Idealmente, los datos de prueba deberían obtenerse por separado de los datos de entrenamiento del modelo. Sin embargo, en la práctica muchas veces no es posible poder obtener los datos de prueba independientemente y es por lo que generalmente se dividen los datos disponibles en un conjunto de datos de entrenamiento y un conjunto de datos de prueba. Pueden utilizarse diferentes estrategias para dividir los datos. La más simple y común consiste en agrupar los datos aleatoriamente en dos conjuntos con una proporción de datos arbitraria que depende del número total de puntos con datos disponibles, aunque por lo general se usa el 70% de los datos para el conjunto de datos de entrenamiento y el 30% para el conjunto de datos de prueba.
  • 14. 3. Validación de la capacidad predictiva del modelo. c. Elaboración de una matriz de confusión (o de contingencia). Si se usan los resultados obtenidos por el modelo para pronosticar un conjunto de datos de prueba, el rendimiento predictivo puede ser resumido en una matriz de confusión. Para ello es necesario que los pronósticos del modelo sean binarios, o sea, que sólo indiquen las zonas apropiadas e inadecuadas para la presencia de la especie (1 / 0) y para ello es necesario seleccionar previamente un umbral de presencia. La matriz de confusión recoge las frecuencias de cada uno de los cuatro tipos posibles de pronóstico y nos indica el error que ha cometido el modelo en su predicción. Los falsos positivos (b) provocan una sobre- predicción y se denominan ERROR POR COMISIÓN. Los falsos negativos (c) provocan una infra- predicción y se denominan ERROR POR OMISIÓN. El ERROR DE COMISIÓN puede ser real o aparente, ya que un “falso positivo” puede significar o una sobre-predicción del modelo o una predicción de nicho potencial de la especie El ERROR DE OMISIÓN: es mucho más importante y peor, pues NO predice lugares de presencia que pueden ser de importancia crucial para la supervivencia de la población. DATOS DE PRUEBA DATOSDEENTRENAMIENTO Especie presente Especie ausente + - Especie predicha + Verdadero positivo (a ) Falso positivo (b ) Especie no predicha - Falso negativo (c ) Verdadero negativo (d )
  • 15. 3. Validación de la capacidad predictiva del modelo. d. Aplicación de Test estadísticos sobre la matriz de confusión. Las frecuencias de la matriz de confusión constituyen la base para una gran variedad de pruebas estadísticas diferentes que pueden ser usadas para evaluar el rendimiento del modelo. El estadístico Kappa (k), estima de la exactitud del modelo y tiene en cuenta la proporción de predicciones correctas que cabría esperar aleatoriamente. Se calcula como: El estadístico Kappa usa todos los valores de la matriz de confusión y requiere tanto datos de presencia como de ausencia. Sin embargo, los datos de ausencia a menudo no están disponibles y resulta inapropiado usarlos cuando se trata de calcular la distribución potencial (debido a que el ambiente podría ser apropiado aunque la especie esté ausente). En nuestro ejemplo, el valor de Kappa sería: 0,62
  • 16. 3. Validación de la capacidad predictiva del modelo. e. Aplicación de Test estadísticos sobre la matriz de confusión. Cuándo solamente se usan datos de presencia, se puede calcular la proporción de ocurrencias observadas correctamente predichas: a / (a+c) Este estadístico se denomina Sensibilidad o "Fracción de verdaderos positivos". Por otra parte, podemos calcular: c / (a+c) Este estadístico se denomina Tasa de omisión o "Fracción de falsos positivos".La suma de ambas medidas es igual a la unidad. La significación de los resultados obtenidos con estos estadísticos puede ser estimada mediante un test binomial exacto de una cola o, para tamaños de muestra grandes, con un test de ji-cuadrado. Otro estadístico derivado de la matriz de confusión es la proporción de ausencias observadas que son correctamente predichas, calculada como: d / (b + d). Este estadístico se denomina Especificidad o “Fracción de verdaderos negativos”. Normalmente, esta medida no se usa como test estadístico por sí mismo, sin embargo, adquiere una gran importancia en la selección del umbral de presencias y en el análisis de las curvas ROC.
  • 17. 3. Validación de la capacidad predictiva del modelo. f. Selección de umbrales de presencia. Existen diferentes métodos para seleccionar el umbral de presencia de las especies:  Valor fijado: se fija un valor arbitrario, por ejemplo una probabilidad = 0.5 (datos de presencia)  Valor predicho más bajo: el valor predicho más bajo correspondiente a un registro de ocurrencia observada (datos de presencia)  Sensibilidad fijada: el umbral en el cual se alcanza una sensibilidad fijada arbitrariamente. Por ejemplo, un valor de 0.95 significa que el 95% de las localidades observadas estarían incluidas en la predicción (datos de presencia)  Igualdad de sensibilidad-especificidad: el umbral en el que la sensibilidad y la especificidad se igualan (datos de presencia-ausencia)  Maximización de Kappa: el umbral en el que el estadístico Kappa es máximo (datos de presencia- ausencia)
  • 18. 3. Validación de la capacidad predictiva del modelo. g. Valoración independiente del umbral. Cuando la salida del modelo es continua, la valoración de la predicción utilizando la estadística derivada de la matriz de confusión será sensible al método utilizado para elegir el umbral para crear una predicción binaria. Además, si las predicciones son binarias, la evaluación del modelo no tiene en cuenta toda la información que da el modelo. Por ello, normalmente es útil derivar un test estadístico que de una sola medida de evaluación del poder predictivo a través de todo el rango de posibles umbrales. Esto se consigue con un estadístico llamado AUC: El área bajo la curva ROC (Receiver Operating Characteristic). La curva ROC se obtiene al enfrentar la sensibilidad frente a “1-Especificidad” a los largo de todos los posibles umbrales. Se utilizan la sensibilidad y la especificidad porque estas dos medidas tienen en cuenta los cuatro elementos de la matriz de confusión. Por conveniencia se calcula “1-Especificidad” para que la sensibilidad y la especificidad varíen en la misma dirección cuando se ajusta el umbral. FRACCIÓNDEVERDADEROSPOSITIVOS FRACCIÓN DE FALSOS POSITIVOS
  • 19. 3. Validación de la capacidad predictiva del modelo. g. Valoración independiente del umbral. Un modelo que prediga perfectamente la distribución de una especie generará una curva ROC que siga el eje izquierdo hasta lo alto del gráfico, mientras que un modelo que prediga “no mejor que al azar” generará una curva ROC que siga la línea 1:1 (diagonal).