Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados

8 de Junio de 2006

Javier de la Torre Jorge M. Lobo
Ingeniero Técnico Dr. en Biología.
Agrícola. Cientíﬁco titular CSIC

jatorre@mncn.csic.es mcnj117@mncn.csic.es
IDE’s y la conservación de la biodiversidad

Las IDE’s y sus posibilidades
para el tratamiento de datos
biológicos georeferenciados

1

Buenas tardes. Mi nombre es Javier de la Torre y trabajo en el Museo Nacional de Ciencias Naturales. Esta presentación la he realizado
conjuntamente con Jorge Lobo, quien anda por ahí entre el público.
Antes de nada me gustararía agradecer a Isabel del Bosque el habernos invitado a esta sesión, la cuál creo que es una gran idea.

Voy a empezar haciendo un poco de publicidad del Museo para aquellos que no lo conozcan.

Foto de la entrada del museo

El Museo se encuentra aquí cerca, detrás de la Residencia de Estudiantes. Hasta Septiembre se puede visitar la exposición temporal “Especies”,
en la cual se tratan algunos de los temas de los que voy a hablar hoy.

Por otro lado en la exposición permanente verán la cantidad de animales que tenemos metidos en vitrinas. So muy bonitas. Lo que no sabe tanta
gente es que en realidad el museo tiene muchos más especímenes guardados en grandes habitaciones cerradas al público,calculamos que
entorno a los 8 millones.

Son las llamas Colecciones Biologicas. En grandes armarios, en frascos, en bidones, etc, se encuentran millones de animales conservados para
su estudio. Aparte de ser curiosas, estas colecciones guardan una información muy valiosa recopilada a lo largo de siglos.
Y por qué son valiosas?
Bueno, por diversos motivos, yo hoy quisiera explicarles algunos de ellos. Pero miremos con más detalle uno de estos especímenes que
tenemos guardados en el museo.

P.N.Ordesa 7-7-79

Estos dos escarabajos que aquí ven fueron identiﬁcados con el nombre de Osmoderna eremita. Según la etiqueta fueron recolectados en el
Parque Nacional de Ordesa el 7 de Julio de 1979.

7 de Julio de 1979
Es decir, en el mundo del 7 de Julio de 1979

7 de Julio de 1979
3 de Enero de 1979
En los
Pirineos...

foto de ordesa

En el Parque Nacional de Ordesa y Monte
Perdido...

3 de Enero de 1979
Alguien estuvo alli
recolectando...

Osmoderma eremita
y encontró este escarabajo. Lo metió en un bote y se lo trajo al
Museo.

Presencia de 1
P.N.Ordesa 7-7-79 especie en tiempo y
lugar determinados

Es decir, los especímenes guardados en las colecciones biológicas nos indican la presencia de CIERTA ESPECIE EN UN LUGAR Y TIEMPO
DETERMINADOS. Esta información nos va a resultar muy útil como veremos más adelante.

Claro que la información que tenemos es el nombre de una localidad y la georeferenciación usando nombres de localidades, aparte de no ser
muy ﬁable ni estable, no nos permite el procesamiento automático. Si queremos representarlo en 1 mapa tendremos que asignarle unas
coordenadas.

Para ello tengo varias posibilidades, en cualquier caso muy incómodas todas.

Mapa de papel con la localidad y su centroide

Puedo irme a un mapa corriente, buscar la localidad y obtener unas coordenadas...

Me puedo ir a un gazetero en internet y buscar la localidad...

biogeomancer

Puedo utilizar un sistema de georeferenciacion automatica avanzado...

mapa de localidades de Espana

en cualquier caso voy a necesitar de un servicio que disponga de informacion sobre localidades de forma libre para poder utilizar los datos.

mapa de europa con el punto del bicho

Bien, ya tenemos entonces nuestro especimen localizado perfectamente.

Claro que la información de dónde se encuentra un SOLO especimen de una determinada especie pues tampoco es de gran utilidad....

Este es el mismo mapa con muchos mas puntos de donde se
encuentra ese bicho en Europa

Lo interesante es cuando tienes muchas localidades donde esa especie ha sido encontrada....

Area de distribucion real de los puntos en europa

Con esto puedes obtener lo que llamamos “mapa de distribucion de esa especie”.

Pero si ademas tengo las distribuciones de muchas especies pues puedo medir la biodiversidad de ese grupo de especies. Por ejemplo en este
mapa ya hemos solapado las distintas distribuciones de los anﬁbios en la peninsula iberica, y hemos obtenido la riqueza de anﬁbios. Las zonas
en rojo representan las zonas donde mayor cantidad de especies se pueden encontrar, en verde la zonas dónde menos especies se han
contabilizado.

Este tipo de estudios sirven por ejemplo en conservacion, para la seleccion de lugares para proteger. En este mapa todavia no publicado Jorge
Lobo y otros estudian la distribucion de las especies en la peninsula iberica y proponen localizaciones donde se acumulan la mayor parte de las
especies. En Rojo son las zonas muy importantes y en amarillo las importantes. Por otro lado en verde aparecen los parques naturales.
Como se puede ver la seleccion de la localizacion de las reservas no siempre se basa en la proteccion de la biodiversidad.

Como se puede ver el estudio de las distribuciones es muy importante para la protección de la biodiversidad, pero tiene un condicionante,
depende completamente de la disponibilidad de datos de presencia o ausencia de especies.

Necesitamos datos

Sin datos no podemos trabajar.

Las colecciones biológicas que hay por todo el mundo contiene una gran cantidad de datos, el museo como ya he dicho tiene 8 millones de
especímenes guardados, pero....

Esta información no es facilmente accesible. Sólo una pequeña parte de los especímenes está insertado en una base de datos y estas no están
disponibles através de servicios en Internet que permitan su uso por programas informáticos.

La movilización de los datos de las colecciones biológicas ha sido identiﬁcado como un PASO OBLIGATORIO para poder analizar la
biodiversidad de nuestro planeta. Es por eso que desde hace ya 10 años se ha estado trabajando en estándares y redes que permitan acceso a
los mismos.

La iniciativa más importante a nivel mundial es el Global Biodiversity Informatics Facility. Actualmente ya tiene más de 180 millones de registros
disponibles provenientes de más de 500 colecciones bilógicas por todo el mundo.

En esto nos parecemos a INSPIRE, los datos se manejan en el nivel mas conveniente.

Sustainable
development
Conser-
User com-
Comunidades
vation Regu- Industry
General
Edu- Public munities
de usuarios
lation
cation
Research

Portales y
Portals &
….. servicios
Services

Protocolo
Common
común
protocol
Wrapper BBDD
Primary
colecciones
….. Data
biológicas

Los datos de estas colecciones biológicas son obtenidos utilizado un sistema distribuido. Las instituciones participantes conectan las bases de
datos de sus colecciones a internet haciendolas disponibles como Servicios Web.

Los datos son accedidos normalmente por Portales que hacen consultas a estos proveedores de datos y se los muestran al usuario que realiza
la consulta.

(Entre el público se encuentra Carmen Quesada, responsable del nodo español de GBIF por si alguien está más interesado en esta iniciativa).

Mapa de todos los datos de GBIF

Aún así, si vemos la distribución de los datos de GBIF (de todas las especies), veremos que son bastante incompletas.

-Hay zonas donde practicamente no se ha recolectado nada y por tanto no sabemos qué organismos se encuentran alli.
-En otro sitios los datos son tan pobres que no permiten realizar ningún estudio con ellos.

De hecho, precisamente las zonas, dónde se supone que mayor diversidad existe y de mayor importancia, los llamados hotspots, parecen haber
quedado fuera de los muestreos de los Biólogos.

Como se puede apreciar la mayoria de los hotspots está muy mal cubiertos

Menos del 10% de los datos entra dentro de algun hotspot, y esto sabiendo que en ellos se encuentra al menos el 60 % de las especies del
planeta.

Con los datos actuales, y los que vamos a tener durante mucho tiempo, no es suﬁciente para analizar la biodiversidad del planeta.

Necesitamos una solución

No tenemos datos completos sobre dónde se encuentran las especies...

Cómo vamos a proteger la biodiversidad si no sabemos dónde se encuentran las especies?

... tenemos un problema... y necesitamos una solución...

Les quiero mostrar una posible solución a corto plazo...

Distribución
potencial

Se trata de MODELIZAR la distribución potencial de las especies.

Utilizando los datos incompletos de las especies y relacionandolos con datos ambientales podemos intentar inferir su distribución más probable.

Las técnicas de modelización no son exactas, pero abren una puerta al problema de la falta de datos en la investigación sobre biodiversidad.


Por ejemplo, utilizando los datos que conociamos de presencia, o ausencia, del escarabajo del principio...

Precipitacion de de condiciones ambientales invierno
Plano verano Precipitacion en

Temperatura max. verano Altitud media

Y con datos ambientales de ese
territorio...

Plano de distribución potencial de la especie

Podemos obtener un mapa de la llamada DISTRIBUCIÓN POTENCIAL DE ESA ESPECIE.

Este mapa de probabilidades de presencia de la especie muestra las zonas de muy baja probabilidad de encontrar esa especie en verde, y en
blanco las de muy alta probabilidad.


Si deﬁnimos un umbral a partir del cuál aceptamos la presencia de la especie obtenemos el mapa de la distribución potencial binomial de la
especie.

si lo comparamos con el mapa original de la distribución de la especie que sólo utilizaba los datos que se habían recolectado...


podemos ver que el rango de distribución de la especie, potencialmente, es más grande.

Como no hay información disponible de la distribución REAL de todas las especies, y como no podemos ir a todos lados a comprobar si una
especie existe o no existe... esta técnica nos permite INFERIR LAS DITRIBUCIONES partiendo de datos incompletos.

Serie de mariposas modelizadas con GARP para el
presente y escenario 2050 A1F

d_animated.gif
Otra aplicación que tienen los modelos de distribuciones potenciales es la proyección del modelo sobre otras condiciones ambientales que no
sean las mismas que tenemos ahora.

Por ejemplo para el estudio de cambio climático. Proyectando nuestro modelo podemos ver como cambiará la distribución de la especie en
diferentes escenarios.

En la imagen que aquí se muestra se puede ver cómo la distribución de una serie de mariposas se va a ir desplazando hacia el norte a medida
que las temperaturas vayan subiendo.

Crotalaria pallida (FABACEAE)

Rafael Luís Fonseca

También los podemos utilizar para estudiar como se va a distribuir una especie invasora, que ha sido introducida artiﬁcialmente por el hombre en
otro continente.

En este caso podemos ver cómo se distribuirá una planta originaria de Africa por Sudamérica una vez que ha sido introducida por el hombre.

Datos de presencia-
ausencia de la especie

+
Datos geográﬁcos
ambientales

=
Modelo de
distribución

Resumiendo: Los modelos de distribución potencial nos proporcionan una herramienta muy interesante para el estudio de la biodiversidad.

Y para poder realizarlos necesitamos de:

1) Datos de presencia-ausencia de la especie

2) Datos geográﬁcos ambientales...
!

Modelizar es lento y complicado

Pero modelizar no es actualmente una tarea sencilla. Aún teniendo todos los datos disponibles, realizar un modelo de distribución de una especie
es algo lento y complicado.

Datos de especies Datos espaciales
XML - ABCD Vectoriales

.........
XML - DwC
CSV Raster

.........
BBDD
GIS - Puntos, Polígonos

Hay que prepar los datos que probablemente vendran en formatos diferentes.

1) Para los datos de especies nos podemos encontrar los datos en formatos más modernos, como XML, en sencillos ﬁcheros de texto, en bases
de datos de muchos tipos y esquemas, o en formato GIS con geometría de puntos o polígonos.
2) Los formatos de datos espaciales son demasiados para enumerarlos, más o menos cada GIS tiene su formato propio, algunos abiertos, otros
cerrados.

En los dos casos es probable que necesite realizar transformaciones con ellos, prepararlos, limpiarlos, cambiarles la escala, etc.

Roberto Vallejo ya hablo de ello...

DIVA-GIS FloraMap

DesktopGARP

El siguiente paso que tendré que realizar es la selección de un tipo de Modelo, de 1 algoritmo de modelización.

Existen muchos tipos de modelos que pueden ser llevados a cabo, algunos especialmente diseñados para modelización de distribuciones de
especies. Normalmente se utilizan paquetes matemáticos como R o aplicaciones especíﬁcas para cada uno de estos modelos.

Por supuesto cada programa requiere los datos en un formato diferente.

Tiempo

200

150

100

50

Especies

0

Otro inconveniente es que ciertas técnicas pueden requerir gran capacidad de proceso y memoria.

Algunos de los modelos pueden estar semanas corriendo en un ordenador normal.

Es necesario implementar estas aplicaciones en clusters que puedan correr mas rapido. Queremos acceder a supercomputadores para procesar
nuestros modelos.

Modelizar es lento y complicado

En ﬁn, modelizar es un trabajo laborioso que requiere de experiencia tanto en GIS como en programacion, ademas de tener contactos para
conseguir buenos datos ambientales.

Por tanto no todos los biologos tienen la posibilidad de modelizar las distribuciones de las especies que estan estudiando, y cuando lo hacen
muchas veces los trabajos son de muy baja calidad.

BioCASE, Synthesys, EDIT
Hacia un laboratorio virtual en biodiversidad

Pero estamos trabajando en ello!

Desde hace varios años la investigación en Biodiversity Informatics ha tratado de solucionar algunos de estos problemas. En Europa destacan
BioCASE (el cual ya ha terminado), Synthesys (el proyecto en el que estamos trabajando ahora mismo) y EDIT (el proyecto en el que
trabajaremos a partir de Julio).

En el Museo trabajamos para hacer la modelización un proceso más sencillo, rápido y ﬁable.
Y como estamos llevando a cabo esto?

Usando estandares! Como son los de OGC para la informacion geograﬁca, y los de TDWG para informacion biológica.
Creo que no hace falta que explique lo que es OGC. De hecho lo utilizare para deﬁnir lo que es TDWG.
Lo que OGC hace para la información y tecnologías espaciales... es lo que
TDWG hace para las bases de datos de colecciones biologicas y taxonomía.

Si buscas información sobre especies o especímenes es muy probable que termines usando alguno de los estándares de TDWG. Por supuesto,
GBIF también los usa.

http://openmodeller.sourceforge.net/
Aparte de los estándares internacionales estamos colaborando en el desarollo de una librería Open Source llamada OpenModeller.

En esta librería se están implementando diversos algoritmos de modelización que luego son accesibles através de una serie de APIs. Es como
una especie de ODBC para los diferentes Modelos de Distribución Potencial.

Igual que con ODBC los clientes de openModeller no tienen por qué conocer los detalles de cada uno de los modelos, así se puede programar
software genérico que funcione para todos ellos. Para el usuario esto signiﬁca que una sóla herramienta le permitirá llevar a cabo muchos
modelos diferentes con los mismos datos.

Escenarios

Más fácil es explicarlo con una serie de escenarios donde OpenModeller y el resto de elementos implicados en la modelización se vean
reﬂejados.

Escenario 1: Aplicación Desktop

Usuario Client

Datos de especies
Colecciones
GBIF
Agencias
Datos propios

Datos ambientales
IDE’s
Otros recursos

El primer escenario muestra como un usuario que ha instalado un cliente de OpenModeller en su ordenador podrá realizar una modelización de
forma sencilla. El software cliente permite diseñar un experimento de modelización indicando el algoritmo a utilizar y otros parámetros. Los datos
de especies y los datos ambientales que quiera utilizar podrán estar en su disco duro o podrán ser accedidos remotamente.

-En el caso de los datos de especies el protocolo de comunicación es Web Feature Service utilizando un GML app schema que ha creado
TDWG.
También es capaz de comunicarse con otros protocolo especíﬁcos de TDWG ya que WFS tiene algunos problemas (pero eso es otra historia).

-Para el caso de los datos espaciales el protocolo a utilizar será Web Coverage Service cuando sea posible. Si no, acceso directo a ﬁcheros
rasters también está contemplado.

Escenario 2: Uso de un supercomputador
Usuario Client

Datos de especies
Colecciones
GBIF
Agencias
Datos propios

Datos ambientales
IDE’s
Otros recursos

Supercomputador

En el segundo escenario, el usuario también tendrá un cliente OpenModeller instalado en su ordenador. Allí es donde diseñará su experimento
de modelización, y cuando esté listo, lo enviará a un centro de cálculo, un cluster o un supercomputador, dónde será procesado.

Para la comunicación entre el cliente OpenModeller y el ordenador donde se está procesando el modelo existe un protocolo, basado en SOAP.
Así el ordenador donde se procesan los modelos pone a disposición de los usuarios un servicio de procesamiento.

Recientemente OGC ha empezado a trabajar en 1 nuevo servicio llamado Web Processing Service. Si fuera posible nos gustaría substituir el
protocolo propio de OpenModeller por este futuro estandar.

Escenario 3: Aplicación Quantum GIS

Usuario

Datos de especies
Colecciones
GBIF
Agencias
Datos propios

qgis7.png
Datos ambientales
IDE’s
Otros recursos

Antes de empezar a modelizar hay que realizar una serie de tareas de limpieza con los datos y hay que comprobar su ﬁabilidad para el
muestreo. En la mayoría de los casos esto se lleva a cabo en una aplicación GIS.

Gracias a la modularidad del software Open Source QuantumGIS (Qgis) podemos integrar OpenModeller y otras herramientas útiles a la hora de
modelizar como plugins dentro del programa. La primera versión de OpenModeller ya está disponible como plugin para Qgis, que por cierto es
multiplataforma. A partir de Septiembre, con la incorporación de uno de los desarrolladores de GRASS al departamento en el museo
empezaremos a incluir más utilidades a Qgis para la realización de buenos modelos.

El unirnos a un proyecto Open source nos permite disponer de la base para proporcionar una herramienta más completa a los investigadores.

Escenario 3: Aplicación Quantum GIS

Usuario

Datos de especies
Colecciones
GBIF
Agencias
Datos propios

Datos ambientales
IDE’s
Otros recursos

Supercomputador

Por supuesto el usuario también dispondrá de la posibidad de usar un servicio externo para el procesamiento del modelo.

En el caso de que podamos implementar la API de OpenModeller como un WPS de hecho cualquier software GIS que implemente WPS podrá
utilizar los servicios de modelización de openModeller.

Escenario 4: Aplicación Web

Usuario

Datos de especies
Colecciones
GBIF
Agencias
Datos propios

Datos ambientales
IDE’s
Otros recursos

SWIG wrapper

Ya por último, otra posibilidad que planteamos en el proyecto es la realización de una aplicación Web dentro del proyecto EDIT para poder
realizar los modelos desde el navegador web.

Pero cómo encontrar los datos?

Datos de especies
Datos ambientales
Colecciones
GBIF
IDE’s
Otros recursos Agencias
Datos propios

BiogeoSDI?

Pero en toda esta infraestructura todavía queda una parte por resolver. Cómo pueden encontrar los usuarios los datos, tanto ambientales como
de especies? Bueno,

para el caso de los datos ambientales la solución parece estar en los catalog services que los IDEs puedan ir implentando. El usuario en
cualquier caso necesitará de catálogos a nivel nacional, europeo y global.

Por otro lado para los datos de especies, en el caso de GBIF ya existe un registro UDDI, donde se pueden consultar los recursos existentes, o
utilizar algo de los servicios web que están poniendo disponibles.

Por lo que parece el usuario va a tener que utilizar varios registros o catálogos para encontrar la información que le interesa para modelizar. En
este momento estamos evaluando la posibilidad de crear un Catalog Service especíﬁco para utilizar en biogeografía, podría llamarse BiogeoSDI,
donde registrar todos estos recursos y hacer más fácil el descubrimiento de los recursos a los usuarios.

Nos gustaría discutir esta posibilidad con gente que esté implementando Catalog Services para infraestructuras de datos espaciales.

QuantumGIS, Desktop

OWS: WFS, WMS, WCS, WPS, WCAS

Spatial Database

Modelling Library
Web visualization
Database Wrapper: TAPIR,WFS, BioMOBY

Open Source

Quizá pueda resultar interesante remarcar las tecnologías que estamos utilizando, o que pensamos que podemos utilizar. Como principio
intentamos siempre utilizar herramientas Open Source.

Destacar quizá 2 cosas:

-Utilizamos tanto Geoserver como deegree como servidores espaciales de servicios OGC.
-Para un proyecto de visualización que tenemos estamos utilizando Google Maps con WMS y WFS.

¿ ?
http://publicgeodata.org/

Ya para terminar me gustaría realizar una reflexión respecto a INSPIRE.

Como se ha podido ver a lo largo de la presentación, nuestra comunidad tiene una gran necesidad de datos espaciales. Necesitamos
acceso a datos de calidad, con la mayor resolucion posible y de forma libre.
Hasta ahora el acceso a los gazeteros para la georeferenciación, y a los datos ambientales para la modelización se han realizado
utilizando recursos libres y convenios específicos.
Dehecho es chocante que la mayoría de los datos utilizados para modelizar en Europa provengan de EEUU.

Un acceso de calidad, libre y gratuito a estos datos nos permitirá la realización de mejores modelos.
Si por el contrario el acceso a los datos tiene un precio, corremos el peligro de que sólo ciertas agencias u organismos puedan llevar
a cabo los mismos. Nosotros creemos en el libre acceso a los datos espaciales que han sido financiados por organismos públicos y
de hecho firmamos hace tiempo la declaración de publicgeodata.
Aunque parece que INSPIRE estipula que ! no debería haber barreras economicas entre diferentes sectores públicos, la
información deberia estar disponible para cualquiera...

¡Gracias!

Javier de la Torre Alonso Jorge M. Lobo
jatorre@mncn.csic.es mcnj117@mncn.csic.es

Mucha gracias por su
atención.

Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (19)

Similar a Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados

Similar a Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados (20)

Más de Javier de la Torre

Más de Javier de la Torre (20)

Las IDE’s y sus posibilidades para el tratamiento de datos biológicos georeferenciados