1. Les standards en biodiversitéPartie 2 1er juillet 2010 Natural Solutions
2. Ma donnée Un gobe-mouche gris à Natural Solutions, Donnée : Elément d'information décrivant de façon élémentaire un objet, une transaction, un événement, etc. Une donnée sert de base à une recherche, un raisonnement, etc. Identifié par Amandine avec des jumelles Métadonnée : Donnée décrivant des caractéristiques d'une donnée, e.g. propriété, contenu, qualité (conditions, précision, etc.), date de saisie, etc.
3.
4. Reconnu par la communauté Comprendre et utiliser la donnée Standard : format reconnu par une autorité ou majoritairement utilisé. Un standard permet la compatibilité des systèmes. Standard de données
5. Partager ma donnée (2) Utiliser la donnée au sein au sein d’un programme / système informatique <dwc:Taxon> <dwc:scientificName>Muscicapastriata</dwc:scientificName> <dwc:class>Aves</dwc:class> <dwc:order>Passeriformes </dwc:order> <dwc:genus>Muscicapa</dwc:genus> </dwc:Taxon> < dcterms:Location > < dwc:country > France < dwc:country > < dwc:countryCode > FR < dwc:countryCode > < dwc:locality > Marseille < dwc:locality > < dwc:decimalLatitude > 43.17203 < dwc:decimalLatitude > < dwc:decimalLongitude > 5.22445 < dwc:decimalLongitude > </dcterms:Location > Implémentation XML
6. Partager ma donnée (3) < protocol id =NSprotocol.1 > < title> Identification in a corridor </title> < creator> < individualName > < surName > Sahl </ surName > </ individualName > </ creator> < proceduralStep > < description > < para>Bird identification on a working place</ para > </ description > < instrumentation > binocular</ instrumentation > </proceduralStep> </protocol> Standard de metadonnées
7. Partager ma donnée (4) Protocole d’échange : les méthodes d'échange de données numériques entre plusieurs postes informatiques
8.
9. Les standards de métadonnées Problématique Différents types de données de biodiversité Stockagesvariés Echellesdifférentes Données dispersées Objectif Accéder aux jeux de données de biodiversité sur le Web Quellessont les donnéesdisponibles? Comment accéder à cesdonnées ?
10. Définitions Les métadonnéesdécrivent les ressources et leuraccessibilité identification qualité contexte spatial distribution des jeux de données Utiliser un standard de métadonnées uneterminologie commune un ensemble de définition Eviteruneperte du sens original des données
11. Dublin Core Standard de metadonnées le mieux connu actuellement Initié en 1995 Objectif : découvrir les ressourcesdocumentaires du Web 15 descripteurs minimums Implémentation XML http://dublincore.org/
14. Organisation EML Descripteursorganisés en classes décrivant : le jeu de données (dataset) l’origine des données (citation) la structure des données (software) les méthodes de création du jeu de données (protocol) l’accessibilité des données (access)
18. TDWG TaxonomicDatabaseWorking Group Biodiversity Information Standards Uneorganisationinternationale à but non lucratif Développe des standards et des protocoles pour partager les données de biodiversité www.tdwg.org
19. Historique TDWG/CODATA (Committee on Data for Science and Technology) Sous groupe « Access to Biological Collections Data » 2000 Protocole de recherche des données de biodiversité Spécification des données des collections biologiques Projet BioCase DwC + protocole DIGIR ABCD Schema GBIF Protocole BioCase
20. DarwinCore Définition d’un ensemble d’éléments de données (data element) Unitéd’information de base : sens unique + valeursdistinctes Norme ISO ISO/IEC 11179 : lisibilitéet l’interchangeabilité des données Attributs/champs de base de données Objectif : partage et intégration des donnéesd’observationprimaires Initialement : organisation des collections de specimens Extensible (ajoutd’éléments de données) : fct des besoinsspécifiques http://rs.tdwg.org/dwc/
21. Les catégories 172 éléments de données Organisés en 8 catégories/classes taxonID scientificNameID taxonConceptID scientificName kingdom phylum class order family genus subgenus taxonRank scientificNameAuthorship vernacularName nomenclaturalCode taxonomicStatus nomenclaturalStatus taxonRemarks … Dublin Core
22. Des metadonnées? Un ensemble complémentaire de termes - Record-level Terms – pour caractériserle jeude données institutionID collectionID datasetID institutionCode collectionCode datasetName ownerInstitutionCode basisOfRecord informationWithheld dataGeneralizations dynamicProperties Darwin Core Type Vocabulary Valeur de l’élément de données Nature des données Occurrence Event Location Taxon PreservedSpecimen FossilSpecimen LivingSpecimen HumanObservation MachineObservation NomenclaturalChecklist
23. Le partage Tous les termessontassignés à une URI occurenceID : http://rs.tdwg.org/dwc/terms/occurrenceID implementation XML + XML/RDF
25. Simple Darwin Core Sous ensemble de 46 éléments de données Attributs des tableurs et bases de données Pas les termesreprésentant les différentescatégories (liste plate) Partage simple des donnéestaxonomiques et de leurs occurrences
27. Utilisation Largement utilisé GBIF (Global Biodiversity information facility) www.gbif.org OBIS (OceanBiogeographic Information System) www.iobis.org ALA (Atlas of Living Australia) www.ala.org.au Inventaires : ATBI (All Taxa Biodiversity Inventories and Monitoring) Mercantour …
28. ABCD schema Schémahierarchique de spécification de données Echange des données de collections Specimens Observations Completdonccomplexe 1200 éléments de données Capable d’intégrer des donnéesdétaillées, de sources trèsdifferentes et de domainestrèsspécifiques Suffisammentd’éléments de données pour être compatible avec beaucoup de standards Implémentation XML www.tdwg.org/activities/abcd/
32. Extensions Extension pour les Geosciences (EFG) http://www.geocase.eu/ Extension pour les données moléculaires (ADN) http://www.dnabank-network.org/ Extension pour les herbiers http://hiscom.chah.org.au/wiki/HISPID_5
35. Taxon Concept schema(Taxonomic taxon transfert schema) Problématique Données de biodiversité des fournisseursbaséesgénéralementsur un seulréférentieltaxonomique Partager les donnéesnécessitentd’utiliser la mêmetaxonomie www.tdwg.org/standards/117/
36. Objectifs Développer un modèleabstrait de concepts taxonomiques Etablir des relations entre les concepts taxonomiques des fournisseurs de données Standard XML pour faciliterl’échange de données entre les différentsfournisseurs faciliterl’interrogation des données
40. Exemple (2) <TaxonConcepts> <TaxonConcept id="988"> <Name scientific="true" ref="124">Dianthus gratianopolitanusVill.</Name> <AccordingTo> <AccordingToSimple> Clapham, Tutin & Moore (1987) </AccordingToSimple> </AccordingTo> <TaxonRelationships> <TaxonRelationship type="has synonym"> <ToTaxonConceptref="989"/> </TaxonRelationship> </TaxonRelationships> </TaxonConcept> <TaxonConcept type="nominal" id="989"> < Name scientific="true" ref="125">Dianthus caesius</Name> </TaxonConcept>
41. Utilisation GBIF dans son projet de « Global Names Architecture » TCS est utilisé pour faciliter l’échange des données taxonomiques.
42.
43.
44. Les protocoles Protocole = comment lierouéchanger les données • Protocoles existants – TAPIR LSID & RDF – DwC-A IPT
45. TAPIR Protocole pour interroger les bases de données existantes Remplace : DiGIR (utilisant DwC comme standard) BioCASe (utilisant ABCD schema comme standard) Indépendant du standard, mais un standard de donnéesestnécessaire Utilisé principalement par GBIF www.tdwg.org/activities/tapir
51. LSID & RDF LSID = Life Science Identifier Type de GUID = Global Unique Identifier LSID = chaîne de caractères + format urn:lsid:ubio.org:namebank:11815 http://lsids.sourceforge.net/
52. LSID & RDF Utilisation : Identification d’un objet Retrouver les metadonnées associées (standard) RDF = Resource Description Framework RDF = Format de réponse des requêtes sur le LSID Nombreuxoutils pour résoudre et échanger les LSID http://lsid.tdwg.org/
54. Darwin Core archive Pas vraiment un protocole Moyen de publier les données au sein du GBIF DwC-A contient un jeu de donnéesentierbasésur des fichierstextes Le format DwC-A fournit un moyen simple de publiersesdonnées au format DwC + extensions Une archive = un ensemble de fichiertexteszippés
57. IPT -Portails de données -Réseaux distribués -Accès aux enregistrements individuels -Clients GIS -GeoPortals Catalogues de Métadonnées -Transport rapide des données -Création d’index
58. Conclusion Partager les données de biodiversité : Utiliser un standard de données Utiliser un standard de metadonnées Utiliser un protocole d’échange Applications