Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Cargando en…3
×

Eche un vistazo a continuación

1 de 32 Anuncio

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018

Descargar para leer sin conexión

Présentation au Pôle Science de l’IRD , le 13 septembre 2018 du projet d'entrepôt de données ouvertes de l'IRD, du contexte de l'Open Science en France et en Europe et des avantages à disposer d'un entrepôt de données pour l'IRD et ses partenaires.

Présentation au Pôle Science de l’IRD , le 13 septembre 2018 du projet d'entrepôt de données ouvertes de l'IRD, du contexte de l'Open Science en France et en Europe et des avantages à disposer d'un entrepôt de données pour l'IRD et ses partenaires.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018 (20)

Anuncio

Más de IST IRD - Service IST de l'Institut de Recherche pour le Développement (20)

Más reciente (20)

Anuncio

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018

  1. 1. Entrepôt de données ouvertes IRD Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud Séminaire du Pôle Science de l’IRD, Sète, le 13 septembre 2018 Jean-Christophe Desconnets - MIDN Pascal Aventurier, Caroline Doucouré - IST/MCST Stéphane Banon - D-DUNI
  2. 2. Published in: Ankit Agrawal; Alok Choudhary; APL Materials 2016, 4, Copyright © 2016 Author(s) https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/ Le 4ème paradigme : la science dirigée par les données
  3. 3. Qu'est-ce que la science ouverte ? La science ouverte, c’est la diffusion sans entrave des publications et des données de la recherche. Elle s’appuie sur l’opportunité que représente la mutation numérique pour développer l’accès ouvert aux publications et – autant que possible – aux données de la recherche. Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la création, le transfert et la réutilisation du matériel scientifique. Elle augmente ainsi l’efficacité de la recherche. La science ouverte vise à construire un écosystème dans lequel la science est plus cumulative, plus fortement étayée par des données, plus transparente, plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès aux savoirs, utile à la recherche, à la formation, à l’économie, à la société. Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès économiques et sociaux, en France, dans les pays développés et dans les pays en développement. Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des citoyens dans la science. Elle constitue un progrès scientifique et un progrès de société. 4 « La science ouverte n’est pas une mode, ce n’est pas une discipline, c’est un nouveau paradigme. Elle comporte donc ses nouvelles pratiques et ses nouvelles compétences ». FrédériqueVidal. 4 juillet 2018. http://m.enseignementsup-recherche.gouv.fr/cid132529/le-plan-national-pour-la-science-ouverte-les-resultats-de-la-recherche-scientifique-ouverts-a-tous-sans- entrave-sans-delai-sans-paiement.html
  4. 4. Pourquoi partager les données ? Entre injonctions et bénéfices Augmenter ces citations Le partage des données augmente l’attractivité de l’article jusqu’à 69% Étendre son réseau nouvelle opportunité pour échanger/collaborer Attirer sur son profil chercheur La demande pour réutiliser les données est en forte hausse Renforcer ses possibilités de recevoir des financements Compatibilité avec les exigences des financeurs Reproductibilité Preuve Résultats accessibles à tous public Préservation Description et visibilité Pilote données ouvertes par défaut Wiley Incitation ou obligation de partage Protocole de Nagoya
  5. 5. Comment ouvrir les données ? 6
  6. 6. partly FAIR, partly Cloudy Barend Mons
  7. 7. Questions soulevées par l’ouverture des données •1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et les plans de gestion des données existent (DMP). •2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture sont éligibles dans les appels à projets. •3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité publique, secret professionnel, secret industriel et commercial, risque pour la protection du potentiel scientifique…) Données présentant des risques pour la protection du potentiel scientifique et technique de la nation. Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser. Marin Dacos, 27/03/2018 : Ouverture des données de la recherche DGESIP - DGRI Journée sur le doctorat Aussi ouvert que possible, aussi fermé que nécessaire
  8. 8. Principes FAIR : Augmenter le potentiel des données 9 • Licence d’utilisation appropriée • Utiliser des formats ouverts • Utiliser une vocabulaire partagé • Standards de métadonnées communs • Gérer de façon pérenne de l’accès aux données • Obtenir l’accord des producteurs • Attribuer un Identifiant pérenne • Décrire les données décrites au sein d’un entrepôt Facile à trouver Accessible RéutilisableInteropérable
  9. 9. Contexte national 1 0
  10. 10. Plan national pour la science ouverte 3 axes pour sa concrétisation Axe 1 Généraliser l’accès ouvert aux publications Axe 2 : Structurer et ouvrir les données de la recherche 4 – obligation de la diffusion ouverte des données 5 - Créer la fonction d’administrateur des données par établissement 6 – Données ouvertes associées aux articles scientifiques Axe 3 : s’inscrire dans une dynamique durable, européenne et internationale 7 - Développer les compétences dans les écoles doctorales. 8 – Politique de science ouverte pour les opérateurs de la recherche 9 - Contribuer à la structuration européenne (EOSC,GO FAIR) 11
  11. 11. 12 INRA  Un site web et entrepôt de données  Annuaire développé dans l’entrepôt de données  Formations : Plan de gestion de données  Liens entre données et documents (Prodinra) CNRS  Lié au TGIR HUMA-NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche) Ifremer  entrepôt de données SEANOE  Liens forts avec l’entrepôt de documents Archimer CIRAD  Entrepôt de données dataverse  Un annuaire développé en dehors de l’entrepôt de données  Des formations : Plan de gestion de données Science Po  Entrepôt de données dataverse du CDSP INRIA  Software héritage pour le dépôt des codes sources CEA, IRSTEA  Des préconisations Ecosystème pour la science ouverte en France Niveau d’avancement de nos partenaires
  12. 12. Notions autour des entrepôts de données 1305/10/2018 Présentation GT Données - IST - 27 mars 2018
  13. 13. Service en ligne permettant le dépôt, la description, la conservation, la recherche et la diffusion des jeux de données. Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale, internationale D’après Sylvie Cocaud. Cocaud et Aventurier 2017 Entrepôt de données de recherche Définition
  14. 14. Déposer ses données dans un entrepôt facilite la découverte et la réutilisation des données Les entrepôts sont scannés par des outils de recherche spécifiques  Data Cite search  Data Citation Index (Thomson Reuters)  Google Dataset Search  Data Search (Elsevier) Peuvent diffuser leurs données via le protocole d’échange standard OAI-PMH D’après Cocaud et Aventurier 2017 http://dx.doi.org/10.15454/1.4993537478868977E12 et moissonnés par des catalogues, intégrateurs, infrastructures européennes de données… de plus en plus nombreux Plus value des entrepôts pour les scientifiques Augmentation de la visibilité des travaux
  15. 15. Vers un entrepôt de données ouvertes pour l’IRD 16
  16. 16. 17 Positionnement Données cibles 1/2 Données non structurées, non numérisées, enfouies dans les PC, historiques non rattachées à des BD accessibles en interne ou externe Observatoires, pôles de données, base de données accessibles sur le web Distribution des données de la recherche (Ferguson et al., 2014)
  17. 17. https://libereurope.eu/wp-content/uploads/PARSE-Insight_D3-5_InterimInsightReport_final.pd Positionnement Données cibles 2/2
  18. 18. Identificationdescriptiondécouverte stockage dépôt Motivations Changer les pratiques de gestion des données 19 oubli destruction Conception projet de recherche démarrage projet acquisition de données Analyse de données publication résultats fin projet cycle de vie au cours du projet cycle de vie dans l’entrepôt bornes du projet valorisation partage nouvelles publications citations réutilisation Conception projet de recherche démarrage projet acquisition de données Analyse de données publication résultats fin projet Plan de gestion de données
  19. 19. 20 Objectifs de l’entrepôt Première pièce de l’écosystème « gestion des données pour la science ouverte » À court terme  Fournir un service (plateforme + accompagnement + curation) aux chercheurs pour maitriser la diffusion de leur données et leur préservation À moyen terme  Assurer la découverte des ressources IRD déposées dans d’autres entrepôts, pôles de données, infrastructures de recherche (fonction d’annuaire)
  20. 20. 21 Sur la visibilité des produits de leur recherche  Augmentation de la visibilité de leurs travaux  Indexation par les moteurs de recherche internationaux (DataCite, Google, R3data.org…) Objectifs Au service des chercheurs Sur la préservation et la réutilisation des données  Préservation des données pour les projets hors observatoires, IR ; Récupération des données en danger  Apprendre les bonnes pratiques de gestion des données
  21. 21. 22 En interne  Répondre au plan national de la science ouverte  Améliorer la connaissance et la gestion de notre patrimoine de données  Un premier élément « concret » vers une politique de science ouverte à l’IRD Objectifs Au service de l’institut Pour nos partenaires Sud et internationaux  Améliorer l’accessibilité de nos données aux partenaires du sud  Être un support pour des initiatives de science ouverte au sud (réplication de l’entrepôt, mise à disposition, renforcement de capacités) Europe et international  Répondre aux exigences des programmes européens  S ’intégrer dans des infrastructures européennes EOSC (European Open Science Cloud)
  22. 22. 23 Adhérence avec l’existant l’entrepôt interconnecté Lab Entrepôts ESR Français Observatoires Pôle de données PNDB Système Terre Moteur de recherche Entrepôt
  23. 23. 24 Méthodologie  Réunion d’informations  Recueils des besoins sur un large panel disciplinaire  Tests d’une application de dépôts et de partage Quelques exemples  Génomique  SHS  Milieu marin  Ecologie - biodiversité  Santé  Environnement Méthodologie Nombreux besoins identifiés au sein des UMR… 3 séminaires d’informations et d’échanges organisés : > 10 UMR, DDUNI, DAJ, IST, MIDN
  24. 24. Plateforme technique 05/10/2018 25 « On ne réinvente pas, on réutilise et on adapte »
  25. 25. • Logiciel open source, créé en 2006 par Harvard • Installer une instance locale de Dataverse et participer au réseau de Dataverse (Cirad, INRA, Science Po…) • Intégrer un « écosystème » d’entrepôts interopérables 26 Plateforme logicielle pour l’entrepôt IRD Outil open source Dataverse https://dataverse.org/
  26. 26. Une collection Un jeu de données Recherche générale Recherche ciblée Dataverse Interface web – découverte des données
  27. 27. La citation du jeu de données Dataverse Interface web – Citation et accès aux données Les données associées
  28. 28. Fonctionnement type de l’entrepôt 29 Appui DAJ / Supports d’accompagnement/ Hotline pour répondre aux questions • Création d’un espace et formation d’une personne référente • Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….) Description et dépôt de données Validation du dépôt par IST/personne désignée Publication du jeu de données Référencement dans les moteurs et les outils de recherche Données FAIR • Les chercheurs déposent, en accord, avec le plan de gestion de données, un jeu de données dans cet espace dans des formats standardisés, et décrivent leurs données • (ouvert / fermée/embargo/métadonnée s seules)
  29. 29. Organisation du projet 05/10/2018 30
  30. 30. Organisation en interne Articulation entre pôle Science et pôle Appui MCST – Service IST MIDN D-DUNI – Service Etudes et Développement DRH – Service Développement des compétences DAJ – Service juridique
  31. 31. 32 Calendrier prévisionnel Phases et première cible 1 • Recueils des besoins pour orienter le périmètre du projet et les choix techniques 2 • Tests et études techniques 3 • Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19) • Configuration, développements annexes (fédération authentification, interopérabilité, visualisation) 5 • Phase d’utilisation pilote de Dataverse (janvier – mars 19) • Configuration, développements annexes (fédération authentification, interopérabilité, visualisation) 6 • Ouverture de l’entrepôt de données – version 1 (printemps 19)
  32. 32. 33  Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent déposer, partager  Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable  Complémentarité avec les plateformes existantes : descriptions associés à la création d’un DOI et aux fonctions de découverte sur les données Des objectifs raisonnables  Nombreuses attentes des scientifiques pour des contextes variés  Et des besoins différents (valorisation , préservation, attribution de DOI, partage) Pour répondre aux besoins des chercheurs Conclusion  Améliorer la connaissance et la gestion de notre patrimoine de données  Un premier élément « concret » vers une politique de science ouverte à l’IRD Et au service de l’institut

×