Présentation au Pôle Science de l’IRD , le 13 septembre 2018 du projet d'entrepôt de données ouvertes de l'IRD, du contexte de l'Open Science en France et en Europe et des avantages à disposer d'un entrepôt de données pour l'IRD et ses partenaires.
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018
1. Entrepôt de données ouvertes IRD
Un service en ligne pour l’ouverture et le partage des
données scientifiques au Sud
Séminaire du Pôle Science de l’IRD, Sète, le 13 septembre 2018
Jean-Christophe Desconnets - MIDN
Pascal Aventurier, Caroline Doucouré - IST/MCST
Stéphane Banon - D-DUNI
3. Qu'est-ce que la science ouverte ?
La science ouverte, c’est la diffusion sans entrave des publications et des
données de la recherche. Elle s’appuie sur l’opportunité que représente la
mutation numérique pour développer l’accès ouvert aux publications et – autant
que possible – aux données de la recherche.
Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné
des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la
création, le transfert et la réutilisation du matériel scientifique. Elle augmente
ainsi l’efficacité de la recherche.
La science ouverte vise à construire un écosystème dans lequel la science est
plus cumulative, plus fortement étayée par des données, plus transparente,
plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès
aux savoirs, utile à la recherche, à la formation, à l’économie, à la société.
Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès
économiques et sociaux, en France, dans les pays développés et dans les pays en
développement.
Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des
citoyens dans la science. Elle constitue un progrès scientifique et un progrès de
société.
4
« La science ouverte n’est pas une mode, ce n’est pas une discipline,
c’est un nouveau paradigme. Elle comporte donc ses nouvelles
pratiques et ses nouvelles compétences ». FrédériqueVidal. 4 juillet 2018.
http://m.enseignementsup-recherche.gouv.fr/cid132529/le-plan-national-pour-la-science-ouverte-les-resultats-de-la-recherche-scientifique-ouverts-a-tous-sans-
entrave-sans-delai-sans-paiement.html
4. Pourquoi partager les données ?
Entre injonctions et bénéfices Augmenter ces citations
Le partage des données
augmente l’attractivité
de l’article jusqu’à 69%
Étendre son réseau
nouvelle opportunité
pour
échanger/collaborer
Attirer sur son profil
chercheur
La demande pour réutiliser
les données est en forte
hausse
Renforcer ses possibilités
de recevoir des
financements
Compatibilité avec les
exigences des financeurs
Reproductibilité
Preuve
Résultats accessibles à tous public
Préservation
Description et visibilité
Pilote données ouvertes par défaut
Wiley
Incitation
ou
obligation
de partage
Protocole de
Nagoya
7. Questions soulevées par l’ouverture des données
•1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et
les plans de gestion des données existent (DMP).
•2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture
sont éligibles dans les appels à projets.
•3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité
publique, secret professionnel, secret industriel et commercial, risque pour la
protection du potentiel scientifique…) Données présentant des risques pour la
protection du potentiel scientifique et technique de la nation.
Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser.
Marin Dacos, 27/03/2018 : Ouverture des données de la recherche DGESIP - DGRI Journée sur le doctorat
Aussi ouvert que possible, aussi fermé que nécessaire
8. Principes FAIR : Augmenter le potentiel des données
9
• Licence d’utilisation
appropriée
• Utiliser des formats
ouverts
• Utiliser une vocabulaire
partagé
• Standards de
métadonnées communs
• Gérer de façon pérenne
de l’accès aux données
• Obtenir l’accord des
producteurs
• Attribuer un
Identifiant pérenne
• Décrire les données
décrites au sein d’un
entrepôt
Facile à
trouver
Accessible
RéutilisableInteropérable
10. Plan national pour la science ouverte
3 axes pour sa concrétisation
Axe 1 Généraliser l’accès ouvert aux publications
Axe 2 : Structurer et ouvrir les données de la recherche
4 – obligation de la diffusion ouverte des données
5 - Créer la fonction d’administrateur des données par établissement
6 – Données ouvertes associées aux articles scientifiques
Axe 3 : s’inscrire dans une dynamique durable, européenne et
internationale
7 - Développer les compétences dans les écoles doctorales.
8 – Politique de science ouverte pour les opérateurs de la recherche
9 - Contribuer à la structuration européenne (EOSC,GO FAIR)
11
11. 12
INRA
Un site web et entrepôt de données
Annuaire développé dans l’entrepôt de données
Formations : Plan de gestion de données
Liens entre données et documents (Prodinra)
CNRS
Lié au TGIR HUMA-NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche)
Ifremer
entrepôt de données SEANOE
Liens forts avec l’entrepôt de documents Archimer
CIRAD
Entrepôt de données dataverse
Un annuaire développé en dehors de l’entrepôt de données
Des formations : Plan de gestion de données
Science Po
Entrepôt de données dataverse du CDSP
INRIA
Software héritage pour le dépôt des codes sources
CEA, IRSTEA
Des préconisations
Ecosystème pour la science ouverte en France
Niveau d’avancement de nos partenaires
12. Notions autour des entrepôts de données
1305/10/2018 Présentation GT Données - IST - 27 mars 2018
13. Service en ligne permettant le dépôt, la description, la
conservation, la recherche et la diffusion des jeux de données.
Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale,
internationale
D’après Sylvie Cocaud. Cocaud et Aventurier 2017
Entrepôt de données de recherche
Définition
14. Déposer ses données dans un entrepôt facilite la découverte
et la réutilisation des données
Les entrepôts sont scannés par des outils de recherche spécifiques
Data Cite search
Data Citation Index (Thomson Reuters)
Google Dataset Search
Data Search (Elsevier)
Peuvent diffuser leurs données via le protocole d’échange standard
OAI-PMH
D’après Cocaud et Aventurier 2017
http://dx.doi.org/10.15454/1.4993537478868977E12
et moissonnés par des catalogues, intégrateurs, infrastructures européennes
de données… de plus en plus nombreux
Plus value des entrepôts pour les scientifiques
Augmentation de la visibilité des travaux
16. 17
Positionnement
Données cibles 1/2
Données non structurées, non
numérisées, enfouies dans les PC,
historiques non rattachées à des BD
accessibles en interne ou externe
Observatoires, pôles
de données, base de
données accessibles
sur le web
Distribution des données de la recherche
(Ferguson et al., 2014)
18. Identificationdescriptiondécouverte
stockage
dépôt
Motivations
Changer les pratiques de gestion des données
19
oubli
destruction
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
cycle de vie au cours du projet
cycle de vie dans l’entrepôt
bornes du projet
valorisation
partage
nouvelles
publications
citations
réutilisation
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
Plan de
gestion de
données
19. 20
Objectifs de l’entrepôt
Première pièce de l’écosystème « gestion des données pour la
science ouverte »
À court terme
Fournir un service (plateforme + accompagnement + curation) aux
chercheurs pour maitriser la diffusion de leur données et leur
préservation
À moyen terme
Assurer la découverte des ressources IRD déposées dans d’autres
entrepôts, pôles de données, infrastructures de recherche (fonction
d’annuaire)
20. 21
Sur la visibilité des produits de leur recherche
Augmentation de la visibilité de leurs travaux
Indexation par les moteurs de recherche internationaux (DataCite,
Google, R3data.org…)
Objectifs
Au service des chercheurs
Sur la préservation et la réutilisation des données
Préservation des données pour les projets hors observatoires, IR ;
Récupération des données en danger
Apprendre les bonnes pratiques de gestion des données
21. 22
En interne
Répondre au plan national de la science ouverte
Améliorer la connaissance et la gestion de notre patrimoine de données
Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Objectifs
Au service de l’institut
Pour nos partenaires Sud et internationaux
Améliorer l’accessibilité de nos données aux partenaires du sud
Être un support pour des initiatives de science ouverte au sud
(réplication de l’entrepôt, mise à disposition, renforcement de
capacités)
Europe et international
Répondre aux exigences des programmes européens
S ’intégrer dans des infrastructures européennes EOSC (European
Open Science Cloud)
22. 23
Adhérence avec l’existant
l’entrepôt interconnecté
Lab
Entrepôts
ESR Français
Observatoires
Pôle de
données
PNDB
Système Terre
Moteur de
recherche
Entrepôt
23. 24
Méthodologie
Réunion d’informations
Recueils des besoins sur un large panel disciplinaire
Tests d’une application de dépôts et de partage
Quelques exemples
Génomique
SHS
Milieu marin
Ecologie - biodiversité
Santé
Environnement
Méthodologie
Nombreux besoins identifiés au sein des UMR…
3 séminaires d’informations et d’échanges organisés :
> 10 UMR, DDUNI, DAJ, IST, MIDN
25. • Logiciel open source, créé en 2006 par Harvard
• Installer une instance locale de Dataverse et participer au réseau de
Dataverse (Cirad, INRA, Science Po…)
• Intégrer un « écosystème » d’entrepôts interopérables
26
Plateforme logicielle pour l’entrepôt IRD
Outil open source Dataverse
https://dataverse.org/
26. Une collection
Un jeu de données
Recherche générale
Recherche ciblée
Dataverse
Interface web – découverte des données
27. La citation du jeu de
données
Dataverse
Interface web – Citation et accès aux données
Les
données
associées
28. Fonctionnement type de l’entrepôt
29
Appui DAJ / Supports
d’accompagnement/
Hotline pour répondre
aux questions
• Création d’un espace et formation d’une personne référente
• Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….)
Description et
dépôt de
données
Validation du
dépôt par
IST/personne
désignée
Publication du
jeu de données
Référencement
dans les
moteurs et les
outils de
recherche
Données FAIR
• Les chercheurs déposent, en accord,
avec le plan de gestion de données, un
jeu de données dans cet espace dans
des formats standardisés, et décrivent
leurs données
• (ouvert /
fermée/embargo/métadonnée
s seules)
30. Organisation en interne
Articulation entre pôle Science et pôle Appui
MCST – Service
IST
MIDN
D-DUNI –
Service Etudes
et
Développement
DRH – Service
Développement
des
compétences
DAJ – Service
juridique
31. 32
Calendrier prévisionnel
Phases et première cible
1
• Recueils des besoins pour orienter le périmètre du projet et les choix techniques
2
• Tests et études techniques
3
• Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19)
• Configuration, développements annexes (fédération authentification, interopérabilité, visualisation)
5
• Phase d’utilisation pilote de Dataverse (janvier – mars 19)
• Configuration, développements annexes (fédération authentification, interopérabilité,
visualisation)
6
• Ouverture de l’entrepôt de données – version 1 (printemps 19)
32. 33
Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent
déposer, partager
Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable
Complémentarité avec les plateformes existantes : descriptions associés à la
création d’un DOI et aux fonctions de découverte sur les données
Des objectifs raisonnables
Nombreuses attentes des scientifiques pour des contextes variés
Et des besoins différents (valorisation , préservation, attribution de
DOI, partage)
Pour répondre aux besoins des chercheurs
Conclusion
Améliorer la connaissance et la gestion de notre patrimoine de données
Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Et au service de l’institut