Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018

Entrepôt de données ouvertes IRD
Un service en ligne pour l’ouverture et le partage des
données scientifiques au Sud
Séminaire du Pôle Science de l’IRD, Sète, le 13 septembre 2018
Jean-Christophe Desconnets - MIDN
Pascal Aventurier, Caroline Doucouré - IST/MCST
Stéphane Banon - D-DUNI

Published in: Ankit Agrawal; Alok Choudhary; APL Materials 2016, 4, Copyright © 2016 Author(s)
https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/
Le 4ème paradigme : la science dirigée par les données

Qu'est-ce que la science ouverte ?
La science ouverte, c’est la diffusion sans entrave des publications et des
données de la recherche. Elle s’appuie sur l’opportunité que représente la
mutation numérique pour développer l’accès ouvert aux publications et – autant
que possible – aux données de la recherche.
Son objectif : faire sortir la recherche financée sur fonds publics du cadre confiné
des bases de données fermées. Elle réduit les efforts dupliqués dans la collecte, la
création, le transfert et la réutilisation du matériel scientifique. Elle augmente
ainsi l’efficacité de la recherche.
La science ouverte vise à construire un écosystème dans lequel la science est
plus cumulative, plus fortement étayée par des données, plus transparente,
plus rapide et d’accès plus universel. Elle induit une démocratisation de l’accès
aux savoirs, utile à la recherche, à la formation, à l’économie, à la société.
Elle favorise les avancées scientifiques ainsi que l’innovation, les progrès
économiques et sociaux, en France, dans les pays développés et dans les pays en
développement.
Elle constitue un levier pour l’intégrité scientifique et favorise la confiance des
citoyens dans la science. Elle constitue un progrès scientifique et un progrès de
société.
4
« La science ouverte n’est pas une mode, ce n’est pas une discipline,
c’est un nouveau paradigme. Elle comporte donc ses nouvelles
pratiques et ses nouvelles compétences ». FrédériqueVidal. 4 juillet 2018.
http://m.enseignementsup-recherche.gouv.fr/cid132529/le-plan-national-pour-la-science-ouverte-les-resultats-de-la-recherche-scientifique-ouverts-a-tous-sans-
entrave-sans-delai-sans-paiement.html

Pourquoi partager les données ?
Entre injonctions et bénéfices Augmenter ces citations
Le partage des données
augmente l’attractivité
de l’article jusqu’à 69%
Étendre son réseau
nouvelle opportunité
pour
échanger/collaborer
Attirer sur son profil
chercheur
La demande pour réutiliser
les données est en forte
hausse
Renforcer ses possibilités
de recevoir des
financements
Compatibilité avec les
exigences des financeurs
Reproductibilité
Preuve
Résultats accessibles à tous public
Préservation
Description et visibilité
Pilote données ouvertes par défaut
Wiley
Incitation
ou
obligation
de partage
Protocole de
Nagoya

Comment ouvrir les données ?
6

partly FAIR, partly Cloudy
Barend Mons

Questions soulevées par l’ouverture des données
•1. C’est compliqué C’est la raison pour laquelle les infrastructures de données et
les plans de gestion des données existent (DMP).
•2. C’est cher C’est la raison pour laquelle les frais de structuration et d’ouverture
sont éligibles dans les appels à projets.
•3. C’est risqué pour les données sensibles (personnelle, secret défense, sécurité
publique, secret professionnel, secret industriel et commercial, risque pour la
protection du potentiel scientifique…) Données présentant des risques pour la
protection du potentiel scientifique et technique de la nation.
Dans tous ces cas, il ne faut pas ouvrir les données, mais on peut les Fairiser.
Marin Dacos, 27/03/2018 : Ouverture des données de la recherche DGESIP - DGRI Journée sur le doctorat
Aussi ouvert que possible, aussi fermé que nécessaire

Principes FAIR : Augmenter le potentiel des données
9
• Licence d’utilisation
appropriée
• Utiliser des formats
ouverts
• Utiliser une vocabulaire
partagé
• Standards de
métadonnées communs
• Gérer de façon pérenne
de l’accès aux données
• Obtenir l’accord des
producteurs
• Attribuer un
Identifiant pérenne
• Décrire les données
décrites au sein d’un
entrepôt
Facile à
trouver
Accessible
RéutilisableInteropérable

Plan national pour la science ouverte
3 axes pour sa concrétisation
Axe 1 Généraliser l’accès ouvert aux publications
Axe 2 : Structurer et ouvrir les données de la recherche
4 – obligation de la diffusion ouverte des données
5 - Créer la fonction d’administrateur des données par établissement
6 – Données ouvertes associées aux articles scientifiques
Axe 3 : s’inscrire dans une dynamique durable, européenne et
internationale
7 - Développer les compétences dans les écoles doctorales.
8 – Politique de science ouverte pour les opérateurs de la recherche
9 - Contribuer à la structuration européenne (EOSC,GO FAIR)
11

12
INRA
 Un site web et entrepôt de données
 Annuaire développé dans l’entrepôt de données
 Formations : Plan de gestion de données
 Liens entre données et documents (Prodinra)
CNRS
 Lié au TGIR HUMA-NUM : exemple Nakala (entrepôt de données), Isodore (moteur de recherche)
Ifremer
 entrepôt de données SEANOE
 Liens forts avec l’entrepôt de documents Archimer
CIRAD
 Entrepôt de données dataverse
 Un annuaire développé en dehors de l’entrepôt de données
 Des formations : Plan de gestion de données
Science Po
 Entrepôt de données dataverse du CDSP
INRIA
 Software héritage pour le dépôt des codes sources
CEA, IRSTEA
 Des préconisations
Ecosystème pour la science ouverte en France
Niveau d’avancement de nos partenaires

Notions autour des entrepôts de données
1305/10/2018 Présentation GT Données - IST - 27 mars 2018

Service en ligne permettant le dépôt, la description, la
conservation, la recherche et la diffusion des jeux de données.
Entrepôt disciplinaire / institutionnel / ouvert à toutes disciplines / Infrastructure nationale,
internationale
D’après Sylvie Cocaud. Cocaud et Aventurier 2017
Entrepôt de données de recherche
Définition

Déposer ses données dans un entrepôt facilite la découverte
et la réutilisation des données
Les entrepôts sont scannés par des outils de recherche spécifiques
 Data Cite search
 Data Citation Index (Thomson Reuters)
 Google Dataset Search
 Data Search (Elsevier)
Peuvent diffuser leurs données via le protocole d’échange standard
OAI-PMH
D’après Cocaud et Aventurier 2017
http://dx.doi.org/10.15454/1.4993537478868977E12
et moissonnés par des catalogues, intégrateurs, infrastructures européennes
de données… de plus en plus nombreux
Plus value des entrepôts pour les scientifiques
Augmentation de la visibilité des travaux

Vers un entrepôt de données ouvertes pour l’IRD
16

17
Positionnement
Données cibles 1/2
Données non structurées, non
numérisées, enfouies dans les PC,
historiques non rattachées à des BD
accessibles en interne ou externe
Observatoires, pôles
de données, base de
données accessibles
sur le web
Distribution des données de la recherche
(Ferguson et al., 2014)

https://libereurope.eu/wp-content/uploads/PARSE-Insight_D3-5_InterimInsightReport_final.pd
Positionnement
Données cibles 2/2

Identificationdescriptiondécouverte
stockage
dépôt
Motivations
Changer les pratiques de gestion des données
19
oubli
destruction
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
cycle de vie au cours du projet
cycle de vie dans l’entrepôt
bornes du projet
valorisation
partage
nouvelles
publications
citations
réutilisation
Conception projet
de recherche
démarrage
projet
acquisition de
données
Analyse de
données
publication
résultats
fin projet
Plan de
gestion de
données

20
Objectifs de l’entrepôt
Première pièce de l’écosystème « gestion des données pour la
science ouverte »
À court terme
 Fournir un service (plateforme + accompagnement + curation) aux
chercheurs pour maitriser la diffusion de leur données et leur
préservation
À moyen terme
 Assurer la découverte des ressources IRD déposées dans d’autres
entrepôts, pôles de données, infrastructures de recherche (fonction
d’annuaire)

21
Sur la visibilité des produits de leur recherche
 Augmentation de la visibilité de leurs travaux
 Indexation par les moteurs de recherche internationaux (DataCite,
Google, R3data.org…)
Objectifs
Au service des chercheurs
Sur la préservation et la réutilisation des données
 Préservation des données pour les projets hors observatoires, IR ;
Récupération des données en danger
 Apprendre les bonnes pratiques de gestion des données

22
En interne
 Répondre au plan national de la science ouverte
 Améliorer la connaissance et la gestion de notre patrimoine de données
 Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Objectifs
Au service de l’institut
Pour nos partenaires Sud et internationaux
 Améliorer l’accessibilité de nos données aux partenaires du sud
 Être un support pour des initiatives de science ouverte au sud
(réplication de l’entrepôt, mise à disposition, renforcement de
capacités)
Europe et international
 Répondre aux exigences des programmes européens
 S ’intégrer dans des infrastructures européennes EOSC (European
Open Science Cloud)

23
Adhérence avec l’existant
l’entrepôt interconnecté
Lab
Entrepôts
ESR Français
Observatoires
Pôle de
données
PNDB
Système Terre
Moteur de
recherche
Entrepôt

24
Méthodologie
 Réunion d’informations
 Recueils des besoins sur un large panel disciplinaire
 Tests d’une application de dépôts et de partage
Quelques exemples
 Génomique
 SHS
 Milieu marin
 Ecologie - biodiversité
 Santé
 Environnement
Méthodologie
Nombreux besoins identifiés au sein des UMR…
3 séminaires d’informations et d’échanges organisés :
> 10 UMR, DDUNI, DAJ, IST, MIDN

Plateforme technique
05/10/2018 25
« On ne réinvente pas, on réutilise et on adapte »

• Logiciel open source, créé en 2006 par Harvard
• Installer une instance locale de Dataverse et participer au réseau de
Dataverse (Cirad, INRA, Science Po…)
• Intégrer un « écosystème » d’entrepôts interopérables
26
Plateforme logicielle pour l’entrepôt IRD
Outil open source Dataverse
https://dataverse.org/

Une collection
Un jeu de données
Recherche générale
Recherche ciblée
Dataverse
Interface web – découverte des données

La citation du jeu de
données
Dataverse
Interface web – Citation et accès aux données
Les
données
associées

Fonctionnement type de l’entrepôt
29
Appui DAJ / Supports
d’accompagnement/
Hotline pour répondre
aux questions
• Création d’un espace et formation d’une personne référente
• Unités, projets peuvent créer un espace de dépôt personnalisable « Dataverse », ….)
Description et
dépôt de
données
Validation du
dépôt par
IST/personne
désignée
Publication du
jeu de données
Référencement
dans les
moteurs et les
outils de
recherche
Données FAIR
• Les chercheurs déposent, en accord,
avec le plan de gestion de données, un
jeu de données dans cet espace dans
des formats standardisés, et décrivent
leurs données
• (ouvert /
fermée/embargo/métadonnée
s seules)

Organisation du projet
05/10/2018 30

Organisation en interne
Articulation entre pôle Science et pôle Appui
MCST – Service
IST
MIDN
D-DUNI –
Service Etudes
et
Développement
DRH – Service
Développement
des
compétences
DAJ – Service
juridique

32
Calendrier prévisionnel
Phases et première cible
1
• Recueils des besoins pour orienter le périmètre du projet et les choix techniques
2
• Tests et études techniques
3
• Mise en place de la plateforme Dataverse à l’IRD (septembre – janvier 19)
• Configuration, développements annexes (fédération authentification, interopérabilité, visualisation)
5
• Phase d’utilisation pilote de Dataverse (janvier – mars 19)
• Configuration, développements annexes (fédération authentification, interopérabilité,
visualisation)
6
• Ouverture de l’entrepôt de données – version 1 (printemps 19)

33
 Entrepôt pour accueillir les données que les chercheurs de l’IRD souhaitent
déposer, partager
 Rendre les données: Facile à trouver, Accessible, Interopérable, Réutilisable
 Complémentarité avec les plateformes existantes : descriptions associés à la
création d’un DOI et aux fonctions de découverte sur les données
Des objectifs raisonnables
 Nombreuses attentes des scientifiques pour des contextes variés
 Et des besoins différents (valorisation , préservation, attribution de
DOI, partage)
Pour répondre aux besoins des chercheurs
Conclusion
 Améliorer la connaissance et la gestion de notre patrimoine de données
 Un premier élément « concret » vers une politique de science ouverte à
l’IRD
Et au service de l’institut

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018

Similar a Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018 (20)

Más de IST IRD - Service IST de l'Institut de Recherche pour le Développement

Más de IST IRD - Service IST de l'Institut de Recherche pour le Développement (20)

Último

Último (19)

Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le partage des données scientifiques au Sud - 2018