Orchestration, Automation and Virtualisation Maturity Model
La FAIRificació de les dades: un repte col·lectiu amb una infraestructura federada
1. La FAIRificació de les dades
un repte col·lectiu amb una infraestructura federada
Lluís Anglada, Xavier Rodoreda
Àrea de Ciència Oberta (CSUC)
2. 1. La recerca
2. Les dades de recerca
3. El repositori de dades de recerca
3. 1. La recerca
1. La recerca (i les dades) com a motor econòmic
2. Canvis en la comunicació científica
3. La ciència oberta
4. La ciència oberta i les dades a Catalunya
2. Les dades de recerca
3. El repositori de dades de recerca
4. Motivacions
De la Comissió Europea (econòmiques i
polítiques)
• Per facilitar el canvi de model econòmic
• Per donar resposta als reptes social
• Perquè el coneixement científic és un bé públic
Dels investigadors
• La CA millora la ciencia
– Més ràpida + Per a tothom + Reutilitzable
• La ciència ha de ser un bé públic
– obert
– Gestionat per la comunitat científica
5. Canvis en la comunicació científica
Anàlisis de 89M ‘papers’ digitalitzats publicats entre 1900 i 2015
Mostra canvis de tendència i
comportament de la comunicació
científica
– La ciència és col·laborativa
– La ciència és global
– La ciència creix a un ritme exponencial
“From this period, science began a
gradual, continual process of
increasing
• collaboration,
• openness, and
• diversity”
• Dong, Yuxiao, Hao Ma, and Zhihong Shen, et. al.
• "A Century of Science: Globalization of Scientific
Collaborations, Citations, and
Innovations" arXiv.org
• (17 April 2017)
• (https://arxiv.org/abs/1704.05150)
6. Ciència oberta: el cicle de la investigació no canvia, però sí els instruments que s’usen
Les noves eines tecnològiques han canviat de forma
substancial com es fa i difon la ciència
• ‘Science 2.0’ as a holistic approach, therefore, is much more than only one of its features
(such as Open Access) and represents a paradigm shift in the modus operandi of
research and science impacting the entire scientific process.
Les respostes a la COVID-19 han
reforçat la necessitat de canvi:
• Publicar en obert
• Increment col·laboració
• Reutilització dels resultats
7. “Les dades, la informació que es pot extreure de les
dades, és una recurs molt preuat que permet generar valor
social i econòmic: dades que possibiliten llançar noves
empreses, analitzar patrons i tendències, prendre
decisions basades en dades i resoldre problemes
complexos.”
8. 1. La recerca
2. Les dades de recerca
1. L’impuls d’Europa a posar les dades en mode FAIR
2. FAIR? Les dades FAIR
3. La FAIRificació de les dades
4. El camí recorregut
5. Què fer? El que hem après en els darrer mesos
3. El repositori de dades de recerca
13. El que hem après
És un tema important però molt nou (no per nosaltres, per tothom)
• Alguns problemes estan resolts, però molts estan encara pendents de tenir una
solució consensuada, especialment els referents a metadades
En alguns àmbits els repositoris disciplinars són una realitat consolidada
• GenBank, World Data Center for Climate, Marine Geosciences Data System…
Publicar no és gestionar (i gestionar no és publicar)
• No sempre és interesant compartir totes les dades utilitzades en una
investigació (i en canvi, fer-ho, incrementa el cost)
Les mides dels datasets importen
• Publicar dades grans comporta un cost i esforç que no sempre és assumible.
Amb dades petites aquest problema és mínim.
És molt important tenir pràctiques / estàndards / protocols comuns
• Facilita la interoperabilitat
14. 1. La recerca
2. Les dades de recerca
3. El repositori de dades de recerca
1. Característiques generals
2. Perquè DataVerse?
3. Facilitats per a FAIRness
4. Situació actual
5. Reptes de futur
15. Característiques generals
Repositori multidisciplinar d’estructura federal
Per a institucions de Catalunya (Universitats i Centres de Recerca)
Per a dades petites (Long Tail)
Utilitza el programari Open Source Dataverse, sostingut per una
comunitat internacional
Facilita la publicació de dades en mode FAIR
19. Reptes
Per a l’any 2021
• Promoure la participació de les instàncies al
Repositori i fer créixer el nombre de datasets
• Concretar la contractació d’un/una curador de
dades
• Establir uns requisits de metadades mínim per
cada dataset
Per a l’any 2022
• Fer al RDR interoperable amb el Portal de la
Recerca i els sistemes CRIS
• Millorar la preservació de datasets i
aconseguir el segell Core Trust
• Consolidar el RDR i continuar el projecte
incloent també fitxers de mida més gran que
100G