Conferenza tenuta presso la ex SSAB da Paola Gargiulo (CINECA) il 19-04-2013 nell'ambito del 7. ciclo "Biblioteche libri documenti: dall'informazione alla conoscenza", a.a. 2012-2013, Prof.ssa M.T. Biagetti
2. Assistiamo alla produzione in costante crescita di dati della
ricerca in formato digitale in moltissime discipline, non solo nelle
scienze (astronomia, fisica, climatologia, vulcanologia, medicina,
chimica, matermatica ecc) ma anche nelle scienze sociali e umane
(statistica, economia, psicologia, archeologia, storia dell’arte ecc.)
La ricerca diventa, pertanto, sempre più data-intensive
La ricerca utilizza pertanto sempre di più tecnologie avanzate di
comunicazione, di informazione e di calcolo, incrementando le
forme di collaborazione tra ricercatori facilitate dalla costituzione
di network di macchine sempre più potenti e performanti
Parliamo di E-Research/eResearch e di E-Science/eScience e anche
di Science 2.0
3. Che cosa si intende per eResearch
• Collaborazione tra ricercatori che avviene tramite la
rete indipendentemente dalla distanza tramite l’uso
• risorse di calcolo/computer distribuite per la produzione, elaborazione
dati condivisi
• strumenti di collaborazione via web dai sw di social bookmarking per
condividere bibliografie, report, testi completi, immagini alle video-
conference e qualsiasi altra tecnologia di condivisione
• Gestione dei dati e condivisione/Data management and
sharing
• Facilitare l’archiviazione (storage) e la catalogazione di dati
della ricerca (data sets) al fine di permettere ai ricercatori di
continuare ad accedere a questi dati (conservazione a lungo
termine) e poterli riutilizzare
4. • High Performing Computing
• sistemi di calcolo molto potenti e performanti distribuiti in
rete che grazie alla loro potenza e alla memoria sono in
grado di analizzare grandi quantità di dati (large data sets) di
creare modelli di sistemi complessi, di ricercare enormi
database e di trovare soluzioni a grossi problemi (in ambiti di
applicazione: modelli per i cambiamenti climatici, allo studio
dei social network, ecc)
• Visualizzazione
• Tecnologie che permettono di visualizzare i dati in
modo da comprendere data set complessi e concetti
astratti
5. • E-Science is about global collaboration in key areas of
science,and the next generatiion of infrastructure
that will enable it
• John Taylor- Director General Research Councils- Office of
Science and Technology (2000)
• La scienza basata su sistemi di calcolo molto potenti e
performanti distribuiti in rete che grazie alla loro potenza e alla
memoria sono in grado di analizzare grandi quantità di dati
(large data sets)
• L’infrastruttura che sostiene questi sistemi di calcolo è condivisa
tra scienziati delle varie discipline nel mondo, nessun scienziato,
nessun gruppo, nessuna istituzione sarebbe in grado di
mantenere/gestire una tale infrastruttura
• Esempi di E-Science :
• Large Hadron Collider (CERN);
• European Grid infrastructure
6. • si intendono i dati raccolti, osservati, o creati per essere
analizzati e produrre i risultati originali di una ricerca
• questi dati, che vengono generati per scopi diversi e
attraverso procedure diverse sono divisi in categorie:
• Dati risultati da osservazioni (dati catturati in tempo reale,non
riproducibili, per es. dati dei sensori, di indagini, immagine
neurologiche ecc)
• Dati sperimentali (dati di laboratorio, riproducibili ma costosi ,
per es. le sequenze dei geni, ecc)
• Dati generati da simulazioni (per es. modelli climatici, modelli
economici)
• Dati derivati o compilati (dati riproducibili ma costosi, per es. i
test e i dati estratti/text and data mining, modelli 3D
• Dati di riferimento o dati di canone (statici e organici) per es. le
banche dati di sequenze di geni, le strutture chimiche, i portali
con dati spaziali
MA NON SOLO
7. I documenti in word o i fogli excel
Appunti di laboratorio, diari
Questionari, le trascrizioni,
Le registrazioni audio e video
Fotografie e i film
Le risposte ai test
Le presentazioni in ppt, artifatti,
Collezioni di oggetti digitali acquisiti e
generati durante un processo di ricerca
I file di programmi (data files)
8. Database che contengono video, audio,
testi, immagini
Modelli, algoritmi, programmi sw
File di log per l’analisi di sw, sw per la
simulazione, schemi
Metodologie e flussi di lavoro
Procedure operative standard e protocolli
9. Database che contengono video, audio,
testi, immagini
Modelli, algoritmi, programmi sw
File di log per l’analisi di sw, sw per la
simulazione, schemi
Metodologie e flussi di lavoro
Procedure operative standard e protocolli
10. I dati raccolti durante la vita di un
progetto /Research Records
i file elettronici di un progetto
il bando del progetto
I rapporti tecnici
I rapporti sulla ricerca
11. Dati strutturati
• Matrici di dati
• Dati transazionali
Grafi
• Web e Social network
• Strutture molecolari
Dati Ordinati
• Dati spaziali
• Serie storiche
• Sequenze
• Sequenze genetiche
Dati non strutturati
• Documenti testuali
• Immagini
• Audio e Video
Cortesy: Roberta Turra – r.turra@cineca.it
12. I dati quando vengono processati, organizzati,
strutturati o presentati in un contesto che li
renda utili diventano informazione
I metadati sono dati strutturati sui dati per
renderne possibile la consultazione, il discovery,
il ri-uso, la conservazione a medio e lungo
termine, ecc
13. • La selezione • Problematiche connesse con la
conservazione a lungo termine dei dati
• La gestione
• Definizione del periodo della durata dei
• L ’integrità, la sicurezza dati
• Descrizione/metadatazione • Migrazione dei dati nei formati più adatti
• I formati • Migrazioni dei dati sui supporti più adatti
• L’archiviazione/storage • Creazione di metadati per la
conservazione e documentazione
• L’accesso ai dati
• La conservazione dei dati
• La condivisione, il riuso,
• La ridistribuzione
• La conservazione a medio
lungo termine
14. Oggi si sta affermando sempre di più una
nuova figura professionale in UK,negli USA, nei
paesi del Nord Europa chiamata il liaison
librarian
Si tratta di un bibliotecario che lavora a
stretto contatto con i ricercatori e i gruppi di
ricerca di un’università o di un ente di ricerca
e che svolge delle attività attinenti al loro
lavoro e ai loro bisogni
15. Fornire suggerimenti su fonti di finanziamento per i progetti
Fornire un servizio di aggiornamento di notizie di interesse al ricercatore
e/o gruppo di ricerca /literature reviews or current awareness alerts
Fornire assistenza durante i processi di valutazione dei ricercatori/ su aspetti
bibliometrici, misura dell’impatto
Consulenza sul diritto d’autore
Addestramento nell’uso dei sw per la creazione di bibliografie (bibliographic
software per es. ReferenceWork, Zotero, Mendeley etc
Promozione della disseminazione dei risultati della ricerca (pubblicazioni e
anche i dati della ricerca) attraverso le strategie dell’Accesso Aperto: 1.
auto-archiviazione degli articoli e dei dati della ricerca nell’archivio
istituzionale o archivi disciplinari o archivi dati aperti 2. pubblicazione degli
articoli in riviste ad Accesso Aperto, deposito dei dati della ricerca in archivi
di dati aperti
16. Aumentare la consapevolezza dei ricercatori sulle problematiche connesse alla
gestione dei dati della ricerca
Assistere i ricercatori nella elaborazione del piano di gestione dei dati Data
Management Plan che oggi viene richiesto in diversi paesi dagli enti finanziatori
della ricerca
Il piano deve documentare in modo articolato come i dati della ricerca saranno descritti, archiviati,
condivisi, resi accessibili, ri-utilizzabili durante la durata del progetto e successivamente
Consigliare la scelta dei formati da adottare
Consigliare sugli aspetti relativi alla proprietà intellettuale, all’accesso aperto dei
dati, al riuso de dati
Fornire supporto per la citazione dei dati e per l’uso di identificatori persistenti
Fornire consulenza su aspetti etici e di privacy
Fornire informazioni sugli aspetti relativi all’archiviazione/storage e alla sicurezza
dei dati / back-up
Offrire consulenza sugli aspetti relativi alla conservazione a lungo tempo
Occuparsi della metadatazione dei dati in collaborazione con l’esperto/a di
dominio/data scientist
Occuparsi della gestione del repository/catalogo dei dati o suggerire soluzioni in
cloud computing
19. 1. Offrire assistenza nella gestione
dei dati
2. Contribuire allo sviluppo dei
metadati e standard dei dati e
fornire servizi di metadatazione
3. Creare le figure professionali dei
data librarian
4. Partecipare attivamente nelle
creazione di policy sui dati della
ricerca delle istituzioni
5. Collaborare con i ricercatori e
gruppi di ricerca per la creazione di
infrastruttrure interoperabili per
l’accesso ai dati e alla condivisione
dei dati
6. Sostenere il ciclo di vita dei dati
fornendo servizi di archiviazione,
discovery e accesso permanente
7. Promuovere l’utilizzo di identificatori
persistenti per l’accesso
permanente ai dati
8. Fornire un catalogo dei dati
9. Familiarità con la gestione di dati
nelle varie discipline
10. Offrire o mediare l’archiviazione
2012 sicura in collaborazione con le
strutture IT o con servizi di cloud-
computing
http://www.libereurope.eu/news/ten-recommendations-for-libraries-to-get-started-with-research-data-management
25. OpenAIRE e OpenAIRE plus
un portale per
l’accesso ai risultati
e ai dati della
ricerca finanziata
nel 7° Programma
Quadro
questionari/
follow up
http://www.openaire.eu/it
26. EUDAT: progetto collaborativo europeo per
un’infrastruttura comune per i dati
evitare un
nuovo
digital divide:
l’Europa deve
procedere allo
stesso passo
http://www.eudat.eu/
27. smartData: progetto
finanziato dal CINECA per
gestire le nuove
problematiche “BigData” ed
HPC fornendo, accanto
all'infrastruttura per la
produzione, l'archiviazione e la fruizione dei
dati, un servizio di analisi avanzata sui dati
prodotti dagli utenti che ne favorisce il riuso
anche da parte di altre comunità
scientifiche
28. http://mappaproject.arch.unipi.it/
MAPPA - Metodologia
Applicate alla Predittività
del Potenziale
Archeologico
•Il primo open digital
archaeological archive
italiano, che rende
accessibili tutti i dati
pubblici delle indagini
archeologiche
•Uso di sistemi e
procedure standardizzate
per la redazione e la
gestione dei dati
archeologici
29. DATACite, progetto
collaborativo per la
descrizione standard
dei datasets e la loro
citabilità via DOI
Per l’Italia: CRUI
altri riferimenti
tecnici:
CODATA, http://www.codata.org/
Open Data Commons,
http://opendatacommons.org/
http://www.datacite.org/