Anna Salmi & Mari Elisa Kuusniemi (0000-0002-7675-287X), Helsingin yliopiston kirjasto, 22.8.2016.
Tutkimusdatakysely Helsingin yliopiston tutkijoille 2016. Tutkimusdatainfrastruktuurin kehittämishanke MILDRED,
projekti 3: Julkaisu- ja metadatapalvelut
Helsingin yliopisto
Following the starting phase data inventory, a MILDRED survey was sent in summer 2016 to all UH researchers in order to chart the current data repository services use situation. The focus was in data created by researchers; data acquisition practices were left out at this point. A delightful amount of 260 answers were gathered. What’s more, all three major disciplinary families, life sciences, humanities and social sciences, and natural sciences, were well represented. 62 % of the participants represented life sciences, 21 % humanities and social sciences and 17 % natural sciences.
2. Esiselvitys tutkijoiden
käyttämistä datatietokannoista
Selvityksen toteutti korkeakouluharjoittelija Anna Salmi
Työn ohjasivat Mari Elisa Kuusniemi ja Mikko Ojanen
Kesäkuussa 2016 selattiin 250 aikavälillä 2015–2016
ilmestynyttä tutkimusartikkelia, joista 210 PLOS-
julkaisuja (muita Nature sekä WoS:n julkaisuja)
Inventoitavana HY:n tutkijoiden luoma data
PLOS-julkaisuformaatti sisältää kirjoittajien selvityksen
datan luomisesta ja sijoittamisesta
Figshare-repositorypalvelu erityisasemassa, koska toimii
PLOS-julkaisujen dataliitteiden pilvipalvelutuottajana
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
3. Kysely ja vastaukset
Kysely suunnattiin sähköpostitse kaikkien tiedekuntien ja
tutkimusyksikköjen tutkimushenkilökunnan jäsenille kesä-
heinäkuussa 2016
258 vastausta
62 % elämätieteistä, 21 % humanistis-yhteiskuntatieteistä ja
17 % luonnontieteistä
1) Monivalinnat: 10 esiselvityksessä yleisintä tietokantaa
(sekä esim. FIN-CLARIN ja FDS tasoittamassa
elämätieteellistä painotusta)
2) valikoima muita tallennusmuotoja: henkilökohtainen
tietokone, CSC:n palvelut jne
3) Vapaa vastauskenttä syille, miksi tietokantoja ei käytetty
oman datan tallentamiseen
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
4. Käytetyt repositorypalvelut
44 % käytti yhtä tai useampaa digitaalista
repositorya/digiarkistoa
21 % käytti kahta tai useampaa
10 % käytti kolmea tai useampaa
56 % ei käyttänyt mitään tietokantaa
15 % käytti jotain muuta kuin monivalinnan tietokantoja
Monitieteellisistä mukana B2SHARE, figshare, Dryad,
GitHub ja Zenodo
Yleisimmät GenBank (16,7 %), GitHub (14 %), Sequence
Read Archive (6,6 %) ja Gene Expression Omnibus (5 %)
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
5. Kun data ei ollut sijoitettuna
tietokantaan…
29 % ilmoitti, ettei tiennyt tallennusmahdollisuuksista
tarpeeksi
11 %: data luonteeltaan sensitiivistä
54 % säilytti dataa HY:n verkkolevyillä
68 % käytti henkilökohtaista tallennustilaa
58 % käytti ulkoisia kovalevyjä
50 % käytti USB-tikkua
37 % piti dataa kaupallisissa pilvipalveluissa kuten
Dropboxissa
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
6. Miksei tarvetta
tallentamiselle?
11 %: tallentamiskysymys oli epärelevantti oman
tutkimuksen kannalta
8,5 %: ei tarvetta tarkemmin määrittelemättömästä
syystä
7,7 %: dataa oli vain vähän
4,6 %: Nykyiset tallennustilat ja -palvelut olivat riittäviä
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
7. Poimintoja vastauksista
” I do not know or trust them [repositories] enough. I do
not have such big data that it would be a problem to
store it otherways. I would need a system that is
reliable, easy to use and access and permanent
solution.”
“Data repositories (such as GEO etc) are only practical
once the research is published and the data is
published. Other means to store data for short (or long)
term are essential while the research and analyses are
still ongoing.”
“No knowledge about depositories that could be useful,
no knowledge about repositories one might have access
to.”
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
8. Poimintoja vastauksista,
jatkuu
“The [research] results are fully covered by the
published articles.”
“Unclear benefits with respect to effort.”
“It was sufficient until this moment to store the data
within University infrastructure, although convenient
data sharing between collaborators is still lacking.”
“[I] would prefer a local (institutional) databank.”
”I don’t know what CSC is.”
Helsingin yliopiston kirjasto,
Anna Salmi 22.8.2016
9. Jatkoselvitys
Selvityksessä löytyi 48 data-arkistostoa/repositoria,
joita HY:n tutkijat käyttävät
Näille etsittiin Re3data tietokannasta tunniste ja sen
avulla tietokannan API:n kautta haettiin sieltä löytyvät
tiedot, kuten:
dataAccessType
dataLicenseName
softwareName
citationGuidelineURL
qualityManagement
metadataStandardName
apidSyste (= ORCID tms.)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
10. Metadata selvitys
Etsittiin tietokannoista kuvaus metadatakentistä
Testattiin tietokantoja hakemalla
a. Henkilön nimellä (Sen tutkijan nimi tai nimen osa, joka
ilmoitti tallentaneensa kyseiseen tietokantaan)
b. Organisaatiolla (Helsinki)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
11. Henkilön nimi
Henkilön nimellä pystyi hakemaan 21/48 tietokannassa.
Henkilön nimellä ei voinut hakea 22/48 tietokannassa.
Tietokannoista 4/48 jäi epäselväksi (metadatan
kuvausta ei löytynyt, eikä testihaku tuottanut selvää
tulosta)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
12. Organisaatiotiedot
Organisaation nimellä pystyi hakemaan 9/48
tietokannassa.
Organisaation nimellä ei voinut hakea 36/48
tietokannassa.
Tietokannoista 3/48 jäi epäselväksi (metadatan
kuvausta ei löytynyt, eikä testihaku tuottanut selvää
tulosta)
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
13. Organisaatiolla voi hakea
dbGaP
Finnish Social Science Data Archive
Gene Expression Omnibus
GitHub
Global Biodiversity Information Facility
Inspire-HEP
Kielipankki
MG-RAST
Zenodo
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016
14. Yhteenveto
Monet tutkijat käyttävät kansainvälisiä data-arkistoja
(44% vastaajista).
Toisaalta monilla tutkijoilla ei ole riittävästi tietoa
asiasta (28% vastaajista kertoi tästä vapaassa
vastauskentässä).
Nyt tiedämme 48 repositoria/data-arkistoa, jossa on
HY:n dataa.
Vain muutamasta näistä voimme erottaa HY:n
datat/metadatat muista datoista (9/48).
Helsingin yliopiston kirjasto,
Mari Elisa Kuusniemi 22.8.2016