2. Eurostatin (EU:n tilastovirasto) avoimet aineistot
n Ladattavissa osoitteesta:
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/bulk_download
n Sisältää n. 1 100 taulukkoa (table) ja n. 4 300 laajempaa
tietokantakuutiota (dataset).
l Lähes kaikissa näistä on mukana aluemuuttuja "geo" (useimmiten
maat n. 35 ja joissain tapauksissa NUTS2-alueet n. 300).
l Lähes kaikissa näistä on mukana myös aikamuuttuja "time" (joko
vuodet tai kuukaudet).
l Näiden lisäksi taulukoissa on 0-2 muuta muuttujaa.
Tietokantakuutioissa saattaa olla enemmänkin ulottuvuuksia.
n Aineistot ladattavissa zipattuina joko tsv, dft tai sdmx –muodossa.
n Tiedot päivittyvät kahdesti päivässä.
3. Lataussivustolta löytyy itse data-aineistojen lisäksi myös:
n Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomuotojen
rakenteet.
n Tekstitiedostomuotoinen "table of contents" -listaus ladattavissa
olevista tiedostoista:
l Sisältää aineistojen perusmetatiedot (hakemistorakenteen,
tiedostonimet sekä taulukoiden otsikot, päivityspäivämäärät ja
aikasarjojen pituudet).
n Vaihtoehtoinen xml-muotoinen "table of contents" -listaus:
l Sisältää edellisen lisäksi sisältää myös taulukoissa käytetyt yksiköt,
lyhyet kuvaukset, linkit laajempaan metatietoon sekä taulukoiden
latauslinkit.
n Erilliset käännöstiedostot (dic).
4. n Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain
muuttujien nimet sekä muuttujien arvojen koodit.
n Erillisestä käännöshakemistosta löytyy kutakin muuttujan nimeä
vastaava käännöstiedosto, josta löytyy kyseisen muuttujan
arvokoodeja vastaavat selväkieliset nimet.
n Taulukkolistaukset ja käännöstiedostot ovat ladattavissa kolmella
eri kielellä (englanti, ranska ja saksa).
5. Taulukot jaettu 9 pääaihealueeseen:
n General and regional statistics
n Economy and finance
n Population and social conditions
n Industry, trade and services
n Agriculture, forestry and fisheries
n International trade
n Transport
n Environment and energy
n Science and technology
6. Ja lisäksi erillisiin poikkitilastollisiin teemoihin:
n Macroeconomic Imbalance Procedure Scoreboard
n Short-term indicators
n Europe 2020 indicators
n Sustainable Development indicators
n Globalisation indicators
n Structural (Lisbon) indicators
n Employment and Social Policy Indicators
-> Taulukot voivat olla useammassa paikassa hakemistorakenteen
eri osissa.
7. Tilastokeskuksen malli Eurostatin aineistojen käytöstä
-> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen
asiakkaita:
l Yhtenäinen käyttöliittymä (PX-Web)
l Yhtenäinen aihealuejako (SVT –aihealueet)
l Suomen kieli
l Pc-Axis –tiedostomuoto
-> Luo meille myös mahdollisuuden käyttää näitä aineistoja helposti
(jopa automaattisesti) muussa taulukko-, tilastokuvio- ja
karttatuotannossa sekä mahdollisuuden linkittää näitä aineistoja
aihealuetasolla muuhun sivustoon.
8. Luotiin skripti, joka:
l Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta.
l Konvertoi ne Pc-Axis -tiedostoiksi tarvittavine metatietoineen ja
lähettää ne PX-Web -tietokantaan oikeisiin SVT-aihealueisiin.
Joitain vastaan tulleita ongelmia:
Eurostatin taulukkokoelma elää koko ajan:
l Vanhoja taulukoita poistuu ja uusia tulee tilalle
l Sama taulukko kahdella eri nimellä eri paikoissa
l Otsikot vaihtuvat
l Puutteelliset käännöstiedostot
l Ajoittain zip-tiedostot rikki
l Listaustiedoston tai jopa datatiedostojen rakenne muuttunut
9. n Suomenkielisen version ylläpidon resurssiongelma.
n Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.
-> Suositeltavaa käyttää suoraan alkuperäistä lähdettä (Eurostat).
Mahdollista toki käyttää myös Tilastokeskuksen konvertoimia Pc-
Axis-muotoisia taulukoita, jotka löytyvät sivuiltamme:
http://www.stat.fi/org/lainsaadanto/avoin_data.html
10. n Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen
tilastotiedon sivuilta PX-Web -tietokannasta (Eurostatin
avaintaulukot): http://tilastokeskus.fi/tup/kvportaali/
n Sivuilta löytyy myös joukko näiden taulukoiden pohjalta luotuja
automaattisesti päivittyviä tilastokuvioita (Kansainväliset
vertailukuviot).
n Sivuilta löytyy myös linkkejä muihin keskeisiin kansainvälisten
järjestöjen tilastotietokantoihin. Näistä laajimmat (ja
poikkitilastolliset) ovat:
l OECD Statistics (OECD:n tilastoportaali)
l UNdata (YK:n tilastotietokantojen portaali)
l World Bank (Maailmanpankin tietokannat)
l UNECE Database (YK:n Euroopan talouskomission tietokanta)
11. Myös muita keskeisiä aihealueittaisia tietokantoja esim.:
l ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja
työvoimatilastot)
l FAOSTAT (YK:n elintarvike- ja maatalousjärjestön tietokannat)
Joitain Tilastokeskuksen intressejä ja näkökulmia avoimen datan
sovellusten suhteen:
l Tietojen automaattinen haku myös muista kv-tietokannoista
l Interaktiiviset sovellukset -> Käyttäjillä mahdollisuus itse tutkia
aineistoja omista lähtökohdistaan
l Mahdollisuus esittää asioita uudella tavalla uusista näkökulmista
l Keskeinen edellytys palveluiden helppo ja tehokas päivitettävyys
l Tehokkaat datan sisään- ja uloslukurutiinit
l Suuret datamäärät