On 03/07/2019 PACKED center of expertise for digital heritage presented a series op cultural open datasets published by themselves and in cooperation with the Flemish Art Collection along with a linked open dataset published by VIAA the Institute for Digital Archiving, to be used by the participants by the annual Apps for Ghent hackanthon.
Copyright and public domain for audiovisual materials
20190307 datadive _datanight_at_the_museum
1. Datadive: Erfgoeddata
PACKED & VIAA
Datadive: Datanight at the Museum: 07.03.2019
Sam Donvil
sam@packed.be
@PACKEDvzw
@viaa_be
2. • Non-profit
• 2006 - 2010: Platform voor archivering en conservering van kunst op elektronische en digitale dragers
media
• 2011 - 2018: Expertisecentrum Digitaal Erfgoed
• Vanaf 2019: Afdeling binnen VIAA - Vlaams Instituut voor Archivering
• Vlaams, Belgisch en Europese projecten
• Ondersteuning in ICT-processen bij erfgoed- en kunstenorganisaties (o.a. creatie, opslag, catalogisering,
online toegang, uitwisseling en hergebruik) en beleid daaromtrent
• Centrale bezorgdheid: duurzaamheid (digitaal erfgoed is kwetsbaar)
www.packed.be | www.viaa.be | www.projectcest.be | www.scart.be | www.projecttracks.be | www.scoremodel.org ...
3. Uitdagingen voor open data in culturele sector
nieuwe digitale ontwikkelingen <> geen digital mindset: gedistribueerde
versies en kopieën
kosten beperken <> out-of-control IT-budgetten
nieuwe ‘digitale’ publieken <> ‘traditionele’ publieken verliezen
pronken met fancy tools <> gesloten systemen/vendor lock-in/obsolete
technologieën
toenadering zoeken tot de ‘crowd’ <> verlaten web portalen
4. Advocacy en training
Presentations:
● Rights clearance and rights statements
● Datacleaning and persistent identification
Hands-on workshops:
● Datacleaning (Openrefine)
● Enrichment (Openrefine)
● Persistent identification
(Resolver tool -> Culturize)
5. Oplossingen
● Meer HR met IT profielen in de erfgoedsector > minder afhankelijk van
leveranciers
● Beter open infrastructuren en tools voor interne workflows en LOD:
○ Back office tools: collectiebeheersystemen, DAMs , Datahubs…
○ Publishing online tools: Resolvers, API’s...
○ Hergebruik: Wikimedia art viewers, apps...
○ etc…
● Meer vrijheid om te experimenteren, te testen, evt. te falen
6. Infrastructuur voor open data in de culturele sector
Data:
- Vervuild en onvolledig, maar veel potentieel
- Verspreid (verschillende dragers, systemen, etc.)
- Vaak gesloten (en obsolete) software
- ‘4-star’ data komt binnen de mogelijkheden van de erfgoedsector
- ‘5-star’ Linked Open Data: persistente URI’s oplossing?
Publishing:
- Waar? Eigen platformen vs. bestaande open data repositories
7. Infrastructuur: Platformen voor het publiceren van
open data
Eigen platformen gebruiken/bouwen:
- Eigen website (download file) / Linked data fragments?
- Eigen API’s, OAI-PMH en SPARQL endpoints
- Lokale/Nationale/Internationale erfgoed aggregatoren en datahubs
Gebruik van bestaande open data repositories:
- Open data platformen van de overheid
- Github (download file)
- Wikidata/Wikimedia Commons
13. Hergebruik: Public Domain Day
Remix Wonder Woman & Victor
Horta by Plus-tôt Te laat
Cinema Nova: performance music
by Reynaldo Hahn & screening
Ernst Lubitsch
The Death of the Authors, 1946: Xavan & Jaluka
door Peter Westenberg / Constant vzw
14. Wikidata
○ Museum voor Schone Kunsten Antwerpen (7.798 werken)
○ Museum voor Schone Kunsten Gent (6.973 werken)
○ Groeningemuseum Brugge (2.858 werken)
○ M - Museum Leuven (3.137 werken)
○ Mu.ZEE (3.979 werken)
○ S.M.A.K. (2.579 werken)
○ Documentatie:
https://www.wikidata.org/wiki/Wikidata:Flemish_art_collections,_Wikidata_and_Linked_Open_Data
15. Open datasets
Cultural heritage sector and living heritage on Wikidata and Wikimedia Commons:
- 2016: Groeningemuseum, KMSKA, MSKGent, SMAK, MuZEE, Museum M Leuven
- 2017 - …: Centrum voor Agrarische Geschiedenis, Musea en Erfgoed Antwerpen,
Museum Plantin-Moretus, Rubenshuis, Gruuthuse Museum, University of Antwerp
library / Prentenkabinet, University of Ghent Library, Royal Library Brussels,
Letterenhuis, Horta museum, Fondation CIVA, King Baudouin Foundation, Vlaams
Architectuurinstituut VAi, MAS museum
- Licentie: CC0
- Documentatie:
- https://www.wikidata.org/wiki/Wikidata:Flemish_art_collections,_Wikidata_and_Linked_Open_
Data
- https://nl.wikipedia.org/wiki/Wikipedia:Wikiproject/Procesbeschrijvingen_Belgisch-Nederlandse
_podiumkunsten
16. Podiumkunsten
● Taalunie: PACKED vzw in BE en DEN in NL op zoek naar een manier om
open data ivm. podiumkunsten te verbeteren
● Datasets:
○ Theaterencyclopedie: productiegegevens (sinds 1993) van 10 gezelschappen, podia,
uitvoerders
○ Kunstenpunt databank: 2055 speellocaties
○ Archiefbeschrijvingen Archiefbank Vlaanderen
○ De Witte Raaf agenda
○ Iedereen leest
● Documentatie:
https://nl.wikipedia.org/wiki/Wikipedia:Wikiproject/Procesbeschrijvingen_Belgisch-Nederlandse_podiumkunsten#PR
OJECT_2:_Data-upload_Kunstenpunt_%28Wikidata%29 ,
https://blog.kunsten.be/podiumkunstendata-op-wikidata-de-stap-naar-%C3%A9chte-linked-open-data-41b7b67e3b91
● Contactpersoon: Bart Magnus - PACKED: bart@packed.be
19. VIAA: Nieuws van de Grote Oorlog
● Wat? https://hetarchief.be/nl
○ Oorlogskranten
○ gecensureerde pers
○ frontblaadjes
● Metadata: JSON LD van pagina zelf
○ beschrijvende metadata: titel, uitgever, datum, etc.
○ rechten informatie
● Linked Data Fragments: metadata extra verrijkt met
Wikidata:
○ plaatsen, personen, gebeurtenissen, etc.
● OCR: URL + /ocr (onder copyright)
○ kwaliteit niet zo hoog en varieert sterk per pagina,
sommige (handgeschreven) teksten hebben geen
OCR
● reproducties: waarschijnlijk onder copyright en daarom niet
beschikbaar gesteld
● Vb. visualisatie aan de hand van plaatsnamen per krant,
hoe vaak vermelding van plaatsen, interface om per
plaatsen te zoeken, enz.
20. Gebruiksvoorwaarden
● Metadata vrij onder CC0
● Orphan works: als auteur onbekend is vallen rechten weg
● link: https://hetarchief.be/gebruiksvoorwaarden
21. Toegang
● Datadump:
○ Datadump door VIAA in triple formaat:
https://wetransfer.com/downloads/0b74c3af9bfc8f4465664f9a771cf576201903071
62926/575981
○ Zelf datadump maken:
● Linked data client SPARQL query:
○ vb. http://tiny.cc/ldf-hetarchief (deprecated versie, werkt nu) : gebruikt script
○ vb. http://tiny.cc/apps4ghent (nieuwste versie, werkt wellicht vanaf morgen) :
gebruikt
■ Indien dit niet werkt kan je de Communica tool commnadline gebruiken:
https://comunica.github.io/comunica/
● Documentatie: https://smart.flanders.be/resources/slimme-opmaak-tutorials ,
https://viaa.be/nl/tech-blog/2017/5/historisch-krantenarchief-linked-open-data
● Contactpersoon voor technische vragen: Mike De Smet - analyst ontwikkelaar bij VIAA:
mike.desmet@viaa.be