4. • CLARIN Call 4 project (9 mo. – ends april)
– VU Hist (Matthias van Rossum)
– Huygens ING (Jur Leinenga)
– VU CS (me)
• Inventory of Maritime DBs
• Create Linked Data cloud for subset
– Link places, persons, ships, concepts, events
• Link to KB newspapers
• Reusable components
Dutch Ships and Sailors
5. 17-3-2014
Datasets on ‘ships’, ‘places’, ‘persons’
VOC Opvarenden
Dutch-Asiatic Shipping
Generale Zeemonsterrollen
Monsterrollen Noordelijke Scheepvaart
Textual historical data on ‘ship movements’, ‘events’
Historische Kranten (KB)
DSS data sources
6. Matthias van Rossum onderzocht de verhoudingen tussen Europese en
Aziatische zeelieden onder de Verenigde Oost-Indische Compagnie (1602-1795)
erg gelijkwaardig waren. Dat is in scherp contrast met de latere 19de eeuwse
situatie, toen Aziatische zeelieden in een ongelijkwaardige en soms onvrijere
positie werkten onder slechtere behandeling en beloning. Het werken onder de
VOC werd bovendien gekenmerkt door een nuchter multiculturalisme.
Matthias van Rossum – Generale
Zeemonsterrollen VOC
7. Jur Leinenga – Monsterrollen
Noordelijke provincies
Monsterrollen-database 1803-1937:
Monsterrollen zijn bemanningslijsten met naam, rang, gage, woonplaats en leeftijd
van elke zeeman aan boord, evenals de naam, het type en de grootte van het schip.
[…] voor Groningen en Friesland ligt het begin pas in de negentiende eeuw. Ze gunnen
ons een kijkje in het beroepsleven van de zeeman in de negentiende en begin
twintigste eeuw.
14. Why Linked Data
• Heterogeneous models, one dataformat
– Link what can be linked
• Keep specificity, allow integration at project level
• Links to other sources: re-use knowledge
• Extensible
• Allow multiple levels of semantic enrichment/
normalization
– through Named Graphs
– Provenance
15. Methods
ClioPatria
XMLRDF
1. XML ingestion (OAI)
2. Direct transformation to ‘crude’ RDF
3. Interactive RDF restructuring
4. Create a metadata mapping schema
5. Align vocabularies with external sources
6. Publish as Linked Data
Amalgame
Tools
ClioPatria powered by
25. Identifying ships – Robin Ponstein
• Identify ships within a dataset
– Based on: name, size, type, destinations etc.
– Background knowledge
• Gold standard fabricated by Jur Leinenga
• Base line algorithm: 74%
• How dataset specific is this task?
• Save results as separate graphs, with provenance
Date ShipName ShipType ShipSize HomePort CurrentPort Captain
1852-02-27 Alberdiena kof NULL NULL Noorwegen (N) Wolkammer Albert Augustinus
1852-07-31 Alberdina kof NULL Farmsum Friedrichstadt (D) Wolkammer Albert A.
1861-09-30 Alberdina kof 98 NULL Gdansk, Danzig (PL) Wolkammer Albert Augustinus
1870-03-08 Alberdina brik 222 NULL NULL Wolkammer Albert Augustinus
1875-09-22 Alberdina bark 309 NULL Oostzee Wolkammer Augustinus
26. Linking to Historical newspapers - Andrea Bravo Balado
• Using existing data about ships to link
to news items in a collection of
historical newspapers
• Performing limited information
extraction to enrich existing records
• Features: ship name, time intervals,
captain’s names, ship type, named
entities, keywords, background
knowledge
27. Current status
• Input data set: Noordelijke
Monsterrollen
• “Semi-supervised learning”
– Multiple versions of algorithm
– Evaluation done by expert (Jur
Leinenga)
• Current version: 94%
precision, 9.739 records have
1+ links
Example: http://purl.org/collections/nl/dss/mdb/aanmonstering-del_gem-1879-101
29. “To do”
• Example application (map)
• Query Interface
• Provenance
– How to represent (un)certainty for graphs?
• Link records to source images
• Infrastructure @ Huygens ING
• Link to other VU hist datasources!
– DATATHON 2-4-2014!