SlideShare a Scribd company logo
1 of 24
Webarchief&Wetenschap



Hugo Huurdeman AVA-Net Symposium 2016
Webarchief & Wetenschap
• Webarchieven over de gehele wereld hebben
Petabytes aan informatie verzameld
• Vele mogelijkheden onderzoek:
• bestaande én nieuwe typen onderzoeksvragen
• Vele verschillende vakgebieden
• van geesteswetenschappen tot informatica
• Maar… tot dusverre nog weinig gebruikt
(Dougherty & Meyer, 2014)
“WebART” project
• “Web Archive RetrievalTools”
• NWO CATCH project (’12-’16)
• UvA, CWI & KB
• Voornaamste doel:
• beter bruikbaar maken van 

webarchieven voor onderzoek
Het eerste grote onderzoeks-
project in Nederland naar gebruik
van gearchiveerde Nederlandse
websites als primaire bron voor
onderzoek sluit binnenkort de
boeken. WebART-promovendus
Hugo Huurdeman blikt terug.
Steven Claeyssens
Dit jaar ronden de laatste CATCH-projecten (Con-
tinuous Access to Cultural Heritage) hun werk-
zaamheden af en dus zet ook WebART (Web
Archive Retrieval Tools) er een punt achter.
WebART was een samenwerking tussen de Uni-
versiteit van Amsterdam (UvA), het Centrum
Wiskunde en Informatica (CWI) en de Konink-
lijke Bibliotheek (KB). Het WebART-team lichtte
als eerste het Nederlandse nationale webarchief
grondig door. Ze gingen daarbij na hoe zo’n
heterogeen en omvangrijk born-digital archief
voor onderzoeksdoeleinden bruikbaar kan zijn
en bruikbaarder kan worden gemaakt.
10.000 websites
De KB archiveert sinds 2007 een immer groeiende
selectie van Nederlandse websites. Op 1 januari
van dit jaar stond de teller op 10.000 sites die met
enige regelmaat worden geharvest. Het belang
van dit born-digital archief voor onderzoek naar
Nederlandse cultuur en samenleving zal naar-
mate de jaren verstrijken onvermijdelijk een
steeds prominentere plaats opeisen. WebART
onderschrijft dit belang en trok op onderzoek uit.
Huurdeman: “In het WebART-project hebben we
gekeken naar de onderzoeksvragen die weten-
schappers aan webarchieven zouden willen stel-
len. Via een intensieve samenwerking met nieuwe
media-onderzoekers hebben we vervolgens zoek-
en onderzoekstools ontwikkeld die complexe
onderzoekstaken kunnen ondersteunen. Denk
bijvoorbeeld aan de initiële exploratie van het ar-
chief, het definiëren van een dataset en de analyse
daarvan. Hiervoor was onderzoek nodig naar
schaalbare extractie- en analysemethoden en
naar bruikbare interfaces voor verschillende
zoekstadia.” Zo bouwde het team onder meer
WebARTist, een interface waarmee onderzoekers
op verschillende manieren het webarchief kunnen
verkennen en bevragen.
Ongearchiveerde websites
“Doordat webarchieven van nature incompleet
zijn, vroegen wetenschappers ook om contex-
tualisatie over wat er wel en niet in het archief zit.
Dit heeft geleid tot verder onderzoek waarin we
niet-gearchiveerde webinhoud hebben bloot-
gelegd en gereconstrueerd.” Zo slaagden Huur-
deman en zijn mede-onderzoekers erin een fors
aantal niet-gearchiveerde sites te identificeren
op basis van verwijzingen in de vorm van URL’s
in het wel-gearchiveerde deel. Meer nog, door
de afzonderlijke woorden uit deze URL’s en de
bijbehorende linkteksten te distilleren, maakten
ze dit niet-gearchiveerde deel van het web tot op
zekere hoogte toch vindbaar en daarmee ook
onderzoekbaar.
“Deze informatie integreren we in de WebART-
toolset. Helaas kan de toolset momenteel door
auteursrechtelijke beperkingen nog niet volledig
online worden aangeboden, maar de wens vanuit
het projectteam om dit te bereiken, is er zeker.”
webarchiving.nl
Geneeskunde
Politieke
wetenschappen
Overig
artsennet.nl forensischinstituut.nl
lectoren.nl
nwo.nl
openaccess.nl
cier.nl
gearchiveerd niet-gearchiveerd
cebuco.nl
uva.nl
tue.nl
ncdd.nl
Algemeen
Bedrijfs-
wetenschappen
websites
categorieën
webpagina’s
Wetenschap
Onderwijs
Recht,
Overheid
INHOUD
2
Verslagen van events in
Gehoord en bijgewoond
3
Landelijk Coördinatiepunt
gaat voor samenhang
3
De Open Universiteit
vertelt over RDM-aanpak
4
Mary Vardigan trots op
50 Dataseals wereldwijd
5
KNAW-president José
van Dijck aan het woord
6
CLARIN Young Scientist
Award voor Van Gompel
6
Nieuwe big data experts
door komst GRIDS
7
Open State Foundation:
5 tips voor data delen
8
Zo eenvoudig is dat
metadateren nog niet
Jaargang 10 | nummer 2
Nieuwsbrief over
data en onderzoek
in de alfa- en gamma-
wetenschappen.
E-data & Research verschijnt
drie keer per jaar en wordt
mogelijk gemaakt door:
CentERdata, CLARIAH,
DANS, Huygens ING,
de Koninklijke Bibliotheek
en het RIVM.
E-DATA &
RESEARCH
E-DATA & RESEARCH februari 2016 1
Scan deze
QR code met een
smartphone om de
website van E-data
te bezoeken.
www.edata.nl
Op basis van de zoekterm ‘onderzoeksdata’
toont WebARTist verschillende resultaten,
waaronder deze grafieken. De bovenste
grafiek laat de verhouding tussen de gearchi-
veerde en niet-gearchiveerde webpagina’s
zien, de middelste toont de belangrijkste
websites voor deze zoekterm en de onderste
grafiek vat de categorieën van de gevonden
pagina’s samen. De WebARTist-toolset biedt
een veelheid aan mogelijkheden voor explo-
ratie, analyse en visualisatie van de inhoud
van het KB-webarchief. credits WebART
Hoe maak je gearchiveerde websites bruikbaar voor de wetenschap?
Nationale webarchief
onderzocht door WebART
Wint u de
Nederlandse Dataprijs 2016?
Komend najaar wordt weer de Nederlandse Dataprijs uitgereikt.
Een prijs voor een onderzoeker of onderzoeksgroep die extra bij-
draagt aan de wetenschap door onderzoeksdata beschikbaar te ma-
ken voor aanvullend of nieuw onderzoek.
De winnaars van de voorgaande edities zijn in ieder geval enthou-
siast: “De jury noemt onze database een grote aanwinst voor zowel
het Nederlands academisch als cultureel erfgoed. Dat is een bevesti-
ging dat we op het goede spoor zitten,” aldus Martine de Bruin,
Nederlandse Liederenbank, winnaar van de Dataprijs humaniora en
sociale wetenschappen 2014.
“Door het winnen van de Dataprijs kunnen we nu ook een paar
grotere, al langer gewenste verbeterslagen maken,” aldus Johan
Molenbroek en Marijke Dekker, DINED, winnaars van de Dataprijs
exacte en technische wetenschappen 2014.
Naast de winnaars waren ook de bijna 50 andere inzendingen van
hoog niveau. De jury sprak over ‘allemaal mooie voorbeelden van het
toegankelijk maken en delen van onderzoeksdata’.
De organisatie van de Nederlandse Dataprijs is in handen van
Research Data Netherlands, een samenwerkingsverband tussen
3TU.Datacentrum, DANS en SURFsara. Binnenkort staat meer infor-
matie over de Dataprijzen 2016 op de website van RDNL. (HB)
researchdata.nl
O P R O E P
De Vereniging van Universiteiten
(VSNU) en Elsevier hebben een
principeakkoord bereikt waar-
door Nederlandse wetenschap-
pers toegang blijven houden tot
de wetenschappelijke artikelen
van Elsevier.
“Door deze overeenkomst,” aldus
prof. Gerard Meijer, hoofdonder-
handelaar namens de VSNU en voor-
zitter van de Radboud Universiteit
Nijmegen, “houden wetenschappers
toegang tot Elseviertijdschriften en
het biedt ze de mogelijkheid om in
een selectie van die tijdschriften
open access te publiceren. De uni-
versiteiten streven ernaar dat in
2018, het derde jaar van de overeen-
komst, 30% van de Elsevierartikelen
van Nederlandse auteurs open ac-
cess beschikbaar is, dit akkoord
maakt dat mogelijk. Dit is echt ge-
weldig nieuws en een ‘big deal’voor
open access.” Philippe Terheggen,
Managing Director Journals bij
Elsevier: “Wij zijn content met deze
overeenkomst, omdat blijvende sub-
scriptietoegang tot onze hoogwaar-
dige, ‘peer-reviewed’ wetenschap-
pelijke artikelen essentieel is voor
Nederland om zijn positie als één
van de meest impactvolle onder-
zoekslanden te behouden. Daarnaast
krijgen Nederlandse wetenschappers
meer open access publicatiemoge-
lijkheden om hun onderzoeksresul-
taten met de rest van de wereld te
delen.” De overeenkomst is in lijn
met de ambitie van staatssecretaris
Dekker (OCW), die wil dat artikelen
van Nederlandse wetenschappers
open access gepubliceerd worden.
Blijf op de hoogte van deze en
andere ontwikkelingen via de Open-
Access nieuwsbrief van de VSNU,
de Nederlandse universiteitsbiblio-
theken en de Koninklijke Biblio-
theek. (VSNU)
vsnu.nl
Principeakkoord open
access VSNU en Elsevier
edata & research no. 2, 2016
gebruik
ontsluiting
duurzame
opslag
harvesting
Proces van webarchivering
selectie
Flickr: koninklijkebibliotheek
KB:Web archief sinds 2007
Statistics:
•10,000+ websites
•35,000+ harvests
•20+Terabyte
Selective approach
0"
5"
10"
15"
20"
25"
30"
35"
2009Q3"2009Q4"2010Q1"2010Q2"2010Q3"2010Q4"2011Q1"2011Q2"2011Q3"2011Q4"2012Q1"2012Q2"2012Q3"2012Q4"2013Q1"2013Q2"2013Q3"2013Q4"2014Q1"2014Q2"2014Q3"2014Q4"2015Q1"
Gemiddeld"van"content"
Gemiddeld"van"links"
Gemiddeld"van"images"
Gemiddeld"van"combined"
Mogelijkheden webarchief
Small-scale analysis
more qualitative
“Close reading”
Large-scale analysis
more quantitative
“Distant reading”
“Close reading”
Wayback Machine
KB archive data
enrichments
Geodata
KB metadata
Link structure
workshops, co-design
Content analyse:Word frequency analysis
0!
100!
200!
300!
400!
500!
600!
700!
800!
May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12!
Mubarek
Assad
Putin
Kim Jung Il
DMI Winter School (2013)
troons
Jan’13 Feb’13 Mar’13 Apr’13
May’13 Jun’13 Jul’13 Aug’13
Sep’13 Oct’13 Nov’13 Dec’13
Content analyse:Word frequency analysis
Co-Word Analyse
DMI Winter School (2013)
0"
20"
40"
60"
80"
100"
120"
20100722"
20100816"
20100817"
20110413"
20110610"
20110706"
20111013"
20111218"
20111220"
20120520"
20120613"
20120617"
20120618"
20120918"
20121014"
20121120"
20121221"
20121222"
20121222"
20130218"
20130413"
20130518"
20130611"
20130620"
20130818"
20131001"
20131013"
20131030"
20131101"
20131115"
20131118"
20131120"
20131130"
20131206"
20131220"
20131220"
20140118"
20140225"
20140413"
20140518"
20140609"
20141013"
20141118"
20150218"
20150413"
20150518"
Reeks1" Reeks2" Reeks3" Reeks4"
eyefilm.nl (2010-2015)
redesign redesign
content links images overallAnalyse evolutie websites
Geomapping: locatie bron nieuws
DMI Winter School (2013)
Analyse Linkstructuur
Ben-David & Huurdeman (2014)
gebruik
ontsluiting
duurzame
opslag
harvestingselectie
Hoe kan het proces onderzoeks-

gebruik beter ondersteunen?
ontsluiting
duurzame
opslag
harvestingselectie
Verbeterpunten?
• Selectie en harvesting: meer transparantie
• Documentatie selectieprocedures, selectielijsten
• Wie archiveert wat? vgl.“Memento” http://mementoweb.org/about/
selectie harvesting
duurzame
opslag
ontsluiting
Verbeterpunten?
• Selectie:
• Transparantie: procedures, selectielijsten
• Scope — idealiter “domeinharvesting…”
• Wie archiveert wat? vgl.“Memento”
ontsluiting
duurzame
opslag
harvestingselectie
Verbeterpunten?
• Selectie en harvesting: meer transparantie
• Documentatie selectieprocedures, selectielijsten
• Wie archiveert wat? vgl.“Memento”
• “crawling” procedures en crawlinstellingen
ontsluiting
duurzame
opslag
harvesting
Verbeterpunten?
• Ontsluiting: meer mogelijkheden voor onderzoekers
• Wayback Machine (toegang via URL)
• Zoekfunctionaliteit (toegang via zoekvraag)
• Ontsluiting “ruwe” data (WARC files, metadata, derived datasets, ..)
selectie
Conclusie
• Webarchieven: rijke bron voor huidig en
toekomstig onderzoek
• WebART project
• Belang van selectie, harvesting & 

ontsluiting voor uiteindelijk gebruik
•“Onderzoekers willen wat niet in het archief zit”

— Belang van verdere uitbreiding archiverings-activiteiten! —
webarchiving.nl
@webart12
Thanks & Acknowledgements
• The WebART team (’12-’16): 

Jaap Kamps, Richard Rogers, 

Arjen de Vries, Hugo Huurdeman,
Thaer Samar, Anat Ben-David, 

Sanna Kumpulainen
• We gratefully acknowledge the
collaboration with the Dutch Web
Archive of the National Library of the
Netherlands.
• WebART is supported by the
Netherlands Organization for Scientific
Research (NWO CATCH #
640.005.001).
Webarchief&Wetenschap



Hugo Huurdeman
@timelessfuture

More Related Content

What's hot (6)

Wat wikileaks ons leert over bibliotheken
Wat wikileaks ons leert over bibliothekenWat wikileaks ons leert over bibliotheken
Wat wikileaks ons leert over bibliotheken
 
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
20170407 Bruikbaar Erfgoed - Week van het Digitaal Erfgoed
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016
 
Slimmer werken met metadata COPE 25 mei 2016
Slimmer werken met metadata COPE 25 mei 2016Slimmer werken met metadata COPE 25 mei 2016
Slimmer werken met metadata COPE 25 mei 2016
 
Wat Wikileaks ons leert over bibliotheken
Wat Wikileaks ons leert over bibliothekenWat Wikileaks ons leert over bibliotheken
Wat Wikileaks ons leert over bibliotheken
 
Calis Koen
Calis KoenCalis Koen
Calis Koen
 

Similar to Webarchief & Wetenschap (Dutch)

VP02 Presentatie DatapluS Surf Academy1 04 2010v2
VP02 Presentatie DatapluS Surf Academy1 04 2010v2VP02 Presentatie DatapluS Surf Academy1 04 2010v2
VP02 Presentatie DatapluS Surf Academy1 04 2010v2maurice.vanderfeesten
 
Erika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualErika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualNetwerk Digitaal Erfgoed
 
Wetenschap 2.0 en de bibliotheek ..
Wetenschap 2.0 en de bibliotheek ..Wetenschap 2.0 en de bibliotheek ..
Wetenschap 2.0 en de bibliotheek ..Guus van den Brekel
 
ArchiefWiki en de eerste stappen op het semantische web
ArchiefWiki en de eerste stappen op het semantische webArchiefWiki en de eerste stappen op het semantische web
ArchiefWiki en de eerste stappen op het semantische webTom Cobbaert
 
Open access : recente ontwikkelingen / Leon Osinski
Open access : recente ontwikkelingen / Leon OsinskiOpen access : recente ontwikkelingen / Leon Osinski
Open access : recente ontwikkelingen / Leon OsinskiLeon Osinski
 
AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0Tjarda de Haan
 
NDE Termennetwerk
NDE TermennetwerkNDE Termennetwerk
NDE Termennetwerkvoginip
 
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)TimelessFuture
 
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformenPACKED vzw
 
Bibliotheekvoorzieningen voor slavisten_2006
Bibliotheekvoorzieningen voor slavisten_2006Bibliotheekvoorzieningen voor slavisten_2006
Bibliotheekvoorzieningen voor slavisten_2006Geramé Wouters
 
Surf Autumn School 20091103
Surf Autumn School 20091103Surf Autumn School 20091103
Surf Autumn School 20091103Keith Russell
 

Similar to Webarchief & Wetenschap (Dutch) (20)

VP02 Presentatie DatapluS Surf Academy1 04 2010v2
VP02 Presentatie DatapluS Surf Academy1 04 2010v2VP02 Presentatie DatapluS Surf Academy1 04 2010v2
VP02 Presentatie DatapluS Surf Academy1 04 2010v2
 
Erika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties AnnualErika Hokke: Stichting Archief Publicaties Annual
Erika Hokke: Stichting Archief Publicaties Annual
 
VIAA SoTA wetenschappelijk onderzoek
VIAA SoTA wetenschappelijk onderzoekVIAA SoTA wetenschappelijk onderzoek
VIAA SoTA wetenschappelijk onderzoek
 
AVA_net workshop 7 maart 2013
AVA_net workshop 7 maart 2013AVA_net workshop 7 maart 2013
AVA_net workshop 7 maart 2013
 
Geert-Jan Koot; De catalogus in het perspectief van de kunstbibliografie
Geert-Jan Koot; De catalogus in het perspectief van de kunstbibliografieGeert-Jan Koot; De catalogus in het perspectief van de kunstbibliografie
Geert-Jan Koot; De catalogus in het perspectief van de kunstbibliografie
 
Wetenschap 2.0 en de bibliotheek ..
Wetenschap 2.0 en de bibliotheek ..Wetenschap 2.0 en de bibliotheek ..
Wetenschap 2.0 en de bibliotheek ..
 
ArchiefWiki en de eerste stappen op het semantische web
ArchiefWiki en de eerste stappen op het semantische webArchiefWiki en de eerste stappen op het semantische web
ArchiefWiki en de eerste stappen op het semantische web
 
Open access : recente ontwikkelingen / Leon Osinski
Open access : recente ontwikkelingen / Leon OsinskiOpen access : recente ontwikkelingen / Leon Osinski
Open access : recente ontwikkelingen / Leon Osinski
 
Data-interoperabiliteit in de praktijk
Data-interoperabiliteit in de praktijkData-interoperabiliteit in de praktijk
Data-interoperabiliteit in de praktijk
 
AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0
 
NDE Termennetwerk
NDE TermennetwerkNDE Termennetwerk
NDE Termennetwerk
 
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
WebART: hoe maak je webarchieven bruikbaar voor de wetenschap? (Dutch)
 
KNAW, NARCIS, NOD
KNAW, NARCIS, NODKNAW, NARCIS, NOD
KNAW, NARCIS, NOD
 
Contactdag erfgoeddatabanken hergebruik wikimediaplatformen
Contactdag erfgoeddatabanken hergebruik wikimediaplatformenContactdag erfgoeddatabanken hergebruik wikimediaplatformen
Contactdag erfgoeddatabanken hergebruik wikimediaplatformen
 
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
20190611 contactdag erfgoeddatabanken_hergebruik_wikimediaplatformen
 
Slim kennis delen in de Nederlandse groene sector en de rol van bibliotheken ...
Slim kennis delen in de Nederlandse groene sector en de rol van bibliotheken ...Slim kennis delen in de Nederlandse groene sector en de rol van bibliotheken ...
Slim kennis delen in de Nederlandse groene sector en de rol van bibliotheken ...
 
Bibliotheekvoorzieningen voor slavisten_2006
Bibliotheekvoorzieningen voor slavisten_2006Bibliotheekvoorzieningen voor slavisten_2006
Bibliotheekvoorzieningen voor slavisten_2006
 
VP07Escape Workshop Tilburg
VP07Escape Workshop TilburgVP07Escape Workshop Tilburg
VP07Escape Workshop Tilburg
 
Surf Autumn School 20091103
Surf Autumn School 20091103Surf Autumn School 20091103
Surf Autumn School 20091103
 
Nvb groen kennisnet
Nvb groen kennisnetNvb groen kennisnet
Nvb groen kennisnet
 

More from TimelessFuture

Webmapping: maps for presentation, exploration & analysis
Webmapping: maps for presentation, exploration & analysisWebmapping: maps for presentation, exploration & analysis
Webmapping: maps for presentation, exploration & analysisTimelessFuture
 
Experiential Interfaces: 

3D reconstructions as entry points for exploration...
Experiential Interfaces: 

3D reconstructions as entry points for exploration...Experiential Interfaces: 

3D reconstructions as entry points for exploration...
Experiential Interfaces: 

3D reconstructions as entry points for exploration...TimelessFuture
 
Step inside the Image: 

Interpretative Interfaces for 
3D Historical Content
Step inside the Image: 

Interpretative Interfaces for 
3D Historical ContentStep inside the Image: 

Interpretative Interfaces for 
3D Historical Content
Step inside the Image: 

Interpretative Interfaces for 
3D Historical ContentTimelessFuture
 
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...TimelessFuture
 
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...TimelessFuture
 
Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...
Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...
Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...TimelessFuture
 
Visualization Lecture - Clariah Summer School 2018
Visualization Lecture - Clariah Summer School 2018Visualization Lecture - Clariah Summer School 2018
Visualization Lecture - Clariah Summer School 2018TimelessFuture
 
Outcomes Visual Navigation Project
Outcomes Visual Navigation ProjectOutcomes Visual Navigation Project
Outcomes Visual Navigation ProjectTimelessFuture
 
KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...
KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...
KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...TimelessFuture
 
Chaos&Order: Using visualization as a means to
 explore large heritage collec...
Chaos&Order: Using visualization as a means to
 explore large heritage collec...Chaos&Order: Using visualization as a means to
 explore large heritage collec...
Chaos&Order: Using visualization as a means to
 explore large heritage collec...TimelessFuture
 
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...TimelessFuture
 
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
“More than Meets the Eye” - Analyzing the Success of User Queries in OriaTimelessFuture
 
Not available, or not found? Lessons from user queries in the Oria catalog at...
Not available, or not found? Lessons from user queries in the Oria catalog at...Not available, or not found? Lessons from user queries in the Oria catalog at...
Not available, or not found? Lessons from user queries in the Oria catalog at...TimelessFuture
 
From Exploration to Construction
 - How to Support the Complex Dynamics of In...
From Exploration to Construction
 - How to Support the Complex Dynamics of In...From Exploration to Construction
 - How to Support the Complex Dynamics of In...
From Exploration to Construction
 - How to Support the Complex Dynamics of In...TimelessFuture
 
Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)TimelessFuture
 
Active & Passive Utility of Search Interface Features in different Informatio...
Active & Passive Utility of Search Interface Features in different Informatio...Active & Passive Utility of Search Interface Features in different Informatio...
Active & Passive Utility of Search Interface Features in different Informatio...TimelessFuture
 
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)TimelessFuture
 
The Value of Multistage Search Systems for Book Search
The Value of Multistage Search Systems for Book SearchThe Value of Multistage Search Systems for Book Search
The Value of Multistage Search Systems for Book SearchTimelessFuture
 
Towards Research Engines: Supporting Search Stages in Web Archives (2015)
Towards Research Engines: Supporting Search Stages in Web Archives (2015)Towards Research Engines: Supporting Search Stages in Web Archives (2015)
Towards Research Engines: Supporting Search Stages in Web Archives (2015)TimelessFuture
 
Finding Pages on the Unarchived Web (DL 2014)
Finding Pages on the Unarchived Web (DL 2014)Finding Pages on the Unarchived Web (DL 2014)
Finding Pages on the Unarchived Web (DL 2014)TimelessFuture
 

More from TimelessFuture (20)

Webmapping: maps for presentation, exploration & analysis
Webmapping: maps for presentation, exploration & analysisWebmapping: maps for presentation, exploration & analysis
Webmapping: maps for presentation, exploration & analysis
 
Experiential Interfaces: 

3D reconstructions as entry points for exploration...
Experiential Interfaces: 

3D reconstructions as entry points for exploration...Experiential Interfaces: 

3D reconstructions as entry points for exploration...
Experiential Interfaces: 

3D reconstructions as entry points for exploration...
 
Step inside the Image: 

Interpretative Interfaces for 
3D Historical Content
Step inside the Image: 

Interpretative Interfaces for 
3D Historical ContentStep inside the Image: 

Interpretative Interfaces for 
3D Historical Content
Step inside the Image: 

Interpretative Interfaces for 
3D Historical Content
 
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
Supporting the Interpretation of Enriched Audiovisual Sources through Tempora...
 
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
The Multi-Stage Experience: the Simulated Work Task Approach to Studying Info...
 
Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...
Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...
Op Ontdekkingsreis door het KB Webarchief - Exploratieve Visualisatie in een ...
 
Visualization Lecture - Clariah Summer School 2018
Visualization Lecture - Clariah Summer School 2018Visualization Lecture - Clariah Summer School 2018
Visualization Lecture - Clariah Summer School 2018
 
Outcomes Visual Navigation Project
Outcomes Visual Navigation ProjectOutcomes Visual Navigation Project
Outcomes Visual Navigation Project
 
KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...
KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...
KNVI 2017: De collectie in een ander licht - Creatieve inzet van nieuwe techn...
 
Chaos&Order: Using visualization as a means to
 explore large heritage collec...
Chaos&Order: Using visualization as a means to
 explore large heritage collec...Chaos&Order: Using visualization as a means to
 explore large heritage collec...
Chaos&Order: Using visualization as a means to
 explore large heritage collec...
 
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
Workshop: Inspirational Journeys - Challenges and Solutions for Visual Naviga...
 
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
“More than Meets the Eye” - Analyzing the Success of User Queries in Oria
 
Not available, or not found? Lessons from user queries in the Oria catalog at...
Not available, or not found? Lessons from user queries in the Oria catalog at...Not available, or not found? Lessons from user queries in the Oria catalog at...
Not available, or not found? Lessons from user queries in the Oria catalog at...
 
From Exploration to Construction
 - How to Support the Complex Dynamics of In...
From Exploration to Construction
 - How to Support the Complex Dynamics of In...From Exploration to Construction
 - How to Support the Complex Dynamics of In...
From Exploration to Construction
 - How to Support the Complex Dynamics of In...
 
Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)Towards Multidimensional Web Archive Access (IIPC 2016)
Towards Multidimensional Web Archive Access (IIPC 2016)
 
Active & Passive Utility of Search Interface Features in different Informatio...
Active & Passive Utility of Search Interface Features in different Informatio...Active & Passive Utility of Search Interface Features in different Informatio...
Active & Passive Utility of Search Interface Features in different Informatio...
 
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
Supporting the Process - Adapting Search Systems To Search Stages (ECIL15)
 
The Value of Multistage Search Systems for Book Search
The Value of Multistage Search Systems for Book SearchThe Value of Multistage Search Systems for Book Search
The Value of Multistage Search Systems for Book Search
 
Towards Research Engines: Supporting Search Stages in Web Archives (2015)
Towards Research Engines: Supporting Search Stages in Web Archives (2015)Towards Research Engines: Supporting Search Stages in Web Archives (2015)
Towards Research Engines: Supporting Search Stages in Web Archives (2015)
 
Finding Pages on the Unarchived Web (DL 2014)
Finding Pages on the Unarchived Web (DL 2014)Finding Pages on the Unarchived Web (DL 2014)
Finding Pages on the Unarchived Web (DL 2014)
 

Webarchief & Wetenschap (Dutch)

  • 2. Webarchief & Wetenschap • Webarchieven over de gehele wereld hebben Petabytes aan informatie verzameld • Vele mogelijkheden onderzoek: • bestaande én nieuwe typen onderzoeksvragen • Vele verschillende vakgebieden • van geesteswetenschappen tot informatica • Maar… tot dusverre nog weinig gebruikt (Dougherty & Meyer, 2014)
  • 3. “WebART” project • “Web Archive RetrievalTools” • NWO CATCH project (’12-’16) • UvA, CWI & KB • Voornaamste doel: • beter bruikbaar maken van 
 webarchieven voor onderzoek Het eerste grote onderzoeks- project in Nederland naar gebruik van gearchiveerde Nederlandse websites als primaire bron voor onderzoek sluit binnenkort de boeken. WebART-promovendus Hugo Huurdeman blikt terug. Steven Claeyssens Dit jaar ronden de laatste CATCH-projecten (Con- tinuous Access to Cultural Heritage) hun werk- zaamheden af en dus zet ook WebART (Web Archive Retrieval Tools) er een punt achter. WebART was een samenwerking tussen de Uni- versiteit van Amsterdam (UvA), het Centrum Wiskunde en Informatica (CWI) en de Konink- lijke Bibliotheek (KB). Het WebART-team lichtte als eerste het Nederlandse nationale webarchief grondig door. Ze gingen daarbij na hoe zo’n heterogeen en omvangrijk born-digital archief voor onderzoeksdoeleinden bruikbaar kan zijn en bruikbaarder kan worden gemaakt. 10.000 websites De KB archiveert sinds 2007 een immer groeiende selectie van Nederlandse websites. Op 1 januari van dit jaar stond de teller op 10.000 sites die met enige regelmaat worden geharvest. Het belang van dit born-digital archief voor onderzoek naar Nederlandse cultuur en samenleving zal naar- mate de jaren verstrijken onvermijdelijk een steeds prominentere plaats opeisen. WebART onderschrijft dit belang en trok op onderzoek uit. Huurdeman: “In het WebART-project hebben we gekeken naar de onderzoeksvragen die weten- schappers aan webarchieven zouden willen stel- len. Via een intensieve samenwerking met nieuwe media-onderzoekers hebben we vervolgens zoek- en onderzoekstools ontwikkeld die complexe onderzoekstaken kunnen ondersteunen. Denk bijvoorbeeld aan de initiële exploratie van het ar- chief, het definiëren van een dataset en de analyse daarvan. Hiervoor was onderzoek nodig naar schaalbare extractie- en analysemethoden en naar bruikbare interfaces voor verschillende zoekstadia.” Zo bouwde het team onder meer WebARTist, een interface waarmee onderzoekers op verschillende manieren het webarchief kunnen verkennen en bevragen. Ongearchiveerde websites “Doordat webarchieven van nature incompleet zijn, vroegen wetenschappers ook om contex- tualisatie over wat er wel en niet in het archief zit. Dit heeft geleid tot verder onderzoek waarin we niet-gearchiveerde webinhoud hebben bloot- gelegd en gereconstrueerd.” Zo slaagden Huur- deman en zijn mede-onderzoekers erin een fors aantal niet-gearchiveerde sites te identificeren op basis van verwijzingen in de vorm van URL’s in het wel-gearchiveerde deel. Meer nog, door de afzonderlijke woorden uit deze URL’s en de bijbehorende linkteksten te distilleren, maakten ze dit niet-gearchiveerde deel van het web tot op zekere hoogte toch vindbaar en daarmee ook onderzoekbaar. “Deze informatie integreren we in de WebART- toolset. Helaas kan de toolset momenteel door auteursrechtelijke beperkingen nog niet volledig online worden aangeboden, maar de wens vanuit het projectteam om dit te bereiken, is er zeker.” webarchiving.nl Geneeskunde Politieke wetenschappen Overig artsennet.nl forensischinstituut.nl lectoren.nl nwo.nl openaccess.nl cier.nl gearchiveerd niet-gearchiveerd cebuco.nl uva.nl tue.nl ncdd.nl Algemeen Bedrijfs- wetenschappen websites categorieën webpagina’s Wetenschap Onderwijs Recht, Overheid INHOUD 2 Verslagen van events in Gehoord en bijgewoond 3 Landelijk Coördinatiepunt gaat voor samenhang 3 De Open Universiteit vertelt over RDM-aanpak 4 Mary Vardigan trots op 50 Dataseals wereldwijd 5 KNAW-president José van Dijck aan het woord 6 CLARIN Young Scientist Award voor Van Gompel 6 Nieuwe big data experts door komst GRIDS 7 Open State Foundation: 5 tips voor data delen 8 Zo eenvoudig is dat metadateren nog niet Jaargang 10 | nummer 2 Nieuwsbrief over data en onderzoek in de alfa- en gamma- wetenschappen. E-data & Research verschijnt drie keer per jaar en wordt mogelijk gemaakt door: CentERdata, CLARIAH, DANS, Huygens ING, de Koninklijke Bibliotheek en het RIVM. E-DATA & RESEARCH E-DATA & RESEARCH februari 2016 1 Scan deze QR code met een smartphone om de website van E-data te bezoeken. www.edata.nl Op basis van de zoekterm ‘onderzoeksdata’ toont WebARTist verschillende resultaten, waaronder deze grafieken. De bovenste grafiek laat de verhouding tussen de gearchi- veerde en niet-gearchiveerde webpagina’s zien, de middelste toont de belangrijkste websites voor deze zoekterm en de onderste grafiek vat de categorieën van de gevonden pagina’s samen. De WebARTist-toolset biedt een veelheid aan mogelijkheden voor explo- ratie, analyse en visualisatie van de inhoud van het KB-webarchief. credits WebART Hoe maak je gearchiveerde websites bruikbaar voor de wetenschap? Nationale webarchief onderzocht door WebART Wint u de Nederlandse Dataprijs 2016? Komend najaar wordt weer de Nederlandse Dataprijs uitgereikt. Een prijs voor een onderzoeker of onderzoeksgroep die extra bij- draagt aan de wetenschap door onderzoeksdata beschikbaar te ma- ken voor aanvullend of nieuw onderzoek. De winnaars van de voorgaande edities zijn in ieder geval enthou- siast: “De jury noemt onze database een grote aanwinst voor zowel het Nederlands academisch als cultureel erfgoed. Dat is een bevesti- ging dat we op het goede spoor zitten,” aldus Martine de Bruin, Nederlandse Liederenbank, winnaar van de Dataprijs humaniora en sociale wetenschappen 2014. “Door het winnen van de Dataprijs kunnen we nu ook een paar grotere, al langer gewenste verbeterslagen maken,” aldus Johan Molenbroek en Marijke Dekker, DINED, winnaars van de Dataprijs exacte en technische wetenschappen 2014. Naast de winnaars waren ook de bijna 50 andere inzendingen van hoog niveau. De jury sprak over ‘allemaal mooie voorbeelden van het toegankelijk maken en delen van onderzoeksdata’. De organisatie van de Nederlandse Dataprijs is in handen van Research Data Netherlands, een samenwerkingsverband tussen 3TU.Datacentrum, DANS en SURFsara. Binnenkort staat meer infor- matie over de Dataprijzen 2016 op de website van RDNL. (HB) researchdata.nl O P R O E P De Vereniging van Universiteiten (VSNU) en Elsevier hebben een principeakkoord bereikt waar- door Nederlandse wetenschap- pers toegang blijven houden tot de wetenschappelijke artikelen van Elsevier. “Door deze overeenkomst,” aldus prof. Gerard Meijer, hoofdonder- handelaar namens de VSNU en voor- zitter van de Radboud Universiteit Nijmegen, “houden wetenschappers toegang tot Elseviertijdschriften en het biedt ze de mogelijkheid om in een selectie van die tijdschriften open access te publiceren. De uni- versiteiten streven ernaar dat in 2018, het derde jaar van de overeen- komst, 30% van de Elsevierartikelen van Nederlandse auteurs open ac- cess beschikbaar is, dit akkoord maakt dat mogelijk. Dit is echt ge- weldig nieuws en een ‘big deal’voor open access.” Philippe Terheggen, Managing Director Journals bij Elsevier: “Wij zijn content met deze overeenkomst, omdat blijvende sub- scriptietoegang tot onze hoogwaar- dige, ‘peer-reviewed’ wetenschap- pelijke artikelen essentieel is voor Nederland om zijn positie als één van de meest impactvolle onder- zoekslanden te behouden. Daarnaast krijgen Nederlandse wetenschappers meer open access publicatiemoge- lijkheden om hun onderzoeksresul- taten met de rest van de wereld te delen.” De overeenkomst is in lijn met de ambitie van staatssecretaris Dekker (OCW), die wil dat artikelen van Nederlandse wetenschappers open access gepubliceerd worden. Blijf op de hoogte van deze en andere ontwikkelingen via de Open- Access nieuwsbrief van de VSNU, de Nederlandse universiteitsbiblio- theken en de Koninklijke Biblio- theek. (VSNU) vsnu.nl Principeakkoord open access VSNU en Elsevier edata & research no. 2, 2016
  • 5. Flickr: koninklijkebibliotheek KB:Web archief sinds 2007 Statistics: •10,000+ websites •35,000+ harvests •20+Terabyte Selective approach
  • 8. KB archive data enrichments Geodata KB metadata Link structure workshops, co-design
  • 9. Content analyse:Word frequency analysis 0! 100! 200! 300! 400! 500! 600! 700! 800! May-11! Jul-11! Aug-11! Oct-11! Dec-11! Jan-12! Mar-12! Mubarek Assad Putin Kim Jung Il DMI Winter School (2013)
  • 10. troons Jan’13 Feb’13 Mar’13 Apr’13 May’13 Jun’13 Jul’13 Aug’13 Sep’13 Oct’13 Nov’13 Dec’13 Content analyse:Word frequency analysis
  • 11. Co-Word Analyse DMI Winter School (2013)
  • 13. Geomapping: locatie bron nieuws DMI Winter School (2013)
  • 15. gebruik ontsluiting duurzame opslag harvestingselectie Hoe kan het proces onderzoeks-
 gebruik beter ondersteunen?
  • 16. ontsluiting duurzame opslag harvestingselectie Verbeterpunten? • Selectie en harvesting: meer transparantie • Documentatie selectieprocedures, selectielijsten • Wie archiveert wat? vgl.“Memento” http://mementoweb.org/about/
  • 17. selectie harvesting duurzame opslag ontsluiting Verbeterpunten? • Selectie: • Transparantie: procedures, selectielijsten • Scope — idealiter “domeinharvesting…” • Wie archiveert wat? vgl.“Memento”
  • 18. ontsluiting duurzame opslag harvestingselectie Verbeterpunten? • Selectie en harvesting: meer transparantie • Documentatie selectieprocedures, selectielijsten • Wie archiveert wat? vgl.“Memento” • “crawling” procedures en crawlinstellingen
  • 19. ontsluiting duurzame opslag harvesting Verbeterpunten? • Ontsluiting: meer mogelijkheden voor onderzoekers • Wayback Machine (toegang via URL) • Zoekfunctionaliteit (toegang via zoekvraag) • Ontsluiting “ruwe” data (WARC files, metadata, derived datasets, ..) selectie
  • 20. Conclusie • Webarchieven: rijke bron voor huidig en toekomstig onderzoek • WebART project • Belang van selectie, harvesting & 
 ontsluiting voor uiteindelijk gebruik •“Onderzoekers willen wat niet in het archief zit”
 — Belang van verdere uitbreiding archiverings-activiteiten! —
  • 21.
  • 23. Thanks & Acknowledgements • The WebART team (’12-’16): 
 Jaap Kamps, Richard Rogers, 
 Arjen de Vries, Hugo Huurdeman, Thaer Samar, Anat Ben-David, 
 Sanna Kumpulainen • We gratefully acknowledge the collaboration with the Dutch Web Archive of the National Library of the Netherlands. • WebART is supported by the Netherlands Organization for Scientific Research (NWO CATCH # 640.005.001).