1. Voorgoed vastgelegd? : archiveren van websites
Hoe het allemaal precies is begonnen weet ik niet meer, het zal wel ooit ergens bij het
gemeentearchief Rotterdam ter sprake zijn gekomen en in 2003 ben ik me er in gaan verdiepen.
Ik las heel veel publicaties, rapporten, scripties en artikelen over dit onderwerp En langzamerhand
kwam ik tot de conclusie dat een aantal scribenten ruimhartig gebruik maakten van de teksten van
andere scribenten.
Als je snel wilt worden ingewijd in de wereld van het downloaden van websites kan ik de publicatie
Het web gevangen aanbevelen. Daarin wordt kort en helder uitgelegd waar het om gaat. Deze
publicatie vormde de basis van mijn kennis over dit onderwerp. (www.archipol.nl)
In 2004 startte het Gemeentearchief met een pilotproject E-depot en dit project is in 2005 omgezet in
een vijfjarenproject, dat in 2010 zal worden afgerond.
Eén van de deelprojecten was het project Websites.
Natuurlijk werd begonnen met een degelijk ‘plan van aanpak’ waarin het projectdoel en de beoogde
resultaten werden vastgelegd. Zelf werd ik een beetje zenuwachtig van al dat ontwikkelen van
archiveringsstrategieën, scopes, typologieën, authenticiteiteisen, kwaliteitseisen enzo…., ik wilde
alleen maar websites binnenhalen, opslaan en ontsluiten.
Toch heb ik inmiddels geleerd dat het heel belangrijk is de zaken eerst grondig te overdenken en op te
schrijven. Doordat je nadenkt over het onderwerp krijgt het meer structuur en het is beter de
problemen eerst theoretisch te overdenken en op te lossen dan dat je later van alles moet gaan
bijstellen.
Er zijn een aantal open-source programma’s waaruit je kan kiezen en de bekendste zijn wel HTtrack
en Heritrix. HT track voldeed aan veel van onze wensen en eisen.
Ter vergroting van onze kennis van downloaden van websites en van HTtrack hebben we in 2005
hebben contact gezocht met de firma Capsis. Dit bedrijf is gespecialiseerd in webarchivering en
webconservering, en heeft veel ervaring met het archiveren van websites. Ze verzorgden voor ons
een korte cursus waarin we werden ingewijd in de geheimen van HTtrack en het downloaden van
websites.
Inmiddels begonnen we in 2006 aan een project waarbij de websites van de Rotterdamse politieke
partijen die deelnamen aan de gemeenteraadsverkiezingen op 7 maart 2006, tweemaal zijn
gearchiveerd. We hebben toen met veel moeite via HTtrack 18 websites binnengehaald en zonder de
medewerking van Capsis zou het project veel minder goed zijn geslaagd.
Maar laten we eerst vaststellen wat een website eigenlijk is en waarom we die zouden willen bewaren
en hoe we die website kunnen bewaren
Wat is een website
Een website is een complex systeem van software, hardware en een veelvoud aan digitale bestanden
en de samenhang tussen deze componenten maakt dat de site beschikbaar is op het worldwideweb.
Door interactie tussen gebruiker en webserver verschijnen de webpagina’s op het scherm.
Van Dale definieert een website als: “de plaats waar bepaalde informatie zich op het world wide web
bevindt, aangeduid met een URL”.
In feite is een website vaak niet meer dan een aangeklede presentatie van informatie en
documenten
Een website kan statisch of dynamisch zijn
Statisch wil zeggen dat de website aanbodgericht is, dat de pagina’s altijd op dezelfde (door de
ontwerper bepaalde) manier verschijnen op het beeldscherm.
Dynamisch wil zeggen dat ze afhankelijk van de vraag van de bezoeker van de site worden
opgebouwd.
1
2. De meeste websites bevatten vaak zowel statische als dynamische elementen en worden
gecombineerd met andere technologieën, waardoor via de website verschillende diensten kunnen
worden aangeboden. En juist deze combinaties maken een website interactief. Een bezoeker kan
bijvoorbeeld via e-mail, nieuwsgroepen, blogs of een discussieforum reageren en informatie
toevoegen. Ook fungeert de website vaak als interface voor een database en de gegevens uit die
database, het zgn. deepweb, worden gepresenteerd binnen de structuur van de website.
Websites zijn dus nogal complex zowel wat betreft de gebruikte technologieën als wat betreft inhoud
en doel. Vooral de meest geavanceerde typen laten zien dat een website eigenlijk meer is dan alleen
de drager van informatie, het is een soort informatie-service
Waarom zouden we websites willen bewaren?
Websites zijn inmiddels niet meer weg te denken uit de samenleving en een onderdeel geworden van
ons bestaan.
Overheidswebsites kunnen informatie bevatten waaraan rechten zouden kunnen worden ontleend,
maar ze bieden ook of online formulieren en e-loketfuncties.
Organisaties communiceren via websites met de buitenwereld over hun beleid, bevoegdheden en
dienstverlening.
Overigens worden overheidswebsites en sites van grote organisaties meer en meer een doorgeefluik
van allerlei diensten, met een aardig raamwerk van plaatjes eromheen. De echte info zit in de
databases erachter en die nemen we doorgaans niet op. Maar in de optiek van het Gemeentearchief
Rotterdam zijn juist de sites van personen en kleine organisaties en instellingen die informatie
verstrekken over zichzelf interessant om te bewaren.
Inmiddels is het niet meer zo moeilijk om zelf een website te bouwen en veel privé personen en ook
kleine organisaties beschikken over een eigen website. En vooral deze websites bevatten vaak
informatie die elders niet beschikbaar is en waarvan het nuttig is om te bewaren.
In het Unesco ‘Charter on the preservation of the digital heritage’ worden websites expliciet gerekend
tot ons digitaal erfgoed. Dit digitale erfgoed is van belang voor toekomstig onderzoek naar de
ontwikkeling van het web en onze huidige samenleving.
Omdat websites dynamisch en vluchtig zijn moeten ze worden gestabiliseerd en vastgelegd om te
kunnen worden bewaard. Dit proces noemen we de archivering van websites. Er is onderscheid
tussen webarchivering en webharvesting.
• webharvesting is het selecteren van relevante informatie en het binnenhalen daarvan met
behulp van speciale applicaties.
• webarchivering is het duurzaam opslaan, beheren en toegankelijk maken van de websites.
Selectie
Sinds midden 1996 probeert het Internet Archive het gehele internet te archiveren, maar er worden
alleen periodieke snapshots, momentopnames, gemaakt. Ook worden themaverzamelingen
aangelegd, b.v. alle websites over de tsunami of over 11 september 2001. Het is dus niet zeker of alle
versies van een website worden bewaard. Trouwens het doel van de acties op internet archive is niet
het vastleggen als archief en het is maar de vraag of de gearchiveerde sites nog authentiek, integer
en betrouwbaar zijn. En het is nog meer de vraag of Archiveweb een ‘veilige bewaaromgeving’ is.
Hoe selecteren we websites die voor bewaren in aanmerking komen?
In Rotterdam is gebleken dat het collectieprofiel voor analoge documenten bijna gelijk is aan het
collectieprofiel van digitale documenten, inclusief websites.
Een website is slechts een verschijningsvorm van een informatiedrager.
Het blijkt dat het voor personen en organisaties via een website makkelijker is zich te presenteren dan
op papier en dat deze verschijningsvorm meer mogelijkheden biedt.
Dus: als we de via de website aangeboden informatie ook zouden willen bewaren als deze wordt
aangeboden op papier kan dat een reden zijn deze website te willen bewaren.
Uitzonderingen zijn altijd mogelijk
De praktische complicaties maken het, samen met het dynamische karakter van het web en de zich
steeds ontwikkelende webtechnologie lastig om websites zelf te downloaden en te archiveren.
2
3. Het downloaden van deze weerbarstige materie vereist specialistische kennis, vakmanschap, ervaring
en inzicht. Anders gezegd het is een kunstje.
Hoe archiveren we websites ?
Het correct downloaden van een website is te vergelijken met een onderzeeboot.
Als je een onderzeeboot een beetje fatsoenlijk wilt laten duiken moet je een aantal kleppen op de
juiste manier openen en sluiten. Het luistert nogal nauw en als je de verkeerde kleppen opent, of de
kleppen op een verkeerde manier opent gaat de boot als een speer naar beneden, scheef naar
beneden, of helmaal niet naar beneden. Datzelfde vakmanschap moet je ontwikkelen voor het correct
downloaden van websites. Je moet de juiste instellingen weten te vinden, weten welke en hoeveel
externe- en interne links je open zet en welke je afsluit. Pas als je de juiste instellingen hebt
gedefinieerd kun je de site goed binnenhalen.
Afbakenen website
Bij het archiveren van een dynamisch en veelvormig documenttype als een website moet je eerst
afbakenen wat je van zo’n website wil archiveren.
Wil je ook de chatsessies, de blogs enz., of gaat het alleen maar om de inhoud en de
presentatievorm? De keuzes die we daarin maken, hebben nogal wat technische en inhoudelijke
consequenties. Daarom moet je eerst bepalen wat een website maakt tot wat hij is. Is het een
presentatiemedium, een portaal naar andere informatiebronnen of een transactiemedium, of is het
gewoon een interessante site van een privé persoon. Het antwoord op die vraag hangt af van de
functie die de website heeft in één of meerdere werkprocessen. Als dat is gedefinieerd, kun je
vervolgens analyseren welke elementen van de website behouden moeten blijven om er voor te
zorgen dat de authenticiteit overeind blijft.
Integriteit en verifieerbaarheid
Dat wil dus zeggen dat je authenticiteitseisen moet opstellen (in de praktijk doe je daar niet meer
zoveel mee, maar in het begin is het wel handig)
Daarin staan twee begrippen centraal: integriteit en verifieerbaarheid.
Met integriteit wordt bedoeld dat de website intact is en niet zodanig veranderd dat de betekenis
ervan niet meer duidelijk is.
Wijzigingen zijn tot op zekere hoogte aanvaardbaar, als oorspronkelijke betekenis of functie van de
website maar niet wordt aangetast.
Verifieerbaarheid betekent dat je kunt vaststellen dat de website is wat het beweert te zijn. Om dit
mogelijk te maken is weer context informatie nodig die later wordt vastgelegd in metadata.
In Rotterdam hebben we een lijst opgesteld met 19 authenticiteitseisen, en daarmee kunnen we
iedere keer als we een website willen archiveren bepalen of de site voldoet aan deze eisen.
Authenticiteitseisen
Nr Eis Uitvoering
Context
1 De gebruiker krijgt een signaal Functionaliteit in opname-techniek
wanneer hij naar een externe link
gaat
2 Organisatorische herkomst is Vastleggen in metadata
reconstrueerbaar
3 Rol in werkprocessen is Vastleggen in metadata
reconstrueerbaar
4 Plaats in informatie-architectuur is Vastleggen in metadata
reconstrueerbaar
Inhoud
5 Tekst wordt integraal weergegeven Functionaliteit in opname-techniek
6 Afbeeldingen worden integraal Functionaliteit in opname-techniek
weergegeven
7 Bewegend beeld en geluid worden Functionaliteit in opname-techniek
integraal weergegeven
8 Neerslag van transacties worden niet Functionaliteit in opname-techniek
weergegeven. De interface wordt als
3
4. afbeelding weergegeven
9 Deepweb toepassingen zoals Functionaliteit in opname-techniek
databases worden niet weergegeven.
De interface wordt als afbeelding
weergegeven
10 Neerslag van chatsessies wordt niet Functionaliteit in opname-techniek
weergegeven. De interface wordt als
afbeelding weergegeven
11 Meenemen van mutaties wordt per Bepalen frequentie van opname
website bepaald. Informatieverlies
wordt daarbij geaccepteerd
Structuur
12 Structuur website wordt integraal Functionaliteit in opname-techniek
weergegeven
13 Interne links worden integraal Functionaliteit in opname-techniek
weergegeven
Vorm
14 Opmaak, vormgeving wordt integraal Functionaliteit in opname-techniek
weergegeven
15 Beeldfunctionaliteit, zie 19 -
Gedrag
16 Functionaliteit tbv transacties wordt Functionaliteit in opname-techniek
als afbeelding weergegeven
17 Zoekfunctionaliteit wordt als Functionaliteit in opname-techniek
afbeelding weergegeven
18 Chatfunctionaliteit wordt als Functionaliteit in opname-techniek
afbeelding weergegeven
19 Beeldfunctionaliteit, zoals in- en Functionaliteit in opname-techniek
uitzoomen, menugestuurde
afbeeldingen, aanklikbare
afbeeldingen, veranderende kleuren
bij cursorbeweging, wordt werkend
weergegeven
Ook wordt afgebakend welke delen van de website worden opgenomen en of eventuele deep-web
toepassingen worden opgenomen of niet. (Een groot deel van het web is niet toegankelijk via gewone
zoekmachines, omdat de inhoud is verborgen in databases. Dit noemen we het deep web of invisible
web.)
Daarna analyseren we de eventuele begrenzingen en problemen bij het maken van een snapshot.
De naam zegt het al, het is een snapshot, een momentopname van een website! In sommige gevallen
gaat dat wel op, er zijn websites die je binnen een paar seconden binnenhaalt, maar er zijn ook sites
waarbij het uren duurt. Het maken van een snapshot houdt in dat de interactieve functionaliteit niet
langer beschikbaar is. Via de gearchiveerde site kun je dus niet meer chatten! Externe links blijven wel
beschikbaar, maar als de link verandert stopt dat ook.
Als we de site extern beschikbaar willen stellen is toestemming nodig van de eigenaar van de site. En
dan nog kun je problemen krijgen met auteursrechten doordat er een filmpje of een foto op de site
staat waarop rechten blijken te berusten. Je kunt doorvoor een standaardbrief opstellen die je
verstuurt naar de website eigenaar. Als je de site niet extern beschikbaar gaat stellen hoeft dit
allemaal niet.
Omdat websites nogal aan verandering onderhevig zijn moet je een strategie ontwikkelen over de
frequentie waarmee verschillende soorten websites worden opgenomen. Daarom is het belangrijk om
te weten wanneer een site gaat veranderen en dan kan een goed contact met de webmaster wel
handig zijn.
Zoals we al eerder opmerkten vraagt het downloaden van websites het nodige vakmanschap en
inzicht. Pas als je dit vaak doet krijg je het nodige vakmanschap en dan is het nog niet eenvoudig. Wij
4
5. maken inmiddels al een paar jaren gebruik van Presurf, een software applicatie van Capsis uit
Amsterdam. Presurf is in staat geheel zelfstandig websites te downloaden en op te slaan.
Presurf werkt automatisch, maar niet vanzelf. Ook hier moet je eerst een website analyseren en
instellen wat je wel en niet wilt archiveren. En dat vraagt ook weer behoorlijk veel kennis van de
achterkant van een website. Bij aanschaf van de software worden door Capsis cursussen gegeven
zodat je leert omgaan met de software, maar ook hoe je websites kunt analyseren en aan de
áchterkant van een website kunt kijken. Presurf heeft ook een viewer waarmee je de website weer
kunt ophalen en bekijken en een metadatamodule. Het is de bedoeling dat deze metadatamodule
wordt gekoppeld aan het beherend systeem van het GAR zodat we metadata maar eenmalig
behoeven vast te leggen.
Met Presurf kun je instellen welke websites je wilt downloaden en met welke frequentie. Je kunt
aangeven wat je wilt hebben van een site, hoeveel externe links je wilt meenemen, of je filmpjes en
geluidsopnamen wilt downloaden en je kunt ook bepaalde zaken uitsluiten. Neem altijd de colofon en
sitemap mee, handig voor de metadata
Daarna maken we proefdownload en bekijken we of alles naar behoren werkt. Doorgaans is dat niet
zo en wordt, na de nodige aanpassingen een nieuwe poging gedaan, net zo lang tot we tevreden zijn,
maar soms is een site zo weerbarstig dat je de eisen naar beneden moet bijstellen.
Maak je niet teveel illusies, het gaat, vooral in het begin heel vaak mis, je kan er soms wanhopig van
worden
Inmiddels worden in Rotterdam jaarlijks ruim 250 websites gearchiveerd en is dit in 2009
geïmplementeerd in de reguliere werkprocessen.
In principe wordt jaarlijks een snapshot van een website genomen. Bij het nemen van meerdere
snapshots per jaar wordt, gezien de kosten van digitale opslag en digitale duurzaamheid rekening
gehouden met de relevantie van de betreffende website. We hebben inmiddels 268 verschillende
websites gedownload
De frequentie van de te nemen snapshots varieert:
Per jaar 234
Per half jaar 3
Per kwartaal 1
Maandelijks 1
Wekelijks 1
Eenmalig 6
Meerjaarlijks (betreft de politieke partijen) 22
Totaal 268
De tot nu toe gebruikte opslagruimte bedraagt: ca. 160 Gb
De opslagkosten per Gb zijn € 1,50 per jaar, inclusief back up en beheer.
Voor duurzame opslag in een E-depot moet speciale software worden aangeschaft en dan stijgen de
kosten aanzienlijk. (opslag van 1 Tb kost € 1500 per jaar, inclusief back-up, beheer etc.)
Want als we een website hebben gedownload, met deze ook nog worden bewaard en liefst zo lang
mogelijk, dus je moet je bestanden zo opslaan dat ze niet veranderen. En dan beginnen de
moeilijkheden pas goed, want digitaal materiaal is vluchtig en onderhevig aan veranderingen, de
ontwikkelingen buitelen over elkaar heen. Digitale duurzaamheid is al een probleem en dat zal alleen
maar groter worden!
Archiveren is dus belangrijk en dat is meer dan opslaan op een harde schijf of op een server. In
Rotterdam maken we van een digitaal bestand een SIP. (Submission Information Package)
Dat is een pakketje digitaal materiaal met een XML bestand aan metadata.
5
6. We hebben standaarden vastgesteld: voor het metadatamodel en voor de wijze waarop de metadata
aan de digitale ‘informatie-objecten’ worden gekoppeld en deze SIP’s worden opgeslagen in het E-
depot als AIP (Archival Information Package).
Een AIP is een digitaal informatie-object met de noodzakelijke metadata die daaraan zijn toegevoegd
zoals die worden opgeslagen voor lange termijn bewaring in het depot. Voor de beschikbaarstelling
wordt een kopie gemaakt van de AIP, minus een aantal voor de gebruiker niet relevante metadata en
dat noemen we dan een DIP (Dissemination Information Package).
Ik kan me voorstellen dat u denkt, leuk verhaal, maar echt weer iets voor de grote jongens. Want het
traject wat ik u heb geschetst is al moeizaam genoeg in een grote dienst en ik ben me ervan bewust
dat we in Rotterdam in een riante positie verkeren. Gemeentebestuur en dienstleiding zijn
doordrongen van de noodzaak tot opslag van digitale documenten én van digitale duurzaamheid en
maakt dat ook financieel mogelijk. We kunnen veel tijd vrijmaken en er wordt veel tijd vrijgemaakt en
onderzoek ontwikkeling worden gestimuleerd. De implementatie van de websitearchivering in de
werkprocessen dit jaar heeft dit jaar inmiddels 300 uur gekost en ik verwacht dat dit in 2010 niet
minder zal zijn. En dan heb ik het nog niet eens over al de problemen waar we tegenaan lopen, en
waar je soms wanhopig van kan worden.
Wij kunnen dus tijd vrijmaken, wij hebben een afdeling Informatiemanagement die ons met raad en
daad bijstaat, wij kunnen gebruik maken van de vaardigheden van collega’s, maar als je dat allemaal
niet hebt, wat moet je dan?
De toenemende digitalisering maakt het voor kleinere instellingen toch wel erg lastig om bij te blijven.
Het traject dat we in Rotterdam hebben doorlopen was al moeizaam voor een grote dienst, laat staan
voor kleinere instellingen die graag websites veilig willen stellen. De materie is te gecompliceerd om
alleen op te lossen en samenwerking en overleg is alleszins wenselijk.
We zijn er graag toe bereid en willen graag onze kennis met anderen delen en misschien moeten we
er toch eens met elkaar over verder praten. Misschien kunnen we dan ook oplossingen bedenken en
er met elkaar voor zorgen dat we juist deze digitale boot niet gaan missen, want de materie is te
gecompliceerd om in je eentje op te lossen.
Peter van Wijngaarden
Hfd. afd. bibliotheek
Gemeentearchief Rotterdam
Hofdijk 651, 3032 CG Rotterdam
Postbus 71, 3000 AB Rotterdam
010-267 55 60
www.gemeentearchief.rotterdam.nl
6