SlideShare una empresa de Scribd logo
1 de 6
Voorgoed vastgelegd? : archiveren van websites

Hoe het allemaal precies is begonnen weet ik niet meer, het zal wel ooit ergens bij het
gemeentearchief Rotterdam ter sprake zijn gekomen en in 2003 ben ik me er in gaan verdiepen.
Ik las heel veel publicaties, rapporten, scripties en artikelen over dit onderwerp En langzamerhand
kwam ik tot de conclusie dat een aantal scribenten ruimhartig gebruik maakten van de teksten van
andere scribenten.

Als je snel wilt worden ingewijd in de wereld van het downloaden van websites kan ik de publicatie
Het web gevangen aanbevelen. Daarin wordt kort en helder uitgelegd waar het om gaat. Deze
publicatie vormde de basis van mijn kennis over dit onderwerp. (www.archipol.nl)

In 2004 startte het Gemeentearchief met een pilotproject E-depot en dit project is in 2005 omgezet in
een vijfjarenproject, dat in 2010 zal worden afgerond.
Eén van de deelprojecten was het project Websites.
Natuurlijk werd begonnen met een degelijk ‘plan van aanpak’ waarin het projectdoel en de beoogde
resultaten werden vastgelegd. Zelf werd ik een beetje zenuwachtig van al dat ontwikkelen van
archiveringsstrategieën, scopes, typologieën, authenticiteiteisen, kwaliteitseisen enzo…., ik wilde
alleen maar websites binnenhalen, opslaan en ontsluiten.
Toch heb ik inmiddels geleerd dat het heel belangrijk is de zaken eerst grondig te overdenken en op te
schrijven. Doordat je nadenkt over het onderwerp krijgt het meer structuur en het is beter de
problemen eerst theoretisch te overdenken en op te lossen dan dat je later van alles moet gaan
bijstellen.

Er zijn een aantal open-source programma’s waaruit je kan kiezen en de bekendste zijn wel HTtrack
en Heritrix. HT track voldeed aan veel van onze wensen en eisen.

Ter vergroting van onze kennis van downloaden van websites en van HTtrack hebben we in 2005
hebben contact gezocht met de firma Capsis. Dit bedrijf is gespecialiseerd in webarchivering en
webconservering, en heeft veel ervaring met het archiveren van websites. Ze verzorgden voor ons
een korte cursus waarin we werden ingewijd in de geheimen van HTtrack en het downloaden van
websites.

Inmiddels begonnen we in 2006 aan een project waarbij de websites van de Rotterdamse politieke
partijen die deelnamen aan de gemeenteraadsverkiezingen op 7 maart 2006, tweemaal zijn
gearchiveerd. We hebben toen met veel moeite via HTtrack 18 websites binnengehaald en zonder de
medewerking van Capsis zou het project veel minder goed zijn geslaagd.

Maar laten we eerst vaststellen wat een website eigenlijk is en waarom we die zouden willen bewaren
en hoe we die website kunnen bewaren

Wat is een website
Een website is een complex systeem van software, hardware en een veelvoud aan digitale bestanden
en de samenhang tussen deze componenten maakt dat de site beschikbaar is op het worldwideweb.
Door interactie tussen gebruiker en webserver verschijnen de webpagina’s op het scherm.
Van Dale definieert een website als: “de plaats waar bepaalde informatie zich op het world wide web
bevindt, aangeduid met een URL”.

In feite is een website vaak niet meer dan een aangeklede presentatie van informatie en
documenten

Een website kan statisch of dynamisch zijn
Statisch wil zeggen dat de website aanbodgericht is, dat de pagina’s altijd op dezelfde (door de
ontwerper bepaalde) manier verschijnen op het beeldscherm.
Dynamisch wil zeggen dat ze afhankelijk van de vraag van de bezoeker van de site worden
opgebouwd.


                                                                                                      1
De meeste websites bevatten vaak zowel statische als dynamische elementen en worden
gecombineerd met andere technologieën, waardoor via de website verschillende diensten kunnen
worden aangeboden. En juist deze combinaties maken een website interactief. Een bezoeker kan
bijvoorbeeld via e-mail, nieuwsgroepen, blogs of een discussieforum reageren en informatie
toevoegen. Ook fungeert de website vaak als interface voor een database en de gegevens uit die
database, het zgn. deepweb, worden gepresenteerd binnen de structuur van de website.
Websites zijn dus nogal complex zowel wat betreft de gebruikte technologieën als wat betreft inhoud
en doel. Vooral de meest geavanceerde typen laten zien dat een website eigenlijk meer is dan alleen
de drager van informatie, het is een soort informatie-service

Waarom zouden we websites willen bewaren?
Websites zijn inmiddels niet meer weg te denken uit de samenleving en een onderdeel geworden van
ons bestaan.
Overheidswebsites kunnen informatie bevatten waaraan rechten zouden kunnen worden ontleend,
maar ze bieden ook of online formulieren en e-loketfuncties.
Organisaties communiceren via websites met de buitenwereld over hun beleid, bevoegdheden en
dienstverlening.
Overigens worden overheidswebsites en sites van grote organisaties meer en meer een doorgeefluik
van allerlei diensten, met een aardig raamwerk van plaatjes eromheen. De echte info zit in de
databases erachter en die nemen we doorgaans niet op. Maar in de optiek van het Gemeentearchief
Rotterdam zijn juist de sites van personen en kleine organisaties en instellingen die informatie
verstrekken over zichzelf interessant om te bewaren.

Inmiddels is het niet meer zo moeilijk om zelf een website te bouwen en veel privé personen en ook
kleine organisaties beschikken over een eigen website. En vooral deze websites bevatten vaak
informatie die elders niet beschikbaar is en waarvan het nuttig is om te bewaren.
In het Unesco ‘Charter on the preservation of the digital heritage’ worden websites expliciet gerekend
tot ons digitaal erfgoed. Dit digitale erfgoed is van belang voor toekomstig onderzoek naar de
ontwikkeling van het web en onze huidige samenleving.

Omdat websites dynamisch en vluchtig zijn moeten ze worden gestabiliseerd en vastgelegd om te
kunnen worden bewaard. Dit proces noemen we de archivering van websites. Er is onderscheid
tussen webarchivering en webharvesting.

    •   webharvesting is het selecteren van relevante informatie en het binnenhalen daarvan met
        behulp van speciale applicaties.
    •   webarchivering is het duurzaam opslaan, beheren en toegankelijk maken van de websites.

Selectie
Sinds midden 1996 probeert het Internet Archive het gehele internet te archiveren, maar er worden
alleen periodieke snapshots, momentopnames, gemaakt. Ook worden themaverzamelingen
aangelegd, b.v. alle websites over de tsunami of over 11 september 2001. Het is dus niet zeker of alle
versies van een website worden bewaard. Trouwens het doel van de acties op internet archive is niet
het vastleggen als archief en het is maar de vraag of de gearchiveerde sites nog authentiek, integer
en betrouwbaar zijn. En het is nog meer de vraag of Archiveweb een ‘veilige bewaaromgeving’ is.

Hoe selecteren we websites die voor bewaren in aanmerking komen?
In Rotterdam is gebleken dat het collectieprofiel voor analoge documenten bijna gelijk is aan het
collectieprofiel van digitale documenten, inclusief websites.
Een website is slechts een verschijningsvorm van een informatiedrager.

Het blijkt dat het voor personen en organisaties via een website makkelijker is zich te presenteren dan
op papier en dat deze verschijningsvorm meer mogelijkheden biedt.
Dus: als we de via de website aangeboden informatie ook zouden willen bewaren als deze wordt
aangeboden op papier kan dat een reden zijn deze website te willen bewaren.
Uitzonderingen zijn altijd mogelijk

De praktische complicaties maken het, samen met het dynamische karakter van het web en de zich
steeds ontwikkelende webtechnologie lastig om websites zelf te downloaden en te archiveren.




                                                                                                         2
Het downloaden van deze weerbarstige materie vereist specialistische kennis, vakmanschap, ervaring
en inzicht. Anders gezegd het is een kunstje.

Hoe archiveren we websites ?
Het correct downloaden van een website is te vergelijken met een onderzeeboot.
Als je een onderzeeboot een beetje fatsoenlijk wilt laten duiken moet je een aantal kleppen op de
juiste manier openen en sluiten. Het luistert nogal nauw en als je de verkeerde kleppen opent, of de
kleppen op een verkeerde manier opent gaat de boot als een speer naar beneden, scheef naar
beneden, of helmaal niet naar beneden. Datzelfde vakmanschap moet je ontwikkelen voor het correct
downloaden van websites. Je moet de juiste instellingen weten te vinden, weten welke en hoeveel
externe- en interne links je open zet en welke je afsluit. Pas als je de juiste instellingen hebt
gedefinieerd kun je de site goed binnenhalen.

Afbakenen website
Bij het archiveren van een dynamisch en veelvormig documenttype als een website moet je eerst
afbakenen wat je van zo’n website wil archiveren.
Wil je ook de chatsessies, de blogs enz., of gaat het alleen maar om de inhoud en de
presentatievorm? De keuzes die we daarin maken, hebben nogal wat technische en inhoudelijke
consequenties. Daarom moet je eerst bepalen wat een website maakt tot wat hij is. Is het een
presentatiemedium, een portaal naar andere informatiebronnen of een transactiemedium, of is het
gewoon een interessante site van een privé persoon. Het antwoord op die vraag hangt af van de
functie die de website heeft in één of meerdere werkprocessen. Als dat is gedefinieerd, kun je
vervolgens analyseren welke elementen van de website behouden moeten blijven om er voor te
zorgen dat de authenticiteit overeind blijft.

Integriteit en verifieerbaarheid
Dat wil dus zeggen dat je authenticiteitseisen moet opstellen (in de praktijk doe je daar niet meer
zoveel mee, maar in het begin is het wel handig)
Daarin staan twee begrippen centraal: integriteit en verifieerbaarheid.
Met integriteit wordt bedoeld dat de website intact is en niet zodanig veranderd dat de betekenis
ervan niet meer duidelijk is.
Wijzigingen zijn tot op zekere hoogte aanvaardbaar, als oorspronkelijke betekenis of functie van de
website maar niet wordt aangetast.
Verifieerbaarheid betekent dat je kunt vaststellen dat de website is wat het beweert te zijn. Om dit
mogelijk te maken is weer context informatie nodig die later wordt vastgelegd in metadata.

In Rotterdam hebben we een lijst opgesteld met 19 authenticiteitseisen, en daarmee kunnen we
iedere keer als we een website willen archiveren bepalen of de site voldoet aan deze eisen.

Authenticiteitseisen

Nr   Eis                                                 Uitvoering
Context
1    De gebruiker krijgt een signaal          Functionaliteit in opname-techniek
     wanneer hij naar een externe link
     gaat
2    Organisatorische herkomst is             Vastleggen in metadata
     reconstrueerbaar
3    Rol in werkprocessen is                  Vastleggen in metadata
     reconstrueerbaar
4    Plaats in informatie-architectuur is     Vastleggen in metadata
     reconstrueerbaar
Inhoud
5    Tekst wordt integraal weergegeven        Functionaliteit in opname-techniek
6    Afbeeldingen worden integraal            Functionaliteit in opname-techniek
     weergegeven
7    Bewegend beeld en geluid worden          Functionaliteit in opname-techniek
     integraal weergegeven
8    Neerslag van transacties worden niet     Functionaliteit in opname-techniek
     weergegeven. De interface wordt als


                                                                                                       3
afbeelding weergegeven
9     Deepweb toepassingen zoals              Functionaliteit in opname-techniek
      databases worden niet weergegeven.
      De interface wordt als afbeelding
      weergegeven
10    Neerslag van chatsessies wordt niet     Functionaliteit in opname-techniek
      weergegeven. De interface wordt als
      afbeelding weergegeven
11    Meenemen van mutaties wordt per         Bepalen frequentie van opname
      website bepaald. Informatieverlies
      wordt daarbij geaccepteerd
Structuur
12    Structuur website wordt integraal       Functionaliteit in opname-techniek
      weergegeven
13    Interne links worden integraal          Functionaliteit in opname-techniek
      weergegeven
Vorm
14    Opmaak, vormgeving wordt integraal      Functionaliteit in opname-techniek
      weergegeven
15    Beeldfunctionaliteit, zie 19            -
Gedrag
16    Functionaliteit tbv transacties wordt   Functionaliteit in opname-techniek
      als afbeelding weergegeven
17    Zoekfunctionaliteit wordt als           Functionaliteit in opname-techniek
      afbeelding weergegeven
18    Chatfunctionaliteit wordt als           Functionaliteit in opname-techniek
      afbeelding weergegeven
19    Beeldfunctionaliteit, zoals in- en      Functionaliteit in opname-techniek
      uitzoomen, menugestuurde
      afbeeldingen, aanklikbare
      afbeeldingen, veranderende kleuren
      bij cursorbeweging, wordt werkend
      weergegeven

Ook wordt afgebakend welke delen van de website worden opgenomen en of eventuele deep-web
toepassingen worden opgenomen of niet. (Een groot deel van het web is niet toegankelijk via gewone
zoekmachines, omdat de inhoud is verborgen in databases. Dit noemen we het deep web of invisible
web.)

Daarna analyseren we de eventuele begrenzingen en problemen bij het maken van een snapshot.
De naam zegt het al, het is een snapshot, een momentopname van een website! In sommige gevallen
gaat dat wel op, er zijn websites die je binnen een paar seconden binnenhaalt, maar er zijn ook sites
waarbij het uren duurt. Het maken van een snapshot houdt in dat de interactieve functionaliteit niet
langer beschikbaar is. Via de gearchiveerde site kun je dus niet meer chatten! Externe links blijven wel
beschikbaar, maar als de link verandert stopt dat ook.

Als we de site extern beschikbaar willen stellen is toestemming nodig van de eigenaar van de site. En
dan nog kun je problemen krijgen met auteursrechten doordat er een filmpje of een foto op de site
staat waarop rechten blijken te berusten. Je kunt doorvoor een standaardbrief opstellen die je
verstuurt naar de website eigenaar. Als je de site niet extern beschikbaar gaat stellen hoeft dit
allemaal niet.

Omdat websites nogal aan verandering onderhevig zijn moet je een strategie ontwikkelen over de
frequentie waarmee verschillende soorten websites worden opgenomen. Daarom is het belangrijk om
te weten wanneer een site gaat veranderen en dan kan een goed contact met de webmaster wel
handig zijn.

Zoals we al eerder opmerkten vraagt het downloaden van websites het nodige vakmanschap en
inzicht. Pas als je dit vaak doet krijg je het nodige vakmanschap en dan is het nog niet eenvoudig. Wij



                                                                                                      4
maken inmiddels al een paar jaren gebruik van Presurf, een software applicatie van Capsis uit
Amsterdam. Presurf is in staat geheel zelfstandig websites te downloaden en op te slaan.

Presurf werkt automatisch, maar niet vanzelf. Ook hier moet je eerst een website analyseren en
instellen wat je wel en niet wilt archiveren. En dat vraagt ook weer behoorlijk veel kennis van de
achterkant van een website. Bij aanschaf van de software worden door Capsis cursussen gegeven
zodat je leert omgaan met de software, maar ook hoe je websites kunt analyseren en aan de
áchterkant van een website kunt kijken. Presurf heeft ook een viewer waarmee je de website weer
kunt ophalen en bekijken en een metadatamodule. Het is de bedoeling dat deze metadatamodule
wordt gekoppeld aan het beherend systeem van het GAR zodat we metadata maar eenmalig
behoeven vast te leggen.

Met Presurf kun je instellen welke websites je wilt downloaden en met welke frequentie. Je kunt
aangeven wat je wilt hebben van een site, hoeveel externe links je wilt meenemen, of je filmpjes en
geluidsopnamen wilt downloaden en je kunt ook bepaalde zaken uitsluiten. Neem altijd de colofon en
sitemap mee, handig voor de metadata

Daarna maken we proefdownload en bekijken we of alles naar behoren werkt. Doorgaans is dat niet
zo en wordt, na de nodige aanpassingen een nieuwe poging gedaan, net zo lang tot we tevreden zijn,
maar soms is een site zo weerbarstig dat je de eisen naar beneden moet bijstellen.
Maak je niet teveel illusies, het gaat, vooral in het begin heel vaak mis, je kan er soms wanhopig van
worden




Inmiddels worden in Rotterdam jaarlijks ruim 250 websites gearchiveerd en is dit in 2009
geïmplementeerd in de reguliere werkprocessen.

In principe wordt jaarlijks een snapshot van een website genomen. Bij het nemen van meerdere
snapshots per jaar wordt, gezien de kosten van digitale opslag en digitale duurzaamheid rekening
gehouden met de relevantie van de betreffende website. We hebben inmiddels 268 verschillende
websites gedownload

De frequentie van de te nemen snapshots varieert:
Per jaar                                         234
Per half jaar                                      3
Per kwartaal                                       1
Maandelijks                                        1
Wekelijks                                          1
Eenmalig                                           6
Meerjaarlijks (betreft de politieke partijen)     22
                                          Totaal 268

De tot nu toe gebruikte opslagruimte bedraagt: ca. 160 Gb

De opslagkosten per Gb zijn € 1,50 per jaar, inclusief back up en beheer.
Voor duurzame opslag in een E-depot moet speciale software worden aangeschaft en dan stijgen de
kosten aanzienlijk. (opslag van 1 Tb kost € 1500 per jaar, inclusief back-up, beheer etc.)

Want als we een website hebben gedownload, met deze ook nog worden bewaard en liefst zo lang
mogelijk, dus je moet je bestanden zo opslaan dat ze niet veranderen. En dan beginnen de
moeilijkheden pas goed, want digitaal materiaal is vluchtig en onderhevig aan veranderingen, de
ontwikkelingen buitelen over elkaar heen. Digitale duurzaamheid is al een probleem en dat zal alleen
maar groter worden!

Archiveren is dus belangrijk en dat is meer dan opslaan op een harde schijf of op een server. In
Rotterdam maken we van een digitaal bestand een SIP. (Submission Information Package)
Dat is een pakketje digitaal materiaal met een XML bestand aan metadata.




                                                                                                       5
We hebben standaarden vastgesteld: voor het metadatamodel en voor de wijze waarop de metadata
aan de digitale ‘informatie-objecten’ worden gekoppeld en deze SIP’s worden opgeslagen in het E-
depot als AIP (Archival Information Package).

Een AIP is een digitaal informatie-object met de noodzakelijke metadata die daaraan zijn toegevoegd
zoals die worden opgeslagen voor lange termijn bewaring in het depot. Voor de beschikbaarstelling
wordt een kopie gemaakt van de AIP, minus een aantal voor de gebruiker niet relevante metadata en
dat noemen we dan een DIP (Dissemination Information Package).

Ik kan me voorstellen dat u denkt, leuk verhaal, maar echt weer iets voor de grote jongens. Want het
traject wat ik u heb geschetst is al moeizaam genoeg in een grote dienst en ik ben me ervan bewust
dat we in Rotterdam in een riante positie verkeren. Gemeentebestuur en dienstleiding zijn
doordrongen van de noodzaak tot opslag van digitale documenten én van digitale duurzaamheid en
maakt dat ook financieel mogelijk. We kunnen veel tijd vrijmaken en er wordt veel tijd vrijgemaakt en
onderzoek ontwikkeling worden gestimuleerd. De implementatie van de websitearchivering in de
werkprocessen dit jaar heeft dit jaar inmiddels 300 uur gekost en ik verwacht dat dit in 2010 niet
minder zal zijn. En dan heb ik het nog niet eens over al de problemen waar we tegenaan lopen, en
waar je soms wanhopig van kan worden.
Wij kunnen dus tijd vrijmaken, wij hebben een afdeling Informatiemanagement die ons met raad en
daad bijstaat, wij kunnen gebruik maken van de vaardigheden van collega’s, maar als je dat allemaal
niet hebt, wat moet je dan?

De toenemende digitalisering maakt het voor kleinere instellingen toch wel erg lastig om bij te blijven.
Het traject dat we in Rotterdam hebben doorlopen was al moeizaam voor een grote dienst, laat staan
voor kleinere instellingen die graag websites veilig willen stellen. De materie is te gecompliceerd om
alleen op te lossen en samenwerking en overleg is alleszins wenselijk.
We zijn er graag toe bereid en willen graag onze kennis met anderen delen en misschien moeten we
er toch eens met elkaar over verder praten. Misschien kunnen we dan ook oplossingen bedenken en
er met elkaar voor zorgen dat we juist deze digitale boot niet gaan missen, want de materie is te
gecompliceerd om in je eentje op te lossen.

Peter van Wijngaarden
Hfd. afd. bibliotheek
Gemeentearchief Rotterdam
Hofdijk 651, 3032 CG Rotterdam
Postbus 71, 3000 AB Rotterdam
010-267 55 60
www.gemeentearchief.rotterdam.nl




                                                                                                           6

Más contenido relacionado

La actualidad más candente

Verslag melanie documents
Verslag melanie documentsVerslag melanie documents
Verslag melanie documentselisacaekaert
 
Linked Open Data introductie voor erfgoedinstellingen
Linked Open Data introductie voor erfgoedinstellingenLinked Open Data introductie voor erfgoedinstellingen
Linked Open Data introductie voor erfgoedinstellingenMonika Lechner
 
Bibliotheek20 Continued Short Edition
Bibliotheek20 Continued Short EditionBibliotheek20 Continued Short Edition
Bibliotheek20 Continued Short EditionJohan Mijs
 
Slimme tools voor het 'nieuwe samenwerken'
Slimme tools voor het 'nieuwe samenwerken'Slimme tools voor het 'nieuwe samenwerken'
Slimme tools voor het 'nieuwe samenwerken'Hutspot
 
Bibliotheek 2.0 voor de Avans Onderwijsdag
Bibliotheek 2.0 voor de Avans OnderwijsdagBibliotheek 2.0 voor de Avans Onderwijsdag
Bibliotheek 2.0 voor de Avans OnderwijsdagWouter Gerritsma
 
AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0Tjarda de Haan
 
Provincie Utrecht 2.0
Provincie Utrecht 2.0Provincie Utrecht 2.0
Provincie Utrecht 2.0R. Zandbergen
 

La actualidad más candente (7)

Verslag melanie documents
Verslag melanie documentsVerslag melanie documents
Verslag melanie documents
 
Linked Open Data introductie voor erfgoedinstellingen
Linked Open Data introductie voor erfgoedinstellingenLinked Open Data introductie voor erfgoedinstellingen
Linked Open Data introductie voor erfgoedinstellingen
 
Bibliotheek20 Continued Short Edition
Bibliotheek20 Continued Short EditionBibliotheek20 Continued Short Edition
Bibliotheek20 Continued Short Edition
 
Slimme tools voor het 'nieuwe samenwerken'
Slimme tools voor het 'nieuwe samenwerken'Slimme tools voor het 'nieuwe samenwerken'
Slimme tools voor het 'nieuwe samenwerken'
 
Bibliotheek 2.0 voor de Avans Onderwijsdag
Bibliotheek 2.0 voor de Avans OnderwijsdagBibliotheek 2.0 voor de Avans Onderwijsdag
Bibliotheek 2.0 voor de Avans Onderwijsdag
 
AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0AHM.nl: web2.0 t/m 3.0
AHM.nl: web2.0 t/m 3.0
 
Provincie Utrecht 2.0
Provincie Utrecht 2.0Provincie Utrecht 2.0
Provincie Utrecht 2.0
 

Destacado

Pharma Field Sales Learning and Development
Pharma Field Sales Learning and DevelopmentPharma Field Sales Learning and Development
Pharma Field Sales Learning and DevelopmentAnup Soans
 
20091217_EPE-B.Aigaiou_Tsigos
20091217_EPE-B.Aigaiou_Tsigos20091217_EPE-B.Aigaiou_Tsigos
20091217_EPE-B.Aigaiou_TsigosDimitris Tsingos
 
Five Disruptive Forces that are Shaking Up Indian Pharma!
Five Disruptive Forces that are Shaking Up Indian Pharma! Five Disruptive Forces that are Shaking Up Indian Pharma!
Five Disruptive Forces that are Shaking Up Indian Pharma! Anup Soans
 
engineering,career,how to
engineering,career,how toengineering,career,how to
engineering,career,how totinamillion
 
L'evoluzione dei mondi virtuali
L'evoluzione dei mondi virtualiL'evoluzione dei mondi virtuali
L'evoluzione dei mondi virtualiLuca Spoldi
 
Twitter for Professional Educators
Twitter for Professional EducatorsTwitter for Professional Educators
Twitter for Professional EducatorsNatalie Drake
 
Individual Employment Opp Photographer South Africa
Individual Employment Opp Photographer South AfricaIndividual Employment Opp Photographer South Africa
Individual Employment Opp Photographer South AfricaBlogatize.net
 
Social Monitor keynote - Barcelona Affiliate Conference #BAC2014
Social Monitor keynote - Barcelona Affiliate Conference #BAC2014Social Monitor keynote - Barcelona Affiliate Conference #BAC2014
Social Monitor keynote - Barcelona Affiliate Conference #BAC2014Joakim Nilsson
 
Megan w - trail presentation
Megan w - trail presentationMegan w - trail presentation
Megan w - trail presentationTrailplan
 
Rm 07-v1
Rm 07-v1Rm 07-v1
Rm 07-v1tomkacy
 
Pds Web 2 0 Teacher Tube 12 8 09
Pds Web 2 0 Teacher Tube  12 8 09Pds Web 2 0 Teacher Tube  12 8 09
Pds Web 2 0 Teacher Tube 12 8 09HPHS
 
Ay, como me duele
Ay,  como me dueleAy,  como me duele
Ay, como me duelesjulita11
 
как загрузить файл на форум
как загрузить файл на форумкак загрузить файл на форум
как загрузить файл на форумskatelal
 
The Multi Channel Experience
The Multi Channel ExperienceThe Multi Channel Experience
The Multi Channel Experiencejdanko26
 
lecture_7
lecture_7lecture_7
lecture_7farcrys
 

Destacado (20)

Pharma Field Sales Learning and Development
Pharma Field Sales Learning and DevelopmentPharma Field Sales Learning and Development
Pharma Field Sales Learning and Development
 
20091217_EPE-B.Aigaiou_Tsigos
20091217_EPE-B.Aigaiou_Tsigos20091217_EPE-B.Aigaiou_Tsigos
20091217_EPE-B.Aigaiou_Tsigos
 
Five Disruptive Forces that are Shaking Up Indian Pharma!
Five Disruptive Forces that are Shaking Up Indian Pharma! Five Disruptive Forces that are Shaking Up Indian Pharma!
Five Disruptive Forces that are Shaking Up Indian Pharma!
 
engineering,career,how to
engineering,career,how toengineering,career,how to
engineering,career,how to
 
L'evoluzione dei mondi virtuali
L'evoluzione dei mondi virtualiL'evoluzione dei mondi virtuali
L'evoluzione dei mondi virtuali
 
Twitter for Professional Educators
Twitter for Professional EducatorsTwitter for Professional Educators
Twitter for Professional Educators
 
Rails Security
Rails SecurityRails Security
Rails Security
 
Individual Employment Opp Photographer South Africa
Individual Employment Opp Photographer South AfricaIndividual Employment Opp Photographer South Africa
Individual Employment Opp Photographer South Africa
 
Re emphasizing awareness & education
Re emphasizing awareness & educationRe emphasizing awareness & education
Re emphasizing awareness & education
 
Social Monitor keynote - Barcelona Affiliate Conference #BAC2014
Social Monitor keynote - Barcelona Affiliate Conference #BAC2014Social Monitor keynote - Barcelona Affiliate Conference #BAC2014
Social Monitor keynote - Barcelona Affiliate Conference #BAC2014
 
Megan w - trail presentation
Megan w - trail presentationMegan w - trail presentation
Megan w - trail presentation
 
Mother
MotherMother
Mother
 
Rm 07-v1
Rm 07-v1Rm 07-v1
Rm 07-v1
 
Pds Web 2 0 Teacher Tube 12 8 09
Pds Web 2 0 Teacher Tube  12 8 09Pds Web 2 0 Teacher Tube  12 8 09
Pds Web 2 0 Teacher Tube 12 8 09
 
Ay, como me duele
Ay,  como me dueleAy,  como me duele
Ay, como me duele
 
2010 03-11 pmonup v3
2010 03-11 pmonup v32010 03-11 pmonup v3
2010 03-11 pmonup v3
 
как загрузить файл на форум
как загрузить файл на форумкак загрузить файл на форум
как загрузить файл на форум
 
The Multi Channel Experience
The Multi Channel ExperienceThe Multi Channel Experience
The Multi Channel Experience
 
lecture_7
lecture_7lecture_7
lecture_7
 
Jupiterimages Calendar
Jupiterimages CalendarJupiterimages Calendar
Jupiterimages Calendar
 

Similar a Voorgoed vastgelegd? archiveren van websites

Voorgoed vastgelegd? archiveren van websites
Voorgoed vastgelegd? archiveren van websitesVoorgoed vastgelegd? archiveren van websites
Voorgoed vastgelegd? archiveren van websitesOKBN
 
Informatiebemiddeling 2.0 Limburg
Informatiebemiddeling 2.0 LimburgInformatiebemiddeling 2.0 Limburg
Informatiebemiddeling 2.0 LimburgJan Van Hee
 
Presentatie Quickscan AHM
Presentatie Quickscan AHMPresentatie Quickscan AHM
Presentatie Quickscan AHMTjarda de Haan
 
Long Tail Tot Second Life
Long Tail Tot Second LifeLong Tail Tot Second Life
Long Tail Tot Second LifeDenis De Bruyne
 
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatieBreng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatieGuus van den Brekel
 
Web 2.0 Levende talen Zwolle
Web 2.0 Levende talen ZwolleWeb 2.0 Levende talen Zwolle
Web 2.0 Levende talen Zwollegiedocusters
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Enno Meijers
 
White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011)
White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011) White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011)
White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011) Edwin Mijnsbergen
 
Handboek webredactie inhoud inleiding
Handboek webredactie inhoud inleidingHandboek webredactie inhoud inleiding
Handboek webredactie inhoud inleidingg.poort
 
Web 2.0 - Onderlinge (Final)
Web 2.0 - Onderlinge (Final)Web 2.0 - Onderlinge (Final)
Web 2.0 - Onderlinge (Final)R. Zandbergen
 
Gebruikersgericht Ontwerpen
Gebruikersgericht OntwerpenGebruikersgericht Ontwerpen
Gebruikersgericht Ontwerpenculturelestudies
 
Web 2.0 voor Medische Bibliotheken : a workshop with some tools
Web 2.0 voor Medische Bibliotheken : a workshop with some toolsWeb 2.0 voor Medische Bibliotheken : a workshop with some tools
Web 2.0 voor Medische Bibliotheken : a workshop with some toolsGuus van den Brekel
 
tekstschrijvers.nl, mooie plannen voor 2010
tekstschrijvers.nl, mooie plannen voor 2010tekstschrijvers.nl, mooie plannen voor 2010
tekstschrijvers.nl, mooie plannen voor 2010Rob le Pair
 
Fotoverslag Webmanagersnet 26 mei 2011
Fotoverslag Webmanagersnet 26 mei 2011Fotoverslag Webmanagersnet 26 mei 2011
Fotoverslag Webmanagersnet 26 mei 2011Arno Naafs
 
Fotoverslag webman net 26 mei 2001 v1 def
Fotoverslag webman net 26 mei 2001 v1 defFotoverslag webman net 26 mei 2001 v1 def
Fotoverslag webman net 26 mei 2001 v1 defPresent Media
 
Web X.0 (evolution from the static web to the intelligent web) in nederlands
Web X.0 (evolution from the static web to the intelligent web) in nederlandsWeb X.0 (evolution from the static web to the intelligent web) in nederlands
Web X.0 (evolution from the static web to the intelligent web) in nederlandsKaren De Groof
 
Web 2.0 tools gino
Web 2.0 tools ginoWeb 2.0 tools gino
Web 2.0 tools ginoginootje
 
10 vervolgstappen voor sociale media
10 vervolgstappen voor sociale media10 vervolgstappen voor sociale media
10 vervolgstappen voor sociale mediaVRmaster
 

Similar a Voorgoed vastgelegd? archiveren van websites (20)

Voorgoed vastgelegd? archiveren van websites
Voorgoed vastgelegd? archiveren van websitesVoorgoed vastgelegd? archiveren van websites
Voorgoed vastgelegd? archiveren van websites
 
Informatiebemiddeling 2.0 Limburg
Informatiebemiddeling 2.0 LimburgInformatiebemiddeling 2.0 Limburg
Informatiebemiddeling 2.0 Limburg
 
Presentatie Quickscan AHM
Presentatie Quickscan AHMPresentatie Quickscan AHM
Presentatie Quickscan AHM
 
Long Tail Tot Second Life
Long Tail Tot Second LifeLong Tail Tot Second Life
Long Tail Tot Second Life
 
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatieBreng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
Breng je informatie waar de klanten zijn! : Papieren Tijgers presentatie
 
Joomla! in en voor bibliotheken
Joomla! in en voor bibliothekenJoomla! in en voor bibliotheken
Joomla! in en voor bibliotheken
 
Web 2.0 Levende talen Zwolle
Web 2.0 Levende talen ZwolleWeb 2.0 Levende talen Zwolle
Web 2.0 Levende talen Zwolle
 
Module 1 Nmm
Module 1 NmmModule 1 Nmm
Module 1 Nmm
 
Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016Presentatie PCDB overleg Utrecht 28 juni 2016
Presentatie PCDB overleg Utrecht 28 juni 2016
 
White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011)
White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011) White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011)
White Label website onder de loep genomen (Digitale Bibliotheek 2, 2011)
 
Handboek webredactie inhoud inleiding
Handboek webredactie inhoud inleidingHandboek webredactie inhoud inleiding
Handboek webredactie inhoud inleiding
 
Web 2.0 - Onderlinge (Final)
Web 2.0 - Onderlinge (Final)Web 2.0 - Onderlinge (Final)
Web 2.0 - Onderlinge (Final)
 
Gebruikersgericht Ontwerpen
Gebruikersgericht OntwerpenGebruikersgericht Ontwerpen
Gebruikersgericht Ontwerpen
 
Web 2.0 voor Medische Bibliotheken : a workshop with some tools
Web 2.0 voor Medische Bibliotheken : a workshop with some toolsWeb 2.0 voor Medische Bibliotheken : a workshop with some tools
Web 2.0 voor Medische Bibliotheken : a workshop with some tools
 
tekstschrijvers.nl, mooie plannen voor 2010
tekstschrijvers.nl, mooie plannen voor 2010tekstschrijvers.nl, mooie plannen voor 2010
tekstschrijvers.nl, mooie plannen voor 2010
 
Fotoverslag Webmanagersnet 26 mei 2011
Fotoverslag Webmanagersnet 26 mei 2011Fotoverslag Webmanagersnet 26 mei 2011
Fotoverslag Webmanagersnet 26 mei 2011
 
Fotoverslag webman net 26 mei 2001 v1 def
Fotoverslag webman net 26 mei 2001 v1 defFotoverslag webman net 26 mei 2001 v1 def
Fotoverslag webman net 26 mei 2001 v1 def
 
Web X.0 (evolution from the static web to the intelligent web) in nederlands
Web X.0 (evolution from the static web to the intelligent web) in nederlandsWeb X.0 (evolution from the static web to the intelligent web) in nederlands
Web X.0 (evolution from the static web to the intelligent web) in nederlands
 
Web 2.0 tools gino
Web 2.0 tools ginoWeb 2.0 tools gino
Web 2.0 tools gino
 
10 vervolgstappen voor sociale media
10 vervolgstappen voor sociale media10 vervolgstappen voor sociale media
10 vervolgstappen voor sociale media
 

Voorgoed vastgelegd? archiveren van websites

  • 1. Voorgoed vastgelegd? : archiveren van websites Hoe het allemaal precies is begonnen weet ik niet meer, het zal wel ooit ergens bij het gemeentearchief Rotterdam ter sprake zijn gekomen en in 2003 ben ik me er in gaan verdiepen. Ik las heel veel publicaties, rapporten, scripties en artikelen over dit onderwerp En langzamerhand kwam ik tot de conclusie dat een aantal scribenten ruimhartig gebruik maakten van de teksten van andere scribenten. Als je snel wilt worden ingewijd in de wereld van het downloaden van websites kan ik de publicatie Het web gevangen aanbevelen. Daarin wordt kort en helder uitgelegd waar het om gaat. Deze publicatie vormde de basis van mijn kennis over dit onderwerp. (www.archipol.nl) In 2004 startte het Gemeentearchief met een pilotproject E-depot en dit project is in 2005 omgezet in een vijfjarenproject, dat in 2010 zal worden afgerond. Eén van de deelprojecten was het project Websites. Natuurlijk werd begonnen met een degelijk ‘plan van aanpak’ waarin het projectdoel en de beoogde resultaten werden vastgelegd. Zelf werd ik een beetje zenuwachtig van al dat ontwikkelen van archiveringsstrategieën, scopes, typologieën, authenticiteiteisen, kwaliteitseisen enzo…., ik wilde alleen maar websites binnenhalen, opslaan en ontsluiten. Toch heb ik inmiddels geleerd dat het heel belangrijk is de zaken eerst grondig te overdenken en op te schrijven. Doordat je nadenkt over het onderwerp krijgt het meer structuur en het is beter de problemen eerst theoretisch te overdenken en op te lossen dan dat je later van alles moet gaan bijstellen. Er zijn een aantal open-source programma’s waaruit je kan kiezen en de bekendste zijn wel HTtrack en Heritrix. HT track voldeed aan veel van onze wensen en eisen. Ter vergroting van onze kennis van downloaden van websites en van HTtrack hebben we in 2005 hebben contact gezocht met de firma Capsis. Dit bedrijf is gespecialiseerd in webarchivering en webconservering, en heeft veel ervaring met het archiveren van websites. Ze verzorgden voor ons een korte cursus waarin we werden ingewijd in de geheimen van HTtrack en het downloaden van websites. Inmiddels begonnen we in 2006 aan een project waarbij de websites van de Rotterdamse politieke partijen die deelnamen aan de gemeenteraadsverkiezingen op 7 maart 2006, tweemaal zijn gearchiveerd. We hebben toen met veel moeite via HTtrack 18 websites binnengehaald en zonder de medewerking van Capsis zou het project veel minder goed zijn geslaagd. Maar laten we eerst vaststellen wat een website eigenlijk is en waarom we die zouden willen bewaren en hoe we die website kunnen bewaren Wat is een website Een website is een complex systeem van software, hardware en een veelvoud aan digitale bestanden en de samenhang tussen deze componenten maakt dat de site beschikbaar is op het worldwideweb. Door interactie tussen gebruiker en webserver verschijnen de webpagina’s op het scherm. Van Dale definieert een website als: “de plaats waar bepaalde informatie zich op het world wide web bevindt, aangeduid met een URL”. In feite is een website vaak niet meer dan een aangeklede presentatie van informatie en documenten Een website kan statisch of dynamisch zijn Statisch wil zeggen dat de website aanbodgericht is, dat de pagina’s altijd op dezelfde (door de ontwerper bepaalde) manier verschijnen op het beeldscherm. Dynamisch wil zeggen dat ze afhankelijk van de vraag van de bezoeker van de site worden opgebouwd. 1
  • 2. De meeste websites bevatten vaak zowel statische als dynamische elementen en worden gecombineerd met andere technologieën, waardoor via de website verschillende diensten kunnen worden aangeboden. En juist deze combinaties maken een website interactief. Een bezoeker kan bijvoorbeeld via e-mail, nieuwsgroepen, blogs of een discussieforum reageren en informatie toevoegen. Ook fungeert de website vaak als interface voor een database en de gegevens uit die database, het zgn. deepweb, worden gepresenteerd binnen de structuur van de website. Websites zijn dus nogal complex zowel wat betreft de gebruikte technologieën als wat betreft inhoud en doel. Vooral de meest geavanceerde typen laten zien dat een website eigenlijk meer is dan alleen de drager van informatie, het is een soort informatie-service Waarom zouden we websites willen bewaren? Websites zijn inmiddels niet meer weg te denken uit de samenleving en een onderdeel geworden van ons bestaan. Overheidswebsites kunnen informatie bevatten waaraan rechten zouden kunnen worden ontleend, maar ze bieden ook of online formulieren en e-loketfuncties. Organisaties communiceren via websites met de buitenwereld over hun beleid, bevoegdheden en dienstverlening. Overigens worden overheidswebsites en sites van grote organisaties meer en meer een doorgeefluik van allerlei diensten, met een aardig raamwerk van plaatjes eromheen. De echte info zit in de databases erachter en die nemen we doorgaans niet op. Maar in de optiek van het Gemeentearchief Rotterdam zijn juist de sites van personen en kleine organisaties en instellingen die informatie verstrekken over zichzelf interessant om te bewaren. Inmiddels is het niet meer zo moeilijk om zelf een website te bouwen en veel privé personen en ook kleine organisaties beschikken over een eigen website. En vooral deze websites bevatten vaak informatie die elders niet beschikbaar is en waarvan het nuttig is om te bewaren. In het Unesco ‘Charter on the preservation of the digital heritage’ worden websites expliciet gerekend tot ons digitaal erfgoed. Dit digitale erfgoed is van belang voor toekomstig onderzoek naar de ontwikkeling van het web en onze huidige samenleving. Omdat websites dynamisch en vluchtig zijn moeten ze worden gestabiliseerd en vastgelegd om te kunnen worden bewaard. Dit proces noemen we de archivering van websites. Er is onderscheid tussen webarchivering en webharvesting. • webharvesting is het selecteren van relevante informatie en het binnenhalen daarvan met behulp van speciale applicaties. • webarchivering is het duurzaam opslaan, beheren en toegankelijk maken van de websites. Selectie Sinds midden 1996 probeert het Internet Archive het gehele internet te archiveren, maar er worden alleen periodieke snapshots, momentopnames, gemaakt. Ook worden themaverzamelingen aangelegd, b.v. alle websites over de tsunami of over 11 september 2001. Het is dus niet zeker of alle versies van een website worden bewaard. Trouwens het doel van de acties op internet archive is niet het vastleggen als archief en het is maar de vraag of de gearchiveerde sites nog authentiek, integer en betrouwbaar zijn. En het is nog meer de vraag of Archiveweb een ‘veilige bewaaromgeving’ is. Hoe selecteren we websites die voor bewaren in aanmerking komen? In Rotterdam is gebleken dat het collectieprofiel voor analoge documenten bijna gelijk is aan het collectieprofiel van digitale documenten, inclusief websites. Een website is slechts een verschijningsvorm van een informatiedrager. Het blijkt dat het voor personen en organisaties via een website makkelijker is zich te presenteren dan op papier en dat deze verschijningsvorm meer mogelijkheden biedt. Dus: als we de via de website aangeboden informatie ook zouden willen bewaren als deze wordt aangeboden op papier kan dat een reden zijn deze website te willen bewaren. Uitzonderingen zijn altijd mogelijk De praktische complicaties maken het, samen met het dynamische karakter van het web en de zich steeds ontwikkelende webtechnologie lastig om websites zelf te downloaden en te archiveren. 2
  • 3. Het downloaden van deze weerbarstige materie vereist specialistische kennis, vakmanschap, ervaring en inzicht. Anders gezegd het is een kunstje. Hoe archiveren we websites ? Het correct downloaden van een website is te vergelijken met een onderzeeboot. Als je een onderzeeboot een beetje fatsoenlijk wilt laten duiken moet je een aantal kleppen op de juiste manier openen en sluiten. Het luistert nogal nauw en als je de verkeerde kleppen opent, of de kleppen op een verkeerde manier opent gaat de boot als een speer naar beneden, scheef naar beneden, of helmaal niet naar beneden. Datzelfde vakmanschap moet je ontwikkelen voor het correct downloaden van websites. Je moet de juiste instellingen weten te vinden, weten welke en hoeveel externe- en interne links je open zet en welke je afsluit. Pas als je de juiste instellingen hebt gedefinieerd kun je de site goed binnenhalen. Afbakenen website Bij het archiveren van een dynamisch en veelvormig documenttype als een website moet je eerst afbakenen wat je van zo’n website wil archiveren. Wil je ook de chatsessies, de blogs enz., of gaat het alleen maar om de inhoud en de presentatievorm? De keuzes die we daarin maken, hebben nogal wat technische en inhoudelijke consequenties. Daarom moet je eerst bepalen wat een website maakt tot wat hij is. Is het een presentatiemedium, een portaal naar andere informatiebronnen of een transactiemedium, of is het gewoon een interessante site van een privé persoon. Het antwoord op die vraag hangt af van de functie die de website heeft in één of meerdere werkprocessen. Als dat is gedefinieerd, kun je vervolgens analyseren welke elementen van de website behouden moeten blijven om er voor te zorgen dat de authenticiteit overeind blijft. Integriteit en verifieerbaarheid Dat wil dus zeggen dat je authenticiteitseisen moet opstellen (in de praktijk doe je daar niet meer zoveel mee, maar in het begin is het wel handig) Daarin staan twee begrippen centraal: integriteit en verifieerbaarheid. Met integriteit wordt bedoeld dat de website intact is en niet zodanig veranderd dat de betekenis ervan niet meer duidelijk is. Wijzigingen zijn tot op zekere hoogte aanvaardbaar, als oorspronkelijke betekenis of functie van de website maar niet wordt aangetast. Verifieerbaarheid betekent dat je kunt vaststellen dat de website is wat het beweert te zijn. Om dit mogelijk te maken is weer context informatie nodig die later wordt vastgelegd in metadata. In Rotterdam hebben we een lijst opgesteld met 19 authenticiteitseisen, en daarmee kunnen we iedere keer als we een website willen archiveren bepalen of de site voldoet aan deze eisen. Authenticiteitseisen Nr Eis Uitvoering Context 1 De gebruiker krijgt een signaal Functionaliteit in opname-techniek wanneer hij naar een externe link gaat 2 Organisatorische herkomst is Vastleggen in metadata reconstrueerbaar 3 Rol in werkprocessen is Vastleggen in metadata reconstrueerbaar 4 Plaats in informatie-architectuur is Vastleggen in metadata reconstrueerbaar Inhoud 5 Tekst wordt integraal weergegeven Functionaliteit in opname-techniek 6 Afbeeldingen worden integraal Functionaliteit in opname-techniek weergegeven 7 Bewegend beeld en geluid worden Functionaliteit in opname-techniek integraal weergegeven 8 Neerslag van transacties worden niet Functionaliteit in opname-techniek weergegeven. De interface wordt als 3
  • 4. afbeelding weergegeven 9 Deepweb toepassingen zoals Functionaliteit in opname-techniek databases worden niet weergegeven. De interface wordt als afbeelding weergegeven 10 Neerslag van chatsessies wordt niet Functionaliteit in opname-techniek weergegeven. De interface wordt als afbeelding weergegeven 11 Meenemen van mutaties wordt per Bepalen frequentie van opname website bepaald. Informatieverlies wordt daarbij geaccepteerd Structuur 12 Structuur website wordt integraal Functionaliteit in opname-techniek weergegeven 13 Interne links worden integraal Functionaliteit in opname-techniek weergegeven Vorm 14 Opmaak, vormgeving wordt integraal Functionaliteit in opname-techniek weergegeven 15 Beeldfunctionaliteit, zie 19 - Gedrag 16 Functionaliteit tbv transacties wordt Functionaliteit in opname-techniek als afbeelding weergegeven 17 Zoekfunctionaliteit wordt als Functionaliteit in opname-techniek afbeelding weergegeven 18 Chatfunctionaliteit wordt als Functionaliteit in opname-techniek afbeelding weergegeven 19 Beeldfunctionaliteit, zoals in- en Functionaliteit in opname-techniek uitzoomen, menugestuurde afbeeldingen, aanklikbare afbeeldingen, veranderende kleuren bij cursorbeweging, wordt werkend weergegeven Ook wordt afgebakend welke delen van de website worden opgenomen en of eventuele deep-web toepassingen worden opgenomen of niet. (Een groot deel van het web is niet toegankelijk via gewone zoekmachines, omdat de inhoud is verborgen in databases. Dit noemen we het deep web of invisible web.) Daarna analyseren we de eventuele begrenzingen en problemen bij het maken van een snapshot. De naam zegt het al, het is een snapshot, een momentopname van een website! In sommige gevallen gaat dat wel op, er zijn websites die je binnen een paar seconden binnenhaalt, maar er zijn ook sites waarbij het uren duurt. Het maken van een snapshot houdt in dat de interactieve functionaliteit niet langer beschikbaar is. Via de gearchiveerde site kun je dus niet meer chatten! Externe links blijven wel beschikbaar, maar als de link verandert stopt dat ook. Als we de site extern beschikbaar willen stellen is toestemming nodig van de eigenaar van de site. En dan nog kun je problemen krijgen met auteursrechten doordat er een filmpje of een foto op de site staat waarop rechten blijken te berusten. Je kunt doorvoor een standaardbrief opstellen die je verstuurt naar de website eigenaar. Als je de site niet extern beschikbaar gaat stellen hoeft dit allemaal niet. Omdat websites nogal aan verandering onderhevig zijn moet je een strategie ontwikkelen over de frequentie waarmee verschillende soorten websites worden opgenomen. Daarom is het belangrijk om te weten wanneer een site gaat veranderen en dan kan een goed contact met de webmaster wel handig zijn. Zoals we al eerder opmerkten vraagt het downloaden van websites het nodige vakmanschap en inzicht. Pas als je dit vaak doet krijg je het nodige vakmanschap en dan is het nog niet eenvoudig. Wij 4
  • 5. maken inmiddels al een paar jaren gebruik van Presurf, een software applicatie van Capsis uit Amsterdam. Presurf is in staat geheel zelfstandig websites te downloaden en op te slaan. Presurf werkt automatisch, maar niet vanzelf. Ook hier moet je eerst een website analyseren en instellen wat je wel en niet wilt archiveren. En dat vraagt ook weer behoorlijk veel kennis van de achterkant van een website. Bij aanschaf van de software worden door Capsis cursussen gegeven zodat je leert omgaan met de software, maar ook hoe je websites kunt analyseren en aan de áchterkant van een website kunt kijken. Presurf heeft ook een viewer waarmee je de website weer kunt ophalen en bekijken en een metadatamodule. Het is de bedoeling dat deze metadatamodule wordt gekoppeld aan het beherend systeem van het GAR zodat we metadata maar eenmalig behoeven vast te leggen. Met Presurf kun je instellen welke websites je wilt downloaden en met welke frequentie. Je kunt aangeven wat je wilt hebben van een site, hoeveel externe links je wilt meenemen, of je filmpjes en geluidsopnamen wilt downloaden en je kunt ook bepaalde zaken uitsluiten. Neem altijd de colofon en sitemap mee, handig voor de metadata Daarna maken we proefdownload en bekijken we of alles naar behoren werkt. Doorgaans is dat niet zo en wordt, na de nodige aanpassingen een nieuwe poging gedaan, net zo lang tot we tevreden zijn, maar soms is een site zo weerbarstig dat je de eisen naar beneden moet bijstellen. Maak je niet teveel illusies, het gaat, vooral in het begin heel vaak mis, je kan er soms wanhopig van worden Inmiddels worden in Rotterdam jaarlijks ruim 250 websites gearchiveerd en is dit in 2009 geïmplementeerd in de reguliere werkprocessen. In principe wordt jaarlijks een snapshot van een website genomen. Bij het nemen van meerdere snapshots per jaar wordt, gezien de kosten van digitale opslag en digitale duurzaamheid rekening gehouden met de relevantie van de betreffende website. We hebben inmiddels 268 verschillende websites gedownload De frequentie van de te nemen snapshots varieert: Per jaar 234 Per half jaar 3 Per kwartaal 1 Maandelijks 1 Wekelijks 1 Eenmalig 6 Meerjaarlijks (betreft de politieke partijen) 22 Totaal 268 De tot nu toe gebruikte opslagruimte bedraagt: ca. 160 Gb De opslagkosten per Gb zijn € 1,50 per jaar, inclusief back up en beheer. Voor duurzame opslag in een E-depot moet speciale software worden aangeschaft en dan stijgen de kosten aanzienlijk. (opslag van 1 Tb kost € 1500 per jaar, inclusief back-up, beheer etc.) Want als we een website hebben gedownload, met deze ook nog worden bewaard en liefst zo lang mogelijk, dus je moet je bestanden zo opslaan dat ze niet veranderen. En dan beginnen de moeilijkheden pas goed, want digitaal materiaal is vluchtig en onderhevig aan veranderingen, de ontwikkelingen buitelen over elkaar heen. Digitale duurzaamheid is al een probleem en dat zal alleen maar groter worden! Archiveren is dus belangrijk en dat is meer dan opslaan op een harde schijf of op een server. In Rotterdam maken we van een digitaal bestand een SIP. (Submission Information Package) Dat is een pakketje digitaal materiaal met een XML bestand aan metadata. 5
  • 6. We hebben standaarden vastgesteld: voor het metadatamodel en voor de wijze waarop de metadata aan de digitale ‘informatie-objecten’ worden gekoppeld en deze SIP’s worden opgeslagen in het E- depot als AIP (Archival Information Package). Een AIP is een digitaal informatie-object met de noodzakelijke metadata die daaraan zijn toegevoegd zoals die worden opgeslagen voor lange termijn bewaring in het depot. Voor de beschikbaarstelling wordt een kopie gemaakt van de AIP, minus een aantal voor de gebruiker niet relevante metadata en dat noemen we dan een DIP (Dissemination Information Package). Ik kan me voorstellen dat u denkt, leuk verhaal, maar echt weer iets voor de grote jongens. Want het traject wat ik u heb geschetst is al moeizaam genoeg in een grote dienst en ik ben me ervan bewust dat we in Rotterdam in een riante positie verkeren. Gemeentebestuur en dienstleiding zijn doordrongen van de noodzaak tot opslag van digitale documenten én van digitale duurzaamheid en maakt dat ook financieel mogelijk. We kunnen veel tijd vrijmaken en er wordt veel tijd vrijgemaakt en onderzoek ontwikkeling worden gestimuleerd. De implementatie van de websitearchivering in de werkprocessen dit jaar heeft dit jaar inmiddels 300 uur gekost en ik verwacht dat dit in 2010 niet minder zal zijn. En dan heb ik het nog niet eens over al de problemen waar we tegenaan lopen, en waar je soms wanhopig van kan worden. Wij kunnen dus tijd vrijmaken, wij hebben een afdeling Informatiemanagement die ons met raad en daad bijstaat, wij kunnen gebruik maken van de vaardigheden van collega’s, maar als je dat allemaal niet hebt, wat moet je dan? De toenemende digitalisering maakt het voor kleinere instellingen toch wel erg lastig om bij te blijven. Het traject dat we in Rotterdam hebben doorlopen was al moeizaam voor een grote dienst, laat staan voor kleinere instellingen die graag websites veilig willen stellen. De materie is te gecompliceerd om alleen op te lossen en samenwerking en overleg is alleszins wenselijk. We zijn er graag toe bereid en willen graag onze kennis met anderen delen en misschien moeten we er toch eens met elkaar over verder praten. Misschien kunnen we dan ook oplossingen bedenken en er met elkaar voor zorgen dat we juist deze digitale boot niet gaan missen, want de materie is te gecompliceerd om in je eentje op te lossen. Peter van Wijngaarden Hfd. afd. bibliotheek Gemeentearchief Rotterdam Hofdijk 651, 3032 CG Rotterdam Postbus 71, 3000 AB Rotterdam 010-267 55 60 www.gemeentearchief.rotterdam.nl 6