SlideShare una empresa de Scribd logo
1 de 33
cultural heritage &
the semantic web
     Michiel Hildebrand
NRC Weekend Zaterdag 10 september & Zondag 11 september 2011                                                                                                                                                    NRC Weekend Zaterdag 10 september & Zondag 11 september 2011


8 Wetenschap                                                                                                                                                                                                                                                                                                                                                                                                                                  9



                                                                                                                                                                                                                                                                                                                                                                                                           een probleem zijn geweest.” Verha-
G E E ST E S W E T E N S C H A P P E N                                                                                                                                                                                                                                                                                                                                                                     gen van de UvA zegt dat de best mo-
De digitalisering van erfgoed neemt een hoge                                                                                                                                                                                                                                                                                                                                                               gelijke programmatuur is gebruikt:
                                                                                                                                                                                                                                                                                                                                                                                                           “Helaas is die nog niet goed genoeg.”
vlucht, maar gebeurt slordig en chaotisch.                                                                                                                                                                                                                                                                                                                                                                    Tellen en turven
Wetenschappers kunnen talloze bronnen                                                                                                                                                                                                                                                                                                                                                                         Maar geesteswetenschappers die
                                                                                                                                                                                                                                                                                                                                                                                                           mopperen, zijn vaak volgens de criti-
daardoor niet vinden of doorzoeken.                                                                                                                                                                                                                                                                                                                                                                        casters ook te weinig doordrongen
                                                                                                                                                                                                                                                                                                                                                                                                           van de van de mogelijkheden van di-
Karel Berkhout                                                                                                                                                                                                                                                                                                                                                                                             gitalisering. Velen hebben nauwe-
                                                                                                                                                                                                                                                                                                                                                                                                           lijks een meten-is-weten-mentali-
                                                                                                                                                                                                                                                                                                                                                                                                           teit, zegt Van Stipriaan van DBNL:
                                                                                                                                                                                                                                                                                                                                                                                                           “Tellen en turven, iets wat dus heel



V
           oor zijn in 1973 voltooide      (UvA) heeft ruim 10.000 boeken en                                                                                                                                                                                                                                                                                                                               makkelijk moet kunnen met digitale
           proefschrift probeerde de       brochures uit de periode 1900-1915        700 miljoen pagina's                                                                                                                                                                                                                                                                                                  bestanden, gebeurt in de geesteswe-
           neerlandicus Wim van den        gedigitaliseerd; helaas is de collectie                                                                                                                                                                                                                                                                                                                         tenschappen verrassend weinig.” Hij
           Berg te achterhalen wan-        voor onderzoekers buiten deze uni-        Aan de digitalisering van erfgoed is                                                                                                                                                                                                                                                                                  zelf leverde met simpelweg meten
neer de romantiek zijn intrede deed        versiteit onbereikbaar. Een rechten-      sinds 2004 in elk geval een krappe 50                                                                                                                                                                                                                                                                                 een veelgeprezen bijdrage aan een
in Nederland. Boeken, kranten en           kwestie, zegt de UvA, waar binnen-        miljoen euro uitgegeven. Dat meldt                                                                                                                                                                                                                                                                                    academisch debat.
tijdschriften van rond 1800 spitte hij     kort naar gekeken wordt.                  het ministerie van Onderwijs, Cultuur                                                                                                                                                                                                                                                                                    Dat debat draaide om de vraag of
door op zoek naar het woord ‘roman-           Universiteiten bouwen voor een         en Wetenschappen (OCW) desge-                                                                                                                                                                                                                                                                                         de internationale romantiek in Ne-
tisch’. Na vijftien jaar concludeerde      onbekend bedrag databanken met            vraagd. Het ministerie tekent daarbij                                                                                                                                                                                                                                                                                 derland snel voet aan de grond kreeg.
Van den Berg dat het woord in 1810         proefschriften en andere publicaties      aan geen zicht te hebben op alle uit-                                                                                                                                                                                                                                                                                 Niet echt, zei eerdergenoemde Van
voor het eerst op dezelfde manier          van hun personeel. De inrichting van      gaven voor digitalisering, omdat in-                                                                                                                                                                                                                                                                                  den Berg. Jawel, zei Marita Mathij-
werd gebruikt als eerder in Duits-         deze ‘repositories’ is zo knullig, dat    dividuele instellingen zelf ook niet                                                                                                                                                                                                                                                                                  sen, (emeritus) hoogleraar Neder-
land, Frankrijk en Engeland.               de publicaties nagenoeg onvindbaar        geoormerkt geld gebruiken voor digi-                                                                                                                                                                                                                                                                                  landse letterkunde. Van Stipriaan
   Om ‘zijn’ Digitale Bibliotheek          zijn. Alleen wie precies weet wat ie      taliseren. Op het ministerie circuleren                                                                                                                                                                                                                                                                               turfde in zijn DBNL hoe lang het in de
voor de Nederlandse Letteren (DBNL)        zoekt, kan iets vinden in deze ‘open      intern dan ook schattingen van 100                                                                                                                                                                                                                                                                                    negentiende eeuw duurde voor een
te testen herhaalde hoofdredacteur         acces’-bestanden.                         tot 200 miljoen euro.                                                                                                                                                                                                                                                                                                 romantisch boek uit het buitenland
René van Stipriaan vorig jaar deze            Op het Geheugen van Nederland          De Koninklijke Bibliotheek (KB) heeft                                                                                                                                                                                                                                                                                 werd vertaald: gemiddeld 17 jaar. Dat
zoektocht. De gedigitaliseerde boe-        zijn voor ruim 7 miljoen euro de          alleen al 30 miljoen euro besteed aan                                                                                                                                                                                                                                                                                 bevestigde volgens hem het gelijk
ken en tijdschriften in de databank        hoogtepunten van het vaderlandse          digitaliseren. De KB heeft de ambitie                                                                                                                                                                                                                                                                                 van Van den Berg.
doorzocht hij op het woord ‘roman-         gedrukte erfgoed bijeen gebracht.         om uiteindelijk 700 miljoen pagina’s                                                                                                                                                                                                                                                                                     “Een fantastisch voorbeeld van
tisch’. Van Stipriaan: “Na een korte       Hoewel de boekomslagen, cartoons          te digitaliseren. Bij de huidige kosten                                                                                                                                                                                                                                                                               wat digitalisering voor de geesteswe-
avond zoeken kon ik het eerste ge-         en foto’s schitterend zijn, is een be-    vergt dat een investering van 700 mil-                                                                                                                                                                                                                                                                                tenschappen kan betekenen. Ieder-
bruik ook vastprikken in 1810.”            zoek aan de website wanhopig ma-          joen euro. Als de boeken voor het                                                                                                                                                                                                                                                                                     een kan het experiment herhalen,
   Dit kunststukje is een triomf van       kend: geen enkel document kun je          scannen uit de band gesneden wor-                                                                                                                                                                                                                                                                                     het is controleerbaar, het is objectief.
de digitalisering van het gedrukte         doorzoeken. Zelfs bibliotheken en         den, kost het digitaliseren niet 1 euro                                                                                                                                                                                                                                                                               Het is een kwantitatieve versterking
erfgoed, dat het afgelopen decenni-        archieven die eraan hebben bijgedra-      maar ongeveer 15 cent per pagina.                                                                                                                                                                                                                                                                                     van kwalitatief onderzoek”, vindt
um een hoge vlucht heeft genomen.          gen, kunnen hier hun eigen spullen        De KB heeft daarmee een proef ge-                                                                                                                                                                                                                                                                                     Mijnhardt. “De kwantitatieve aan-
Universiteiten, bibliotheken, weten-       niet terugvinden. Het paradepaard         daan met boeken die dubbel in de                                                                                                                                                                                                                                                                                      pak is helaas lang uit de gratie ge-
schappelijke instituten en archieven       van digitaal erfgoed heeft inmiddels      collectie zitten, maar dat leidde tot                                                                                                                                                                                                                                                                                 weest bij de humaniora – met uitzon-
hebben al miljoenen pagina’s van           als bijnaam het Geheugenverlies van       veel protesten. De KB heeft nu geen                                                                                                                                                                                                                                                                                   dering van de economische historici
boeken, kranten en tijdschriften ge-       Nederland.                                plannen om pagina’s los te snijden.                                                                                                                                                                                                                                                                                   die een paar decennia terug tijdreek-
scand en veelal op websites gezet –                                                                                                                                                                                                                                                                                                                                                                        sen zijn gaan verzamelen.”
voor minimaal 50miljoen euro (zie             Z u i d o o s t-A z i ë                                                                                                                                                                                                                                                                                                                                         Rond 1900 ontstond er een schei-
inzet). De digitalisering is nu zelfs in      De voorbeelden geven aan dat uni-                                                                                                                                                                                                                                                                                                                            ding in de wetenschappen. “De na-
een stroomversnelling gekomen met          versiteiten, bibliotheken en archie-                                                                                                                                                                                                                                                                                                                            tuurwetenschappers gingen werken
bijvoorbeeld het net begonnen              ven hun drukwerk hebben gescand                                                                                                                                                                                                                                                                                                                                 in laboratoria. Geestwetenschappers
Google Books in Nederland.                 zonder goed na te denken over de                                                                                                                                                                                                                                                                                                                                raakten onder invloed van Duitse fi-
   Je zou dus verwachten dat geestes-      vraag wie de gedigitaliseerde docu-                                                                                                                                                                                                                                                                                                                             losofen met hun ‘begrijpend obser-
wetenschappers dagelijks bliksem-          menten op welke manier het beste                                                                                                                                                                                                                                                                                                                                veren’ en lieten zo kansen liggen”,
acties als hierboven doen, maar dat is     zou kunnen gebruiken. “De gebrui-                                                                                                                                                                                                                                                                                                                               zegt Mijnhardt, die ‘graag mag tel-
niet zo. Want waar bètawetenschap-         kers zijn te weinig betrokken ge-                                                                                                                                                                                                                                                                                                                               len’ in zijn onderzoeken: “Digitalise-
pers met een sportauto over de digi-       weest”, erkent Astrid Verheusen,                                                                                                                                                                                                                                                                                                                                ring kan helpen de kloof tussen alfa-
tale snelweg razen, hobbelen beoefe-       hoofd innovatieve projecten bij de                                                                                                                                                                                                                                                                                                                              en bètawetenschappen te dichten.”
naars van de humaniora met een brik        Koninklijke Bibliotheek (KB). De KB is                                                                                                                                                                                                                                                                                                                             Dan moet er wel nog heel wat ge-
door een doolhof van websites en da-       naast DBNL de grootste partij bij het                                                                                                                                                                                                                                                                               I L LU S T R AT I E H E N R Y C A N N O N   beuren, zeggen betrokkenen. Verha-
tabanken. Geesteswetenschappers            digitaliseren van erfgoed. “Met we-                                                                                                                                                                                                                                                                                                                             gen van de UvA hoopt op betere OCR:




                                                                                                                                Het digital drama
                                                                                                                                        tale
kunnen veel gedigitaliseerde docu-         tenschappers is veel te weinig ge-                                                                                                                                                                                                                                                                                                                              “Om in de toekomst alle bestanden
menten moeilijk of niet vinden. De         sproken over hun behoeften.”                                                                                                                                                                                                                                                                                                                                    opnieuw door de wasmachine te ha-
wel gevonden documenten kunnen                Digitalisering waar onderzoekers                                                                                                                                                                                                                                                                                                                             len.” Maar de belangrijkste wens is:
ze moeilijk of niet doorzoeken. De         wat aan hebben, ziet er ongeveer zo                                                                                                                                                                                                                                                                                                                             één standaard komen voor de digita-
doorzoekbare documenten geven              uit. Eerst worden de boeken, tijd-                                                                                                                                                                                                                                                                                                                              lisering. “De Taalunie zou standaar-
vaak onbetrouwbare zoekresultaten.         schriften of kranten gescand: dit le-                                                                                                                                                                                                                                                                                                                           disering moeten afdwingen”, vindt
   “Vroeger haalden wetenschappers         vert alleen afbeeldingen van pagina’s                                                                                                                                                                                                                                                                                                                           Boot van het Huygens. Deze Neder-
met het bladeren in boeken en tijd-        op. Die plaatjes worden vervolgens                                                                                                                                                                                                                                                                                                                              lands-Vlaamse unie heeft als over-
schriften eigenlijk emmers water uit       met ‘optical character recognition’                                                                                                                                                                                                                                                                                                                             koepelende organisatie die ook de
een put. Tegenwoordig is er door de        (OCR), software voor optische teken-                                                                                                                                                                                                                                                                                                                            spellingsregels bepaalt, veel gezag.
digitalisering een waterleidingnet.        herkenning, omgezet in een tekst die      18de eeuw had je wel meer Franse au-       een boek dat zelden wordt geraad-        van Digitaal Erfgoed Nederland            blijkt dat sommige boeken of reek-         schappers die graag grote corpora        de universiteit van Gent het Neder-      gitaliseerd voor 3 miljoen euro. EDBO                         De Taalunie laat weten “meer sa-
Maar dat net is zo vervuild, dat elke      je kunt doorzoeken en bewerken.           teurs met die naam”, zegt hoogleraar       pleegd. De neiging is om het digitali-   (DEN), een door het rijk betaald insti-   sen zes keer zijn gescand, steeds op       van boeken, tijdschriften en kranten     landse taalgebied betrad, dreigt         dat begin deze zomer online is ge-                         menhang te brengen” in de digitali-
onderzoeker alsnog zelf het water          Uiteindelijk wordt het document           Mijnhardt: “Het is soms bij een ge-        seren na het scannen af te raffelen.     tuut dat de kwaliteit van de digitali-    een ander plek. Onbenut potentieel?        willen doorzoeken. Zo zijn inmid-        ‘quick and dirty’ de norm te worden.     gaan, zou een model van hedendaag-                         sering en gaat een inventarisatie ma-
moet zuiveren in een emmertje”,            voorzien van metadata zoals de au-        schrift even zoeken of je dé Rousseau         Een andere verklaring ligt in de      sering probeert te verbeteren. “In-       Nog steeds zijn instellingen er niet in    dels 126 digitaliseringsprojecten        “De OCR van Google Books is berucht      se digitalisering in Nederland moe-                        ken van voltooide en voorgenomen
schetst Van Stipriaan van DBNL.            teursnaam, titelgegevens en allerlei      voor je hebt.”                             manier waarop de digitalisering een      stellingen zijn vaak al vroeg begon-      geslaagd om een centraal register op       voor kranten. Wie ze wil bekijken,       slecht”, zegt Peter Boot van het Huy-    ten zijn, maar vertoont de gebruike-                       projecten. “We willen voorkomen
DBNL is een van de belangrijkste           technische specificaties..                   De tekenherkenning en de meta-          jaar of twintig geleden is begonnen,     nen met digitaliseren vóór het tijd-      te zetten voor wat gescand is of           moet naar tientallen verschillende       gens Instituut voor Nederlandse Ge-      lijke gebreken.                                            dat dingen twee keer worden ge-
aanbieders van gedigitaliseerd erf-           Hoewel de OCR-software het afge-       data zijn echter in veel gevallen on-      zegt Verheusen van de KB: “Archie-       perk van het world wide web – met         wordt. Instellingen besteden het           websites. De kranten staan niet in       schiedenis. “De metadata zijn ook           Het was bij de lancering van de                         daan”, zegt Karlijn Waterman van de
goed in Nederland en wordt gesubsi-        lopen decennium sterk is verbeterd,       der de maat. “De OCR is doorgaans          ven en musea wilden hun topstuk-         dezelfde verouderde ICT werken ze         scannen uit – maar telkens met ande-       één portaal; dat kan ook niet, want ze   niet goed. Het verzameld werk van        ‘vroege Nederlandse boeken’, dat                           Taalunie. Dit najaar willen de Neder-
dieerd door de Taalunie, een organi-       verloopt het omzetten van beeld naar      slordig gedaan. Een fout op 10 pagi-       ken tonen en gebruikten hun websi-       nog. Daarbij koppelen ze de ene data-     re specificaties – of doen het zelf luk-   zijn niet volgens één standaard ge-      Huygens zit in een serie van 6 delen,    hoogleraar Mijnhardt de staf brak                          landse en de Vlaamse tak een congres
satie van de Nederlandse en Vlaamse        tekst niet foutloos, onder meer door-     na’s is net acceptabel, maar in de         te als de boetiek van de mooiste spul-   base aan de andere; dat is wat anders     raak. “Door dit alles is veel moeilijk     scand, en het zal waarschijnlijk ook     maar Google Books geeft niet aan dat     over de digitalisering en die van het                      organiseren met alle betrokken be-
overheid. “Het is nog erger. Er zijn       dat de computer moeite heeft met          meeste documenten staan er veel            len. De nadruk lag op de mooie plaat-    dan het web gebruiken.”                   vindbaar en nauwelijks doorzoek-           nooit kunnen.                            er meerdere delen zijn.”                 EDBO in het bijzonder. Boot van het                        leidsmakers. Waterman: “Het zou
wel 33 verschillende waterleidingen        het herkennen van woorden in oude         meer”, zegt Van Stipriaan: “Wie een        jes. Pas laat in de jaren negentig          Tel daarbij op dat de humaniora        baar”, zegt De Niet van DEN.                  De versplintering van de geestes-        Verheusen van de KB erkent dat        Huygens valt hem bij: “De OCR van                          mooi zijn als we dan in kaart hadden,
en niemand heeft een idee wat waar         spelling (de verwisseling van de s en     woord intypt, krijgt woorden die hij       kwam de ommezwaai naar tekst. We         vanouds versplinterd zijn en je heb                                                  wetenschappen is ook af te lezen aan     OCR en metadata “niet heel goed”         Early Dutch Books is rampzalig. 90                         wat waar al is gedigitaliseerd.”
in zit”, zegt Wijnand Mijnhardt. De        de f is berucht). “Je moet de omzet-      niet zoekt (vals positief) en – veel er-   waren de eersten en moesten zelf uit-    de verklaring voor de wildgroei aan          Kranten                                 het feit dat universiteiten, archieven   zijn, maar: “Zonder Google Books         procent van de pagina’s foutloos is                           De ongeduldigen willen dat een
hoogleraar geschiedenis aan de Uni-        ting dus controleren en corrigeren.       ger – mist de aanwezige woorden die        vinden hoe het moest.”                   instellingen die allemaal op hun ei-         DEN probeert erfgoedinstellingen        en bibliotheken de handen nog            zouden we deze boeken voorlopig          acceptabel, maar dat haalt dit project                     grote partij de regie op zich neemt,
versiteit van Utrecht is een grootver-     Wij laten dat doen in Zuidoost-Azië,      hij wel zoekt (vals negatief).” De me-        De pioniers gingen daarbij voort      gen manier zijn gaan digitaliseren.       bij het adviseren over digitalisering      steeds niet ineen hebben geslagen,       helemaal niet kunnen scannen.”           niet. En dan zijn alleen nog maar de                       maar wie moet dat zijn. “De KB, want
bruiker van digitaal erfgoed.              waar mensen de digitale documen-          tadata zijn eveneens gebrekkig, zegt       op een bekende maar doodlopende          In een brief aan de Tweede Kamer          te overtuigen van het nut van stan-        zegt Van Stipriaan. “Door niet één       Hoogleraar Mijnhardt noemt Google        boeken in Latijns schrift gedaan, die                      de KB heeft veel ervaring en de moge-
   Onder veel bijval van wetenschap-       ten vergelijken met de originelen”,       Mijnhardt: “Wie bijvoorbeeld wil           weg, zegt directeur Marco de Niet        sprak toenmalig staatssecretaris Van      daardisering. “Wij zijn adviserend,        plan te maken om al het gezamenlij-      Books dan ook een „zegen” voor zijn      in Gotisch schrift zouden helemaal                         lijkheden om snel en op grote schaal
pers hebben Van Stipriaan en Mijn-         zegt Van Stipriaan van DBNL. Om dat       schrijven over de boekenproductie in                                                der Ploeg in 2002 dan ook van ‘sterk      niet normerend. We geven aan hoe           ke erfgoed volgens een standaard-        werk: “Hoewel pas een procent of                                                                    te digitaliseren en standaarden te
hardt de noodklok geluid. De eerste        goed te kunnen doen, hoef je de taal      Leiden, kan niet achterhalen welke                                                  monolithische systemen en een ver-        instellingen het beste kunnen digita-      norm te digitaliseren hebben de in-      tien van de boeken is gedigitaliseerd,                                                              ontwikkelen”, vindt Verheusen van
in meerdere artikelen, waaronder in        niet te kennen. De OCR van DBNL, de       van de gedigitaliseerde boeken daar        ‘Digitale bestanden zijn                 snippering van projecten waarmee          liseren maar dwingen dat niet af”,         stellingen het speelveld open gela-      kan ik nu al veel digitaal vinden.”      Met de komst van                                           de KB. De Taalunie, vindt De Niet van
De Gids, de tweede onlangs bij een le-     database voor literatuur. geldt als de    ooit zijn gepubliceerd.”                                                            een aanzienlijke verspilling van          zegt De Niet. “Voordeel is dat als de      ten.” Dat speelveld is nu betreden          Als Nederlands antwoord op                                                                       DEN: “De Taalunie is gezaghebbend,
zing in Leiden. De vele voorbeelden        beste in Nederland.                          Geldgebrek verklaart deels de na-       een waterleidingnet.                     energie en geld dreigt. Het leidt er      zelfregulering werkt, het draagvlak        door Google Books. De boekenpoot         Google Books geldt Early Dutch           Google Books dreigt                                        staat garant voor politieke steun en
van gebrekkige digitalisering in de           De metadata zijn ook een klus, bij-    latigheid van de erfgoedinstellingen.      Dat net is zo vervuild                   toe dat gedigitaliseerde erfgoed-         groter is dan met dwang. Nadeel is         van zoekmachine Google heeft in          Books Online (EDBO), een prestigieus     ‘quick and dirty’ de                                       betrokkenheid en is onpartijdig.” Als
geesteswetenschappen die zij en an-        voorbeeld doordat bij eeuwenoude          Goed digitaliseren kost ongeveer 1                                                  bronnen maar zelden hun potentieel        dat de standaarden niet worden op-         2010 een deal met de KB gesloten om      project van de KB en de universiteiten                                                              het maar snel gebeurt, zegt Mijn-
deren aandragen, vormen een soort          auteursnamen de spelling niet vast        euro per pagina, dus 200 euro voor         dat onderzoekers het                     in cultureel, sociaal of economisch       gelegd.” En dat veel instellingen die      de 160.000 boeken uit de periode         van Leiden en Amsterdam. Bij EDBO        norm te worden bij het                                     hardt: “De toekomst is met de digita-
zwartboek. Een kleine greep:               ligt. “En wij kennen nog maar één         een boek van ge gemiddelde omvang          zelf moeten zuiveren.’                   opzicht ten volle kunnen realiseren.’     standaarden dus negeren.                   1700-1870 te scannen.                    zijn twee miljoen pagina’s van 11.000    scannen van boeken                                         lisering schitterend, maar ik hoop
   De Universiteit van Amsterdam           Jean-Jacques Rousseau, maar in de         (200 pagina's). Dat is veel geld voor                                                  Verspilling? Een decennium later          Dit nadeel voelen vooral weten-            Met Google Books, dat in 2008 bij     boeken uit de periode 1781-1800 gedi-                                                               hem nog wel mee te maken.”
NRC Weekend Zaterdag 10 september & Zondag 11 september 2011                                                                                                                                                    NRC Weekend Zaterdag 10 september & Zondag 11 september 2011


8 Wetenschap                                                                                                                                                                                                                                                                                                                                                                                                                                  9



                                                                                                                                                                                                                                                                                                                                                                                                           een probleem zijn geweest.” Verha-
G E E ST E S W E T E N S C H A P P E N                                                                                                                                                                                                                                                                                                                                                                     gen van de UvA zegt dat de best mo-
De digitalisering van erfgoed neemt een hoge                                                                                                                                                                                                                                                                                                                                                               gelijke programmatuur is gebruikt:
                                                                                                                                                                                                                                                                                                                                                                                                           “Helaas is die nog niet goed genoeg.”
vlucht, maar gebeurt slordig en chaotisch.                                                                                                                                                                                                                                                                                                                                                                    Tellen en turven
Wetenschappers kunnen talloze bronnen                                                                                                                                                                                                                                                                                                                                                                         Maar geesteswetenschappers die
                                                                                                                                                                                                                                                                                                                                                                                                           mopperen, zijn vaak volgens de criti-
daardoor niet vinden of doorzoeken.                                                                                                                                                                                                                                                                                                                                                                        casters ook te weinig doordrongen
                                                                                                                                                                                                                                                                                                                                                                                                           van de van de mogelijkheden van di-
Karel Berkhout                                                                                                                                                                                                                                                                                                                                                                                             gitalisering. Velen hebben nauwe-
                                                                                                                                                                                                                                                                                                                                                                                                           lijks een meten-is-weten-mentali-
                                                                                                                                                                                                                                                                                                                                                                                                           teit, zegt Van Stipriaan van DBNL:
                                                                                                                                                                                                                                                                                                                                                                                                           “Tellen en turven, iets wat dus heel



V
           oor zijn in 1973 voltooide      (UvA) heeft ruim 10.000 boeken en                                                                                                                                                                                                                                                                                                                               makkelijk moet kunnen met digitale
           proefschrift probeerde de       brochures uit de periode 1900-1915        700 miljoen pagina's                                                                                                                                                                                                                                                                                                  bestanden, gebeurt in de geesteswe-
           neerlandicus Wim van den        gedigitaliseerd; helaas is de collectie                                                                                                                                                                                                                                                                                                                         tenschappen verrassend weinig.” Hij
           Berg te achterhalen wan-        voor onderzoekers buiten deze uni-        Aan de digitalisering van erfgoed is                                                                                                                                                                                                                                                                                  zelf leverde met simpelweg meten
neer de romantiek zijn intrede deed        versiteit onbereikbaar. Een rechten-      sinds 2004 in elk geval een krappe 50                                                                                                                                                                                                                                                                                 een veelgeprezen bijdrage aan een
in Nederland. Boeken, kranten en           kwestie, zegt de UvA, waar binnen-        miljoen euro uitgegeven. Dat meldt                                                                                                                                                                                                                                                                                    academisch debat.
tijdschriften van rond 1800 spitte hij     kort naar gekeken wordt.                  het ministerie van Onderwijs, Cultuur                                                                                                                                                                                                                                                                                    Dat debat draaide om de vraag of
door op zoek naar het woord ‘roman-           Universiteiten bouwen voor een         en Wetenschappen (OCW) desge-                                                                                                                                                                                                                                                                                         de internationale romantiek in Ne-
tisch’. Na vijftien jaar concludeerde      onbekend bedrag databanken met            vraagd. Het ministerie tekent daarbij                                                                                                                                                                                                                                                                                 derland snel voet aan de grond kreeg.
Van den Berg dat het woord in 1810         proefschriften en andere publicaties      aan geen zicht te hebben op alle uit-                                                                                                                                                                                                                                                                                 Niet echt, zei eerdergenoemde Van
voor het eerst op dezelfde manier          van hun personeel. De inrichting van      gaven voor digitalisering, omdat in-                                                                                                                                                                                                                                                                                  den Berg. Jawel, zei Marita Mathij-
werd gebruikt als eerder in Duits-         deze ‘repositories’ is zo knullig, dat    dividuele instellingen zelf ook niet                                                                                                                                                                                                                                                                                  sen, (emeritus) hoogleraar Neder-
land, Frankrijk en Engeland.               de publicaties nagenoeg onvindbaar        geoormerkt geld gebruiken voor digi-                                                                                                                                                                                                                                                                                  landse letterkunde. Van Stipriaan
   Om ‘zijn’ Digitale Bibliotheek          zijn. Alleen wie precies weet wat ie      taliseren. Op het ministerie circuleren                                                                                                                                                                                                                                                                               turfde in zijn DBNL hoe lang het in de
voor de Nederlandse Letteren (DBNL)        zoekt, kan iets vinden in deze ‘open      intern dan ook schattingen van 100                                                                                                                                                                                                                                                                                    negentiende eeuw duurde voor een
te testen herhaalde hoofdredacteur         acces’-bestanden.                         tot 200 miljoen euro.                                                                                                                                                                                                                                                                                                 romantisch boek uit het buitenland
René van Stipriaan vorig jaar deze            Op het Geheugen van Nederland          De Koninklijke Bibliotheek (KB) heeft                                                                                                                                                                                                                                                                                 werd vertaald: gemiddeld 17 jaar. Dat
zoektocht. De gedigitaliseerde boe-        zijn voor ruim 7 miljoen euro de          alleen al 30 miljoen euro besteed aan                                                                                                                                                                                                                                                                                 bevestigde volgens hem het gelijk
ken en tijdschriften in de databank        hoogtepunten van het vaderlandse          digitaliseren. De KB heeft de ambitie                                                                                                                                                                                                                                                                                 van Van den Berg.
doorzocht hij op het woord ‘roman-         gedrukte erfgoed bijeen gebracht.         om uiteindelijk 700 miljoen pagina’s                                                                                                                                                                                                                                                                                     “Een fantastisch voorbeeld van
tisch’. Van Stipriaan: “Na een korte       Hoewel de boekomslagen, cartoons          te digitaliseren. Bij de huidige kosten                                                                                                                                                                                                                                                                               wat digitalisering voor de geesteswe-
avond zoeken kon ik het eerste ge-         en foto’s schitterend zijn, is een be-    vergt dat een investering van 700 mil-                                                                                                                                                                                                                                                                                tenschappen kan betekenen. Ieder-
bruik ook vastprikken in 1810.”            zoek aan de website wanhopig ma-          joen euro. Als de boeken voor het                                                                                                                                                                                                                                                                                     een kan het experiment herhalen,
   Dit kunststukje is een triomf van       kend: geen enkel document kun je          scannen uit de band gesneden wor-                                                                                                                                                                                                                                                                                     het is controleerbaar, het is objectief.
de digitalisering van het gedrukte         doorzoeken. Zelfs bibliotheken en         den, kost het digitaliseren niet 1 euro                                                                                                                                                                                                                                                                               Het is een kwantitatieve versterking
erfgoed, dat het afgelopen decenni-        archieven die eraan hebben bijgedra-      maar ongeveer 15 cent per pagina.                                                                                                                                                                                                                                                                                     van kwalitatief onderzoek”, vindt
um een hoge vlucht heeft genomen.          gen, kunnen hier hun eigen spullen        De KB heeft daarmee een proef ge-                                                                                                                                                                                                                                                                                     Mijnhardt. “De kwantitatieve aan-
Universiteiten, bibliotheken, weten-       niet terugvinden. Het paradepaard         daan met boeken die dubbel in de                                                                                                                                                                                                                                                                                      pak is helaas lang uit de gratie ge-
schappelijke instituten en archieven       van digitaal erfgoed heeft inmiddels      collectie zitten, maar dat leidde tot                                                                                                                                                                                                                                                                                 weest bij de humaniora – met uitzon-
hebben al miljoenen pagina’s van           als bijnaam het Geheugenverlies van       veel protesten. De KB heeft nu geen                                                                                                                                                                                                                                                                                   dering van de economische historici
boeken, kranten en tijdschriften ge-       Nederland.                                plannen om pagina’s los te snijden.                                                                                                                                                                                                                                                                                   die een paar decennia terug tijdreek-
scand en veelal op websites gezet –                                                                                                                                                                                                                                                                                                                                                                        sen zijn gaan verzamelen.”
voor minimaal 50miljoen euro (zie             Z u i d o o s t-A z i ë                                                                                                                                                                                                                                                                                                                                         Rond 1900 ontstond er een schei-




                                                                                                                      can semantic technology help?
inzet). De digitalisering is nu zelfs in      De voorbeelden geven aan dat uni-                                                                                                                                                                                                                                                                                                                            ding in de wetenschappen. “De na-
een stroomversnelling gekomen met          versiteiten, bibliotheken en archie-                                                                                                                                                                                                                                                                                                                            tuurwetenschappers gingen werken
bijvoorbeeld het net begonnen              ven hun drukwerk hebben gescand                                                                                                                                                                                                                                                                                                                                 in laboratoria. Geestwetenschappers
Google Books in Nederland.                 zonder goed na te denken over de                                                                                                                                                                                                                                                                                                                                raakten onder invloed van Duitse fi-
   Je zou dus verwachten dat geestes-      vraag wie de gedigitaliseerde docu-                                                                                                                                                                                                                                                                                                                             losofen met hun ‘begrijpend obser-
wetenschappers dagelijks bliksem-          menten op welke manier het beste                                                                                                                                                                                                                                                                                                                                veren’ en lieten zo kansen liggen”,
acties als hierboven doen, maar dat is     zou kunnen gebruiken. “De gebrui-                                                                                                                                                                                                                                                                                                                               zegt Mijnhardt, die ‘graag mag tel-
niet zo. Want waar bètawetenschap-         kers zijn te weinig betrokken ge-                                                                                                                                                                                                                                                                                                                               len’ in zijn onderzoeken: “Digitalise-
pers met een sportauto over de digi-       weest”, erkent Astrid Verheusen,                                                                                                                                                                                                                                                                                                                                ring kan helpen de kloof tussen alfa-
tale snelweg razen, hobbelen beoefe-       hoofd innovatieve projecten bij de                                                                                                                                                                                                                                                                                                                              en bètawetenschappen te dichten.”
naars van de humaniora met een brik        Koninklijke Bibliotheek (KB). De KB is                                                                                                                                                                                                                                                                                                                             Dan moet er wel nog heel wat ge-
door een doolhof van websites en da-       naast DBNL de grootste partij bij het                                                                                                                                                                                                                                                                               I L LU S T R AT I E H E N R Y C A N N O N   beuren, zeggen betrokkenen. Verha-
tabanken. Geesteswetenschappers            digitaliseren van erfgoed. “Met we-                                                                                                                                                                                                                                                                                                                             gen van de UvA hoopt op betere OCR:




                                                                                                                                Het digital drama
                                                                                                                                        tale
kunnen veel gedigitaliseerde docu-         tenschappers is veel te weinig ge-                                                                                                                                                                                                                                                                                                                              “Om in de toekomst alle bestanden
menten moeilijk of niet vinden. De         sproken over hun behoeften.”                                                                                                                                                                                                                                                                                                                                    opnieuw door de wasmachine te ha-
wel gevonden documenten kunnen                Digitalisering waar onderzoekers                                                                                                                                                                                                                                                                                                                             len.” Maar de belangrijkste wens is:
ze moeilijk of niet doorzoeken. De         wat aan hebben, ziet er ongeveer zo                                                                                                                                                                                                                                                                                                                             één standaard komen voor de digita-
doorzoekbare documenten geven              uit. Eerst worden de boeken, tijd-                                                                                                                                                                                                                                                                                                                              lisering. “De Taalunie zou standaar-
vaak onbetrouwbare zoekresultaten.         schriften of kranten gescand: dit le-                                                                                                                                                                                                                                                                                                                           disering moeten afdwingen”, vindt
   “Vroeger haalden wetenschappers         vert alleen afbeeldingen van pagina’s                                                                                                                                                                                                                                                                                                                           Boot van het Huygens. Deze Neder-
met het bladeren in boeken en tijd-        op. Die plaatjes worden vervolgens                                                                                                                                                                                                                                                                                                                              lands-Vlaamse unie heeft als over-
schriften eigenlijk emmers water uit       met ‘optical character recognition’                                                                                                                                                                                                                                                                                                                             koepelende organisatie die ook de
een put. Tegenwoordig is er door de        (OCR), software voor optische teken-                                                                                                                                                                                                                                                                                                                            spellingsregels bepaalt, veel gezag.
digitalisering een waterleidingnet.        herkenning, omgezet in een tekst die      18de eeuw had je wel meer Franse au-       een boek dat zelden wordt geraad-        van Digitaal Erfgoed Nederland            blijkt dat sommige boeken of reek-         schappers die graag grote corpora        de universiteit van Gent het Neder-      gitaliseerd voor 3 miljoen euro. EDBO                         De Taalunie laat weten “meer sa-
Maar dat net is zo vervuild, dat elke      je kunt doorzoeken en bewerken.           teurs met die naam”, zegt hoogleraar       pleegd. De neiging is om het digitali-   (DEN), een door het rijk betaald insti-   sen zes keer zijn gescand, steeds op       van boeken, tijdschriften en kranten     landse taalgebied betrad, dreigt         dat begin deze zomer online is ge-                         menhang te brengen” in de digitali-
onderzoeker alsnog zelf het water          Uiteindelijk wordt het document           Mijnhardt: “Het is soms bij een ge-        seren na het scannen af te raffelen.     tuut dat de kwaliteit van de digitali-    een ander plek. Onbenut potentieel?        willen doorzoeken. Zo zijn inmid-        ‘quick and dirty’ de norm te worden.     gaan, zou een model van hedendaag-                         sering en gaat een inventarisatie ma-
moet zuiveren in een emmertje”,            voorzien van metadata zoals de au-        schrift even zoeken of je dé Rousseau         Een andere verklaring ligt in de      sering probeert te verbeteren. “In-       Nog steeds zijn instellingen er niet in    dels 126 digitaliseringsprojecten        “De OCR van Google Books is berucht      se digitalisering in Nederland moe-                        ken van voltooide en voorgenomen
schetst Van Stipriaan van DBNL.            teursnaam, titelgegevens en allerlei      voor je hebt.”                             manier waarop de digitalisering een      stellingen zijn vaak al vroeg begon-      geslaagd om een centraal register op       voor kranten. Wie ze wil bekijken,       slecht”, zegt Peter Boot van het Huy-    ten zijn, maar vertoont de gebruike-                       projecten. “We willen voorkomen
DBNL is een van de belangrijkste           technische specificaties..                   De tekenherkenning en de meta-          jaar of twintig geleden is begonnen,     nen met digitaliseren vóór het tijd-      te zetten voor wat gescand is of           moet naar tientallen verschillende       gens Instituut voor Nederlandse Ge-      lijke gebreken.                                            dat dingen twee keer worden ge-
aanbieders van gedigitaliseerd erf-           Hoewel de OCR-software het afge-       data zijn echter in veel gevallen on-      zegt Verheusen van de KB: “Archie-       perk van het world wide web – met         wordt. Instellingen besteden het           websites. De kranten staan niet in       schiedenis. “De metadata zijn ook           Het was bij de lancering van de                         daan”, zegt Karlijn Waterman van de
goed in Nederland en wordt gesubsi-        lopen decennium sterk is verbeterd,       der de maat. “De OCR is doorgaans          ven en musea wilden hun topstuk-         dezelfde verouderde ICT werken ze         scannen uit – maar telkens met ande-       één portaal; dat kan ook niet, want ze   niet goed. Het verzameld werk van        ‘vroege Nederlandse boeken’, dat                           Taalunie. Dit najaar willen de Neder-
dieerd door de Taalunie, een organi-       verloopt het omzetten van beeld naar      slordig gedaan. Een fout op 10 pagi-       ken tonen en gebruikten hun websi-       nog. Daarbij koppelen ze de ene data-     re specificaties – of doen het zelf luk-   zijn niet volgens één standaard ge-      Huygens zit in een serie van 6 delen,    hoogleraar Mijnhardt de staf brak                          landse en de Vlaamse tak een congres
satie van de Nederlandse en Vlaamse        tekst niet foutloos, onder meer door-     na’s is net acceptabel, maar in de         te als de boetiek van de mooiste spul-   base aan de andere; dat is wat anders     raak. “Door dit alles is veel moeilijk     scand, en het zal waarschijnlijk ook     maar Google Books geeft niet aan dat     over de digitalisering en die van het                      organiseren met alle betrokken be-
overheid. “Het is nog erger. Er zijn       dat de computer moeite heeft met          meeste documenten staan er veel            len. De nadruk lag op de mooie plaat-    dan het web gebruiken.”                   vindbaar en nauwelijks doorzoek-           nooit kunnen.                            er meerdere delen zijn.”                 EDBO in het bijzonder. Boot van het                        leidsmakers. Waterman: “Het zou
wel 33 verschillende waterleidingen        het herkennen van woorden in oude         meer”, zegt Van Stipriaan: “Wie een        jes. Pas laat in de jaren negentig          Tel daarbij op dat de humaniora        baar”, zegt De Niet van DEN.                  De versplintering van de geestes-        Verheusen van de KB erkent dat        Huygens valt hem bij: “De OCR van                          mooi zijn als we dan in kaart hadden,
en niemand heeft een idee wat waar         spelling (de verwisseling van de s en     woord intypt, krijgt woorden die hij       kwam de ommezwaai naar tekst. We         vanouds versplinterd zijn en je heb                                                  wetenschappen is ook af te lezen aan     OCR en metadata “niet heel goed”         Early Dutch Books is rampzalig. 90                         wat waar al is gedigitaliseerd.”
in zit”, zegt Wijnand Mijnhardt. De        de f is berucht). “Je moet de omzet-      niet zoekt (vals positief) en – veel er-   waren de eersten en moesten zelf uit-    de verklaring voor de wildgroei aan          Kranten                                 het feit dat universiteiten, archieven   zijn, maar: “Zonder Google Books         procent van de pagina’s foutloos is                           De ongeduldigen willen dat een
hoogleraar geschiedenis aan de Uni-        ting dus controleren en corrigeren.       ger – mist de aanwezige woorden die        vinden hoe het moest.”                   instellingen die allemaal op hun ei-         DEN probeert erfgoedinstellingen        en bibliotheken de handen nog            zouden we deze boeken voorlopig          acceptabel, maar dat haalt dit project                     grote partij de regie op zich neemt,
versiteit van Utrecht is een grootver-     Wij laten dat doen in Zuidoost-Azië,      hij wel zoekt (vals negatief).” De me-        De pioniers gingen daarbij voort      gen manier zijn gaan digitaliseren.       bij het adviseren over digitalisering      steeds niet ineen hebben geslagen,       helemaal niet kunnen scannen.”           niet. En dan zijn alleen nog maar de                       maar wie moet dat zijn. “De KB, want
bruiker van digitaal erfgoed.              waar mensen de digitale documen-          tadata zijn eveneens gebrekkig, zegt       op een bekende maar doodlopende          In een brief aan de Tweede Kamer          te overtuigen van het nut van stan-        zegt Van Stipriaan. “Door niet één       Hoogleraar Mijnhardt noemt Google        boeken in Latijns schrift gedaan, die                      de KB heeft veel ervaring en de moge-
   Onder veel bijval van wetenschap-       ten vergelijken met de originelen”,       Mijnhardt: “Wie bijvoorbeeld wil           weg, zegt directeur Marco de Niet        sprak toenmalig staatssecretaris Van      daardisering. “Wij zijn adviserend,        plan te maken om al het gezamenlij-      Books dan ook een „zegen” voor zijn      in Gotisch schrift zouden helemaal                         lijkheden om snel en op grote schaal
pers hebben Van Stipriaan en Mijn-         zegt Van Stipriaan van DBNL. Om dat       schrijven over de boekenproductie in                                                der Ploeg in 2002 dan ook van ‘sterk      niet normerend. We geven aan hoe           ke erfgoed volgens een standaard-        werk: “Hoewel pas een procent of                                                                    te digitaliseren en standaarden te
hardt de noodklok geluid. De eerste        goed te kunnen doen, hoef je de taal      Leiden, kan niet achterhalen welke                                                  monolithische systemen en een ver-        instellingen het beste kunnen digita-      norm te digitaliseren hebben de in-      tien van de boeken is gedigitaliseerd,                                                              ontwikkelen”, vindt Verheusen van
in meerdere artikelen, waaronder in        niet te kennen. De OCR van DBNL, de       van de gedigitaliseerde boeken daar        ‘Digitale bestanden zijn                 snippering van projecten waarmee          liseren maar dwingen dat niet af”,         stellingen het speelveld open gela-      kan ik nu al veel digitaal vinden.”      Met de komst van                                           de KB. De Taalunie, vindt De Niet van
De Gids, de tweede onlangs bij een le-     database voor literatuur. geldt als de    ooit zijn gepubliceerd.”                                                            een aanzienlijke verspilling van          zegt De Niet. “Voordeel is dat als de      ten.” Dat speelveld is nu betreden          Als Nederlands antwoord op                                                                       DEN: “De Taalunie is gezaghebbend,
zing in Leiden. De vele voorbeelden        beste in Nederland.                          Geldgebrek verklaart deels de na-       een waterleidingnet.                     energie en geld dreigt. Het leidt er      zelfregulering werkt, het draagvlak        door Google Books. De boekenpoot         Google Books geldt Early Dutch           Google Books dreigt                                        staat garant voor politieke steun en
van gebrekkige digitalisering in de           De metadata zijn ook een klus, bij-    latigheid van de erfgoedinstellingen.      Dat net is zo vervuild                   toe dat gedigitaliseerde erfgoed-         groter is dan met dwang. Nadeel is         van zoekmachine Google heeft in          Books Online (EDBO), een prestigieus     ‘quick and dirty’ de                                       betrokkenheid en is onpartijdig.” Als
geesteswetenschappen die zij en an-        voorbeeld doordat bij eeuwenoude          Goed digitaliseren kost ongeveer 1                                                  bronnen maar zelden hun potentieel        dat de standaarden niet worden op-         2010 een deal met de KB gesloten om      project van de KB en de universiteiten                                                              het maar snel gebeurt, zegt Mijn-
deren aandragen, vormen een soort          auteursnamen de spelling niet vast        euro per pagina, dus 200 euro voor         dat onderzoekers het                     in cultureel, sociaal of economisch       gelegd.” En dat veel instellingen die      de 160.000 boeken uit de periode         van Leiden en Amsterdam. Bij EDBO        norm te worden bij het                                     hardt: “De toekomst is met de digita-
zwartboek. Een kleine greep:               ligt. “En wij kennen nog maar één         een boek van ge gemiddelde omvang          zelf moeten zuiveren.’                   opzicht ten volle kunnen realiseren.’     standaarden dus negeren.                   1700-1870 te scannen.                    zijn twee miljoen pagina’s van 11.000    scannen van boeken                                         lisering schitterend, maar ik hoop
   De Universiteit van Amsterdam           Jean-Jacques Rousseau, maar in de         (200 pagina's). Dat is veel geld voor                                                  Verspilling? Een decennium later          Dit nadeel voelen vooral weten-            Met Google Books, dat in 2008 bij     boeken uit de periode 1781-1800 gedi-                                                               hem nog wel mee te maken.”
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course
SIKS 2011 - Semantic Web course

Más contenido relacionado

Destacado

assessment of jabalpur municipal corporation
assessment of jabalpur municipal corporationassessment of jabalpur municipal corporation
assessment of jabalpur municipal corporationSankalp Chandel
 
KCB101 - Assignment 2: De Luxe
KCB101 - Assignment 2: De LuxeKCB101 - Assignment 2: De Luxe
KCB101 - Assignment 2: De LuxeN8021031
 
Comunicado inscripciones cd cu
Comunicado inscripciones cd cuComunicado inscripciones cd cu
Comunicado inscripciones cd cualcaldia municipal
 
Mind Group Executive Assessment Whitepaper
Mind Group Executive Assessment WhitepaperMind Group Executive Assessment Whitepaper
Mind Group Executive Assessment WhitepaperJulian Tatton
 
Collaborative Communication - Agile Australia 2016
Collaborative Communication - Agile Australia 2016Collaborative Communication - Agile Australia 2016
Collaborative Communication - Agile Australia 2016Nicholas Ho
 
Unemployment and Education - Nuria Garcia y Mª Jose Lopez
Unemployment and Education - Nuria Garcia y Mª Jose LopezUnemployment and Education - Nuria Garcia y Mª Jose Lopez
Unemployment and Education - Nuria Garcia y Mª Jose LopezNarciso Marín
 
Kebaikan mikroorganisma
Kebaikan mikroorganismaKebaikan mikroorganisma
Kebaikan mikroorganismakakeungste98
 

Destacado (10)

From the black we hear
From the black we hearFrom the black we hear
From the black we hear
 
assessment of jabalpur municipal corporation
assessment of jabalpur municipal corporationassessment of jabalpur municipal corporation
assessment of jabalpur municipal corporation
 
KCB101 - Assignment 2: De Luxe
KCB101 - Assignment 2: De LuxeKCB101 - Assignment 2: De Luxe
KCB101 - Assignment 2: De Luxe
 
Comunicado inscripciones cd cu
Comunicado inscripciones cd cuComunicado inscripciones cd cu
Comunicado inscripciones cd cu
 
Mind Group Executive Assessment Whitepaper
Mind Group Executive Assessment WhitepaperMind Group Executive Assessment Whitepaper
Mind Group Executive Assessment Whitepaper
 
Plan anual 1 bgu Ingles
Plan anual 1 bgu InglesPlan anual 1 bgu Ingles
Plan anual 1 bgu Ingles
 
Collaborative Communication - Agile Australia 2016
Collaborative Communication - Agile Australia 2016Collaborative Communication - Agile Australia 2016
Collaborative Communication - Agile Australia 2016
 
Paul OBrien CV
Paul OBrien CVPaul OBrien CV
Paul OBrien CV
 
Unemployment and Education - Nuria Garcia y Mª Jose Lopez
Unemployment and Education - Nuria Garcia y Mª Jose LopezUnemployment and Education - Nuria Garcia y Mª Jose Lopez
Unemployment and Education - Nuria Garcia y Mª Jose Lopez
 
Kebaikan mikroorganisma
Kebaikan mikroorganismaKebaikan mikroorganisma
Kebaikan mikroorganisma
 

Similar a SIKS 2011 - Semantic Web course

Tourism In Society - Case Groninger Museum
Tourism In Society - Case Groninger MuseumTourism In Society - Case Groninger Museum
Tourism In Society - Case Groninger MuseumALectury
 
TGJ Communicatie vastgoed presentatie
TGJ Communicatie vastgoed presentatie TGJ Communicatie vastgoed presentatie
TGJ Communicatie vastgoed presentatie TGJ Communicatie
 
Plattegrond Wageningen Culturele Ronde 2013
Plattegrond Wageningen Culturele Ronde 2013Plattegrond Wageningen Culturele Ronde 2013
Plattegrond Wageningen Culturele Ronde 2013Marlou Kursten
 
Graduation panel: Daylight strategy for architects
Graduation panel: Daylight strategy for architectsGraduation panel: Daylight strategy for architects
Graduation panel: Daylight strategy for architectsydoschuuring
 
Echt activationklaar
Echt activationklaarEcht activationklaar
Echt activationklaar2033034
 
Echt activationklaar
Echt activationklaarEcht activationklaar
Echt activationklaar2033034
 
Beleid en Strategie
Beleid en StrategieBeleid en Strategie
Beleid en StrategieStep 991
 
B E L E I D & S T R A T E G IE
B E L E I D  &  S T R A T E G IEB E L E I D  &  S T R A T E G IE
B E L E I D & S T R A T E G IEMIT Institute
 
Cases - West-Vlaamse Social Media Award 2012
Cases - West-Vlaamse Social Media Award 2012Cases - West-Vlaamse Social Media Award 2012
Cases - West-Vlaamse Social Media Award 2012Social Media Update 2012
 
Portfolio Edith Van Lierop
Portfolio Edith Van LieropPortfolio Edith Van Lierop
Portfolio Edith Van Lieropedith_vanlierop
 
Portfolio Edith Van Lierop
Portfolio Edith Van LieropPortfolio Edith Van Lierop
Portfolio Edith Van Lieropedith_vanlierop
 
Tafseer Durr e Mansor Vol5 (Urdu)
Tafseer Durr e Mansor Vol5 (Urdu)Tafseer Durr e Mansor Vol5 (Urdu)
Tafseer Durr e Mansor Vol5 (Urdu)Jameel Saad
 
Tafsir Durr e Mansoor Vol6 Urdu
Tafsir Durr e Mansoor Vol6 Urdu Tafsir Durr e Mansoor Vol6 Urdu
Tafsir Durr e Mansoor Vol6 Urdu Tawheed Centre
 
Ferouz ul lughaat complete(zubiweb.net)
Ferouz ul lughaat complete(zubiweb.net)Ferouz ul lughaat complete(zubiweb.net)
Ferouz ul lughaat complete(zubiweb.net)Muzamil Hameed
 
Vnx.su opel bedford blitz van
Vnx.su opel bedford blitz vanVnx.su opel bedford blitz van
Vnx.su opel bedford blitz vanopl-manen
 
Tafsir Durr e Mansoor Vol4 Urdu
Tafsir Durr e Mansoor Vol4 Urdu Tafsir Durr e Mansoor Vol4 Urdu
Tafsir Durr e Mansoor Vol4 Urdu Tawheed Centre
 
Tafsir Durr e Mansoor Vol5 Urdu
Tafsir Durr e Mansoor Vol5 Urdu Tafsir Durr e Mansoor Vol5 Urdu
Tafsir Durr e Mansoor Vol5 Urdu Tawheed Centre
 

Similar a SIKS 2011 - Semantic Web course (20)

Pakvis presentatie finaal
Pakvis presentatie finaalPakvis presentatie finaal
Pakvis presentatie finaal
 
Tourism In Society - Case Groninger Museum
Tourism In Society - Case Groninger MuseumTourism In Society - Case Groninger Museum
Tourism In Society - Case Groninger Museum
 
Cv digitale producties
Cv digitale productiesCv digitale producties
Cv digitale producties
 
TGJ Communicatie vastgoed presentatie
TGJ Communicatie vastgoed presentatie TGJ Communicatie vastgoed presentatie
TGJ Communicatie vastgoed presentatie
 
Plattegrond Wageningen Culturele Ronde 2013
Plattegrond Wageningen Culturele Ronde 2013Plattegrond Wageningen Culturele Ronde 2013
Plattegrond Wageningen Culturele Ronde 2013
 
Graduation panel: Daylight strategy for architects
Graduation panel: Daylight strategy for architectsGraduation panel: Daylight strategy for architects
Graduation panel: Daylight strategy for architects
 
Echt activationklaar
Echt activationklaarEcht activationklaar
Echt activationklaar
 
Echt activationklaar
Echt activationklaarEcht activationklaar
Echt activationklaar
 
Beleid en Strategie
Beleid en StrategieBeleid en Strategie
Beleid en Strategie
 
B E L E I D & S T R A T E G IE
B E L E I D  &  S T R A T E G IEB E L E I D  &  S T R A T E G IE
B E L E I D & S T R A T E G IE
 
Cases - West-Vlaamse Social Media Award 2012
Cases - West-Vlaamse Social Media Award 2012Cases - West-Vlaamse Social Media Award 2012
Cases - West-Vlaamse Social Media Award 2012
 
Portfolio Edith Van Lierop
Portfolio Edith Van LieropPortfolio Edith Van Lierop
Portfolio Edith Van Lierop
 
Portfolio Edith Van Lierop
Portfolio Edith Van LieropPortfolio Edith Van Lierop
Portfolio Edith Van Lierop
 
Tafseer Durr e Mansor Vol5 (Urdu)
Tafseer Durr e Mansor Vol5 (Urdu)Tafseer Durr e Mansor Vol5 (Urdu)
Tafseer Durr e Mansor Vol5 (Urdu)
 
Tafsir Durr e Mansoor Vol6 Urdu
Tafsir Durr e Mansoor Vol6 Urdu Tafsir Durr e Mansoor Vol6 Urdu
Tafsir Durr e Mansoor Vol6 Urdu
 
Ferouz ul lughaat complete(zubiweb.net)
Ferouz ul lughaat complete(zubiweb.net)Ferouz ul lughaat complete(zubiweb.net)
Ferouz ul lughaat complete(zubiweb.net)
 
Vnx.su opel bedford blitz van
Vnx.su opel bedford blitz vanVnx.su opel bedford blitz van
Vnx.su opel bedford blitz van
 
Tafsir Durr e Mansoor Vol4 Urdu
Tafsir Durr e Mansoor Vol4 Urdu Tafsir Durr e Mansoor Vol4 Urdu
Tafsir Durr e Mansoor Vol4 Urdu
 
Tafsir Durr e Mansoor Vol5 Urdu
Tafsir Durr e Mansoor Vol5 Urdu Tafsir Durr e Mansoor Vol5 Urdu
Tafsir Durr e Mansoor Vol5 Urdu
 
Tee ren jia
Tee ren jiaTee ren jia
Tee ren jia
 

SIKS 2011 - Semantic Web course

  • 1. cultural heritage & the semantic web Michiel Hildebrand
  • 2. NRC Weekend Zaterdag 10 september & Zondag 11 september 2011 NRC Weekend Zaterdag 10 september & Zondag 11 september 2011 8 Wetenschap 9 een probleem zijn geweest.” Verha- G E E ST E S W E T E N S C H A P P E N gen van de UvA zegt dat de best mo- De digitalisering van erfgoed neemt een hoge gelijke programmatuur is gebruikt: “Helaas is die nog niet goed genoeg.” vlucht, maar gebeurt slordig en chaotisch. Tellen en turven Wetenschappers kunnen talloze bronnen Maar geesteswetenschappers die mopperen, zijn vaak volgens de criti- daardoor niet vinden of doorzoeken. casters ook te weinig doordrongen van de van de mogelijkheden van di- Karel Berkhout gitalisering. Velen hebben nauwe- lijks een meten-is-weten-mentali- teit, zegt Van Stipriaan van DBNL: “Tellen en turven, iets wat dus heel V oor zijn in 1973 voltooide (UvA) heeft ruim 10.000 boeken en makkelijk moet kunnen met digitale proefschrift probeerde de brochures uit de periode 1900-1915 700 miljoen pagina's bestanden, gebeurt in de geesteswe- neerlandicus Wim van den gedigitaliseerd; helaas is de collectie tenschappen verrassend weinig.” Hij Berg te achterhalen wan- voor onderzoekers buiten deze uni- Aan de digitalisering van erfgoed is zelf leverde met simpelweg meten neer de romantiek zijn intrede deed versiteit onbereikbaar. Een rechten- sinds 2004 in elk geval een krappe 50 een veelgeprezen bijdrage aan een in Nederland. Boeken, kranten en kwestie, zegt de UvA, waar binnen- miljoen euro uitgegeven. Dat meldt academisch debat. tijdschriften van rond 1800 spitte hij kort naar gekeken wordt. het ministerie van Onderwijs, Cultuur Dat debat draaide om de vraag of door op zoek naar het woord ‘roman- Universiteiten bouwen voor een en Wetenschappen (OCW) desge- de internationale romantiek in Ne- tisch’. Na vijftien jaar concludeerde onbekend bedrag databanken met vraagd. Het ministerie tekent daarbij derland snel voet aan de grond kreeg. Van den Berg dat het woord in 1810 proefschriften en andere publicaties aan geen zicht te hebben op alle uit- Niet echt, zei eerdergenoemde Van voor het eerst op dezelfde manier van hun personeel. De inrichting van gaven voor digitalisering, omdat in- den Berg. Jawel, zei Marita Mathij- werd gebruikt als eerder in Duits- deze ‘repositories’ is zo knullig, dat dividuele instellingen zelf ook niet sen, (emeritus) hoogleraar Neder- land, Frankrijk en Engeland. de publicaties nagenoeg onvindbaar geoormerkt geld gebruiken voor digi- landse letterkunde. Van Stipriaan Om ‘zijn’ Digitale Bibliotheek zijn. Alleen wie precies weet wat ie taliseren. Op het ministerie circuleren turfde in zijn DBNL hoe lang het in de voor de Nederlandse Letteren (DBNL) zoekt, kan iets vinden in deze ‘open intern dan ook schattingen van 100 negentiende eeuw duurde voor een te testen herhaalde hoofdredacteur acces’-bestanden. tot 200 miljoen euro. romantisch boek uit het buitenland René van Stipriaan vorig jaar deze Op het Geheugen van Nederland De Koninklijke Bibliotheek (KB) heeft werd vertaald: gemiddeld 17 jaar. Dat zoektocht. De gedigitaliseerde boe- zijn voor ruim 7 miljoen euro de alleen al 30 miljoen euro besteed aan bevestigde volgens hem het gelijk ken en tijdschriften in de databank hoogtepunten van het vaderlandse digitaliseren. De KB heeft de ambitie van Van den Berg. doorzocht hij op het woord ‘roman- gedrukte erfgoed bijeen gebracht. om uiteindelijk 700 miljoen pagina’s “Een fantastisch voorbeeld van tisch’. Van Stipriaan: “Na een korte Hoewel de boekomslagen, cartoons te digitaliseren. Bij de huidige kosten wat digitalisering voor de geesteswe- avond zoeken kon ik het eerste ge- en foto’s schitterend zijn, is een be- vergt dat een investering van 700 mil- tenschappen kan betekenen. Ieder- bruik ook vastprikken in 1810.” zoek aan de website wanhopig ma- joen euro. Als de boeken voor het een kan het experiment herhalen, Dit kunststukje is een triomf van kend: geen enkel document kun je scannen uit de band gesneden wor- het is controleerbaar, het is objectief. de digitalisering van het gedrukte doorzoeken. Zelfs bibliotheken en den, kost het digitaliseren niet 1 euro Het is een kwantitatieve versterking erfgoed, dat het afgelopen decenni- archieven die eraan hebben bijgedra- maar ongeveer 15 cent per pagina. van kwalitatief onderzoek”, vindt um een hoge vlucht heeft genomen. gen, kunnen hier hun eigen spullen De KB heeft daarmee een proef ge- Mijnhardt. “De kwantitatieve aan- Universiteiten, bibliotheken, weten- niet terugvinden. Het paradepaard daan met boeken die dubbel in de pak is helaas lang uit de gratie ge- schappelijke instituten en archieven van digitaal erfgoed heeft inmiddels collectie zitten, maar dat leidde tot weest bij de humaniora – met uitzon- hebben al miljoenen pagina’s van als bijnaam het Geheugenverlies van veel protesten. De KB heeft nu geen dering van de economische historici boeken, kranten en tijdschriften ge- Nederland. plannen om pagina’s los te snijden. die een paar decennia terug tijdreek- scand en veelal op websites gezet – sen zijn gaan verzamelen.” voor minimaal 50miljoen euro (zie Z u i d o o s t-A z i ë Rond 1900 ontstond er een schei- inzet). De digitalisering is nu zelfs in De voorbeelden geven aan dat uni- ding in de wetenschappen. “De na- een stroomversnelling gekomen met versiteiten, bibliotheken en archie- tuurwetenschappers gingen werken bijvoorbeeld het net begonnen ven hun drukwerk hebben gescand in laboratoria. Geestwetenschappers Google Books in Nederland. zonder goed na te denken over de raakten onder invloed van Duitse fi- Je zou dus verwachten dat geestes- vraag wie de gedigitaliseerde docu- losofen met hun ‘begrijpend obser- wetenschappers dagelijks bliksem- menten op welke manier het beste veren’ en lieten zo kansen liggen”, acties als hierboven doen, maar dat is zou kunnen gebruiken. “De gebrui- zegt Mijnhardt, die ‘graag mag tel- niet zo. Want waar bètawetenschap- kers zijn te weinig betrokken ge- len’ in zijn onderzoeken: “Digitalise- pers met een sportauto over de digi- weest”, erkent Astrid Verheusen, ring kan helpen de kloof tussen alfa- tale snelweg razen, hobbelen beoefe- hoofd innovatieve projecten bij de en bètawetenschappen te dichten.” naars van de humaniora met een brik Koninklijke Bibliotheek (KB). De KB is Dan moet er wel nog heel wat ge- door een doolhof van websites en da- naast DBNL de grootste partij bij het I L LU S T R AT I E H E N R Y C A N N O N beuren, zeggen betrokkenen. Verha- tabanken. Geesteswetenschappers digitaliseren van erfgoed. “Met we- gen van de UvA hoopt op betere OCR: Het digital drama tale kunnen veel gedigitaliseerde docu- tenschappers is veel te weinig ge- “Om in de toekomst alle bestanden menten moeilijk of niet vinden. De sproken over hun behoeften.” opnieuw door de wasmachine te ha- wel gevonden documenten kunnen Digitalisering waar onderzoekers len.” Maar de belangrijkste wens is: ze moeilijk of niet doorzoeken. De wat aan hebben, ziet er ongeveer zo één standaard komen voor de digita- doorzoekbare documenten geven uit. Eerst worden de boeken, tijd- lisering. “De Taalunie zou standaar- vaak onbetrouwbare zoekresultaten. schriften of kranten gescand: dit le- disering moeten afdwingen”, vindt “Vroeger haalden wetenschappers vert alleen afbeeldingen van pagina’s Boot van het Huygens. Deze Neder- met het bladeren in boeken en tijd- op. Die plaatjes worden vervolgens lands-Vlaamse unie heeft als over- schriften eigenlijk emmers water uit met ‘optical character recognition’ koepelende organisatie die ook de een put. Tegenwoordig is er door de (OCR), software voor optische teken- spellingsregels bepaalt, veel gezag. digitalisering een waterleidingnet. herkenning, omgezet in een tekst die 18de eeuw had je wel meer Franse au- een boek dat zelden wordt geraad- van Digitaal Erfgoed Nederland blijkt dat sommige boeken of reek- schappers die graag grote corpora de universiteit van Gent het Neder- gitaliseerd voor 3 miljoen euro. EDBO De Taalunie laat weten “meer sa- Maar dat net is zo vervuild, dat elke je kunt doorzoeken en bewerken. teurs met die naam”, zegt hoogleraar pleegd. De neiging is om het digitali- (DEN), een door het rijk betaald insti- sen zes keer zijn gescand, steeds op van boeken, tijdschriften en kranten landse taalgebied betrad, dreigt dat begin deze zomer online is ge- menhang te brengen” in de digitali- onderzoeker alsnog zelf het water Uiteindelijk wordt het document Mijnhardt: “Het is soms bij een ge- seren na het scannen af te raffelen. tuut dat de kwaliteit van de digitali- een ander plek. Onbenut potentieel? willen doorzoeken. Zo zijn inmid- ‘quick and dirty’ de norm te worden. gaan, zou een model van hedendaag- sering en gaat een inventarisatie ma- moet zuiveren in een emmertje”, voorzien van metadata zoals de au- schrift even zoeken of je dé Rousseau Een andere verklaring ligt in de sering probeert te verbeteren. “In- Nog steeds zijn instellingen er niet in dels 126 digitaliseringsprojecten “De OCR van Google Books is berucht se digitalisering in Nederland moe- ken van voltooide en voorgenomen schetst Van Stipriaan van DBNL. teursnaam, titelgegevens en allerlei voor je hebt.” manier waarop de digitalisering een stellingen zijn vaak al vroeg begon- geslaagd om een centraal register op voor kranten. Wie ze wil bekijken, slecht”, zegt Peter Boot van het Huy- ten zijn, maar vertoont de gebruike- projecten. “We willen voorkomen DBNL is een van de belangrijkste technische specificaties.. De tekenherkenning en de meta- jaar of twintig geleden is begonnen, nen met digitaliseren vóór het tijd- te zetten voor wat gescand is of moet naar tientallen verschillende gens Instituut voor Nederlandse Ge- lijke gebreken. dat dingen twee keer worden ge- aanbieders van gedigitaliseerd erf- Hoewel de OCR-software het afge- data zijn echter in veel gevallen on- zegt Verheusen van de KB: “Archie- perk van het world wide web – met wordt. Instellingen besteden het websites. De kranten staan niet in schiedenis. “De metadata zijn ook Het was bij de lancering van de daan”, zegt Karlijn Waterman van de goed in Nederland en wordt gesubsi- lopen decennium sterk is verbeterd, der de maat. “De OCR is doorgaans ven en musea wilden hun topstuk- dezelfde verouderde ICT werken ze scannen uit – maar telkens met ande- één portaal; dat kan ook niet, want ze niet goed. Het verzameld werk van ‘vroege Nederlandse boeken’, dat Taalunie. Dit najaar willen de Neder- dieerd door de Taalunie, een organi- verloopt het omzetten van beeld naar slordig gedaan. Een fout op 10 pagi- ken tonen en gebruikten hun websi- nog. Daarbij koppelen ze de ene data- re specificaties – of doen het zelf luk- zijn niet volgens één standaard ge- Huygens zit in een serie van 6 delen, hoogleraar Mijnhardt de staf brak landse en de Vlaamse tak een congres satie van de Nederlandse en Vlaamse tekst niet foutloos, onder meer door- na’s is net acceptabel, maar in de te als de boetiek van de mooiste spul- base aan de andere; dat is wat anders raak. “Door dit alles is veel moeilijk scand, en het zal waarschijnlijk ook maar Google Books geeft niet aan dat over de digitalisering en die van het organiseren met alle betrokken be- overheid. “Het is nog erger. Er zijn dat de computer moeite heeft met meeste documenten staan er veel len. De nadruk lag op de mooie plaat- dan het web gebruiken.” vindbaar en nauwelijks doorzoek- nooit kunnen. er meerdere delen zijn.” EDBO in het bijzonder. Boot van het leidsmakers. Waterman: “Het zou wel 33 verschillende waterleidingen het herkennen van woorden in oude meer”, zegt Van Stipriaan: “Wie een jes. Pas laat in de jaren negentig Tel daarbij op dat de humaniora baar”, zegt De Niet van DEN. De versplintering van de geestes- Verheusen van de KB erkent dat Huygens valt hem bij: “De OCR van mooi zijn als we dan in kaart hadden, en niemand heeft een idee wat waar spelling (de verwisseling van de s en woord intypt, krijgt woorden die hij kwam de ommezwaai naar tekst. We vanouds versplinterd zijn en je heb wetenschappen is ook af te lezen aan OCR en metadata “niet heel goed” Early Dutch Books is rampzalig. 90 wat waar al is gedigitaliseerd.” in zit”, zegt Wijnand Mijnhardt. De de f is berucht). “Je moet de omzet- niet zoekt (vals positief) en – veel er- waren de eersten en moesten zelf uit- de verklaring voor de wildgroei aan Kranten het feit dat universiteiten, archieven zijn, maar: “Zonder Google Books procent van de pagina’s foutloos is De ongeduldigen willen dat een hoogleraar geschiedenis aan de Uni- ting dus controleren en corrigeren. ger – mist de aanwezige woorden die vinden hoe het moest.” instellingen die allemaal op hun ei- DEN probeert erfgoedinstellingen en bibliotheken de handen nog zouden we deze boeken voorlopig acceptabel, maar dat haalt dit project grote partij de regie op zich neemt, versiteit van Utrecht is een grootver- Wij laten dat doen in Zuidoost-Azië, hij wel zoekt (vals negatief).” De me- De pioniers gingen daarbij voort gen manier zijn gaan digitaliseren. bij het adviseren over digitalisering steeds niet ineen hebben geslagen, helemaal niet kunnen scannen.” niet. En dan zijn alleen nog maar de maar wie moet dat zijn. “De KB, want bruiker van digitaal erfgoed. waar mensen de digitale documen- tadata zijn eveneens gebrekkig, zegt op een bekende maar doodlopende In een brief aan de Tweede Kamer te overtuigen van het nut van stan- zegt Van Stipriaan. “Door niet één Hoogleraar Mijnhardt noemt Google boeken in Latijns schrift gedaan, die de KB heeft veel ervaring en de moge- Onder veel bijval van wetenschap- ten vergelijken met de originelen”, Mijnhardt: “Wie bijvoorbeeld wil weg, zegt directeur Marco de Niet sprak toenmalig staatssecretaris Van daardisering. “Wij zijn adviserend, plan te maken om al het gezamenlij- Books dan ook een „zegen” voor zijn in Gotisch schrift zouden helemaal lijkheden om snel en op grote schaal pers hebben Van Stipriaan en Mijn- zegt Van Stipriaan van DBNL. Om dat schrijven over de boekenproductie in der Ploeg in 2002 dan ook van ‘sterk niet normerend. We geven aan hoe ke erfgoed volgens een standaard- werk: “Hoewel pas een procent of te digitaliseren en standaarden te hardt de noodklok geluid. De eerste goed te kunnen doen, hoef je de taal Leiden, kan niet achterhalen welke monolithische systemen en een ver- instellingen het beste kunnen digita- norm te digitaliseren hebben de in- tien van de boeken is gedigitaliseerd, ontwikkelen”, vindt Verheusen van in meerdere artikelen, waaronder in niet te kennen. De OCR van DBNL, de van de gedigitaliseerde boeken daar ‘Digitale bestanden zijn snippering van projecten waarmee liseren maar dwingen dat niet af”, stellingen het speelveld open gela- kan ik nu al veel digitaal vinden.” Met de komst van de KB. De Taalunie, vindt De Niet van De Gids, de tweede onlangs bij een le- database voor literatuur. geldt als de ooit zijn gepubliceerd.” een aanzienlijke verspilling van zegt De Niet. “Voordeel is dat als de ten.” Dat speelveld is nu betreden Als Nederlands antwoord op DEN: “De Taalunie is gezaghebbend, zing in Leiden. De vele voorbeelden beste in Nederland. Geldgebrek verklaart deels de na- een waterleidingnet. energie en geld dreigt. Het leidt er zelfregulering werkt, het draagvlak door Google Books. De boekenpoot Google Books geldt Early Dutch Google Books dreigt staat garant voor politieke steun en van gebrekkige digitalisering in de De metadata zijn ook een klus, bij- latigheid van de erfgoedinstellingen. Dat net is zo vervuild toe dat gedigitaliseerde erfgoed- groter is dan met dwang. Nadeel is van zoekmachine Google heeft in Books Online (EDBO), een prestigieus ‘quick and dirty’ de betrokkenheid en is onpartijdig.” Als geesteswetenschappen die zij en an- voorbeeld doordat bij eeuwenoude Goed digitaliseren kost ongeveer 1 bronnen maar zelden hun potentieel dat de standaarden niet worden op- 2010 een deal met de KB gesloten om project van de KB en de universiteiten het maar snel gebeurt, zegt Mijn- deren aandragen, vormen een soort auteursnamen de spelling niet vast euro per pagina, dus 200 euro voor dat onderzoekers het in cultureel, sociaal of economisch gelegd.” En dat veel instellingen die de 160.000 boeken uit de periode van Leiden en Amsterdam. Bij EDBO norm te worden bij het hardt: “De toekomst is met de digita- zwartboek. Een kleine greep: ligt. “En wij kennen nog maar één een boek van ge gemiddelde omvang zelf moeten zuiveren.’ opzicht ten volle kunnen realiseren.’ standaarden dus negeren. 1700-1870 te scannen. zijn twee miljoen pagina’s van 11.000 scannen van boeken lisering schitterend, maar ik hoop De Universiteit van Amsterdam Jean-Jacques Rousseau, maar in de (200 pagina's). Dat is veel geld voor Verspilling? Een decennium later Dit nadeel voelen vooral weten- Met Google Books, dat in 2008 bij boeken uit de periode 1781-1800 gedi- hem nog wel mee te maken.”
  • 3. NRC Weekend Zaterdag 10 september & Zondag 11 september 2011 NRC Weekend Zaterdag 10 september & Zondag 11 september 2011 8 Wetenschap 9 een probleem zijn geweest.” Verha- G E E ST E S W E T E N S C H A P P E N gen van de UvA zegt dat de best mo- De digitalisering van erfgoed neemt een hoge gelijke programmatuur is gebruikt: “Helaas is die nog niet goed genoeg.” vlucht, maar gebeurt slordig en chaotisch. Tellen en turven Wetenschappers kunnen talloze bronnen Maar geesteswetenschappers die mopperen, zijn vaak volgens de criti- daardoor niet vinden of doorzoeken. casters ook te weinig doordrongen van de van de mogelijkheden van di- Karel Berkhout gitalisering. Velen hebben nauwe- lijks een meten-is-weten-mentali- teit, zegt Van Stipriaan van DBNL: “Tellen en turven, iets wat dus heel V oor zijn in 1973 voltooide (UvA) heeft ruim 10.000 boeken en makkelijk moet kunnen met digitale proefschrift probeerde de brochures uit de periode 1900-1915 700 miljoen pagina's bestanden, gebeurt in de geesteswe- neerlandicus Wim van den gedigitaliseerd; helaas is de collectie tenschappen verrassend weinig.” Hij Berg te achterhalen wan- voor onderzoekers buiten deze uni- Aan de digitalisering van erfgoed is zelf leverde met simpelweg meten neer de romantiek zijn intrede deed versiteit onbereikbaar. Een rechten- sinds 2004 in elk geval een krappe 50 een veelgeprezen bijdrage aan een in Nederland. Boeken, kranten en kwestie, zegt de UvA, waar binnen- miljoen euro uitgegeven. Dat meldt academisch debat. tijdschriften van rond 1800 spitte hij kort naar gekeken wordt. het ministerie van Onderwijs, Cultuur Dat debat draaide om de vraag of door op zoek naar het woord ‘roman- Universiteiten bouwen voor een en Wetenschappen (OCW) desge- de internationale romantiek in Ne- tisch’. Na vijftien jaar concludeerde onbekend bedrag databanken met vraagd. Het ministerie tekent daarbij derland snel voet aan de grond kreeg. Van den Berg dat het woord in 1810 proefschriften en andere publicaties aan geen zicht te hebben op alle uit- Niet echt, zei eerdergenoemde Van voor het eerst op dezelfde manier van hun personeel. De inrichting van gaven voor digitalisering, omdat in- den Berg. Jawel, zei Marita Mathij- werd gebruikt als eerder in Duits- deze ‘repositories’ is zo knullig, dat dividuele instellingen zelf ook niet sen, (emeritus) hoogleraar Neder- land, Frankrijk en Engeland. de publicaties nagenoeg onvindbaar geoormerkt geld gebruiken voor digi- landse letterkunde. Van Stipriaan Om ‘zijn’ Digitale Bibliotheek zijn. Alleen wie precies weet wat ie taliseren. Op het ministerie circuleren turfde in zijn DBNL hoe lang het in de voor de Nederlandse Letteren (DBNL) zoekt, kan iets vinden in deze ‘open intern dan ook schattingen van 100 negentiende eeuw duurde voor een te testen herhaalde hoofdredacteur acces’-bestanden. tot 200 miljoen euro. romantisch boek uit het buitenland René van Stipriaan vorig jaar deze Op het Geheugen van Nederland De Koninklijke Bibliotheek (KB) heeft werd vertaald: gemiddeld 17 jaar. Dat zoektocht. De gedigitaliseerde boe- zijn voor ruim 7 miljoen euro de alleen al 30 miljoen euro besteed aan bevestigde volgens hem het gelijk ken en tijdschriften in de databank hoogtepunten van het vaderlandse digitaliseren. De KB heeft de ambitie van Van den Berg. doorzocht hij op het woord ‘roman- gedrukte erfgoed bijeen gebracht. om uiteindelijk 700 miljoen pagina’s “Een fantastisch voorbeeld van tisch’. Van Stipriaan: “Na een korte Hoewel de boekomslagen, cartoons te digitaliseren. Bij de huidige kosten wat digitalisering voor de geesteswe- avond zoeken kon ik het eerste ge- en foto’s schitterend zijn, is een be- vergt dat een investering van 700 mil- tenschappen kan betekenen. Ieder- bruik ook vastprikken in 1810.” zoek aan de website wanhopig ma- joen euro. Als de boeken voor het een kan het experiment herhalen, Dit kunststukje is een triomf van kend: geen enkel document kun je scannen uit de band gesneden wor- het is controleerbaar, het is objectief. de digitalisering van het gedrukte doorzoeken. Zelfs bibliotheken en den, kost het digitaliseren niet 1 euro Het is een kwantitatieve versterking erfgoed, dat het afgelopen decenni- archieven die eraan hebben bijgedra- maar ongeveer 15 cent per pagina. van kwalitatief onderzoek”, vindt um een hoge vlucht heeft genomen. gen, kunnen hier hun eigen spullen De KB heeft daarmee een proef ge- Mijnhardt. “De kwantitatieve aan- Universiteiten, bibliotheken, weten- niet terugvinden. Het paradepaard daan met boeken die dubbel in de pak is helaas lang uit de gratie ge- schappelijke instituten en archieven van digitaal erfgoed heeft inmiddels collectie zitten, maar dat leidde tot weest bij de humaniora – met uitzon- hebben al miljoenen pagina’s van als bijnaam het Geheugenverlies van veel protesten. De KB heeft nu geen dering van de economische historici boeken, kranten en tijdschriften ge- Nederland. plannen om pagina’s los te snijden. die een paar decennia terug tijdreek- scand en veelal op websites gezet – sen zijn gaan verzamelen.” voor minimaal 50miljoen euro (zie Z u i d o o s t-A z i ë Rond 1900 ontstond er een schei- can semantic technology help? inzet). De digitalisering is nu zelfs in De voorbeelden geven aan dat uni- ding in de wetenschappen. “De na- een stroomversnelling gekomen met versiteiten, bibliotheken en archie- tuurwetenschappers gingen werken bijvoorbeeld het net begonnen ven hun drukwerk hebben gescand in laboratoria. Geestwetenschappers Google Books in Nederland. zonder goed na te denken over de raakten onder invloed van Duitse fi- Je zou dus verwachten dat geestes- vraag wie de gedigitaliseerde docu- losofen met hun ‘begrijpend obser- wetenschappers dagelijks bliksem- menten op welke manier het beste veren’ en lieten zo kansen liggen”, acties als hierboven doen, maar dat is zou kunnen gebruiken. “De gebrui- zegt Mijnhardt, die ‘graag mag tel- niet zo. Want waar bètawetenschap- kers zijn te weinig betrokken ge- len’ in zijn onderzoeken: “Digitalise- pers met een sportauto over de digi- weest”, erkent Astrid Verheusen, ring kan helpen de kloof tussen alfa- tale snelweg razen, hobbelen beoefe- hoofd innovatieve projecten bij de en bètawetenschappen te dichten.” naars van de humaniora met een brik Koninklijke Bibliotheek (KB). De KB is Dan moet er wel nog heel wat ge- door een doolhof van websites en da- naast DBNL de grootste partij bij het I L LU S T R AT I E H E N R Y C A N N O N beuren, zeggen betrokkenen. Verha- tabanken. Geesteswetenschappers digitaliseren van erfgoed. “Met we- gen van de UvA hoopt op betere OCR: Het digital drama tale kunnen veel gedigitaliseerde docu- tenschappers is veel te weinig ge- “Om in de toekomst alle bestanden menten moeilijk of niet vinden. De sproken over hun behoeften.” opnieuw door de wasmachine te ha- wel gevonden documenten kunnen Digitalisering waar onderzoekers len.” Maar de belangrijkste wens is: ze moeilijk of niet doorzoeken. De wat aan hebben, ziet er ongeveer zo één standaard komen voor de digita- doorzoekbare documenten geven uit. Eerst worden de boeken, tijd- lisering. “De Taalunie zou standaar- vaak onbetrouwbare zoekresultaten. schriften of kranten gescand: dit le- disering moeten afdwingen”, vindt “Vroeger haalden wetenschappers vert alleen afbeeldingen van pagina’s Boot van het Huygens. Deze Neder- met het bladeren in boeken en tijd- op. Die plaatjes worden vervolgens lands-Vlaamse unie heeft als over- schriften eigenlijk emmers water uit met ‘optical character recognition’ koepelende organisatie die ook de een put. Tegenwoordig is er door de (OCR), software voor optische teken- spellingsregels bepaalt, veel gezag. digitalisering een waterleidingnet. herkenning, omgezet in een tekst die 18de eeuw had je wel meer Franse au- een boek dat zelden wordt geraad- van Digitaal Erfgoed Nederland blijkt dat sommige boeken of reek- schappers die graag grote corpora de universiteit van Gent het Neder- gitaliseerd voor 3 miljoen euro. EDBO De Taalunie laat weten “meer sa- Maar dat net is zo vervuild, dat elke je kunt doorzoeken en bewerken. teurs met die naam”, zegt hoogleraar pleegd. De neiging is om het digitali- (DEN), een door het rijk betaald insti- sen zes keer zijn gescand, steeds op van boeken, tijdschriften en kranten landse taalgebied betrad, dreigt dat begin deze zomer online is ge- menhang te brengen” in de digitali- onderzoeker alsnog zelf het water Uiteindelijk wordt het document Mijnhardt: “Het is soms bij een ge- seren na het scannen af te raffelen. tuut dat de kwaliteit van de digitali- een ander plek. Onbenut potentieel? willen doorzoeken. Zo zijn inmid- ‘quick and dirty’ de norm te worden. gaan, zou een model van hedendaag- sering en gaat een inventarisatie ma- moet zuiveren in een emmertje”, voorzien van metadata zoals de au- schrift even zoeken of je dé Rousseau Een andere verklaring ligt in de sering probeert te verbeteren. “In- Nog steeds zijn instellingen er niet in dels 126 digitaliseringsprojecten “De OCR van Google Books is berucht se digitalisering in Nederland moe- ken van voltooide en voorgenomen schetst Van Stipriaan van DBNL. teursnaam, titelgegevens en allerlei voor je hebt.” manier waarop de digitalisering een stellingen zijn vaak al vroeg begon- geslaagd om een centraal register op voor kranten. Wie ze wil bekijken, slecht”, zegt Peter Boot van het Huy- ten zijn, maar vertoont de gebruike- projecten. “We willen voorkomen DBNL is een van de belangrijkste technische specificaties.. De tekenherkenning en de meta- jaar of twintig geleden is begonnen, nen met digitaliseren vóór het tijd- te zetten voor wat gescand is of moet naar tientallen verschillende gens Instituut voor Nederlandse Ge- lijke gebreken. dat dingen twee keer worden ge- aanbieders van gedigitaliseerd erf- Hoewel de OCR-software het afge- data zijn echter in veel gevallen on- zegt Verheusen van de KB: “Archie- perk van het world wide web – met wordt. Instellingen besteden het websites. De kranten staan niet in schiedenis. “De metadata zijn ook Het was bij de lancering van de daan”, zegt Karlijn Waterman van de goed in Nederland en wordt gesubsi- lopen decennium sterk is verbeterd, der de maat. “De OCR is doorgaans ven en musea wilden hun topstuk- dezelfde verouderde ICT werken ze scannen uit – maar telkens met ande- één portaal; dat kan ook niet, want ze niet goed. Het verzameld werk van ‘vroege Nederlandse boeken’, dat Taalunie. Dit najaar willen de Neder- dieerd door de Taalunie, een organi- verloopt het omzetten van beeld naar slordig gedaan. Een fout op 10 pagi- ken tonen en gebruikten hun websi- nog. Daarbij koppelen ze de ene data- re specificaties – of doen het zelf luk- zijn niet volgens één standaard ge- Huygens zit in een serie van 6 delen, hoogleraar Mijnhardt de staf brak landse en de Vlaamse tak een congres satie van de Nederlandse en Vlaamse tekst niet foutloos, onder meer door- na’s is net acceptabel, maar in de te als de boetiek van de mooiste spul- base aan de andere; dat is wat anders raak. “Door dit alles is veel moeilijk scand, en het zal waarschijnlijk ook maar Google Books geeft niet aan dat over de digitalisering en die van het organiseren met alle betrokken be- overheid. “Het is nog erger. Er zijn dat de computer moeite heeft met meeste documenten staan er veel len. De nadruk lag op de mooie plaat- dan het web gebruiken.” vindbaar en nauwelijks doorzoek- nooit kunnen. er meerdere delen zijn.” EDBO in het bijzonder. Boot van het leidsmakers. Waterman: “Het zou wel 33 verschillende waterleidingen het herkennen van woorden in oude meer”, zegt Van Stipriaan: “Wie een jes. Pas laat in de jaren negentig Tel daarbij op dat de humaniora baar”, zegt De Niet van DEN. De versplintering van de geestes- Verheusen van de KB erkent dat Huygens valt hem bij: “De OCR van mooi zijn als we dan in kaart hadden, en niemand heeft een idee wat waar spelling (de verwisseling van de s en woord intypt, krijgt woorden die hij kwam de ommezwaai naar tekst. We vanouds versplinterd zijn en je heb wetenschappen is ook af te lezen aan OCR en metadata “niet heel goed” Early Dutch Books is rampzalig. 90 wat waar al is gedigitaliseerd.” in zit”, zegt Wijnand Mijnhardt. De de f is berucht). “Je moet de omzet- niet zoekt (vals positief) en – veel er- waren de eersten en moesten zelf uit- de verklaring voor de wildgroei aan Kranten het feit dat universiteiten, archieven zijn, maar: “Zonder Google Books procent van de pagina’s foutloos is De ongeduldigen willen dat een hoogleraar geschiedenis aan de Uni- ting dus controleren en corrigeren. ger – mist de aanwezige woorden die vinden hoe het moest.” instellingen die allemaal op hun ei- DEN probeert erfgoedinstellingen en bibliotheken de handen nog zouden we deze boeken voorlopig acceptabel, maar dat haalt dit project grote partij de regie op zich neemt, versiteit van Utrecht is een grootver- Wij laten dat doen in Zuidoost-Azië, hij wel zoekt (vals negatief).” De me- De pioniers gingen daarbij voort gen manier zijn gaan digitaliseren. bij het adviseren over digitalisering steeds niet ineen hebben geslagen, helemaal niet kunnen scannen.” niet. En dan zijn alleen nog maar de maar wie moet dat zijn. “De KB, want bruiker van digitaal erfgoed. waar mensen de digitale documen- tadata zijn eveneens gebrekkig, zegt op een bekende maar doodlopende In een brief aan de Tweede Kamer te overtuigen van het nut van stan- zegt Van Stipriaan. “Door niet één Hoogleraar Mijnhardt noemt Google boeken in Latijns schrift gedaan, die de KB heeft veel ervaring en de moge- Onder veel bijval van wetenschap- ten vergelijken met de originelen”, Mijnhardt: “Wie bijvoorbeeld wil weg, zegt directeur Marco de Niet sprak toenmalig staatssecretaris Van daardisering. “Wij zijn adviserend, plan te maken om al het gezamenlij- Books dan ook een „zegen” voor zijn in Gotisch schrift zouden helemaal lijkheden om snel en op grote schaal pers hebben Van Stipriaan en Mijn- zegt Van Stipriaan van DBNL. Om dat schrijven over de boekenproductie in der Ploeg in 2002 dan ook van ‘sterk niet normerend. We geven aan hoe ke erfgoed volgens een standaard- werk: “Hoewel pas een procent of te digitaliseren en standaarden te hardt de noodklok geluid. De eerste goed te kunnen doen, hoef je de taal Leiden, kan niet achterhalen welke monolithische systemen en een ver- instellingen het beste kunnen digita- norm te digitaliseren hebben de in- tien van de boeken is gedigitaliseerd, ontwikkelen”, vindt Verheusen van in meerdere artikelen, waaronder in niet te kennen. De OCR van DBNL, de van de gedigitaliseerde boeken daar ‘Digitale bestanden zijn snippering van projecten waarmee liseren maar dwingen dat niet af”, stellingen het speelveld open gela- kan ik nu al veel digitaal vinden.” Met de komst van de KB. De Taalunie, vindt De Niet van De Gids, de tweede onlangs bij een le- database voor literatuur. geldt als de ooit zijn gepubliceerd.” een aanzienlijke verspilling van zegt De Niet. “Voordeel is dat als de ten.” Dat speelveld is nu betreden Als Nederlands antwoord op DEN: “De Taalunie is gezaghebbend, zing in Leiden. De vele voorbeelden beste in Nederland. Geldgebrek verklaart deels de na- een waterleidingnet. energie en geld dreigt. Het leidt er zelfregulering werkt, het draagvlak door Google Books. De boekenpoot Google Books geldt Early Dutch Google Books dreigt staat garant voor politieke steun en van gebrekkige digitalisering in de De metadata zijn ook een klus, bij- latigheid van de erfgoedinstellingen. Dat net is zo vervuild toe dat gedigitaliseerde erfgoed- groter is dan met dwang. Nadeel is van zoekmachine Google heeft in Books Online (EDBO), een prestigieus ‘quick and dirty’ de betrokkenheid en is onpartijdig.” Als geesteswetenschappen die zij en an- voorbeeld doordat bij eeuwenoude Goed digitaliseren kost ongeveer 1 bronnen maar zelden hun potentieel dat de standaarden niet worden op- 2010 een deal met de KB gesloten om project van de KB en de universiteiten het maar snel gebeurt, zegt Mijn- deren aandragen, vormen een soort auteursnamen de spelling niet vast euro per pagina, dus 200 euro voor dat onderzoekers het in cultureel, sociaal of economisch gelegd.” En dat veel instellingen die de 160.000 boeken uit de periode van Leiden en Amsterdam. Bij EDBO norm te worden bij het hardt: “De toekomst is met de digita- zwartboek. Een kleine greep: ligt. “En wij kennen nog maar één een boek van ge gemiddelde omvang zelf moeten zuiveren.’ opzicht ten volle kunnen realiseren.’ standaarden dus negeren. 1700-1870 te scannen. zijn twee miljoen pagina’s van 11.000 scannen van boeken lisering schitterend, maar ik hoop De Universiteit van Amsterdam Jean-Jacques Rousseau, maar in de (200 pagina's). Dat is veel geld voor Verspilling? Een decennium later Dit nadeel voelen vooral weten- Met Google Books, dat in 2008 bij boeken uit de periode 1781-1800 gedi- hem nog wel mee te maken.”

Notas del editor

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n