SlideShare una empresa de Scribd logo
1 de 45
Digitalisierungsprojekte zukunftssicher gestalten:
              Planung und Durchführung


Fit für die digitale Bibliothek?




                      Dipl. Sozw. Ralf Stockmann
      Niedersächsische Staats- und Universitätsbibliothek Göttingen
Fit – wofür?
•   Für den (DFG) Projektantrag
•   Für die Direktion / die Politik
•   Für die Ewigkeit (LZA)
•   Für die Nutzer
Das Göttinger
Digitalisierungszentrum
 • Abteilung der Staats- und Universitätsbibliothek
   Göttingen (SUB)
 • seit 1997, zu Beginn 4 Jahre gefördert von der
   Deutschen Forschungsgemeinschaft (DFG)
 • Nationales und Internationales Service- und
   Kompetenzzentrum
 • Entwicklung eines Produktionsworkflows für große
   Mengen an Digitalisaten im Printbereich
 • Standardisierungsaktivitäten
 • Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen
   Seiten online bereitgestellt
 • Konzeption, Beratung und Durchführung von Projekten
   (häufig kooperativ)
 • Zielsetzung: Masse UND Klasse
Ablauf eines Digitalisierungsprojektes
 1.    Zielsetzung
 2.    Auswahl des Materials
 3.    Benchmarking / Standards
 4.    Produktionsorganisation / Logistik


 5.    Arbeitsvorbereitungen (AV)
 6.    Digitalisierung
 7.    Qualitätskontrolle (QK)
 8.    Bildoptimierung / Verarbeitung
 9.    OCR / Volltextgenerierung
 10.   Metadatengenerierung


 11.   Präsentation / Verwertung
 12.   Zugang / Evaluation
 13.   (Langzeit) Archivierung
Management Wheel
Logistiksoftware

•   Bildet Workflow ab
•   Organisationseinheit: physischer Band
•   Controlling
•   Personalmanagement
•   Auftragsmanagement
•   Qualitätskontrolle
•   Metadatenerfassung
•   Webbasiert
•   Beispiele: myBib, Goobi, ZENDpro, …
Workflow Orchestrierung
Bearbeitungsstand
Controlling
Laufzeiten
Modulares Open Source
       Konzept
5. Arbeitsvorbereitung

• Büchertransport
• Laufzettel / Barcode
• Aufnahme in Workflowverwaltung
• Bibliographische Uraufnahme (OPAC)
• Zuordnung Gerät / Scanner
6. Digitalisierung

• Scanumfang
  –   Von Buchdeckel zu Buchdeckel
  –   Alle Seiten
  –   Titel + Inhalt
  –   Einzelne Kapitel / Artikel
• Ziel
  – Auf lokalen Scanrechner
  – Auf zentralen Scanserver
       • On the fly
       • Nach Digitalisierung
       • Im Batchbetrieb (über Nacht)
7. Qualitätskontrolle

• Fehlende Seiten
• Doppelte Seiten
• Seitenreihenfolge
• Qualität
• Schmutz

• Werkzeug: Bildviewer (etwa: ACDSee)
• Rückgabe an Scanner / Feedback / selbst
  korrigieren
8. Imagenachbearbeitung
 Bildnachbearbeitung mit „PixEdit“ im Batchmodus:
 Ausschneiden und Zentrieren, Reinigen, „de-
 speckle und speckle“

Original              nach de-speckling     nachspeckling
Volltexterfassung
• OCR – „schmutzig“ (unkorrigiert)
• OCR – korrigiert (über 99,5%)
• Manuell – einfach mit Korrekturlesen
• Manuell – Doublekeying mit
  automatischem Fehlerabgleich
  – Ca.: 1€ pro 1.000 Zeichen

• Problematisch: Fraktur, Handschriften,
  Inkunablen, …
  – Warten! Die OCR kann jederzeit nachgeholt
Finereader Lizenzen
Ausgabevariationen Volltext
• Versteckt: nur für Retrieval
   – Highlighting der Treffer im Image (Wortkoordinaten benötigt)
• Anzeige des Trefferkontext für Suchergebnis-Kontrolle
  (+/- 100 Zeichen)
• PDF:
   – Volltext hinter Image
   – Volltext vor Image (Auffüllung)
• Ausgabe Volltext
   –   Ohne Formatierung
   –   Mit Formatierung
   –   Schmutzig / bereinigt
   –   Zur Bewertung der Suchgenauigkeit
   –   TEI Format: für Wissenschaftler direkt verwertbar
• Rechtliche Rahmenbedingungen (Subito-Urteil)
Das neue Nutzungsparadigma
       Vergangenheit              Gegenwart




 Projektbezogene Webseiten           Portale
  Institutionelle Repositorien   Verteilte Suche
Zukunft (sehr bald!)

• Dezentrale Web Services
   – Basierend auf
      •   Personalisierung
      •   Soziale / Wissenschaftliche Communities
      •   Semantische Netze
      •   Grid Computing (Ende der Ressourcenknappheit)
   – Bieten an:
      • Dynamische, personalisierte Dienste (privates Bücherregal, …)
      • Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von
        Informationen
      • Collaborative Arbeitsumgebungen
      • Adressierung kleinster Informationseinheiten

• “Scientific Mashups”
   – Online / Offline wird verschwinden (ist!)
   – NASA Portal
Konsequenzen
• Bedeutungswandel
  – Weniger:
     • Eigner / Institution
     • Niederige Qualität
     • Abgeschottete “Black Box” Software mit “vanilla” features
  – Mehr:
     •   Metadaten
     •   Volltext
     •   Granularität
     •   Hohe Auflösungen
     •   Schnittstellen / Protokolle
     •   Spezialisierte, gekapselte, kombinierbare Werkzeuge


• Beispiel: DFG-Viewer
DFG Viewer (Alpha)
Benötigte Schnittstellen

• OAI Harvesting

• Eines der definierten Metadaten-Profile
    – ZVDD
    – MuseumDAT
    – EAI

• Adressierbarkeit einzelner Images


• Sinnvoll aber freiwillig:
    – RSS-Feed (Neu hinzugekommene Werke, demnächst über
      personalisierte Nutzersuchen)
    – Open URL
    – TEI


• Sehr klare Standardisierungstendenzen
9. Metadaten

• Bibliographische Metadaten (Mindeststandard)
  – Verbindung mit dem Verbundkatalog (PICA/GBV)
    und dem OPAC
• Technische Metadaten
• Datenbanken (z.B. Wörterbücher)
• Klassifizierungen (z.B. Dewey)
• Inhaltlich-strukturelle Metadaten (z.B.
  Inhaltsverzeichnisse, Wörterbuchpositionen,
  gattungsspezifisches Markup etc.)
Warum Strukturdaten?
Elektronisches Inhaltsverzeichnis:
Beispiel PDF, ebenso online
Strukturdaten Pro / Contra
• Pro
  – Bessere Bedienung
        • Navigation im PDF
        • Digitales Inhaltsverzeichnis auf Webseite
  – Exaktere Suche
        • Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext
          unter)
        • Verlässlich
  – Erweiterte Dienste
        • Download einzelner Kapitel als PDF
        • Zusammenbinden neuer „digitaler Bücher“ mit Print on
          Demand

• Contra
  – Produktion zeitaufwändig (30-50 Minuten pro Band)
  – Teilweise subsumierbar durch OCR-Volltext
Das METS Dokumentenmodell
• Logische Struktur
    – Monographie / Kapitel / Artikel etc.
• Physische Struktur
    – Seiten, Spalten
•   Beschreibende Metadaten (Autor, Jahr etc.)
•   Technische Metadaten (Bildformat/Auflösung etc.)
•   Volltext (mit Wortkoordinaten)
•   Eingebettete Dateien (Images)

• Vorteile:
    – Alles in 1 Datei (XML)
    – Komplette Dokumentlogik ist „aus sich heraus“ verstehbar
    – Import/Export
• Nachteil: bisher aufwendige Implementierung
Goobi METS Editor
Integrierter
Bildbetrachter   OCR integration
    (AJAX)
10. Präsentation / Verwertung
• Online-Präsentation
  – Seitenweise in Browser
  – Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF)
  – Eigene Web-Applikation
     • British Library
     • Open Content Aliance
• Offline Nutzung
  – Intranet (s.o.)
  – CD / DVD
     • Images
     • Applikation
  – FTP
Ausgabe im GDZ

• Rendering „on the fly“ – frei wählbarer
  Zoomfaktor
• Pre-Rendering der nächsten Seite
• Im PDF (strukturiert) originalauflösende
  TIFFs
• Digitales Inhaltsverzeichnis
11. Zugang / Evaluation
•   Gemeinfreies Material
     – Urheberrecht: vor 1900
     – Weltweit freier Zugang (open access)
•   Geschütztes Material
     – Beispiel Digizeitschriften:
     – Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG
       Wort)
     – Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur
       Verfügung
     – Ausschüttung an Verlag und VG
•   Technische Umsetzung
     –   IP-Bereiche
     –   Passwort / Nutzername
     –   Konsortien
     –   Backend-Verwaltung
     –   Biling-Service
Zugriffsstatistik

• Counter.org
• Unterteilung nach
  – Material
  – Nutzer
• Anonymisiert / personalisiert
• Auswertungsintervall
• Technische Umsetzung
  – Logfilenalyse (etwa: Apache Webserver)
  – Integriertes Nutzertracking (Session Cookies)
Schnittstellen

• GDZ-Dokumentenserverserver (incl. OAI)
• OPAC der SUB Göttingen
• Flexible Präsentationssysteme (Virtuelle
  Fachbibliotheken etc.)
• Verbundkataloge
• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)
• EROMM (Digitale Master)
• Deutsche Digitale Bibliothek (DDB)
• European Digital Library (EDL)
  – November 2008!
Schnittstellen zu Diensten

• Geo-Tagging
• Wikipedia
• Social Bookmarking
• Verwertungsdienste
   – Print on Demand
   – OCR Correction on Demand
   – Digitization on Demand

• Es wird immer einfacher!
   – API (Application Programming Interface)
• Zentrales Diensteverzeichnis für Digitale Bibliotheken
12. Langzeitarchivierung

• Über welchen Zeitraum reden wir?
  – 10 Jahre (CD-Rs)
  – 50 Jahre
  – 200 Jahre
• Drei Komponenten:
  – Physikalische Archivierung
  – Lesegeräte
     • NASA
  – Formate
     • PDF, .DOC
JHOVE
  JSTOR/Harvard Object Validation
          Environment
Konformitätsvalidierung für:

– AIFF, AIFF-C
– ASCII
– GIF 87a, 89a
– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1
– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2
– JPEG 2000 JP2, JPX
– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, Linearized
PDF
– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,
LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,
2.2, DNG
– UTF-8
– WAVE, BWF
– XML


http://hul.harvard.edu/jhove/
Der Dornröschenschlaf der
        Bibliotheken
• Was haben wir in den letzten Jahren
  erfunden?
  – Retrodigitalisierung
  – Langzeitarchivierung
• Was hätten wir erfinden sollen?
  – eLearning
  – Google
       • Google Maps
  –   Del.icio.us
  –   YouTube
  –   Wikipedia
  –   iPhone
Abwägung

• Nicht das „Grundhandwerk“
  vergessen/verlernen
• Zweite Schritt vor dem Ersten Schritt
  Problematik

• Bibliotheken brauchen auch Erfinder, und
  eine Umgebung in der sie sich wohl fühlen!
Vielen Dank für Ihre Aufmerksamkeit!




                              Ralf Stockmann
             stockmann@sub.uni-goettingen.de
              Göttinger Digitalisierungszentrum

Más contenido relacionado

Destacado

Los mejores goleadores del mundo
Los mejores goleadores del mundoLos mejores goleadores del mundo
Los mejores goleadores del mundoser_gio
 
Primera propuesta edición 60 años
Primera propuesta edición 60 añosPrimera propuesta edición 60 años
Primera propuesta edición 60 añostetravik
 
óRganos de los sentidos
óRganos de los sentidosóRganos de los sentidos
óRganos de los sentidos8991otilegna
 
Cuestionario 4
Cuestionario 4Cuestionario 4
Cuestionario 4Jhoan0605
 
Anexo 3 asumiendo cambios personales para transformar realidades
Anexo 3  asumiendo cambios personales para transformar realidadesAnexo 3  asumiendo cambios personales para transformar realidades
Anexo 3 asumiendo cambios personales para transformar realidadescpc1979
 
Redes sociales
Redes socialesRedes sociales
Redes socialescrhz
 
Dofa de algunas empresas colombianas emprendedoras
Dofa de algunas empresas colombianas emprendedorasDofa de algunas empresas colombianas emprendedoras
Dofa de algunas empresas colombianas emprendedorasMayerly18
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungRalf Stockmann
 
Trabajo de mohamed ali
Trabajo de mohamed aliTrabajo de mohamed ali
Trabajo de mohamed aliy1w
 
Parte i intrnegoelect
Parte i intrnegoelectParte i intrnegoelect
Parte i intrnegoelectTaTa Vargas
 
Nuestra vivencia, bici foro bogota
Nuestra vivencia, bici foro bogotaNuestra vivencia, bici foro bogota
Nuestra vivencia, bici foro bogotaMaytonce Garcia
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungRalf Stockmann
 
Edad media
Edad mediaEdad media
Edad mediaCobaep
 
La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...
La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...
La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...utejacque
 

Destacado (20)

Los mejores goleadores del mundo
Los mejores goleadores del mundoLos mejores goleadores del mundo
Los mejores goleadores del mundo
 
Censura
CensuraCensura
Censura
 
Primera propuesta edición 60 años
Primera propuesta edición 60 añosPrimera propuesta edición 60 años
Primera propuesta edición 60 años
 
LA TOLERANCIA EN LA COMUNICAION
LA TOLERANCIA EN LA COMUNICAIONLA TOLERANCIA EN LA COMUNICAION
LA TOLERANCIA EN LA COMUNICAION
 
óRganos de los sentidos
óRganos de los sentidosóRganos de los sentidos
óRganos de los sentidos
 
Cuestionario 4
Cuestionario 4Cuestionario 4
Cuestionario 4
 
Anexo 3 asumiendo cambios personales para transformar realidades
Anexo 3  asumiendo cambios personales para transformar realidadesAnexo 3  asumiendo cambios personales para transformar realidades
Anexo 3 asumiendo cambios personales para transformar realidades
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Huck
HuckHuck
Huck
 
Derechos1
Derechos1Derechos1
Derechos1
 
Dofa de algunas empresas colombianas emprendedoras
Dofa de algunas empresas colombianas emprendedorasDofa de algunas empresas colombianas emprendedoras
Dofa de algunas empresas colombianas emprendedoras
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung Massendigitalisierung
 
Trabajo de mohamed ali
Trabajo de mohamed aliTrabajo de mohamed ali
Trabajo de mohamed ali
 
Parte i intrnegoelect
Parte i intrnegoelectParte i intrnegoelect
Parte i intrnegoelect
 
Nuestra vivencia, bici foro bogota
Nuestra vivencia, bici foro bogotaNuestra vivencia, bici foro bogota
Nuestra vivencia, bici foro bogota
 
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich DigitalisierungKooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
 
Edad media
Edad mediaEdad media
Edad media
 
Aprende Decimales
Aprende DecimalesAprende Decimales
Aprende Decimales
 
DPSG-Jahresaktion 2014
DPSG-Jahresaktion 2014DPSG-Jahresaktion 2014
DPSG-Jahresaktion 2014
 
La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...
La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...
La estrategia en los emprendimientos sociales; 2. la cultura organizacional e...
 

Similar a Fit für die digitale Bibliothek? (2007)

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenRalf Stockmann
 
SUB OCR Implementierung
SUB OCR ImplementierungSUB OCR Implementierung
SUB OCR Implementierungcmahnke
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ralf Stockmann
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 
Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15Matthias Arnold
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-Dcneudecker
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009Ralf Stockmann
 
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenBorn to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenMarkus Erle
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenMarkus Erle
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...cneudecker
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Sourceyellowcow
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...ag-digitalisierung
 
Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...
Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...
Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...Michael Riehemann
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trendintranda GmbH
 

Similar a Fit für die digitale Bibliothek? (2007) (20)

ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich Wollen
 
SUB OCR Implementierung
SUB OCR ImplementierungSUB OCR Implementierung
SUB OCR Implementierung
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
 
Medienverwaltung ZKI-Hamburg
Medienverwaltung ZKI-HamburgMedienverwaltung ZKI-Hamburg
Medienverwaltung ZKI-Hamburg
 
Ziziphus/Tamboti
Ziziphus/TambotiZiziphus/Tamboti
Ziziphus/Tamboti
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
Ocr workshop ubhd 2020 10-15
Ocr workshop ubhd  2020 10-15Ocr workshop ubhd  2020 10-15
Ocr workshop ubhd 2020 10-15
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Überblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-DÜberblick zum DFG-Projekt OCR-D
Überblick zum DFG-Projekt OCR-D
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellenBorn to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
Born to be accessible - Barrierefreie PDFs gemäß PDF/UA effizient erstellen
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wollten
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
Der gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open SourceDer gesamte Redaktionsprozess mit Open Source
Der gesamte Redaktionsprozess mit Open Source
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
 
Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...
Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...
Entwicklung eines Webportals zur Anbindung von digitalen Bibliotheken (Vorste...
 
JSF vs. GWT? JSF und GWT!
JSF vs. GWT? JSF und GWT!JSF vs. GWT? JSF und GWT!
JSF vs. GWT? JSF und GWT!
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend
 

Más de Ralf Stockmann

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetRalf Stockmann
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Ralf Stockmann
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannRalf Stockmann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Ralf Stockmann
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintRalf Stockmann
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeRalf Stockmann
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenRalf Stockmann
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer DatenRalf Stockmann
 
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRDFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRRalf Stockmann
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltRalf Stockmann
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteRalf Stockmann
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Ralf Stockmann
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Ralf Stockmann
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Ralf Stockmann
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungRalf Stockmann
 
Grundlagen Digitaler Mediengestaltung
Grundlagen Digitaler MediengestaltungGrundlagen Digitaler Mediengestaltung
Grundlagen Digitaler MediengestaltungRalf Stockmann
 
Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?Ralf Stockmann
 
Keynote Studip Zukunftsworkshop
Keynote Studip ZukunftsworkshopKeynote Studip Zukunftsworkshop
Keynote Studip ZukunftsworkshopRalf Stockmann
 

Más de Ralf Stockmann (20)

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social Intranet
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale Wissensräume
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen können
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
 
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRDFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen Welt
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der Softwareentwicklung
 
Grundlagen Digitaler Mediengestaltung
Grundlagen Digitaler MediengestaltungGrundlagen Digitaler Mediengestaltung
Grundlagen Digitaler Mediengestaltung
 
Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?Was tun mit den Ergebnissen der OCR?
Was tun mit den Ergebnissen der OCR?
 
Keynote Studip Zukunftsworkshop
Keynote Studip ZukunftsworkshopKeynote Studip Zukunftsworkshop
Keynote Studip Zukunftsworkshop
 

Fit für die digitale Bibliothek? (2007)

  • 1. Digitalisierungsprojekte zukunftssicher gestalten: Planung und Durchführung Fit für die digitale Bibliothek? Dipl. Sozw. Ralf Stockmann Niedersächsische Staats- und Universitätsbibliothek Göttingen
  • 2. Fit – wofür? • Für den (DFG) Projektantrag • Für die Direktion / die Politik • Für die Ewigkeit (LZA) • Für die Nutzer
  • 3. Das Göttinger Digitalisierungszentrum • Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB) • seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG) • Nationales und Internationales Service- und Kompetenzzentrum • Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich • Standardisierungsaktivitäten • Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen Seiten online bereitgestellt • Konzeption, Beratung und Durchführung von Projekten (häufig kooperativ) • Zielsetzung: Masse UND Klasse
  • 4. Ablauf eines Digitalisierungsprojektes 1. Zielsetzung 2. Auswahl des Materials 3. Benchmarking / Standards 4. Produktionsorganisation / Logistik 5. Arbeitsvorbereitungen (AV) 6. Digitalisierung 7. Qualitätskontrolle (QK) 8. Bildoptimierung / Verarbeitung 9. OCR / Volltextgenerierung 10. Metadatengenerierung 11. Präsentation / Verwertung 12. Zugang / Evaluation 13. (Langzeit) Archivierung
  • 6. Logistiksoftware • Bildet Workflow ab • Organisationseinheit: physischer Band • Controlling • Personalmanagement • Auftragsmanagement • Qualitätskontrolle • Metadatenerfassung • Webbasiert • Beispiele: myBib, Goobi, ZENDpro, …
  • 12. 5. Arbeitsvorbereitung • Büchertransport • Laufzettel / Barcode • Aufnahme in Workflowverwaltung • Bibliographische Uraufnahme (OPAC) • Zuordnung Gerät / Scanner
  • 13. 6. Digitalisierung • Scanumfang – Von Buchdeckel zu Buchdeckel – Alle Seiten – Titel + Inhalt – Einzelne Kapitel / Artikel • Ziel – Auf lokalen Scanrechner – Auf zentralen Scanserver • On the fly • Nach Digitalisierung • Im Batchbetrieb (über Nacht)
  • 14. 7. Qualitätskontrolle • Fehlende Seiten • Doppelte Seiten • Seitenreihenfolge • Qualität • Schmutz • Werkzeug: Bildviewer (etwa: ACDSee) • Rückgabe an Scanner / Feedback / selbst korrigieren
  • 15. 8. Imagenachbearbeitung Bildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de- speckle und speckle“ Original nach de-speckling nachspeckling
  • 16.
  • 17. Volltexterfassung • OCR – „schmutzig“ (unkorrigiert) • OCR – korrigiert (über 99,5%) • Manuell – einfach mit Korrekturlesen • Manuell – Doublekeying mit automatischem Fehlerabgleich – Ca.: 1€ pro 1.000 Zeichen • Problematisch: Fraktur, Handschriften, Inkunablen, … – Warten! Die OCR kann jederzeit nachgeholt
  • 19. Ausgabevariationen Volltext • Versteckt: nur für Retrieval – Highlighting der Treffer im Image (Wortkoordinaten benötigt) • Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen) • PDF: – Volltext hinter Image – Volltext vor Image (Auffüllung) • Ausgabe Volltext – Ohne Formatierung – Mit Formatierung – Schmutzig / bereinigt – Zur Bewertung der Suchgenauigkeit – TEI Format: für Wissenschaftler direkt verwertbar • Rechtliche Rahmenbedingungen (Subito-Urteil)
  • 20.
  • 21.
  • 22.
  • 23. Das neue Nutzungsparadigma Vergangenheit Gegenwart Projektbezogene Webseiten Portale Institutionelle Repositorien Verteilte Suche
  • 24. Zukunft (sehr bald!) • Dezentrale Web Services – Basierend auf • Personalisierung • Soziale / Wissenschaftliche Communities • Semantische Netze • Grid Computing (Ende der Ressourcenknappheit) – Bieten an: • Dynamische, personalisierte Dienste (privates Bücherregal, …) • Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von Informationen • Collaborative Arbeitsumgebungen • Adressierung kleinster Informationseinheiten • “Scientific Mashups” – Online / Offline wird verschwinden (ist!) – NASA Portal
  • 25. Konsequenzen • Bedeutungswandel – Weniger: • Eigner / Institution • Niederige Qualität • Abgeschottete “Black Box” Software mit “vanilla” features – Mehr: • Metadaten • Volltext • Granularität • Hohe Auflösungen • Schnittstellen / Protokolle • Spezialisierte, gekapselte, kombinierbare Werkzeuge • Beispiel: DFG-Viewer
  • 27. Benötigte Schnittstellen • OAI Harvesting • Eines der definierten Metadaten-Profile – ZVDD – MuseumDAT – EAI • Adressierbarkeit einzelner Images • Sinnvoll aber freiwillig: – RSS-Feed (Neu hinzugekommene Werke, demnächst über personalisierte Nutzersuchen) – Open URL – TEI • Sehr klare Standardisierungstendenzen
  • 28. 9. Metadaten • Bibliographische Metadaten (Mindeststandard) – Verbindung mit dem Verbundkatalog (PICA/GBV) und dem OPAC • Technische Metadaten • Datenbanken (z.B. Wörterbücher) • Klassifizierungen (z.B. Dewey) • Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)
  • 30. Strukturdaten Pro / Contra • Pro – Bessere Bedienung • Navigation im PDF • Digitales Inhaltsverzeichnis auf Webseite – Exaktere Suche • Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext unter) • Verlässlich – Erweiterte Dienste • Download einzelner Kapitel als PDF • Zusammenbinden neuer „digitaler Bücher“ mit Print on Demand • Contra – Produktion zeitaufwändig (30-50 Minuten pro Band) – Teilweise subsumierbar durch OCR-Volltext
  • 31. Das METS Dokumentenmodell • Logische Struktur – Monographie / Kapitel / Artikel etc. • Physische Struktur – Seiten, Spalten • Beschreibende Metadaten (Autor, Jahr etc.) • Technische Metadaten (Bildformat/Auflösung etc.) • Volltext (mit Wortkoordinaten) • Eingebettete Dateien (Images) • Vorteile: – Alles in 1 Datei (XML) – Komplette Dokumentlogik ist „aus sich heraus“ verstehbar – Import/Export • Nachteil: bisher aufwendige Implementierung
  • 33. Integrierter Bildbetrachter OCR integration (AJAX)
  • 34. 10. Präsentation / Verwertung • Online-Präsentation – Seitenweise in Browser – Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF) – Eigene Web-Applikation • British Library • Open Content Aliance • Offline Nutzung – Intranet (s.o.) – CD / DVD • Images • Applikation – FTP
  • 35.
  • 36. Ausgabe im GDZ • Rendering „on the fly“ – frei wählbarer Zoomfaktor • Pre-Rendering der nächsten Seite • Im PDF (strukturiert) originalauflösende TIFFs • Digitales Inhaltsverzeichnis
  • 37. 11. Zugang / Evaluation • Gemeinfreies Material – Urheberrecht: vor 1900 – Weltweit freier Zugang (open access) • Geschütztes Material – Beispiel Digizeitschriften: – Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG Wort) – Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur Verfügung – Ausschüttung an Verlag und VG • Technische Umsetzung – IP-Bereiche – Passwort / Nutzername – Konsortien – Backend-Verwaltung – Biling-Service
  • 38. Zugriffsstatistik • Counter.org • Unterteilung nach – Material – Nutzer • Anonymisiert / personalisiert • Auswertungsintervall • Technische Umsetzung – Logfilenalyse (etwa: Apache Webserver) – Integriertes Nutzertracking (Session Cookies)
  • 39. Schnittstellen • GDZ-Dokumentenserverserver (incl. OAI) • OPAC der SUB Göttingen • Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.) • Verbundkataloge • Zentrales Verzeichnis Digitalisierter Drucke (ZVDD) • EROMM (Digitale Master) • Deutsche Digitale Bibliothek (DDB) • European Digital Library (EDL) – November 2008!
  • 40. Schnittstellen zu Diensten • Geo-Tagging • Wikipedia • Social Bookmarking • Verwertungsdienste – Print on Demand – OCR Correction on Demand – Digitization on Demand • Es wird immer einfacher! – API (Application Programming Interface) • Zentrales Diensteverzeichnis für Digitale Bibliotheken
  • 41. 12. Langzeitarchivierung • Über welchen Zeitraum reden wir? – 10 Jahre (CD-Rs) – 50 Jahre – 200 Jahre • Drei Komponenten: – Physikalische Archivierung – Lesegeräte • NASA – Formate • PDF, .DOC
  • 42. JHOVE JSTOR/Harvard Object Validation Environment Konformitätsvalidierung für: – AIFF, AIFF-C – ASCII – GIF 87a, 89a – HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1 – JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2 – JPEG 2000 JP2, JPX – PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, Linearized PDF – TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT, LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1, 2.2, DNG – UTF-8 – WAVE, BWF – XML http://hul.harvard.edu/jhove/
  • 43. Der Dornröschenschlaf der Bibliotheken • Was haben wir in den letzten Jahren erfunden? – Retrodigitalisierung – Langzeitarchivierung • Was hätten wir erfinden sollen? – eLearning – Google • Google Maps – Del.icio.us – YouTube – Wikipedia – iPhone
  • 44. Abwägung • Nicht das „Grundhandwerk“ vergessen/verlernen • Zweite Schritt vor dem Ersten Schritt Problematik • Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!
  • 45. Vielen Dank für Ihre Aufmerksamkeit! Ralf Stockmann stockmann@sub.uni-goettingen.de Göttinger Digitalisierungszentrum