SlideShare una empresa de Scribd logo
1 de 32
Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der Wissenschaftspraxis Dipl. Sozw. Ralf Stockmann SUB Göttingen, Abteilung Forschung und EntwicklungGöttinger Digitalisierungszentrum Kolloquium: Datenkomprimierung bei Bild, Audio und Video
Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet Auftrag: Grundlagenforschung im Bereich Digitalisierung an Bibliotheken Entwicklung von Verfahren und best practice Andere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisieren Insgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten Seiten Im Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite) Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)
Ausgangslage Deutschland: DFG-Praxisregeln Verwendung von TIFF Kompression nur verlustfrei KB: Einführung des Begriffes „visuallylossless“ Mit der Massendigitalisierung explodieren die Storage-Anforderungen Ein Rechenbeispiel (GDZ 2010):
Produktion des GDZ 2010 8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden Durchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten) Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MB Summe: 115 TB pro Jahr
Standpunkt DFG:  „Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“
Lösungsansatz: Kompression Für bitonaleScans schon immer erfolgreich eingesetzt 600 dpi optische Auflösung Verlustfreie FAX G4 Kompression (160KB statt 24 MB) Anwendung: was nach ca. 1850 bitonal gedruckt wurde dürfen wir auch bitonal scannen Problem: Farbscans
JPEG 2000 Pro Sowohl lossless als verlustbehaftete Kompression möglich Quellofen Kompression granular regelbar Zoomstufen können direkt aus Original abgeleitet werden Metadaten im Header gut strukturierbar Gute Robustheit gegen Fehler (Bild wird dennoch aufgebaut) Contra Geringe Verbreitung (Browser, Editoren) Rendering aufwändiger Ungewisse Zukunft
These „Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“
Gegenthesen Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen. Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.
Beispiel JPG Artefakte
Beispiel Headroom Original RAW Optimierung aus JPG Optimierung aus RAW
Testsystem Mac OS 10.6.2 Adobe Photoshop CS4 Adobe JPEG 2000 Filter ZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €) Vorlagen aus aktuellen Scanprojekten des GDZ
Test 1Auswirkungen Kompression 300 dpi 15,7 x 22,6 cm Ca. 5 Megapixel
Messverfahren: Differenzbild Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt Ebene 1: Referenzebene (TIFF uncompressed) Ebene 2: Testebene (verändert) Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbar Je heller das Bild desto stärker die Abweichung
Beispiel: einheitliche Störung (Rauschfilter) Original 3% Rauschen
Differenzbild(bitonalisiert mit threshhold 3) Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung)
Partielle Verfremdungen: unscharf maskieren Original unscharfmaskiert Differenzwert 31
Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden) Original 90 / - 80 / 800% 70 / 600% 60 / 300% 50 / 200% 40 / 200%
Differenzmessung(Kompression JPEG 2000 / Differenzwert) Lossless / 0 90 / 0 80 / 1 70 / 8 60 / 41 50 / 64 40 / 75
Übersicht
Test 2Varianz bei Neuaufnahme Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF
Visueller Vergleich Vergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar
Differenzbild TIFF zu TIFF Differenzwert 82 Original
Differenzbild TIFF-Scannachdem Buch neu aufgelegt wurde Differenzwert 86 nach Rotation Differenzwert 90
Einordnung
Zwischenergebnis Selbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan am selben Gerät entstehen Es gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im Scangerät Strukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar) „visuallylossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden. Der „sweetspot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)
Test 3Headroom TIFF vs. JPEG 2000 / 70 Differenzwert 8
Extreme Tonwertkorrektur Original Angepasst TIFF
Angepasst TIFF vs. JPG 2000 / 70 TIFF angepasst JPEG 2000 angepasst
Differenzbilder 80er Kompression Differenzwert: 54 70er Kompression Differenzwert: 80
Zwischenergebnis Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen. Bestehende Differenzunterschiede potenzieren sich mit dem Grad der Bildmanipulation Einen echten Mehrwert liefert nur ein RAW Format
Fazit Für den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed. Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden. Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit. Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren? Ja: Consumer Speicher Fraglich: Archivspeicher (seit Jahren konstant teuer)

Más contenido relacionado

Destacado

Das will ich werden
Das will ich werden Das will ich werden
Das will ich werden 369bart
 
PNL _ Carminia Rodriguez
PNL _ Carminia RodriguezPNL _ Carminia Rodriguez
PNL _ Carminia Rodriguezdeysi uft
 
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und SozialversicherungrechtGrenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und SozialversicherungrechtCosmos Verlag AG
 
2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)Voluntariado A IC
 
El concepto del líder y el maestro como líder
El concepto del líder y el maestro como líderEl concepto del líder y el maestro como líder
El concepto del líder y el maestro como líderivanova16
 
Características tic
Características ticCaracterísticas tic
Características tickrissdiaz9
 
Redes sociales
Redes socialesRedes sociales
Redes socialescrhz
 
Trabajo de habilidades del pensamiento
Trabajo de habilidades del pensamientoTrabajo de habilidades del pensamiento
Trabajo de habilidades del pensamientovictorjami150
 
Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.Karina Ivonne
 
Herramientas de las tic
Herramientas de las ticHerramientas de las tic
Herramientas de las ticMYCIEL
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009Ralf Stockmann
 
KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014Patricia Brune
 

Destacado (20)

Das will ich werden
Das will ich werden Das will ich werden
Das will ich werden
 
PNL _ Carminia Rodriguez
PNL _ Carminia RodriguezPNL _ Carminia Rodriguez
PNL _ Carminia Rodriguez
 
Energias
EnergiasEnergias
Energias
 
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und SozialversicherungrechtGrenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
Grenzüberschreitende Arbeitsverhältnisse im Steuer- und Sozialversicherungrecht
 
El moño
El moñoEl moño
El moño
 
Servidores trabajo
Servidores trabajoServidores trabajo
Servidores trabajo
 
2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)2013 cuarto domingo de adviento(fil eminimizer)
2013 cuarto domingo de adviento(fil eminimizer)
 
Guión técnico
Guión técnicoGuión técnico
Guión técnico
 
El concepto del líder y el maestro como líder
El concepto del líder y el maestro como líderEl concepto del líder y el maestro como líder
El concepto del líder y el maestro como líder
 
El sistema solar
El sistema solarEl sistema solar
El sistema solar
 
Características tic
Características ticCaracterísticas tic
Características tic
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Trabajo de habilidades del pensamiento
Trabajo de habilidades del pensamientoTrabajo de habilidades del pensamiento
Trabajo de habilidades del pensamiento
 
Fauna
FaunaFauna
Fauna
 
Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.Trabajo de taller de comunicacion equipo peu.
Trabajo de taller de comunicacion equipo peu.
 
Herramientas de las tic
Herramientas de las ticHerramientas de las tic
Herramientas de las tic
 
Tejidos vanessa
Tejidos vanessaTejidos vanessa
Tejidos vanessa
 
Byrne, rhonda el secreto
Byrne, rhonda   el secretoByrne, rhonda   el secreto
Byrne, rhonda el secreto
 
eAqua und europeana4D - 2009
eAqua und europeana4D - 2009eAqua und europeana4D - 2009
eAqua und europeana4D - 2009
 
KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014KCKPL Report to USD 500 Board of Education - Dec/2014
KCKPL Report to USD 500 Board of Education - Dec/2014
 

Similar a Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Digitale Kamera und Modulationstransferfunktion
Digitale Kamera und ModulationstransferfunktionDigitale Kamera und Modulationstransferfunktion
Digitale Kamera und ModulationstransferfunktionRoland Bruggmann
 
Photoshop Einführung Teil 1
Photoshop Einführung Teil 1Photoshop Einführung Teil 1
Photoshop Einführung Teil 1Nils Peters
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungRalf Stockmann
 
Persitent Identifier in Goobi
Persitent Identifier in GoobiPersitent Identifier in Goobi
Persitent Identifier in GoobiRalf Stockmann
 
Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Ralf Stockmann
 
Erstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second LifeErstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second LifeStefanie Knoth
 
Grundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloesGrundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloesWGS
 

Similar a Visually Lossless Kompression für die Digitalisierung an Bibliotheken (13)

Digitale Kamera und Modulationstransferfunktion
Digitale Kamera und ModulationstransferfunktionDigitale Kamera und Modulationstransferfunktion
Digitale Kamera und Modulationstransferfunktion
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
Quality
QualityQuality
Quality
 
Photoshop Einführung Teil 1
Photoshop Einführung Teil 1Photoshop Einführung Teil 1
Photoshop Einführung Teil 1
 
Mühlberger Digitalisierung Impact Workshop MUC
Mühlberger Digitalisierung Impact Workshop MUCMühlberger Digitalisierung Impact Workshop MUC
Mühlberger Digitalisierung Impact Workshop MUC
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
BIT I SoSem 2015 | Basisinformationstechnologie II - 06_Algorithmen der Bildv...
 
Workfloworchestrierung Massendigitalisierung
Workfloworchestrierung MassendigitalisierungWorkfloworchestrierung Massendigitalisierung
Workfloworchestrierung Massendigitalisierung
 
Persitent Identifier in Goobi
Persitent Identifier in GoobiPersitent Identifier in Goobi
Persitent Identifier in Goobi
 
Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009Goobi Präsentation Darmstadt 2009
Goobi Präsentation Darmstadt 2009
 
Erstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second LifeErstellung eines Virtuellen Hörsaals in Second Life
Erstellung eines Virtuellen Hörsaals in Second Life
 
Grundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloesGrundlagen digitaler bildbearbeitung dominik bloes
Grundlagen digitaler bildbearbeitung dominik bloes
 
Computergrafik
ComputergrafikComputergrafik
Computergrafik
 
GIMP als Werkzeug für Astrofotografen
GIMP als Werkzeug für AstrofotografenGIMP als Werkzeug für Astrofotografen
GIMP als Werkzeug für Astrofotografen
 

Más de Ralf Stockmann

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetRalf Stockmann
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Ralf Stockmann
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannRalf Stockmann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Ralf Stockmann
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintRalf Stockmann
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeRalf Stockmann
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenRalf Stockmann
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer DatenRalf Stockmann
 
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRDFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRRalf Stockmann
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltRalf Stockmann
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteRalf Stockmann
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Ralf Stockmann
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Ralf Stockmann
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Ralf Stockmann
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Ralf Stockmann
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Ralf Stockmann
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Ralf Stockmann
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungRalf Stockmann
 

Más de Ralf Stockmann (20)

Freiräume schaffen - im Social Intranet
Freiräume schaffen - im Social IntranetFreiräume schaffen - im Social Intranet
Freiräume schaffen - im Social Intranet
 
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
Die Bibliothek als Wolkenfabrik - Cloud-Dienste als Plattformen für digitale ...
 
Wie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kannWie man vom Intranet aus die Welt verbessern kann
Wie man vom Intranet aus die Welt verbessern kann
 
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
Die Revolution vergisst ihre Kinder - Drei Szenarien, wie Bibliotheken in 15 ...
 
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeintDer Zauberlehrling 
war nicht als
 Anleitung gemeint
Der Zauberlehrling 
war nicht als
 Anleitung gemeint
 
BibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale WissensräumeBibliothekarInnen gestalten digitale Wissensräume
BibliothekarInnen gestalten digitale Wissensräume
 
Was Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen könnenWas Bibliotheken von der Zukunft lernen können
Was Bibliotheken von der Zukunft lernen können
 
Visualisierung bibliographischer Daten
Visualisierung bibliographischer DatenVisualisierung bibliographischer Daten
Visualisierung bibliographischer Daten
 
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCRDFG Expertenworkshop - Workflow Volltextgenerierung über OCR
DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen Welt
 
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und AnknüpfungspunkteDie DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
Die DDB als offene Plattform - Weiterentwicklungen und Anknüpfungspunkte
 
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
Deutsche Digitale Bibliothek - Vorstellung CeBit 2008
 
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...Central Registry for Digitized Objects: Linking Production and Bibliographic ...
Central Registry for Digitized Objects: Linking Production and Bibliographic ...
 
Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)Europeana4D - Exploring data in Space and Time (2011)
Europeana4D - Exploring data in Space and Time (2011)
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)Mets opening day - web based mets creation (2007)
Mets opening day - web based mets creation (2007)
 
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
Ist Langzeitarchivierung finanzierbar? Präsentation Akademie Sankelmark 2008
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen
 
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
Controlled Vocabularies and Text Mining - Use Cases at the Goettingen State a...
 
GUI-Mockups in der Softwareentwicklung
GUI-Mockups in der SoftwareentwicklungGUI-Mockups in der Softwareentwicklung
GUI-Mockups in der Softwareentwicklung
 

Último (7)

LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdfLAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
LAKO Kreativpreis_2024_Startnummer_02_(LFS_LA).pdf
 
1029-Danh muc Sach Giao Khoa khoi 12.pdf
1029-Danh muc Sach Giao Khoa khoi 12.pdf1029-Danh muc Sach Giao Khoa khoi 12.pdf
1029-Danh muc Sach Giao Khoa khoi 12.pdf
 
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-EssenWirtschaftsingenieurwesen an der Universität Duisburg-Essen
Wirtschaftsingenieurwesen an der Universität Duisburg-Essen
 
Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.Angewandte Philosophie an der Universität Duisburg-Essen.
Angewandte Philosophie an der Universität Duisburg-Essen.
 
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_EssenAngewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
Angewandte Kognitions- und Medienwissenschaft an der Universität Duisburg_Essen
 
Welche KI-Kompetenzen brauchen Lehrpersonen?!
Welche KI-Kompetenzen brauchen Lehrpersonen?!Welche KI-Kompetenzen brauchen Lehrpersonen?!
Welche KI-Kompetenzen brauchen Lehrpersonen?!
 
1029-Danh muc Sach Giao Khoa khoi 11.pdf
1029-Danh muc Sach Giao Khoa khoi 11.pdf1029-Danh muc Sach Giao Khoa khoi 11.pdf
1029-Danh muc Sach Giao Khoa khoi 11.pdf
 

Visually Lossless Kompression für die Digitalisierung an Bibliotheken

  • 1. Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der Wissenschaftspraxis Dipl. Sozw. Ralf Stockmann SUB Göttingen, Abteilung Forschung und EntwicklungGöttinger Digitalisierungszentrum Kolloquium: Datenkomprimierung bei Bild, Audio und Video
  • 2. Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet Auftrag: Grundlagenforschung im Bereich Digitalisierung an Bibliotheken Entwicklung von Verfahren und best practice Andere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisieren Insgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten Seiten Im Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite) Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)
  • 3. Ausgangslage Deutschland: DFG-Praxisregeln Verwendung von TIFF Kompression nur verlustfrei KB: Einführung des Begriffes „visuallylossless“ Mit der Massendigitalisierung explodieren die Storage-Anforderungen Ein Rechenbeispiel (GDZ 2010):
  • 4. Produktion des GDZ 2010 8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden Durchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten) Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MB Summe: 115 TB pro Jahr
  • 5. Standpunkt DFG: „Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“
  • 6. Lösungsansatz: Kompression Für bitonaleScans schon immer erfolgreich eingesetzt 600 dpi optische Auflösung Verlustfreie FAX G4 Kompression (160KB statt 24 MB) Anwendung: was nach ca. 1850 bitonal gedruckt wurde dürfen wir auch bitonal scannen Problem: Farbscans
  • 7. JPEG 2000 Pro Sowohl lossless als verlustbehaftete Kompression möglich Quellofen Kompression granular regelbar Zoomstufen können direkt aus Original abgeleitet werden Metadaten im Header gut strukturierbar Gute Robustheit gegen Fehler (Bild wird dennoch aufgebaut) Contra Geringe Verbreitung (Browser, Editoren) Rendering aufwändiger Ungewisse Zukunft
  • 8. These „Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“
  • 9. Gegenthesen Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen. Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.
  • 11. Beispiel Headroom Original RAW Optimierung aus JPG Optimierung aus RAW
  • 12. Testsystem Mac OS 10.6.2 Adobe Photoshop CS4 Adobe JPEG 2000 Filter ZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €) Vorlagen aus aktuellen Scanprojekten des GDZ
  • 13. Test 1Auswirkungen Kompression 300 dpi 15,7 x 22,6 cm Ca. 5 Megapixel
  • 14. Messverfahren: Differenzbild Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt Ebene 1: Referenzebene (TIFF uncompressed) Ebene 2: Testebene (verändert) Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbar Je heller das Bild desto stärker die Abweichung
  • 15. Beispiel: einheitliche Störung (Rauschfilter) Original 3% Rauschen
  • 16. Differenzbild(bitonalisiert mit threshhold 3) Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung)
  • 17. Partielle Verfremdungen: unscharf maskieren Original unscharfmaskiert Differenzwert 31
  • 18. Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden) Original 90 / - 80 / 800% 70 / 600% 60 / 300% 50 / 200% 40 / 200%
  • 19. Differenzmessung(Kompression JPEG 2000 / Differenzwert) Lossless / 0 90 / 0 80 / 1 70 / 8 60 / 41 50 / 64 40 / 75
  • 21. Test 2Varianz bei Neuaufnahme Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF
  • 22. Visueller Vergleich Vergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar
  • 23. Differenzbild TIFF zu TIFF Differenzwert 82 Original
  • 24. Differenzbild TIFF-Scannachdem Buch neu aufgelegt wurde Differenzwert 86 nach Rotation Differenzwert 90
  • 26. Zwischenergebnis Selbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan am selben Gerät entstehen Es gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im Scangerät Strukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar) „visuallylossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden. Der „sweetspot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)
  • 27. Test 3Headroom TIFF vs. JPEG 2000 / 70 Differenzwert 8
  • 29. Angepasst TIFF vs. JPG 2000 / 70 TIFF angepasst JPEG 2000 angepasst
  • 30. Differenzbilder 80er Kompression Differenzwert: 54 70er Kompression Differenzwert: 80
  • 31. Zwischenergebnis Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen. Bestehende Differenzunterschiede potenzieren sich mit dem Grad der Bildmanipulation Einen echten Mehrwert liefert nur ein RAW Format
  • 32. Fazit Für den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed. Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden. Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit. Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren? Ja: Consumer Speicher Fraglich: Archivspeicher (seit Jahren konstant teuer)