Seit einiger Zeit wird im Digitalisierungsbereich an Bibliotheken eine neue Begrifflichkeit diskutiert: „visually lossless compression“. Das Konzept geht davon aus, das eine verlustbehaftete Datenkompression dann hinzunehmen ist wenn auch unter fortschrittlichen Nutzungsbedingungen (kalibrierter Monitor, hohe Zoomstufe) Unterschiede zum nicht komprimierten Original vielleicht zu messen, aber nicht visuell wahrzunehmen sind. Als Dateiformat wird hier insbesondere JPEG 2000 in Feld geführt. Nach der hier dargestellten Messreihe konnte ich nachweisen, das in der Tat die Unterschiede die durch eine maßvolle Komprimierung entstehen erheblich weniger mess- und sichtbar sind als die Unterschiede die entstehen wenn ich dieselbe Seite vom selben Scanoperateur auf dem selben Gerät noch einmal scannen lasse. Der mögliche Platzgewinn liegt hier in etwa um den Faktor 3, was ein spürbarer Gewinn wäre, aber andererseits noch kein Quantensprung. Hier ist zu Recht zu hinterfragen, ob dieser moderate Vorteil bei der Dateigröße mit dem Prinzipiellen Makel des Weglassens bestehender Daten wirklich erkauft werden sollte. Als Argument dagegen wird angebracht das die Speicherpreise sehr schnell sinken, wir also in absehbarer Zeit kein Problem mehr mit der Speicherung haben werden. Dies mag für Consumerstorage aus den Elektronikmärkten zutreffend sein, für redundanten Archivspeicher hingegen liegen die Preise seit ca. 3 Jahren konstant, ohne dass sich eine Änderung abzeichnen würde.
Visually Lossless Kompression für die Digitalisierung an Bibliotheken
1. Bild-Datenkomprimierungaus Sicht der Nutzer:Experimente und Befunde aus der Wissenschaftspraxis Dipl. Sozw. Ralf Stockmann SUB Göttingen, Abteilung Forschung und EntwicklungGöttinger Digitalisierungszentrum Kolloquium: Datenkomprimierung bei Bild, Audio und Video
2. Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet Auftrag: Grundlagenforschung im Bereich Digitalisierung an Bibliotheken Entwicklung von Verfahren und best practice Andere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisieren Insgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten Seiten Im Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite) Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)
3. Ausgangslage Deutschland: DFG-Praxisregeln Verwendung von TIFF Kompression nur verlustfrei KB: Einführung des Begriffes „visuallylossless“ Mit der Massendigitalisierung explodieren die Storage-Anforderungen Ein Rechenbeispiel (GDZ 2010):
4. Produktion des GDZ 2010 8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden Durchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten) Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MB Summe: 115 TB pro Jahr
5. Standpunkt DFG: „Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“
6. Lösungsansatz: Kompression Für bitonaleScans schon immer erfolgreich eingesetzt 600 dpi optische Auflösung Verlustfreie FAX G4 Kompression (160KB statt 24 MB) Anwendung: was nach ca. 1850 bitonal gedruckt wurde dürfen wir auch bitonal scannen Problem: Farbscans
7. JPEG 2000 Pro Sowohl lossless als verlustbehaftete Kompression möglich Quellofen Kompression granular regelbar Zoomstufen können direkt aus Original abgeleitet werden Metadaten im Header gut strukturierbar Gute Robustheit gegen Fehler (Bild wird dennoch aufgebaut) Contra Geringe Verbreitung (Browser, Editoren) Rendering aufwändiger Ungewisse Zukunft
8. These „Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“
9. Gegenthesen Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen. Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.
14. Messverfahren: Differenzbild Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt Ebene 1: Referenzebene (TIFF uncompressed) Ebene 2: Testebene (verändert) Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbar Je heller das Bild desto stärker die Abweichung
21. Test 2Varianz bei Neuaufnahme Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF
26. Zwischenergebnis Selbst bei hohen Kompressionsstufen liegen die Abweichungen unterhalb derer, die durch einen Neuscan am selben Gerät entstehen Es gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im Scangerät Strukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar) „visuallylossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden. Der „sweetspot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)
31. Zwischenergebnis Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen. Bestehende Differenzunterschiede potenzieren sich mit dem Grad der Bildmanipulation Einen echten Mehrwert liefert nur ein RAW Format
32. Fazit Für den Bereich Archivierung der Massendigitalisierung spricht die reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed. Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden. Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit. Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren? Ja: Consumer Speicher Fraglich: Archivspeicher (seit Jahren konstant teuer)