SlideShare una empresa de Scribd logo
1 de 39
Descargar para leer sin conexión
»Arme Nachlassverwalter…« –
Herausforderungen, Erkenntnisse
und Lösungsansätze bei der Aufbereitung
komplexer digitaler Datensammlungen
Weimar, 11. März 2014
juergen.enge@hawk-hhg.de
heinz.werner.kramski@dla-marbach.de
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nach- und Vorlassteile
insgesamt bis 2013 (ohne
Friedrich Kittler):
• 35 Bestände, 281 Disketten,
15 CD-Rs etc., 14 Zugänge
via E-Mail/USB-Stick etc.
• 26.700 Originaldateien mit 14
GB
D-Archiv 1.0: ca. 2003 bis 2013
Digitale Nach- und Vorlassteile
insgesamt bis 2013 (ohne
Friedrich Kittler):
• 35 Bestände, 281 Disketten,
15 CD-Rs etc., 14 Zugänge
via E-Mail/USB-Stick etc.
• 26.700 Originaldateien mit 14
GB
Adler, Hans Günther; Berbig, Roland;
Claudius, Hermann; Delius, Friedrich
Christian; Domin, Hilde; Elias, Norbert;
Gadamer, Hans-Georg; Goldschmidt,
Georges-Arthur; Gumbrecht, Hans Ulrich;
Hentig, Hartmut von; Iser, Wolfgang; Jauss,
Hans Robert; Kaufmann, Hans; Koselleck,
Reinhart; Kronauer, Brigitte; Lengemann,
Jochen ; Lübbe, Hermann; Mattenklott, Gert;
Mickel, Karl; Naumann, Manfred; Novak,
Helga M.; Olden, Balder; Pastior, Oskar;
Richartz, Walter Erich; Ritter, Henning;
Rowohlt-Verlag; Rüegg, Walter; Rühmkorf,
Peter; Schlöndorff, Volker; Schnabel, Ernst;
Schumann, Michael; Schwarz, Egon;
Schwenger, Hannes; Strittmatter, Thomas;
Zimmer, Heinrich;
Friedrich Kittler: Mengen
- Fünf (sieben?) PCs
- Sechs Festplatten(-Images) mit
10 Partitionen (»hd«)
- 336 Disketten (»fd«)
- 104 optische Medien (CD-R,
»od«)
- 4 Dateisammlungen auf
externen [DLA-]Medien, »xd«)
- ca. 250 Dateien mit Video-
Mitschnitten (DV, AVI)
Ca. 1,7 Mio. Dateien, ca. 1,1 TB
»arme Nachlaßverwalter…«
FK: Anzahl Datenträger
FK: 444
Bisher: 281
FK: Anzahl Dateien (ohne Mediendok.)
FK: ca. 1,7 Millionen
Bisher: ca. 26.700
DLA Workflow 1.0: Grenzen
Der bisherige Workflow skaliert nicht:
1. Eine implizite Relevanzzuschreibung für das gesamte digitale
Material existiert nicht.
2. Kittlers unkonventionelle Arbeitsweise (root) und kreative
Benennungsschemata lassen einfache Schlüsse jedoch nicht zu
(so ist z.B. /home idR. irrelevant, /usr/ich aber sehr relevant).
3. Eine Dateiformatmigration für alle Dateien ist wegen des Umfangs
unmöglich, eine Auswahl muss getroffen werden.
Lösungsansatz
Ironmaiden
»Intelligent Read-Only Media Identification Engine«
»Intelligent Recursive Online Metadata and Indexing Engine«
(aka »Indexer«)
Autor: Jürgen Enge, ZIMT (HAWK Hildesheim/Holzminden/Göttingen)
Status: reifer Prototyp auf VM des DLA, alle (ca. 300) mountbaren
Datenträger-Images als Loopback-Devices im Zugriff, Dateianalyse
und Volltext-Indexierung nahezu abgeschlossen; nur (sehr) interner
Zugang wg. sehr privater Dokumente.
Ziel
Werkzeug zur Erfassung unstrukturierter digitaler
Datenbestände in der Vorstufe zur Archivierung
• Niederschwelliger Zugang
• Hoher Automatisierungsgrad
• Leichte Erweiterbarkeit
• Performanz
• Transparente Systematik
Niederschwelliger Zugang
• Webfrontend
• Einfacher Zugang
• Nutzbarkeit mit verschiedenen Komplexitätsebenen
Niederschwelliger Zugang
Niederschwelliger Zugang
Hoher Automatisierungsgrad /
Leichte Erweiterbarkeit
• Logisches Vorgehen
• Dateistruktur in Datenbank einlesen
• Prüfsummen erstellen
• Identifizieren
• Libmagic
• Gvfs-info
• Tika
• Detex
Dateisystem / Prüfsumme
libmagic
Gvfs-info
application/octet-stream
Apache Tika
Image Magick
avconv/ffmpeg
Weitere Volltexte
Erkennungs-
resultate
(MySQL)
Indexer
IndexerErkennungs-
kaskade
Dateisystem-
indizierung
Volltextindex
(SOLR)
Webserver
Webclient
Autonomes
Subsystem
Systemarchitektur
Sektor-
Images
(Quelle)
Mountpoints
(Ordner)
Cache
Webfrontend
Autocomplete
Facette
Webfrontend
Webfrontend
Anzahl Dauer
SOLR
Query
Paging
Webfrontend
MIME-Type
Dateigröße
Dateiname
Interne
SignaturDatenträger
Änderungs-
datum
Gefundene
Textstelle(n)
Webfrontend
#4078.1749383, text/x-csrc (1990-07-06T02:00:00Z). CALLTEST.C,
in: Bestand A:Kittler/DLA Marbach. fd077:// [fd, 389 B].
Webfrontend
National Software Reference Library
sessionid 4078 =
Floppy 077, 3,5“, vfat,
ca. 1992
Mögliche Fragestellungen (Beispiele)
- Welche Dateien sind binäridentisch (lt. Prüfsumme) und können als
Dubletten ausgeschieden werden?
- Welche Dateien haben die Größe 0 Bytes und können/müssen
nicht weiter bearbeitet werden? [live]
- Welche Bilder gibt es im Datenträger-Nachlass? Audio-Dateien?
Videos? [live1, live2, live3]
- Welche Textverarbeitungsprogramme hat Kittler benutzt?
- Auf welchen Datenträgern gibt es Ordner des Namens »ich«? [live]
- Welche Dateien sind MS-Word-Dateien, obwohl sie nicht den Typ
».doc« tragen? [live]
- Welche E-Mails vom, an das oder über das DLA Marbach hat Kittler
aufgehoben? [live]
Mögliche Fragestellungen (Beispiele)
- Welche Quelltexte tragen typische Kittler-Spuren (z.B. das Kürzel
»FAK« im Volltext), obwohl sie in typischen Systemordnern liegen?
[live]
- In welchen Varianten kommt die Datei »komment« in den
verschiedenen Backup-Medien und Festplattengenerationen vor?
[live]
- Ist die SGI-Workstation-Festplatte hd06 wirklich komplett
irrelevant?
- (Wann) hat Kittler einen Vortrag beim Chaos Computer Club
Hamburg gehalten? (Und worüber hat er gesprochen? Ist der Text
erhalten?) [live1, live2, live3, weiter]
Download
Download
Destillation der relevanten Dateien
Fazit
Ironmaiden aka Indexer
• Einfach erweiterbar
• Robust
• Skalierbar
• Benötigt einfaches Refactoring
• Einfacher Zugriff auf Inhalte
• Ist KEIN Archiv
Zusammenfassung und Ausblick
Bitstream Preservation:
Dateiformatanalyse:
Bewertung, Erschließung:
Dateiformat-Migration:
Emulation:
Benutzung:

Más contenido relacionado

Destacado

Miroslaw Magola book "Moc mozgu"
Miroslaw Magola book "Moc mozgu"Miroslaw Magola book "Moc mozgu"
Miroslaw Magola book "Moc mozgu"Miroslaw Magola
 
5020 week 9 phonemic a phonics slides
5020 week 9 phonemic a phonics slides 5020 week 9 phonemic a phonics slides
5020 week 9 phonemic a phonics slides SVTaylor123
 
Made by Many Sweden
Made by Many SwedenMade by Many Sweden
Made by Many SwedenMade by Many
 
Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...
Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...
Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...Anil Yadav
 
Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...
Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...
Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...Games for Health Europe
 
Understanding Email Marketing
Understanding Email MarketingUnderstanding Email Marketing
Understanding Email MarketingKrisno Wisnuadi
 
A Revolução Digital e a História Das Revoluções Comunicativas
A Revolução Digital e a História Das Revoluções ComunicativasA Revolução Digital e a História Das Revoluções Comunicativas
A Revolução Digital e a História Das Revoluções Comunicativasgmsarti
 
Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...
Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...
Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...MG Abenio
 
Лучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в мире
Лучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в  миреЛучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в  мире
Лучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в миреinfoncepakz
 
Корнієнко М. М. Конструювання уроку інформатики у початковій школі з викорис...
Корнієнко М. М. Конструювання уроку інформатики  у початковій школі з викорис...Корнієнко М. М. Конструювання уроку інформатики  у початковій школі з викорис...
Корнієнко М. М. Конструювання уроку інформатики у початковій школі з викорис...Електронні книги Ранок
 
How to Convert Website Visitors into Guests
How to Convert Website Visitors into GuestsHow to Convert Website Visitors into Guests
How to Convert Website Visitors into GuestsLeonardo
 

Destacado (15)

Miroslaw Magola book "Moc mozgu"
Miroslaw Magola book "Moc mozgu"Miroslaw Magola book "Moc mozgu"
Miroslaw Magola book "Moc mozgu"
 
5020 week 9 phonemic a phonics slides
5020 week 9 phonemic a phonics slides 5020 week 9 phonemic a phonics slides
5020 week 9 phonemic a phonics slides
 
Made by Many Sweden
Made by Many SwedenMade by Many Sweden
Made by Many Sweden
 
Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...
Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...
Power Optimized ALU Design with Control-Signal Gating Technique for Efficient...
 
Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...
Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...
Games for Health Europe - Federico Semeraro & Luca Marchetti - Relive: a game...
 
Trustport For Partner
Trustport For PartnerTrustport For Partner
Trustport For Partner
 
Synchronous link converter var compensator (SLCVC)
Synchronous link converter var compensator (SLCVC)Synchronous link converter var compensator (SLCVC)
Synchronous link converter var compensator (SLCVC)
 
Take My Job!
Take My Job!Take My Job!
Take My Job!
 
Understanding Email Marketing
Understanding Email MarketingUnderstanding Email Marketing
Understanding Email Marketing
 
Mangle 2475
Mangle 2475Mangle 2475
Mangle 2475
 
A Revolução Digital e a História Das Revoluções Comunicativas
A Revolução Digital e a História Das Revoluções ComunicativasA Revolução Digital e a História Das Revoluções Comunicativas
A Revolução Digital e a História Das Revoluções Comunicativas
 
Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...
Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...
Argumentative Research Paper PPT. about the Spratly Islands Dispute between C...
 
Лучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в мире
Лучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в  миреЛучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в  мире
Лучшее ДОШКОЛЬНОЕ ОБРАЗОВАНИЕ в мире
 
Корнієнко М. М. Конструювання уроку інформатики у початковій школі з викорис...
Корнієнко М. М. Конструювання уроку інформатики  у початковій школі з викорис...Корнієнко М. М. Конструювання уроку інформатики  у початковій школі з викорис...
Корнієнко М. М. Конструювання уроку інформатики у початковій школі з викорис...
 
How to Convert Website Visitors into Guests
How to Convert Website Visitors into GuestsHow to Convert Website Visitors into Guests
How to Convert Website Visitors into Guests
 

Similar a »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIBintranda GmbH
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...ag-digitalisierung
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSven Schlarb
 
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...Jakob .
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoopfun communications GmbH
 
Datenformate und Standards
Datenformate und StandardsDatenformate und Standards
Datenformate und StandardsJakob .
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentricimalik8088
 
Clt2008 Onlinedurchsuchung
Clt2008 OnlinedurchsuchungClt2008 Onlinedurchsuchung
Clt2008 Onlinedurchsuchungbofh42
 

Similar a »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen (15)

3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
3. intranda viewer Tag: Digitale Langzeitarchivierung an der TIB
 
Forschungsdaten fachspezifisch archivieren und bereitstellen
Forschungsdaten fachspezifisch archivieren und bereitstellenForschungsdaten fachspezifisch archivieren und bereitstellen
Forschungsdaten fachspezifisch archivieren und bereitstellen
 
Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
digital.bewegungsarchive.de - das Digitalisierungsportal für die Archive von ...
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
Herausforderungen und Lösungen bei der Publikation und Nutzung von Normdaten ...
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
Webinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit HadoopWebinar Big Data - Enterprise Readiness mit Hadoop
Webinar Big Data - Enterprise Readiness mit Hadoop
 
Datenformate und Standards
Datenformate und StandardsDatenformate und Standards
Datenformate und Standards
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Unixkurs 04 - Dateien
Unixkurs 04 - DateienUnixkurs 04 - Dateien
Unixkurs 04 - Dateien
 
Forschungsdaten – Nach der Publikation ist vor der Archivierung!
Forschungsdaten – Nach der Publikation ist vor der Archivierung!Forschungsdaten – Nach der Publikation ist vor der Archivierung!
Forschungsdaten – Nach der Publikation ist vor der Archivierung!
 
Clt2008 Onlinedurchsuchung
Clt2008 OnlinedurchsuchungClt2008 Onlinedurchsuchung
Clt2008 Onlinedurchsuchung
 

»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen