Metadatenanreicherung im digitalen Publikationsprozess
1. Metadatenanreicherung im digitalen
Publikationsprozess
Diplomarbeit an der
Technischen Universität Dresden
Januar 2009
Alexander Haffner
Betreuer: Dipl.-Bibl. Christine Frodl
Dipl.-Ing. Thorsten Völkel
Verantwortlicher Hochschullehrer: Prof. Dr. rer. nat. habil. Gerhard Weber
Professur Mensch-Computer Interaktion
Institut für Angewandte Informatik
Fakultät Informatik
2.
3. Fakultät Informatik
Institut für Angewandte Informatik
Professur Mensch-Computer Interaktion
AUFGABENSTELLUNG FÜR DIE DIPLOMARBEIT
Name, Vorname: Haffner, Alexander
Studiengang: Informatik
Immatrikulationsnummer: 2704099
Thema: Metadatenanreicherung im digitalen Publikationsprozess
Zielstellung:
Digitale Bibliotheken nehmen im modernen Publikationsprozess von Dokumenten
eine zentrale Rolle ein. Aufbauend auf Konzepten digitaler Archivierungssysteme ist
anhand von geeigneten Metadatenanreicherungsstrategien ein optimierter Workflow
unter Einbeziehung aller partizipierenden Organisationen zu entwickeln. Weiterfüh-
rend sind für die Prozessmodellierung insbesondere Untersuchungen zur Integration
von Konzepten zur Erhöhung der Barrierefreiheit einzubinden.
Teilziele:
1. Erhebung einer Anforderungsspezifikation für die Bereitstellung von Metada-
ten durch Autoren, Verlage und Bibliotheken
2. Konzeption eines Metadatensatzes zur Ausweisung der Barrierefreiheit von
elektronischen Publikationen
3. Entwicklung eines erweiterten Prozessmodells unter der Einbeziehung von
Accessibility-Aspekten
4. Konzeption und prototypische Implementierung einer webbasierten Anwen-
dung für die Einpflege von Digital Talking Books
5. Metadatenvisualisierungskonzepte für die Endnutzer
Fachbetreuer: Dipl.-Bibl. Christine Frodl
Dipl.-Ing. Thorsten Völkel
Verantwortl. Hochschullehrer: Prof. Dr. rer. nat. habil. Gerhard Weber
Beginn: 2008-08-01
Einzureichen bis: 2009-01-31
Unterschrift des verantwortlichen Hochschullehrers
4. Erklärung
Hiermit erkläre ich, Alexander Haffner, die vorliegende Diplomarbeit zum Thema
Metadatenanreicherung im digitalen Publikationsprozess
selbstständig und ausschließlich unter Verwendung der im Quellenverzeichnis aufge-
führten Literatur- und sonstigen Informationsquellen verfasst zu haben.
Ort, Datum Unterschrift
5. Metadatenanreicherung im digitalen Publikationsprozess Inhaltsverzeichnis
Inhaltsverzeichnis
1 Einführung ......................................................................................... 1
1.1 Motivation ........................................................................................................1
1.2 Zielstellung ......................................................................................................1
1.3 Inhaltlicher Aufbau ...........................................................................................2
1.4 Danksagung ....................................................................................................3
2 Metadaten .......................................................................................... 4
2.1 Was sind Metadaten? ......................................................................................4
2.2 Die Rolle der Bibliothek ...................................................................................5
2.2.1 Was braucht ein Katalog?..........................................................................6
2.2.2 Herkömmliche Regelwerke für die Katalogisierung ...................................6
2.2.3 Resource Description and Access (RDA) ..................................................9
2.3 Arten von Metadaten .....................................................................................13
2.4 Metadatenstandards ......................................................................................15
2.5 Zusammenfassung ........................................................................................17
3 Modellierung der Prozesse in digitalen Bibliotheken .................. 18
3.1 Die digitale Bibliothek ....................................................................................18
3.2 Open Archival Information System (OAIS) Reference Model ........................19
3.3 Harvesting .....................................................................................................22
3.4 Open Archives Initiative Object Reuse and Exchange (OAI-ORE) ................25
4 Anforderungen und Analyse .......................................................... 28
4.1 Barrierefreiheit in der digitalen Bibliothek ......................................................28
4.2 Digitale Publikationen ....................................................................................30
4.2.1 PDF-Dokumente ......................................................................................31
4.2.2 Digital Talking Book .................................................................................33
4.3 Prozesspartizipierende Organisationen .........................................................38
4.3.1 Deutsche Nationalbibliothek (DNB) .........................................................38
4.3.2 Sächsische Landesbibliothek – Staats- und Universitätsbibliothek
Dresden (SLUB) ..................................................................................................47
4.3.3 Deutsche Zentralbücherei für Blinde zu Leipzig (DZB) ............................53
4.3.4 Mediengemeinschaft für blinde und sehbehinderte Menschen e.V. ........58
5 Barrierefreiheit und Metadaten ...................................................... 61
5.1 Accessibility-Metadaten .................................................................................62
5.1.1 IMS AccessForAll Meta-data (ACCMD)...................................................62
5.1.2 Dublin Core AccessForAll (DC-AfA) ........................................................63
5.2 Metadaten zur Aggregation ...........................................................................65
5.2.1 Metadaten für die Entitätsbeziehungen gemäß dem FRBR Model ..........66
5.2.2 Verknüpfung von Struktur-Metadaten und Accessibility-Metadaten.........68
5.2.3 Serialisierung der Metadaten ...................................................................72
6 Modellierung eines erweiterten Prozessmodells für das digitale
Publizieren ............................................................................................ 83
6.1 Katalogisierung, Metadatenanreicherung und Archivierung ..........................83
6.2 Ressourcenproduktion und Einpflege ............................................................90
6.3 Zugänglichkeitsgewährung zu Ressourcen ...................................................96
6.4 Kollaborative Accessibility .............................................................................99
7 Komponente zur Einpflege von DTBs ......................................... 101
7.1 Anforderungen .............................................................................................101
7.1.1 Nicht-funktionale Anforderungen ...........................................................101
7.1.2 Funktionale Anforderungen ...................................................................101
Copyright TU Dresden, Alexander Haffner I
6. Metadatenanreicherung im digitalen Publikationsprozess Inhaltsverzeichnis
7.2 Umsetzung ..................................................................................................102
8 Präsentation von Metadaten ........................................................ 104
9 Schlussbetrachtungen ................................................................. 108
Literaturverzeichnis ........................................................................... 110
Abkürzungsverzeichnis ..................................................................... 116
Abbildungsverzeichnis ...................................................................... 119
Tabellenverzeichnis ........................................................................... 120
A Metadatenstandardkompendium .................................................. 121
A.1 Maschinelles Austauschformat für Bibliotheken (MAB) ..................................121
A.2 MARC 21........................................................................................................121
A.3 Metadata Object Description Schema (MODS) ..............................................127
A.4 Dublin Core ....................................................................................................128
A.5 Pica+/Pica3 ....................................................................................................132
A.6 Online Information Exchange (ONIX) .............................................................133
A.7 XMetaDiss......................................................................................................137
A.8 Extensible Metadata Platform (XMP) .............................................................139
A.9 Metadaten zur Langzeitarchivierung ..............................................................142
A.9.1 Preservation Metadata: Implementation Strategies (PREMIS).................142
A.9.2 Langzeitarchivierungsmetadaten für elektronische Ressourcen (LMER) .145
A.10 Metadata Encoding and Transmission Standard (METS) ............................146
A.11 XML Formatted Data Unit (XFDU) ...............................................................148
B DAISY-Metadaten............................................................................ 151
B.1 Metadaten in Digital Talking Books gemäß ANSI/NISO Z39.86-2005............151
B.1.1 Publikationsmetadaten in OPF .................................................................151
B.1.2 Metadaten in SMIL ...................................................................................151
B.1.3 Navigationsmetadaten im NCX ................................................................152
B.2 Metadaten in DAISY 2.02 Dokumenten..........................................................152
B.2.1 Metadaten in NCC.HTML .........................................................................152
B.2.2 Metadaten in SMIL ...................................................................................153
B.2.3 Master SMIL Metadaten ...........................................................................153
C Accessibility-Metadaten................................................................. 154
C.1 IMS AccessForAll Meta-data (ACCMD) Abstract Model ................................154
C.2 Dublin Core AccessForAll (AfA) Abstract Model ............................................155
D Konkordanz DTB-Metadaten - MARC 21....................................... 156
E Beispiele für RDF-Tripel in OAI-ORE ............................................ 159
Copyright TU Dresden, Alexander Haffner II
7. Metadatenanreicherung im digitalen Publikationsprozess Einführung
1 Einführung
1.1 Motivation
Publizierte Werke bewahren seit hunderten von Jahren das kulturelle Erbe unserer
Gesellschaft. Die Archivierung und Verbreitung dieser Werke formte den bis zum
heutigen Tage geprägten Wissenstand der Menschheit. Insbesondere die Digitalisie-
rung von Publikationen und die im Computerzeitalter eingekehrten Distributionsver-
fahren haben den Wissenstransfer entscheidend beeinflusst und werden jenen in
Zukunft immer stärker beherrschen.
Die Anzahl von neu erscheinenden Publikationen ist in den letzten zwanzig Jahren
exponentiell angestiegen. Grund dafür ist unter anderem das rasante Wachstum von
digitalen Ressourcen im World Wide Web. Die Organisation von Publikationen, ganz
gleich ob in digitaler oder nicht-digitaler Form, stellt eine zunehmende Herausforde-
rung dar. Bibliotheken übernehmen diese Verantwortung und gehen der Verpflich-
tung der Sammlung und Bereitstellung aller Publikationen nach, um Benutzern eine
Zugänglichkeit zum enthaltenen Wissen zu gewähren. Die soziale Verantwortung der
Bibliotheken liegt folglich in der breiten Streuung von Wissen, um Menschen Chan-
cengleichheit und gesellschaftliche Integration zu garantieren.
Der globalisierte Informationsaustausch ist bislang die wohl größte Herausforderung.
Während im nicht-digitalen Zeitalter der Fokus auf die lokal vorhandenen Bestände
gerichtet war, ist er im digitalen Zeitalter auf die Vernetzung aller Bestände weltweit
ausgelegt, was eine maximal mögliche Breite an Wissensstreuung bedeutet. Die Zu-
sammenführung weltweit existierender Bestände in einem gemeinsamen Katalog
wird die dezentralen Suchvorgänge durch Benutzer auf eine einzige Suchanfrage
reduzieren und Trefferlisten von bisher nicht vorstellbarem Ausmaß liefern.
1.2 Zielstellung
Diese Arbeit widmet sich der Untersuchung von digitalen Publikationsprozessen in
Bibliotheksumgebungen, um einerseits der Globalisierung beim Wissensaustausch
und andererseits der Zugänglichkeitsgewährung zu diesem Wissen für alle Men-
schen gerecht zu werden.
Die Vernetzung von Bibliotheken in der gesamten Welt gestattet einen Zugriff auf
Katalogisate von enormem Ausmaß. Ziel dieser Arbeit ist es, Lösungen für den adä-
quaten Informationsaustausch auf Basis von Metadaten zwischen digitalen Bibliothe-
ken vorzustellen. Aufbauend auf diesem Austausch werden Betrachtungen zur
Erschaffung eines globalen Kataloges vorgenommen. Der Katalog soll dabei eine
innere Organisation aufweisen, die es Benutzern erlaubt, die Katalogeinträge intuitiv
und strukturiert zu explorieren.
Die Garantie des Wissensbezugs durch alle Menschen stellt ein weiteres zentrales
Anliegen dieser Arbeit dar, da es Menschen mit besonderen Bedürfnissen häufig
nicht möglich ist, Informationen im selben Maße wie andere Menschen zu erschlie-
ßen. Aufkommende besondere Nutzungsbedürfnisse von Menschen können durch
Umgebungsgegebenheiten sowie physisch oder psychische Einschränkungen her-
vorgerufen werden. Ein Gerechtwerden der Bedürfnisse kann nur durch die Barriere-
freiheit der Publikationen und der distribuierenden Prozesse erreicht werden.
Copyright TU Dresden, Alexander Haffner 1
8. Metadatenanreicherung im digitalen Publikationsprozess Einführung
1.3 Inhaltlicher Aufbau
Die Arbeit geht vom Ist-Stand der Katalogisierung in Bibliotheken und vom korres-
pondierenden Metadateneinsatz für die Archivierung und den Austausch von Katalo-
gisaten aus. Neben einer Einführung zur Begrifflichkeit Metadaten, wird eine
Metadatenkategorisierung vorgestellt, anhand derer eine Diskussion etablierter Me-
tadatenstandards geführt wird.
Weiterführend wird im Kapitel 3 auf Basis von Modellen das Wirken in einer digitalen
Bibliothek, zwischen digitalen Bibliotheken untereinander und zu externen Mitwirken-
den prinzipiell verdeutlicht. Im Fokus der Betrachtungen steht neben der Einpflege,
Archivierung und Verteilung von Ressourcen in einem Archivierungssystem insbe-
sondere der komplexe Ressourcen- und Metadatenaustausch zwischen Systemen.
Im Rahmen der Anforderungserhebung wird erläutert, was Barrierefreiheit in einer
digitalen Bibliotheksumgebung für die Zugangsgewährung durch Benutzer mit be-
sonderen Bedürfnissen bedeutet und wie Barrierefreiheit in exemplarisch ausgewähl-
ten digitalen Publikationsformen bei der Ressourcenproduktion erreicht werden kann.
Nachfolgend werden im Rahmen der Analyse aufgedeckte Prozessabläufe ausge-
wählter Bibliotheken (Deutsche Nationalbibliothek, Sächsische Landesbibliothek –
Staats- und Universitätsbibliothek Dresden, Deutsche Zentralbücherei für Blinde zu
Leipzig) detailliert vorgestellt, um im weiteren Verlauf einen gemeinsamen optimier-
ten Prozess zu modellieren.
In Kapitel 5 wird auf standardisierte Metadatenformate zur Auszeichnung von Barrie-
refreiheit eingegangen, um diese im Weiteren mit dem Entitätskonzept aus RDA und
dem FRBR Model zu vereinen. Zusätzlich wird ein Strukturierungsansatz für Res-
sourcen innerhalb der Manifestation eingeführt, in dem Struktureinheiten Accessibili-
ty-Metadaten zugewiesen werden. Abschließend wird eine mögliche
Serialisierungsform dieser Metadaten für den Austausch zwischen Bibliothekssyste-
men diskutiert.
Das Kapitel 6 beschäftigt sich mit der Modellierung eines erweiterten Prozessmodells
in Hinblick auf einen globalen Katalog. Hierfür wird eine international abgestimmte
Katalogisierung und Metadatenanreicherung sowie Archivierung diskutiert. Weiter-
führend werden Betrachtungen zur regelkonformen Ressourcenproduktion und Ein-
pflege sowie Zugänglichkeitsgewährung zu diesen Ressourcen im Archivierungs-
system vorgenommen. Außerdem wird ein Ansatz zur kollaborativen Accessibility im
Kontext der digitalen Bibliothek vorgestellt.
Des Weiteren wurde eine webbasierte Anwendung für die Einpflege von Digital Tal-
king Books konzipiert und prototypisch implementiert, die insbesondere die organisa-
torische Abstimmung beim Metadatenaustausch im deutschen Blindenbibliotheks-
wesen im Fokus der Entwicklung hat.
Abschließend wird vor den eigentlichen Schlussbetrachtungen zum Erreichten und
zu offenen Aspekten dieser Arbeit ein Präsentationskonzept für Katalogisate im glo-
balen Katalog erläutert, welches Benutzern aus verschiedenen Sprachräumen und
mit unterschiedlichsten Bedürfnissen ermöglichen soll, Publikationen in einer ihnen
zugänglichen Form optimiert im Katalog finden und beziehen zu können.
Copyright TU Dresden, Alexander Haffner 2
9. Metadatenanreicherung im digitalen Publikationsprozess Einführung
1.4 Danksagung
Resümierend darf ich sagen, dass es mir eine Freude ist, die entstandene Diplomar-
beit in der vorliegenden Form präsentieren zu dürfen.
In diesem Zusammenhang gilt mein Dank für die Ermöglichung der fachübergreifen-
den Themenbearbeitung Prof. Weber als betreuenden Hochschullehrer. Außerdem
möchte ich meinen besonderen Dank Frau Frodl als Fachbetreuerin aussprechen,
die mir nicht nur die Verständniswelt zu Bibliotheksumgebungen geöffnet hat, son-
dern immer für die Beantwortung meiner Fragen und die Diskussionen meiner ent-
standenen Ergebnisse Zeit fand.
Die vorliegenden Resultate wären jedoch ohne das entgegenkommende Mitwirken
des Personals der DNB, der SLUB und der DZB nicht zu erreichen gewesen. Daher
auch explizit mein Dank an alle Mitarbeiter, die mir in Interviews Rede und Antwort
boten.
Außerdem soll an dieser Stelle mein Dank gegenüber Prof. Wünschmann zum Aus-
druck gebracht werden, der mein Interesse für die Thematik der Barrierefreiheit
weckte und mein Wissen in den Jahren der Zusammenarbeit entscheidend prägte.
Eine solche Arbeit, wie die hier vorliegende, ist zwar thematisch selbstständig zu be-
wältigen, jedoch nicht orthografisch und grammatikalisch. Entsprechend ein beson-
ders großer Dank für die durch die Korrekturleser(-innen) Bianca Daniel, Sarah
Esmaeili und Wolfram Eberius aufgebrachte Zeit.
Mein herzlichster Dank gilt jedoch meiner Familie, welche mich nicht nur während
meiner Studienzeit, sondern in meinem gesamten Leben unterstützte und mir einen
Anlaufpunkt für Anliegen sämtlicher Lebenslagen bot und immer bieten wird.
Copyright TU Dresden, Alexander Haffner 3
10. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
2 Metadaten
Neben den klassischen gedruckten Publikationen halten elektronische Medien einen
immer größeren Einzug in unsere Gesellschaft. Die damit entstehende Informations-
flut muss für den Endnutzer genauso wie für den Archivar in einer für ihn verständli-
chen Form zugänglich gemacht werden.
In diesem Zusammenhang gilt es, verlässliches Finden zu ermöglichen, zu unter-
scheiden, was verschieden ist, zusammenzuführen, was zusammengehört, gefunde-
nes überschaubar darzustellen und gewähltes zugänglich zu machen [EVE07].
Nach einer Klärung des Begriffes Metadaten wird ausgehend von der Rolle der Bib-
liothek und deren Regelwerken für die Archivierung das Existieren der Metadatenar-
ten diskutiert, um anschließend Metadatenstandards aus verschiedensten Domänen
vorzustellen.
2.1 Was sind Metadaten?
Die Begrifflichkeit „meta“ stammt ursprünglich aus dem Griechischen und ist ein
Wortbildungselement mit der Bedeutung "zwischen, nach, hinter" bzw. zum Ausdruck
eines Wechsels (z. B. metaphysisch, Metamorphose, metonymisch, methodisch)
[KLU99].
In der Informatik verwendet man „meta“ im Allgemeinen synonym zum englischen
Wort „about“. Beispielsweise ist eine Metalanguage eine Sprache zur Beschreibung
einer anderen Sprache. Folglich sind, Metadaten Daten zur Beschreibung anderer
Daten [CAP03].
Metadata (aus dem Engl.) wird in der heutigen Bibliotheksumgebung in zwei ver-
schiedenen Bedeutungen genutzt. Einige Vertreter sehen Metadaten für die Be-
schreibung von digitalen und nicht-digitalen Ressourcen vor. Andere Vertreter
hingegen (beispielsweise die International Federation of Library Associations and
Institutions) nutzen Metadaten ausschließlich für die Beschreibung digitaler Ressour-
cen. Die erstgenannte Ausführung ist allerdings näher an der tatsächlichen Verwen-
dungsform. In vielen Bibliotheksbeständen werden Metadaten genauso für die
Beschreibung von gedruckten und analogen Werken sowie für digitale Publikationen
verwendet. Auch ist es ein Trugschluss, dass Metadaten selbst immer in digitaler
Form vorliegen müssen. Eine Karteikarte oder ein Katalog enthalten ebenfalls Daten
über Daten, jedoch etablierte sich der Begriff Metadaten erst im digitalen Zeitalter. In
der Vergangenheit sprach man von Katalogisierung und definierte keine Obermenge
für die eingesetzten Techniken. In den beiden letzten Dekaden hat sich der Trend zur
Digitalisierung von Metadaten mit all seinen Vorzügen in Bibliotheken und anderen
Domänen jedoch weit verbreitet.
Es ist gleich wie die Begrifflichkeit eingesetzt wird, zwei Dinge sind jeweils identisch:
1. Es müssen strukturierte Informationen sein, die für die Erbringung eines
Mehrwertes in einem Metadatenschema festgehalten sein müssen, und
2. Metadaten müssen eine Informationsressource beschreiben.
Die dafür eingesetzten Metadaten sollten dabei möglichst standardisiert sein, um ei-
nen interoperablen Austausch zwischen Parteien zu ermöglichen.
Copyright TU Dresden, Alexander Haffner 4
11. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
2.2 Die Rolle der Bibliothek
Eine Bibliothek ist ein Dienstleister, der unter anderem für die Beschaffung, Erschlie-
ßung, Sammlung und Bereitstellung von Publikationen verantwortlich ist.
Wenn man den Begriff der Beschaffung betrachtet, wird auf den ersten Blick der ur-
sprüngliche Charakter deutlich. Bibliotheken kaufen Bücher, Zeitschriften etc. auf
bzw. tauschen diese untereinander, um ein breites Angebot an Materialien für ihre
Sammlung und Ausleihe zur Verfügung zu stellen. Mittlerweile existiert im Bereich
der Beschaffung auch der Meldecharakter Dritter. Hierzu gehört die Abgabe von
Pflichtexemplaren an eine Bibliothek. Pflichtexemplare können in physischer
und/oder digitaler Form abgegeben werden. Eine weitere Erneuerung der Beschaf-
fung ist durch den initiierenden Rollenwechsel zu sehen. Insbesondere Autoren, die
nicht zur Meldung ihrer Publikationen verpflichtet sind, möchten ihre Ressourcen
trotzdem über eine Bibliothek auffindbar machen. Dem Autor bietet sich somit die
Möglichkeit, seine Publikation im Katalog der Bibliothek anzumelden und die zugehö-
rige Ressource gemäß Prinzipien der Langzeitarchivierung aufbewahren zu lassen.
Die Sammlung (im Folgenden auch als Archivierung bezeichnet) beinhaltet die Si-
cherung der Publikationen über eine „lange Zeit“. Laut [BOR06] umfasst Langzeitar-
chivierung für digitale Publikationen mindestens einen Zeitraum von 50 Jahren.
Dagegen sind eine Vielzahl von nicht-digitalen Publikationen schon seit hunderten
und teilweise sogar tausenden von Jahren archiviert. Die Archivierung selbst bedarf
eines Managements, um die Ressourcen nicht nur wiederfinden zu können, sondern
sie auch einer systematischen Ablage zu unterziehen. Dieses Management wird in
Bibliotheken anhand der Katalogisierung umgesetzt.
Die Erschließung erfasst die relevanten Daten über eine Publikation in Katalogen.
Die Katalogisierung entwickelte sich vom Zettelkatalog nach der alphabetischen Ka-
talogisierung hin zu erweiterten systematischen Katalogen. Die Formalerschließung
erhebt dabei die bibliografischen Angaben wie Titel, Autor, Erscheinungsjahr etc. Die
Sacherschließung nimmt die inhaltlichen Angaben auf, die einen thematischen Zu-
griff und die Einordnung in eine entsprechende Systematik erlauben. Hierfür kann
neben der Kategorisierung eine Vergabe von Schlagworten stattfinden. Diese sind
normierte Begriffe, die nach bestimmten Regeln angelegt und vergeben werden (vgl.
Kapitel 2.2.2.2). Des Weiteren gibt ein Katalog an, wo eine Publikation in der Biblio-
thek zu finden ist.
Im Bibliothekswesen gebräuchliche Katalogformen wurden in den letzten Jahren fast
vollständig in elektronische datenbankgestützte Systeme wie den OPAC (Online
Public Access Catalogue) überführt.
Die Zugänglichkeitsgewährung wird somit durch die im Katalog befindlichen Informa-
tionen über darauf aufbauende Suchmechanismen realisiert. Wenn die gewünschte
Publikation einmal gefunden wurde, kann das gedruckte Exemplar in der Bibliothek
aus dem Leihbestand durch den Benutzer für eine bestimmte Frist entliehen werden
oder als Präsenzbestand nur in den Räumen der Bibliothek eingesehen werden. Eine
weitere verbreitete Praxis zur Bereitstellung ist die Fernleihe, wobei dem Nutzer ein
Exemplar zugesendet wird. Digitale Publikationen können für den Bezug auch im
Internet bereitstehen. Dadurch kann neben den aufgeführten Methoden auch eine
Distribution über Downloadmechanismen angeboten werden. Hierfür sind selbstver-
ständlich die entsprechenden Urheberrechte durch den Leser zu beachten.
Copyright TU Dresden, Alexander Haffner 5
12. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
2.2.1 Was braucht ein Katalog?
Was tatsächlich in einen guten und vor allem in der Zukunft nutzbaren Katalog ge-
hört, ist für die Erfüllung der in dieser Arbeit gestellten Aufgaben essentiell. Dieser
Abschnitt verdeutlicht die Notwendigkeit des Einsatzes der nachfolgend vorgestellten
Metadatenstandards.
Was braucht ein Katalog? Bernhard Eversberg ist in seinem Vortrag „Zur Zukunft der
Katalogisierung“ [EVE04] unter anderem genau dieser Frage nachgegangen.
Ein guter Katalog muss normiert sein. [EVE04] setzt hierfür vier Arten von Normen
für die Gestaltung eines Kataloges an.
1. Begriffe: Die einheitliche Verwendung von grundlegenden Begrifflichkeiten im
Bibliotheks- und Katalogisierungswesen. Die Definition dieser Begrifflichkeiten
wurde einerseits in den Regeln für die alphabetische Katalogisierung (RAK)
für den deutschen Sprachgebrauch und in den Anglo-American Cataloguing
Rules (AACR) für den englischen Sprachgebrauch umgesetzt.
2. Datenstruktur: Durch eine geeignete Datenstruktur sind die Inhalte des Kata-
loges systematisierbar und maschinell verarbeitbar. Eine Datenstruktur dieser
Art ermöglicht nicht nur das Suchen im Katalog, sondern auch den Austausch
der Inhalte zwischen Katalogisierern bzw. die Anreicherung des Kataloges
durch Dritte.
3. Inhalt: Die Erschließung der formalen und inhaltsbezogenen Informationen ist
das Herz eines jeden Kataloges. Um diese Informationen in einer einheitlichen
Form in jeder Bibliothek aufzunehmen, wurden die RAK und die AACR er-
schaffen. Durch diese Regelwerke wird es einem Bibliothekar ermöglicht, die
Inhalte konformitätsgetreu zu erheben.
4. Werte: Um die soeben angesprochene Konformität zu erhöhen, bedarf es des
Einsatzes von Normdaten. Normdaten umfassen die Wiederverwendung von
bereits erschlossenen Inhalten. Normdaten werden durch die Bibliotheken in
gemeinsam genutzten Dateien wie der Gemeinsamen Körperschaftsdatei
(GKD), der Personennamendatei (PND) und der Schlagwortnormdatei (SWD)
gehalten.
Eine weitere interessante Forderung von Eversberg ist eine Norm für die Darstellung
der Informationen für den Benutzer im Online-Katalog. Die Norm müsste Begrifflich-
keiten sowie Vorschriften für die Präsentation und die Exploration umfassen. Auch
sollten normierte Abfragesprachen in den Systemen verwendet werden.
Man sieht bei näherer Betrachtung, dass alle Normen dazu dienen, Informationen
über die Publikation abzudecken, was darauf hinweist, dass diese Informationen be-
reits in den Bereich der Metadaten fallen.
2.2.2 Herkömmliche Regelwerke für die Katalogisierung
2.2.2.1 Regeln für die alphabetische Katalogisierung (RAK)
Die Regeln für die alphabetische Katalogisierung (RAK) haben seit Mitte der 70er
Jahre zunehmend zu einer Vereinheitlichung der Formalkatalogisierung im deutsch-
sprachigen Raum geführt. Insbesondere bei der Einführung von elektronischer Da-
tenverarbeitung für die Katalogisierung haben sich Bibliotheken und
Bibliotheksverbünde auf die RAK umgestellt [RAK02]. Grundlage war eine Harmoni-
sierung der angewandten Regeln der BRD, der DDR und Österreichs.
Copyright TU Dresden, Alexander Haffner 6
13. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
Das Regelwerk der RAK lässt sich in verschiedene Varianten aufgliedern:
RAK-ÖB: für Öffentliche Bibliotheken
RAK-WB: für Wissenschaftliche Bibliotheken
verschiedene Zusatzregeln, beispielsweise für Musikalien, Karten etc.
Die Regeln für die alphabetische Katalogisierung in wissenschaftlichen Bibliotheken
(RAK-WB) sind beispielsweise in neun Hauptabschnitte gegliedert:
1. Grundbegriffe (§ 1 - 36)
2. Allgemeine Regeln (§ 101 - 193): Bestimmen die Aufgaben des Katalogs, Ein-
tragungsarten für Einheitsaufnahme und äußere Form.
3. Allgemeine Ansetzungsregeln (§ 201 - 208): Für die Ordnung der Eintragun-
gen müssen Sachtitel, Personen- und Körperschaftsnamen in die Form von
Ordnungsblöcken gebracht werden. Die Bildung dieser Formen nennt man
Ansetzung [RAK02]. Die im Abschnitt 9 vorgeschriebene Ordnung nach der
gegebenen (mechanischen) Wortfolge erfordert detaillierte Regeln für die
Schreibung und Abgrenzung einzelner Wörter als Ordnungswörter.
4. Ansetzung der Namen von Personen (§ 301 - 342): Grundregeln für die Aus-
wahl des anzusetzenden Namens bzw. der anzusetzenden Namensform so-
wie Regeln für die Ansetzung moderner und persönlicher Namen, um
internationale Konsistenz zu erreichen.
5. Ansetzung der Namen von Körperschaften (§ 401 - 486): Vorschriften für die
Namensgebung und Ordnung mit Sonderregeln für untergeordnete, Gebiets-
körperschaften, für Religionsgemeinschaften und für Kongresse, Ausstellun-
gen, Messen, Festwochen und dergleichen.
6. Ansetzung von Sachtiteln und Bestimmung des Einheitssachtitels (§ 501 -
525): Stellt die Ergänzung der allgemeinen Ansetzungsregeln für Sachtitel dar,
wobei beispielsweise einleitende Wendungen, im Sachtitel enthaltene Namen
von Urhebern und Alternativsachtitel (für übersetzte Ausgaben Sprachbe-
zeichnung) angesetzt werden müssen. Auch werden Regeln für die Benen-
nung fortlaufender Sammelwerke und Sammlungsvermerke getroffen. Bei der
Findung eines Einheitssachtitels muss auf den Originalsachtitel, die am häu-
figsten vorkommende bzw. in der wissenschaftlichen Tradition gebräuchliche
Fassung oder auf den Formalsachtitel zurückgegriffen werden.
7. Haupt- und Nebeneintragungen unter Personen, Körperschaften und Sachti-
teln (§ 601 - 696): Es wird bestimmt, welche Personen in bestimmten Fällen
als Verfasser bzw. sonstige beteiligte Personen gelten, und unter wem Haupt-
bzw. Nebeneintragungen vorzunehmen sind, sowie die Behandlung anonymer
Werke. Außerdem wird bestimmt, was Körperschaften im Sinne der Regeln
sind, wann sie als Urheber bzw. sonstige beteiligte Körperschaften gelten und
unter welcher Haupt- bzw. Nebeneintragungen vorzunehmen sind. Zusätzlich
werden Regeln für die Ansetzung bei fortlaufenden Sammelwerken definiert.
8. Bestimmung des Sachtitels oder des Titels für Haupt- und Nebeneintragungen
(§ 701 - 715): Legt fest, welcher von gegebenenfalls mehreren vorhandenen
Sachtiteln bzw. Titeln für die jeweils vorgeschriebene Eintragung verwendet
werden soll.
9. Ordnung der Eintragungen (§ 801 - 823): Personennamen, Körperschaftsna-
men und Sachtitel können alphabetisch geordnet werden. Als Ordnungsele-
Copyright TU Dresden, Alexander Haffner 7
14. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
mente werden die 26 Buchstaben des deutschen Alphabets und Zahlzeichen
verwendet. Ein oder mehrere Buchstaben bilden ein Ordnungswort, ein oder
mehrere Zahlzeichen bilden eine zu ordnende Zahl. Eine Ordnungsgruppe
besteht aus einem oder mehreren Ordnungswörtern und/oder einer oder meh-
reren zu ordnenden Zahlen. Ordnungshilfen sind Zusätze zur Unterscheidung
übereinstimmender Ordnungsgruppen. Ein Ordnungsblock besteht aus einer
oder mehreren Ordnungsgruppen einschließlich der zu ihnen gehörenden
Ordnungshilfen und dient immer der primären Eintragungseinordnung.
Die Regeln werden dabei nach Grundregeln und Sonderregeln unterschieden. Son-
derregeln ersetzen bzw. ergänzen die Grundregeln zum Teil.
Die Bestimmungen für die Festlegung der Haupteintragungen und die Regeln für de-
ren Ansetzung sind für alle Anwender der RAK-WB verbindlich.
Die RAK umfasst ein feingranulares Regelwerk für die einheitliche Aufnahme von
Publikationen. Allerdings stellt sie nur bedingt bis gar nicht die Struktur für die aufge-
nommenen Daten bereit.
2.2.2.2 Regeln für den Schlagwortkatalog (RSWK)
Der Schlagwortkatalog ist ein Bibliothekskatalog, der die Publikationen nach Schlag-
wörtern verzeichnet und so die punktuelle thematische Suche nach Literatur erlaubt.
Unter einem Schlagwort wird dabei ein natürlich sprachlicher Ausdruck verstanden,
der den Inhalt der Publikation möglichst kurz, aber präzise wiedergibt. Komplexe In-
halte können durch eine Schlagwortkette, eine Kombination mehrerer Einzelschlag-
wörter, beschrieben werden.
Die Regeln für den Schlagwortkatalog (RSWK) sind das Regelwerk für die verbale
Sacherschließung. Grundlage ist nicht nur das Regelwerk, sondern das in der An-
wendungspraxis gleich wichtige Verzeichnis der Schlagwörter, die zur Beschlagwor-
tung zur Verfügung stehen, die Schlagwortnormdatei (SWD).
Die RSWK sind ein Regelwerk für die intellektuelle Beschlagwortung. Aus-
schlaggebend ist der Inhalt eines Werkes, nicht die Titelformulierung. [UML07]
Die 1998 erschienene 3. Auflage der RSWK orientiert sich im Gegensatz zu ihren
Vorgängern an den Bedürfnissen der Online-Kataloge. Die Ergänzungslieferungen
(2000, 2002, 2005, 2007) haben diesem Prinzip weiter Rechnung getragen und sind
gekennzeichnet durch ihr Bemühen, die Regeln zu vereinfachen und sie so auch
über den traditionellen bibliothekarischen Bereich hinaus nutzbar zu machen
[RSWK07].
Eine besondere Rolle nimmt dabei die SWD ein. Die über die Jahre erfolgten Ände-
rungen der RSWK haben die SWD aus ihrer ursprünglichen Umgebung gelöst und
sie zu einer Dokumentationssprache gemacht, die als Universalthesaurus nun auch
außerhalb der bibliothekarischen Welt genutzt wird. Die Schaffung der SWD mit sei-
nen kontrollierten Termini ermöglicht eine effektive Übernahme von Fremddaten in
der heterogenen Informationsgesellschaft. Die SWD, die in der Praxis von Anfang an
großes Gewicht hatte, steht jetzt im Mittelpunkt des Regelwerks. Trotzdem hat die
Schlagwortkette als deskriptives Element in der Aufbereitung von Retrievalergebnis-
sen weiterhin Bedeutung [RSWK07].
Bei der Entwicklung der RSWK war die Annäherung an die RAK ein zentrales Ziel.
Die Betrachtungen zu Körperschaften mussten in diesem Zusammenhang jedoch
zurückgestellt werden, da diese bislang nicht entscheidungsreif sind.
Copyright TU Dresden, Alexander Haffner 8
15. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
Die inhaltlich tiefgründigere Betrachtung des Regelwerkes würde den Rahmen dieser
Arbeit überschreiten. Der Leser wird auf [RSWK07] und [UML07] für eine weiterfüh-
rende Recherche verwiesen.
2.2.2.3 Anglo-American Cataloguing Rules (AACR)
Im angloamerikanischen Raum werden seit 1967 die Anglo-American Cataloguing
Rules (AACR) für die Katalogisierung verwendet. Die zweite Ausgabe (AACR2)
stammt aus dem Jahr 1978, die jüngste Revision erfolgte 2002 (AACR2r) sowie das
finale Update 2005. AACR2 ist das weltweit am weitesten verbreitete Regelwerk für
die Katalogisierung. Es umfasst dabei Regeln für die Formalerschließung sowie teil-
weise für die Sacherschließung. Dabei ist die Sacherschließung vorrangig dem Sub-
ject Cataloging Manual der Library of Congress (Schlagwörter für Personen,
Körperschaften etc.) zu entnehmen. Die Sacherschließung der Werke werden nach
den AACR2 angesetzt [HEN06]. Die AACR2 wurden von über 30 verschiedenen
Ländern uneingeschränkt übernommen. Herausgeber der AACR sind die American
Library Association, die Canadian Library Association und das Chartered Institute of
Library and Information Professionals.
Da sich diese Arbeit vorrangig auf den deutschsprachigen Raum konzentriert, sei der
Leser für weitere Ausführungen auf [AACR08] verwiesen.
2.2.3 Resource Description and Access (RDA)
Für die internationale Harmonisierung der Erschließung und damit für weltweite Inte-
roperabilität wurde der Ruf nach AACR3 laut, um auch der Beschreibung digitaler
Ressourcen besser gerecht werden zu können. Allerdings stellte sich während der
Entwicklung heraus, dass dafür der Inhalt wie die Struktur des Regelwerks radikal
geändert werden mussten. Resource Description and Access (RDA) wird in Zukunft
exakt diese Rolle einnehmen. Im November 2008 wurde der vollständige Entwurf für
RDA [RDA08] publiziert. Im Moment sind potentielle Anwender des Regelwerkes da-
zu aufgerufen, den Entwurf zu begutachten, woraufhin sich eine Überarbeitung durch
das Joint Steering Committee anschließen wird. Die finale Veröffentlichung des
Standards ist für das dritte Quartal 2009 angekündigt.
Die auf Basis von RDA angesetzten Daten zielen darauf ab, Ressourcen für Endnut-
zer besser auffindbar zu machen. Diesbezüglich kann man vier grundlegende Aufga-
ben spezifizieren, bei denen die Nutzer explizit unterstützt werden sollen.
• das Finden (find) von Ressourcen entsprechend spezifizierten Suchkriterien,
• das Identifizieren (identify) einer Ressource bzw. das Unterscheiden von Res-
sourcen mit ähnlichen Eigenschaften in Bezug zur vorgenommenen Suche,
• die Auswahl (select) einer Ressource, die sich mit den Nutzerbedürfnissen
deckt und
• der Bezug (obtain) der durch den Nutzer beschriebenen Ressource.
RDA soll in der gegenwärtigen Archivierungslandschaft für die konsistente Ressour-
cenbeschreibung benutzt werden. Das Regelwerk beinhaltet eine optimierte Ausrich-
tung auf digitale wie auch nicht-digitale Ressourcen, was somit alle Arten von Inhalt
und Medien in beliebigen Archiven umfasst. Als Zielgruppen für die Regelwerksnut-
zung werden auch Anwender außerhalb der Bibliothekswelt gesehen. Außerdem ist
eine multilinguale Abdeckung im Fokus der Verbreitung.
Eine Kompatibilität zu international etablierten Prinzipien, Modellen und Standards
stellte ein Grundbedürfnis des Joint Steering Committee bei der Entwicklung von
Copyright TU Dresden, Alexander Haffner 9
16. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
RDA dar. So wurde eine Ausrichtung der Strukturen, der Konzepte und Terminologie
am Functional Requirements for Bibliographic Records (FRBR) Model [FRBR98] und
dem Functional Requirements for Authority Data (FRAD) Model [FRAD07] vorge-
nommen. Die konzeptionellen Modelle sollen neben den domänbeheimateten Akteu-
ren auch domainfremden Akteuren ein Verständnis für die Katalogisierung bieten.
Außerdem wurden die International Standard Bibliographic Description (ISBD), das
MARC 21 Format for Bibliographic Data und das MARC 21 Format for Authority Data
in die Entwicklung von RDA mit einbezogen. Der RDA-Standard ist zwar unabhängig
von einer bestimmten Struktur zur Datenspeicherung oder Datendarstellung, beinhal-
tet jedoch Mappings des RDA Element Sets zu Metadaten in ISBD, MARC 21 und
Dublin Core. RDA ist ebenfalls kompatibel zu dem primär kommerziell eingesetzten
Metadatenstandard ONIX. Detailinfomationen zu den Formaten befinden sich im Ab-
schnitt 2.4 dieser Arbeit. Den Entwicklern von RDA war es des Weiteren wichtig,
dass eine kosteneffiziente Integration in existierende Systeme durch einen minimalen
Anpassungsaufwand realisierbar ist.
Das FRBR Model benennt als ein bibliothekswissenschaftliches Datenmodell unab-
hängig von einem Regelwerk oder einer bestimmten Anwendung Beziehungen zwi-
schen Entitäten, welche in das RDA Element Set aufgenommen wurden. Man
unterscheidet im Modell nach drei Gruppen von Entitäten, wobei die Entitäten der
Gruppe 1 im logischen Modell in vier Ebenen untergliedert sind.
• Gruppe 1: Produkte intellektueller bzw. künstlerischer Anstrengungen
o Werk: eine abgeschlossene, selbstständige geistige oder künstlerische
Schöpfung, wobei noch kein entsprechender materieller Gegenstand
existiert
o Expression: die geistige oder künstlerische Realisierung eines Werkes,
wobei die wesentliche Eigenschaft die Form (schriftlich, auditiv, visuell
etc.) ist
o Manifestation: die physische Umsetzung des Werks, somit die konkrete
Ausgabe, die in einem bestimmten Verlag als Druckversion oder als
elektronische Ressource erschienen ist
o Item: das einzelne Exemplar (einzelne Kopie) einer Manifestation
• Gruppe 2: Verantwortliche für die unter Gruppe 1 genannten Entitäten: Perso-
nen, Familien und Körperschaften
• Gruppe 3: Entitäten, die zur näheren Beschreibung der Entitäten aus Gruppe
1 und Gruppe 2 dienen: Begriff, Objekt, Ereignis, Ort.
Zu jeder Entität können eine Menge von Attributen für deren Charakterisierung defi-
niert werden. Attribute ermöglichen den Nutzern, ihre Anfragen bei der Suche nach
Entitäten präzise zu formulieren und die Antwort zu interpretieren. Es existieren zwei
Kategorien von Attributen:
• inherent in an entity (direkt von der Entität abzuleiten/abzulesen)
• externally imputed (über Referenz zu einer externen Quelle)
Zwischen allen Entitäten bestehen Beziehungen. Beispielsweise sind Beziehungen
zwischen Verantwortlichen (Entitäten Gruppe 2) und Produkten intellektueller bzw.
künstlerischer Anstrengungen (Entitäten der Gruppe 1) definiert. Ein Werk kann von
einem oder mehreren Verantwortlichen erschaffen (created), eine Expression reali-
siert (realized), eine Manifestation produziert (produced) und ein Item besessen (ow-
ned) werden.
Als primäre Beziehungen bezeichnet man die hierarchichen Zusammenhänge unter
Entitäten der Gruppe 1. So ist ein Werk die eigentliche Erschaffung des Produktes
Copyright TU Dresden, Alexander Haffner 10
17. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
intellektueller bzw. künstlerischer Anstrengungen, eine Expression ist die Realisie-
rung dieses Werkes, eine Manifestation die physische Verkörperung einer Expressi-
on und ein Item ein spezifisches Exemplar einer Manifestation.
Eine Manifestation bzw. ein Item werden in RDA als Ressourcen bezeichnet und
prinzipiell ähnlich zum Vorgehen in AACR2 erschlossen. Die Comprehensive Desc-
ription erlaubt eine Beschreibung aus einer globalen Sicht für verschiedenste Arten
von Ressourcen wie Single-Unit-Ressourcen, Multi-Part-Unit-Ressourcen oder integ-
rierte Ressourcen. Die Analytical Description ermöglicht die Beschreibung einzelner
Teile einer Ressource, wie einer expliziten Ausgabe einer Serie, einem Artikel in ei-
nem Journal oder einem Kapitel eines Buches. Falls die definierten Teile aus der
Analytical Description wiederum in weitere Teile aufzugliedern sind, kann mit dem
Ansatz der Hierarchical Description eine Baumstruktur zur Ressourcenbeschreibung
auf Strukturebene erzeugt werden.
Ein Werk und Expressionen sind somit abstrakte Oberklassen zu Manifestationen
und Items, über die die Auffindung der Ressourcen für Endbenutzer erleichtert wer-
den soll. Die Sacherschließung wird entsprechend auf den abstrakten Entitäten
durchgeführt, um sie für die Ressourcen zu übernehmen.
Die FRBR-Entitäten sollen als Sucheinstiege dienen, wofür allerdings eine eindeutige
Benennung und Identifikation notwendig ist. Diese Eindeutigkeit wird über Normda-
ten und definierte Access Points realisiert.
Functional Requirements for Authority Data (FRAD) Model ist eine weitere Spezifika-
tion der International Federation of Library Associations and Institutions (IFLA), wel-
che von der Working Group on Functional Requirements and Numbering of Authority
Records (FRANAR) entwickelt wurde und als Erweiterung der FRBR um Normdaten-
kontrolle zu verstehen ist.
Das Modell unterstützt die internationale Nutzung und Nachnutzung von Normdaten
im Bibliothekssektor, wobei der Schwerpunkt auf die Unterstützung der Entitäten der
Gruppen 1 und 2 von FRBR gelegt werden.
Die Entitäten des FRBR Model sind im FRAD unter bestimmten Namen und/oder
Identifikatoren bekannt, die als Basis für die Zugriffspunkte (Access Points) dienen.
Über die Regeln in RDA wird die normgerechte Verwendung gesichert.
group 2
group 1
associated with group 3
goverened by
known by Rules
Name
Controlled applied by
basis for Access Point
Identifier
assigned created/ Agency
modified by
Abbildung 2.1: FRAD Model
Aktuell werden bibliografische Datensätze und Normdatensätze verwendet, die zu-
einander über Verlinkung in Beziehung stehen. In Zukunft erwartet man jedoch Da-
tenbanksysteme, die die Struktur von FRBR und FRAD reflektieren. Das würde
bedeuten, dass einzelne Einträge für jede FRBR-Entität existieren, die wiederum
Copyright TU Dresden, Alexander Haffner 11
18. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
über ihre Access Points als persistente Identifikatoren verlinkt werden. RDA erlaubt
die Beschreibung von Access Points zu fast allen Entitäten aus dem FRBR Model
und dem FRAD Model und trägt somit den erwarteten Änderungen genüge. Außer-
dem können Access Points zu den Entitätsbeziehungen definiert werden. Allerdings
sind derzeit die Attribute und Beziehungen von Gruppe 3 Entitäten des FRAD Model
nicht in RDA einbezogen worden.
RDA ist in 10 Sektionen untergliedert. Die Sektionen 1-4 beschäftigen sich mit der
Ansetzung von Attributen zu den Entitäten gemäß FRBR und FRAD und die Sektio-
nen 5-10 decken die Beschreibung der Entitätsbeziehungen gemäß FRBR und
FRAD ab.
• Section 1: Recording Attributes of Manifestation and Item
• Section 2: Recording Attributes of Work and Expression
• Section 3: Recording Attributes of Person, Family, and Corporate Body
• Section 4: Recording Attributes of Concept, Object, Event, and Place
• Section 5: Recording Primary Relationships between a Work, Expression,
Manifestation, and Item
• Section 6: Recording Relationships to Persons, Families, and Corporate Bod-
ies Associated with a Resource
• Section 7: Recording Subject Relationships
• Section 8: Recording Relationships Between Works, Expressions, Manifesta-
tions, and Items
• Section 9: Recording Relationships Between Persons, Families, and Corpo-
rate Bodies
• Section 10: Recording Relationships between Concepts, Objects, Events, and
Places
Die Gliederung ist nah an das praktische und zeitliche Vorgehen eines Bibliothekars
bei der Ressourcenerschließung angelehnt. Das Regelwerk weist außerdem ein Mi-
nimum an anzuwendenden Elementen, die sogenannten RDA Core Elements, aus.
An dieser Stelle soll der Leser dieser Arbeit auf die Sektion 8 hingewiesen werden.
Die Beziehungen unter Werken, Expressionen, Manifestationen und Items sind nicht
Bestandteil des RDA Core Element Sets, jedoch im weiteren Verlauf dieser Arbeit
essentiell. Es können Werke untereinander in Beziehung gesetzt werden. Dabei
kann ein Werk beispielsweise eine Adaption eines anderen Werkes, ein Kommentar
oder eine Ergänzung zu einem Werk sowie ein Teil eines größeren Werkes sein. Ei-
ne zu einer anderen Expression in Beziehung stehende Expression kann zum Bei-
spiel eine revidierte, erweiterte oder gekürzte Version sowie eine Übersetzung dieser
sein. Eine Manifestation kann einer anderen Manifestation entsprechen, aber bei-
spielsweise in einem anderen Format verkörpert bzw. die elektronische Reproduktion
einer vorliegenden Manifestation sein. Ein spezielles Exemplar kann ebenfalls als
Vorlage für die Überführung in ein anderes Item oder für eine andere Manifestation
gedient haben.
Derzeit wird an der Definition der RDA Element Vocabulary gearbeitet, um Beschrei-
bungen zu Entitätscharakteristika und Entitätsbeziehungen standardisiert und ma-
schinell lesbar auszudrücken. Für die Verbreitung der RDA Value Vocabularies im
Semantic Web soll das Resource Description Framework [RDF04], RDF-Schema
[RDFS04] und das Simple Knowledge Organisation System (SKOS) genutzt werden.
SKOS ist eine formale Sprache zur Kodierung von Dokumentationssprachen wie
Thesauri, Klassifikationen oder anderem kontrollierten Vokabular.
Copyright TU Dresden, Alexander Haffner 12
19. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
Der Anhang der RDA weist zusätzlich Informationen zu Großschreibung, Abkürzun-
gen, kontrolliertem Vokabular etc. aus. Außerdem wird auf die Syntax bei Verwen-
dung von Metadatenstandards eingegangen.
Mit RDA könnte es sogar gelingen, die in Deutschland personaltechnisch getrennte
Formal- und Sacherschließung in eine Hand zu bringen. In den Vereinigten Staaten
wird dieses Prinzip von Bibliothekaren bereits erfolgreich praktiziert.
2.3 Arten von Metadaten
Metadaten können nach der NISO-Definition prinzipiell in die drei Hauptkategorien
„Deskriptive Metadaten“, „Struktur-Metadaten“ und „Administrative Metadaten“ unter-
teilt werden. „Rechte-Management-Metadaten“ und „Metadaten zur Langzeitarchivie-
rung“ werden hierbei als Untergruppe der administrativen Metadaten gesehen.
[CAP03] differenziert die administrativen Metadaten weiterhin und definiert eine
Gruppe der „Technischen Metadaten“. Ein Aspekt, der bei dieser Definition noch
nicht betrachtet wird, ist der kommerzielle Hintergrund der Distribution von digitalen
Publikationen. Daher soll in der Kategorisierung für diese Arbeit der nach [FRO08]
gewählte Ansatz verfolgt werden, in dem „Marketing- oder handelsspezifische Meta-
daten“ als zusätzliche Kategorie in die Betrachtung mit einfließen. Eine in sämtlichen
Kategorisierungen vernachlässigte Thematik ist die Einbeziehung von „Accessibility-
Metadaten“ zur Ausweisung der Barrierefreiheit von Ressourcen.
1. Deskriptive Metadaten: Dienen der Auffindung, Identifikation und Auswahl von
Ressourcen. Außerdem können sie für die Kollokation von Ressourcen für die
Zusammenstellung mehrerer Versionen oder die Erfassung von Kopien ver-
wendet werden. Das bedeutet, dass deskriptive Metadaten die Beziehungen
der Entitäten nach dem FRBR Model beschreiben werden. Zusätzlich können
deskriptive Metadaten Aussagen beispielsweise zur Evaluation und Ge-
brauchstauglichkeit der Ressource bereitstellen. Die Verbindung zu anderen
Ressourcen (Linkage) ermöglicht trotz der Plastizität der Publikation die Ver-
linkung zu weiterführenden, zitierten oder ähnlichen Ressourcen.
2. Struktur-Metadaten: Geben Auskunft über die Logik und innere Struktur einer
Ressource. Struktur-Metadaten halten die Beziehung beispielsweise zwischen
Dateien und Seiten, zwischen Seiten und Kapiteln und zwischen Kapiteln und
einem Buch als Ganzen. Die Informationen werden einerseits für die Archivie-
rung im Archivierungssystem und andererseits für die Präsentation der Res-
source benötigt. Struktur-Metadaten haben insbesondere eine hohe
Bedeutung für Ressourcen, die aus einem File-Bundle (Aggregation) beste-
hen. Die Zughörigkeitsausweisung und Anordnung von Dateien einer Aggre-
gation entspricht der primären Verwendungsweise von Struktur-Metadaten in
der Praxis.
3. Administrative Metadaten: Sollen das Management und die Aufbewahrung
von Ressourcen im Archivierungssystem erleichtern. Hierfür werden Informa-
tionen über die Erstellung und Speicherung der Dateien sowie Metadaten über
deren Quelle und Herkunft zur Verfügung gestellt. Des Weiteren wird ein Ver-
antwortlicher für die Ressource ausgewiesen. Auch Rechte für die (organisati-
ons-)interne Verarbeitung und selbstverständlich eine Protokollierung dieser
können integriert werden.
4. Technische Metadaten: Dokumentieren die zur Ressource gehörenden Datei-
en und ihre Charakteristika. Diese Angaben sind oft auf einem hoch detaillier-
Copyright TU Dresden, Alexander Haffner 13
20. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
ten Level, der nicht nur über das Format, sondern auch über den physikali-
schen Aufbau in der Datei Aufschluss gibt. Technische Metadaten bilden die
Voraussetzung für die Langzeitarchivierung.
5. Rechte-Management-Metadaten: Beinhalten die Historie der Verhandlungen
vor der Einpflege des Dokumentes in das Archiv sowie alle Copyright-
Angaben und Lizenzbedingungen für die Distribution. Außerdem wird fest-
gehalten, welche Aktionen in Verbindung mit welchen Akteuren auf dem Do-
kument ausgeführt werden dürfen (vgl. [PMDO01]).
6. Marketing- oder handelsspezifische Metadaten: Sollen die kommerzielle Dist-
ribution von Ressourcen unterstützen. Hier sollten neben dem Preis und dem
eigentlichen Vertreiber Informationen über die Vertriebsgeschichte gehalten
werden. Auch bieten sich diese Metadaten für die Anreicherung von werbe-
wirksamen Zusatzangaben an.
7. Metadaten zur Langzeitarchivierung: Knüpfen an dem Ansatz der technischen
Metadaten an, jedoch ist neben den Formatinformationen auch die zugehörige
Systemumgebung (User Agent, Betriebssystem etc.) relevant, um Ressourcen
in ferner Zukunft (mindestens über 50 Jahre) zugänglich zu machen. Für die
Langzeitarchivierung existieren nach [BOR06] zwei Ansätze, Emulation und
Migration. Die genannten Metadaten dienen bei Emulationsbestrebungen der
Entwicklung geeigneter Werkzeuge, wogegen bei der Migration neue Res-
sourcen entstehen, deren Herkunft, Entstehungsgeschichte und technischer
Wandel in den Metadaten zur Langzeitarchivierung dokumentiert werden.
8. Accessibility-Metadaten: Dienen der Spezifikation von Zugriffsmodalitäten zu
Ressourcen sowie der Ausweisung bezüglich der Adaptierbarkeit (Anzeige-
transformierbarkeit, Steuerungsflexibilität) für die Unterstützung aller Nutzer
mit besonderen Bedürfnissen. Des Weiteren werden Accessibility-Metadaten
genutzt, um äquivalente Alternativen zu einer primären Ressource in Bezie-
hung zu setzen. Anhand der Charakteristika von alternativ angebotenen Res-
sourcen kann es Endbenutzern garantiert werden ein für sie zugängliches
Exemplar zu finden.
Die Beschreibung der einzelnen Kategorien zeigt, dass eine eindeutige Abgrenzung
nur sehr schwer möglich ist. Metadatenkategorien hängen in ihrer Funktionsweise
prinzipiell immer von anderen Kategorien ab. Die Zuordnung von spezifischen Funk-
tionen ist häufig nicht genau einer Kategorie zuweisbar.
Eine offene Frage in Bezug auf die aufgestellten Definitionen bleibt jedoch: Was ist
eine Ressource? Der Wandel der Zeit hat definitiv auch den Begriff der Ressource
einem Wandel unterzogen. Vom gedruckten Buch über eBooks bis hin zur multime-
dialen Publikation mit einer Vielzahl von Dateien ist heutzutage alles auf dem Markt
vertreten.
Im Weiteren wird vom Autor folgende Einschränkung festgelegt: Wenn in dieser Ar-
beit von einer Ressource gesprochen wird, handelt es sich im entsprechenden Kon-
text um eine Manifestation oder einen Item gemäß FRBR Model und RDA,
unabhängig davon, ob die Ressource eine Aggregation oder eine Einzelressource
ist.
Copyright TU Dresden, Alexander Haffner 14
21. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
2.4 Metadatenstandards
Da Prozesse in digitalen Bibliotheken automatisiert oder zumindest teilautomatisiert
ablaufen, stellt sich die Frage nach maschinenlesbaren Datenstrukturen und damit
auch die Frage nach Metadatenstandards sowie der Interoperabilität dieser Stan-
dards.
Metadatenstandards definieren die Formalisierung von Metadaten für die Archivie-
rung in und den Austausch zwischen Organisationen. Das bedeutet, sie stellen das
Grundgerüst (Framework) für die Daten bereit.
Dabei unterscheidet man in der Praxis zwischen
1. Internformaten: Metadaten die innerhalb eines Systems für die Archivierung
und Administration genutzt werden und
2. Austauschformaten: Dienen zur Unterstützung der Interoperabilität zwischen
heterogenen Systemen.
Standards für interoperable Metadaten haben die Aufgabe, Metadaten aus unter-
schiedlichen Quellen nutzbar zu machen. Sie umfassen dazu folgende Aspekte:
• Semantik: Beschreibt die Bedeutung, die in der Regel von Normierungsgre-
mien festgelegt wird.
• Datenmodell: Festlegung der Struktur der Metadaten (Grammatik)
o Daten: Sind die Informationen, die über eine Ressource hinterlegt wer-
den (vgl. [EVE04] Inhalte, Werte)
• Syntax: Dient dazu, die entsprechend dem Datenmodell generierten Aussa-
gen zu repräsentieren (Beispiel für ein Repräsentationsformat ist XML).
Die Semantik wird durch Konstrukte des Datenmodells abgebildet. Das Datenmodell
wird wiederum durch syntaktische Konstrukte repräsentiert. Die syntaktischen Kon-
strukte werden schließlich aus Zeichen eines vereinbarten Zeichensatzes zusam-
mengesetzt.
Um Metadaten verschiedener Quellen sinnvoll verarbeiten zu können, muss weltweit
eindeutig gekennzeichnet werden, um welche Semantik, welches Datenmodell und
welche Syntax es sich handelt. Hierzu ist ein Identifikationsmechanismus erforder-
lich, wie ihn z. B. die URIs (Uniform Resource Identifier) bereitstellen.
Im Folgenden wird eine überblicksartige Vorstellung der für diese Arbeit relevanten
Metadatenstandards vorgenommen. Für die eigentlich notwendige Verständniserlan-
gung zu den einzelnen Metadatenformaten hat sich der Autor für die Integration ei-
nes Metadatenstandardkompendiums im Anhang entschlossen. Im Anhang A sind
für den Leser umfangreiche Ausführungen mit zugehörigen Referenzwerken für ei-
nen vertiefenden Einblick ausgewiesen. Das Kompendium diskutiert des Weiteren
wie und ob die einzelnen Metadatenstandards die vorgestellten Arten von Metadaten
abdecken.
1. Maschinelles Austauschformat für Bibliotheken (MAB): Austauschformat im
deutschsprachigen Raum, dessen Entwicklung eingefroren wurde und in
den nächsten Jahren durch MARC 21 ersetzt wird.
2. MARC 21: Ist das aus dem anglo-amerikanischen Bibliothekswesen stam-
mende und auch international abgestimmte Machine-Readable Cataloging
(MARC) Format. Es existieren MARC 21 Formate für Bibliographic Data, Au-
Copyright TU Dresden, Alexander Haffner 15
22. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
thority Data, Classification Data, Community Information und Holdings Data.
MARC 21 ist das weltweit am häufigsten eingesetzte Austauschformat zwi-
schen Bibliotheken. MARC 21 zeichnet sich insbesondere durch die opti-
mierte Feingranularität in Bezug auf bibliotheksrelevante Metadaten aus.
3. Metadata Object Description Schema (MODS) ist ein XML-basiertes Derivat
von MARC, was sich als Austauschformat durch seine Einfachheit im Ver-
gleich zu MARC 21 (sowie MARCXML) und der wiederum guten Abdeckung
im Bereich von deskriptiven Metadaten für die Bibliotheksdomäne gegen-
über Dublin-Core-Metadaten hervorhebt.
4. Dublin Core (DC): Umfasst Metadaten, die ihre Stärken in der Verwendung
im Semantic Web besitzen. In Bibliotheken sind DC-Metadaten bislang vor-
rangig für den Austausch mit Nicht-Bibliothekssystemen (z. B. Serviceprovi-
dern gemäß OAI-PMH) im Einsatz. Durch die Einführung des RDA Element
Sets könnte sich dies jedoch in den kommenden Jahren ändern.
5. Pica+/Pica3: Ist ein in Deutschland weit verbreitetes Internformat. Es zeich-
net sich insbesondere durch seine hohe Feingranularität aus. Modellarisch
und syntaktisch ist es dem MARC-Standard nahe. Pica+ und Pica3 werden
u. a. im Online Public Access Catalogue (OPAC) eingesetzt.
6. Online Information eXchange (ONIX): Ist ein Metadatenformat zum Aus-
tausch von bibliografischen Metadaten und Produktdaten zwischen Verla-
gen, Buchhändlern, Bibliotheken, sowie weiteren involvierten Dienstleistern.
ONIX zeichnet sich insbesondere durch die hoch auflösenden handelsspezi-
fischen Metadaten aus, welche den Standard für die Beteiligten im kommer-
ziellen Sektor interessant macht.
7. XMetaDiss: Umfasst Hochschulschriften-spezifische Metadaten und wird als
Austauschformat zwischen der DNB und Universitätsbibliotheken verwen-
det. XMetaDiss basiert auf dem Dublin Core Metadata Element Set und ist
durch die Anreicherung mit weiteren Metadatenformaten zu internationalen
Standards kompatibel. Bislang deckt das Format ausschließlich die Be-
schreibung von Dissertations- und Habilitationsschriften ab. Für die Übertra-
gung weiterer Publikationstypen auf Hochschulschriftenservern kommt das
erweiterte Format XMetaDissPlus zum Einsatz.
8. Extensible Metadata Platform (XMP): Ist ein Adobe-Standard für die Erstel-
lung, Verarbeitung und den Austausch von Metadaten. Dabei wird der Me-
tadatensatz in einer Ressource (zumeist in der betroffenen Datei) integriert,
wodurch Applikationen unabhängig vom Archivierungssystem einen Zugriff
auf die zugehörigen Metadaten haben.
9. Preservation Metadata Implementation Strategies (PREMIS): Beinhalten
Langzeitarchivierungsmetadaten gemäß dem Archivierungsprozess im OAIS
Reference Model. Es legt einen besonderen Wert auf Angaben zur Existenz-
fähigkeit (viability), Darstellbarkeit (renderability), Verständlichkeit (un-
derstandability), Authentizität (authenticity) und zur Identität (identity) von
Objekten. Die Kernmetadaten umfassen außerdem administrative und tech-
nische Metadaten, wie Rechte- und Struktur-Metadaten.
10. Langzeitarchivierungsmetadaten für elektronische Ressourcen (LMER): Um-
fassen Metadaten in einem Repository, die Informationen über die Langzeit-
archivierung einer Ressource und den zugehörigen administrativen
Copyright TU Dresden, Alexander Haffner 16
23. Metadatenanreicherung im digitalen Publikationsprozess Metadaten
Metadaten bereitstellen. LMER folgt einem Modulkonzept für die Kombinati-
on mit weiteren Standards.
11. Metadata Encoding and Transmission Standard (METS): Ist vorrangig ein
Standard für die Abdeckung deskriptiver und administrativer Metadaten so-
wie von Struktur-Metadaten im Archivierungssystem. Da METS jedoch als
eine Art Metadatencontainer fungiert und mit beliebigen Metadatenstan-
dards angereichert werden kann, stellt sich METS als ein optimales Format
zur Langzeitarchivierung genau wie für den Metadaten- und Ressourcen-
austausch dar.
12. XML Formatted Data Unit (XFDU): Beschreibt wie Daten, Metadaten und
zugehörige Software in einem Information Package gemäß dem OAIS Refe-
rence Model gekapselt werden können, um den Informationstransfer und die
Archivierung zu optimieren. Die Empfehlungen liegen jedoch nur lückenhaft
in Form eines Red Book vor, was ihren praktischen Einsatz derzeit noch
nicht ermöglicht.
Auch wenn die Metadatenstandards als voneinander relativ losgelöst erscheinen,
verdeutlicht die Diskussion der Metadatenkategorienabdeckung, dass ein sinnvoller
und vor allem optimierter Praxiseinsatz nur durch die Kombination von Metadaten-
standards erreicht werden kann.
2.5 Zusammenfassung
In diesem Kapitel wurde die prinzipielle Unabhängigkeit der Ressource und der Me-
taebene (zugehörige Metadaten) verdeutlicht, jedoch auch auf deren Zusammenge-
hörigkeit für das Funktionieren des digitalen Dokumentenverarbeitungsprozesses
hingewiesen.
Homogene Metadaten sind auf struktureller genau wie inhaltlicher Ebene der Aus-
gangspunkt für die Erhöhung der Interoperabilität zwischen Bibliotheken, Archiven,
Verlagen, Dienstleistungsunternehmen und natürlich auch den Konsumenten. Meta-
datenstandards berücksichtigen die Bedürfnisse aller Parteien gemäß ihrer Domäne.
Metadaten werden sich in den Umgebungen am besten bewähren, für die sie
geschaffen wurden [EVE99].
Neben den Strukturen für die Ausweisung von Metadaten sind die Verwendung eines
einheitlichen Vokabulars und von Normdaten entscheidend, um Metadaten aus der
Bibliothek zum Produzenten und Endbenutzer zu tragen. Interoperabilität und Kon-
sistenz stehen bei der Verbreitung von Metadaten immer im Vordergrund.
Copyright TU Dresden, Alexander Haffner 17
24. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
3 Modellierung der Prozesse in digitalen
Bibliotheken
Nachdem das vorangegangene Kapitel die Vorgehensweisen in einer Bibliothek (Be-
schaffung, Erschließung, Sammlung und Bereitstellung) bereits grundlegend betrach-
tet und in den Kontext der Metadatenanreicherung gesetzt hat, soll in diesem Kapitel
anhand von Modellen die Betrachtungsweise verfeinert werden. Zusätzlich wird auf
die Thematik des Metadatenaustausches zwischen Institutionen eingegangen, um im
weiteren Verlauf die Funktionseinordnung der am Publikationsprozess partizipieren-
den Parteien zu verdeutlichen.
3.1 Die digitale Bibliothek
Bevor die eigentliche Prozessmodellierung eingeführt wird, soll an dieser Stelle die
Begrifflichkeit der digitalen Bibliothek kurz beleuchtet werden.
Digitale Bibliotheken sind durch die Digital Library Federation definiert als:
Organizations that provide resources including the specialized staff to select,
structure, offer intellectual access to, interpret, distribute, preserve the integrity
of, and ensure the persistence over time of collections of digital works so that
they are readily and economically available for use by a defined community or
set of communities. [DLF00]
Diese Definition deckt sich bedingt mit den in dieser Arbeit eingeführten Konzepten,
da gegenwärtig neben den digitalen Ressourcen auch nicht-digitale Ressourcen in
digitalen Bibliotheken verwaltet werden. Bei den angesprochenen Communities han-
delt es sich um Benutzer, die sich außerhalb der Bibliothek befinden und das digitale
Archivierungssystem in Anspruch nehmen.
Bibliothekar
Autor
Bibliothek Konsument
Verlag
Handel
Abbildung 3.1: Beteiligte Rollen im Publikationsprozess
Unter Betrachtung der ausschließlichen digitalen Ressourcenverarbeitung würde sich
der Prozess in einer digitalen Bibliothek wie folgt gestalten:
Der Autor erstellt eine Publikation im Dokumentenerstellungsprozess mittels einer
Auswahl von Autorenwerkzeugen und möchte sein Ergebnis entweder direkt in der
digitalen Bibliothek der Allgemeinheit zugänglich machen oder seine Publikation über
einen Verlag veröffentlichen.
Der Verlag wird gegebenenfalls diverse Überarbeitungen an der Ressource vorneh-
men, um sie in den Vertrieb und damit in den Handel aufnehmen zu können. Deut-
sche Verlage sind allerdings dazu verpflichtet, von jeder Veröffentlichung Exemplare
an die Deutsche Nationalbibliothek abzugeben.
Copyright TU Dresden, Alexander Haffner 18
25. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
In der Bibliothek kommen gemäß der Definition der Digital Library Federation die Bib-
liothekare als Personal zum Tragen, um Ressourcen zu erschließen und zu archivie-
ren.
Der Konsument erhält durch die angebotene Schnittstelle der digitalen Bibliothek ei-
nen Zugang zur Suche nach und zu digitalen Ressourcen selbst. Falls die Ressource
aus rechtlichen Gründen nur bibliografisch in der Bibliothek aufgeführt ist, muss der
Konsument die Ressource im Handel erwerben.
Entgegen der aufgeführten Definition der digitalen Bibliothek soll im Prozess aus
Gründen der Praxisnähe neben dem digitalen Werk auch die Einpflege der Druck-
version betrachtet werden. Der Autor bzw. der Verlag sind bei Publikationen von
Druckversionen verpflichtet, zwei physische Kopien in der zuständigen Bibliothek zu
hinterlegen, wodurch der Konsument in der Lage ist, durch Direktausleihe die Res-
source in der Bibliothek zu beziehen. Die Druckversionen wie auch digitale Ressour-
cen stehen außerdem für den Konsumenten im Handel zum Kauf bereit.
Das letzte Kapitel zeigte, dass für die Archivierung eingereichter Publikationen (un-
abhängig von der Form dieser) bereits Metadaten vom Autoren bzw. durch den Ver-
lag mitgeliefert werden müssen, um den Bibliothekar und sein Wirken im
Archivierungssystem zu unterstützen und Metadaten für die Zugänglichkeitsgestal-
tung für den Konsumenten unumgänglich sind.
3.2 Open Archival Information System (OAIS) Reference
Model
Das Open Archival Information System (OAIS) Reference Model [OAIS02] wurde
vom Consultative Committee for Space Data Systems für die Langzeitarchivierung
von Informationen entwickelt. Das Modell bezieht im Kontext die Produzenten der zu
archivierenden Informationen und die Betreiber des Archivierungssystems ein.
Ein Referenzmodell stellt eine Abstraktion der Kernkonzepte, deren Beziehungen,
und deren Schnittstellen sowohl zueinander als auch zur externen Umgebung dar
[RAU07]. Das OAIS Reference Model dient insbesondere der Erläuterung der Pro-
zessstrukturen zur Integration von Langzeitarchivierungsstrategien im Archivierungs-
system.
Das OAIS Reference Model basiert auf einem Information Model.
Abbildung 3.2: Objekte im OAIS Information Model
Copyright TU Dresden, Alexander Haffner 19
26. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
Die Abbildung verdeutlicht, dass im Prozess sowohl nicht-digitale als auch digitale
Objekte verarbeitet werden können. Man fasst diese als Data Object zusammen.
Ein Data Object wandelt sich nur in ein Information Object, wenn die zugehörige
Knowledge Base und Representation Information (z. B. ASCII-Standard) vorhanden
sind. Als Knowledge Base wird in diesem Zusammenhang die Wissensbasis einer
Person gesehen. So kann ein Leser beispielsweise die Daten eines englischsprachi-
gen Dokumentes nur in Information wandeln, wenn er des Lesens und der engli-
schen Sprache mächtig ist.
Information Objects bewegen sich in gekapselter Form als Information Packages
durch das OAIS. Ein Information Package besitzt drei essentielle Bestandteile: die
Content Information, die Preservation Description Information (PDI) und die Packa-
ging Information.
Abbildung 3.3: Information Package im OAIS Information Model
Das Data Object und die Representation Information als das eigentliche Information
Object gehören zur Content Information. Die PDI besteht aus Angaben zur Herkunft,
dem Kontext (Beziehung zu anderen Informationen etc.), Referenzen (Identifiern wie
ISBN) und zur Beständigkeit (Checksummen etc.). Die Content Information und die
PDI werden durch die Packaging Information (Manifest, Package-Identifier etc.) zu-
sammengehalten. Zusätzlich werden im Archivierungssystem noch deskriptive Infor-
mationen zu den Information Packages gehalten, um diese suchen und auffinden zu
können.
Das Modell unterscheidet drei Arten von Information Packages:
• Submission Information Packages (SIP): werden vom Produzenten an das Ar-
chiv gesendet
• Archival Information Packages (AIP): werden im Archiv aufbewahrt
• Dissemination Information Packages (DIP): werden vom Archiv zum Konsu-
menten gereicht
Im AIP muss die umfangreichste und detaillierteste PDI hinterlegt sein. In den SIPs
werden zumeist nur mangelhafte beschreibende Informationen hinterlegt, auch kön-
nen SIPs unterschiedlich strukturiert sein. Aus einem SIP kann neben einem AIP,
Copyright TU Dresden, Alexander Haffner 20
27. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
auch eine Aufnahme des SIPs in ein AIP oder die Aufspaltung des SIPs in mehrere
AIPs vorgenommen werden. Ein DIP wird vor der Auslieferung an die Bedürfnisse
des Konsumenten angepasst.
Neben dem Information Model existiert noch ein Functional Model.
Abbildung 3.4: OAIS Functional Model
Das Functional Model lässt sich in sieben funktionale Entitäten einteilen [BAL06]. Die
Funktion der einzelnen Entitäten im Prozess wird im Folgenden vorgestellt. Die Enti-
tätsbeziehungen sind in Abbildung 3.4 visuell verdeutlicht.
1. Ingest: Nimmt ein SIP vom Produzenten entgegen und sichert dessen Quali-
tät; ergänzt das SIP um deskriptive Informationen (Erschließung) und wandelt
es in ein AIP, das zum Archival Storage zur Einpflege gereicht wird; registriert
deskriptive Informationen im Data Management
2. Archival Storage: Empfängt das AIP vom Ingest Process und realisiert dessen
Speicherung; ständige Überprüfung und Sicherung der physischen Daten auf
den Speichermedien; Datenrettung und Katastrophenplanung; Übergabe ei-
nes AIP auf Anfrage zum Access
3. Data Management: Betrieb und Verwaltung der Datenbank für deskriptive und
Systeminformationen; Antwort auf Anfragen der Access-Entität; Einpflege von
deskriptiven Informationen aus Ingest; Reporterstellung
4. Administration: Deckt die Aktivitäten zur akkuraten Funktionsweise des Sys-
tems ab; Aushandlung der Submission-Richtlinien mit den Produzenten sowie
allgemeiner Richtlinien und Standards für das Gesamtsystem; Überprüfung
der eingereichten Publikationen auf Standardeinhaltung; Systemkonfigurati-
onsmanagement; Archival Information Updates; Zugangskontrollen; automati-
sche Generierung von Dissemination Request aus gespeicherten
Suchanfragen; Customer Service
5. Preservation Planning: Absicherung der Zugänglichkeit entgegen technologi-
schen Änderungen; Überwachung der Zielgruppen auf Anforderungsänderun-
gen, Technologien, Standards und Plattformen; Aufnahme von neuen
Copyright TU Dresden, Alexander Haffner 21
28. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
Features und Entnahme von alten; Entwicklung von Langzeitarchivierungs-
strategien und -standards; Definition von zeitgemäßen Packaging-Designs
und Migrationsplänen
6. Access: Suche und Datenabruf der archivierten Informationen; Koordination
der Access-Aktivitäten in einem einzigen User Interface (Such-, Report- und
DIP-Anfragen); Generierung der DIPs aus AIPs; Auslieferung an den Konsu-
menten
7. Common Services: Die Entität unterliegt allen anderen und umfasst Betriebs-
system-Services und Security-Services
Es zeigt sich, dass die benannten Funktionalitäten in den einzelnen Entitäten jeweils
eine Kombination aus Aufgaben durch Menschenhand und automatisierten Prozes-
sen des Systems sind.
Die Besonderheit des Modells liegt in der Einbeziehung des Preservation Plannings,
was die Zugänglichkeit der Informationen über lange Zeit gewähren soll. Hierfür sind
Migrationsstrategien als kostengünstige und effiziente Vorgehensweisen vorgese-
hen.
Man unterscheidet vier Arten von Migration:
• Refreshment: Umkopieren des AIP auf dem Speichermedium
• Replication: Erzeugen eines weiteren Replikates des AIP
• Repackaging: Erzeugen einer Kopie des AIP, wobei Content Information und
PDI unverändert bleiben und die Packaging Information angepasst wird
• Transformation: Erstellen eines neuen AIP mit abgeänderten Content Informa-
tion oder PDI, wobei versucht wird, die volle Information des Inhaltes aus dem
originalen AIP zu bewahren.
Die Formulierung bei der Transformation weist bereits auf die Problematik der Migra-
tion für neue Technologien und Standards hin. In dieser Arbeit soll auf die Risiken
verlustbehafteter Migration bei der Langzeitarchivierung nicht eingegangen werden.
Interessierte Leser können sich ausführlich über die Thematik in [BOR06] informie-
ren.
Im Folgenden wird sich diese Arbeit mit der Gestaltung und Konformität der einzel-
nen Information Packages und der Anreicherung von PDI beschäftigen, um ein Op-
timum bei der Metadatenintegration zu erlangen.
Das Modell macht keine Aussagen zu Content-Packaging-Techniken. Am OAIS Re-
ference Modell angelehnte Standards für die konforme Paketgestaltung sind METS,
XML Formatted Data Unit (XFDU), MPEG-21 DIDL für multimediale Ressourcen und
IMS Content Packaging. PREMIS deckt sich insbesondere mit den im OAIS Referen-
ce Model enthaltenen Charakteristika für die Entscheidungsfindung der Langzeitar-
chivierungsstrategien [BAL06].
3.3 Harvesting
Die Open Archives Initiative (OAI) ist eine Initiative von Betreibern von Archivie-
rungssystemen, deren Ziel es ist, die archivierten elektronischen Publikationen im
Internet besser auffindbar und nutzbar zu machen.
Das Konzept des Harvestings setzt dabei am Harvester an. Der Harvester ist ein so
genannter Service Provider, der über eine einzige Schnittstelle Nutzern einen Zu-
gang zum Archivbestand verschiedenster Archivierungssysteme bietet.
Copyright TU Dresden, Alexander Haffner 22
29. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
Das OAI Protocol for Metadata Harvesting (OAI-PMH) ermöglicht in diesem Zusam-
menhang, weltweit Metadaten zwischen Organisationen zu teilen oder von verschie-
denen Institutionen Daten einzusammeln und selbst weiterführende Dienstleistungen
auf diesen Daten anzubieten [EPH05]. Das OAI-Protokoll liegt derzeit in der Version
2.0 vor.
Beim Prinzip des Harvesting wird in Anbieter von (digitalen Exemplaren und) Meta-
daten, den Data Provider und darauf aufbauenden Dienstleistern (Service Provider)
unterschieden. Der Service Provider fragt in regelmäßigen Abständen die Metadaten
der Data Provider ab und speichert diese in seiner lokalen Datenbank.
Laut [OAIPMH02] werden die Provider wie folgt definiert
• Data Providers are administer systems that support the OAI-PMH as a means
of exposing metadata; and
• Service Providers use metadata harvested via the OAI-PMH as a basis for
building value-added services.
Resultierend stellt ein Endnutzer nur eine Anfrage auf der lokalen Datenbank des
Service Providers, um über allen Ressourcen der Data Provider suchen zu können.
Die Suche wird zumeist mittels eines Webinterfaces vorgenommen.
Service
Nutzer
Provider
HTTP
XML
Anfrage
Data Data Data
Provider Provider Provider
Abbildung 3.5: Prozess des Harvesting mittels OAI-PMH nach [MÜL01]
Der funktionale Ansatz ist ähnlich dem des OAIS Reference Model. Data Provider
halten in ihrem Repository so genannte Items. Der Begriff Item wird in diesem Zu-
sammenhang nicht konform zu RDA verwendet. Ein Item ist eine Art Container für
Ressourcen, wobei jeder Item einen oder mehrere Records von Metadaten zugewie-
sen bekommen kann. Ein Item benötigt mitunter mehrere Records, da jedes Metada-
tenformat in einem eigenem Record gehalten werden muss. Die Integration von
beliebigen Metadatenformaten im Repository ist somit denkbar. Für den Austausch
zwischen Providern ist es jedoch notwendig, dass die Metadatenformate untereinan-
der abgestimmt sind. Aus Gründen der Interoperabilität wird Dublin Core als kleinster
gemeinsamer Nenner von allen Datenprovidern unterstützt [EPH05]. Für eine qualita-
tiv hochwertige Weiterverarbeitung findet häufiger MARCXML Einsatz.
OAI-PMH Anfragen werden von Service Providern als HTTP-Requests ausgedrückt.
OAI-PMH ermöglicht es, Daten von Data Providern selektiv abzufragen. Service Pro-
Copyright TU Dresden, Alexander Haffner 23
30. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
vider können beispielsweise auf Basis von Set-Hierarchien die für sie relevanten Da-
ten anfordern.
A set is an optional construct for grouping items for the purpose of selective
harvesting. [OAIPMH02]
Insgesamt existieren sechs verschiedene OAI-Requests:
• Identify(): Informationen über das Repository
• ListSets(): Hierarchieaufbau der Items und Sets des Repositorys
• ListIdentifiers([until], [from], [set]): Liste der eindeutigen Bezeichner von Da-
tensätzen (nur Header nicht Datensatz selbst) – selektiv möglich
• ListMetadataFormats([identifier]): Verfügbare Metadatenformate zu einem
Item
• ListRecords([until], [from], [set], metadataPrefix): Metadatensätze des Ar-
chives
• GetRecord(identifier, metadataPrefix): Metadatensatz eines Items
Laut Deutscher Initiative für Netzwerkinformation e.V. (DINI) empfiehlt es sich für Da-
ta Provider, eine Strukturierung der Archive sowohl nach formalen als auch nach in-
haltlichen Kriterien vorzunehmen. Die inhaltliche Beschreibung soll sich an den
Sachgruppen der Deutschen Nationalbibliothek orientieren. Die formalen Unterglie-
derungen beziehen sich auf die Publikationsform und den technischen Dokumenttyp.
Resultierend sollten Sets in vier unterschiedlichen Gliederungsansätzen aufgeführt
werden:
• einer inhaltlichen Gliederung (ddc),
• einer Gliederung gemäß der Publikationsform (pub-type),
• einer Gliederung nach Dokumenttypen (doc-type) und
• einer Gliederung nach der qualitativen inhaltlichen Begutachtung (status).
Die Antworten der Data Provider werten mittels HTTP-Responses formuliert und im
XML Response Format ausgedrückt. Im XML Response Format werden entspre-
chend der Anfrage passende Antworten in XML serialisiert. Wie gezeigt, ist für die
Funktionsweise des Ansatzes der Austausch der eigentlichen Metadaten (Records)
essentiell. Ein Record kann neben Header-Informationen und dem metadata-
Element, in dem die tatsächlichen Metadaten enthalten sind, auch noch ein about-
Element besitzen. Im about-Element sind Metadaten über den Metadatensatz des
Records (beispielsweise Daten zum Rechtemanagement, Provenance Statements)
gespeichert. Dadurch ist eine verbesserte Verwaltung für den Service Provider er-
möglicht.
Unter dem Namen OAI Object Re-Use and Exchange (OAI-ORE) wurden ergänzend
zu OAI-PMH Verfahren geschaffen, um die innere Struktur der Objekte und die Be-
ziehung zu anderen Objekten in einer maschinell lesbaren Resource Map abzubil-
den. Mit OAI-ORE soll auch das Wiederverwenden und das veränderte
Zusammensetzen von publizierten Inhalten vereinfacht werden.
In der Praxis trifft man heutzutage oft auf so genannte aggregierende oder kumulati-
ve Data Provider, welche neben ihrer eigentlichen Rolle als Data Provider auch die
Rolle eines Service Providers für eine ausgewählte Zahl von anderen Data Providern
übernehmen.
Abschließend soll darauf hingewiesen werden, dass der Ansatz des Harvesting ge-
genüber Protokollen wie dem Z39.50-Protokoll, einen hohen Performancevorteil bei
der Übertragung großer Datenmengen aufweist.
Copyright TU Dresden, Alexander Haffner 24
31. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
3.4 Open Archives Initiative Object Reuse and Exchange
(OAI-ORE)
Der durch Open Archives Initiative Object Reuse and Exchange (OAI-ORE) im Okto-
ber 2008 definierte Standard [ORE08] zielt auf die Beschreibbarkeit und Austausch-
barkeit von logisch zusammengehörenden Einheiten im Web ab. Eine solche Einheit
kann verteilte Ressourcen unterschiedlichster Formate und Medientypen enthalten.
Typische Beispiele sind untereinander verlinkte HTML-Seiten, wissenschaftliche
Publikationen in alternativen Formaten mit Sekundärliteratur oder ein Journal, das
eine Zahl an Ausgaben besitzt und jede Ausgabe eine Anzahl an Artikeln umfasst.
OAI-ORE spezifiziert diese logischen Einheiten als Aggregationen, die wiederum
Ressourcen bestimmten Typs aggregieren. Die Ressourcen besitzen bestimmte Ag-
gregations-interne und –externe Beziehungen.
The goal of these standards is to expose the rich content in these aggrega-
tions to applications that support authoring, deposit, exchange, visualization,
reuse, and preservation.
Aggregationen gestatten Crawler-basierten Suchmaschinen semantische Zusam-
menhänge zu erkennen, optimierte Navigationsmechanismen in Browsern anzubie-
ten oder Archivierungsstrategien in bzw. interoperable Austauschverfahren zwischen
Repositories für die gesamte Aggregation zu finden.
Das nachfolgend vorgestellte ORE Data Model setzt auf der Architektur des World
Wide Web [WAR04] auf und nutzt RDF-Konzepte [RDF04] sowie RDF Vocabulary
[RDFS04] nach.
Im ORE Abstract Data Model existieren prinzipiell vier Typen von Entitäten:
• Aggregationen als eine Ressource vom Typ ore:Aggregation, die über eine
URI-A identifiziert wird,
• aggregierte Ressourcen in Aggregationen, die über eine URI-AR identifiziert
werden,
• die Resource Map (ReM) mit dem Typ ore:ResourceMap, welche eine Aggre-
gation, ihre aggregierten Ressourcen und weitere Ausdrücke sowie Beziehun-
gen beschreibt. Eine ReM wird über eine URI-R identifiziert.
• Proxy vom Typ ore:Proxy als Platzhalter für Aggregationen und eine in Bezie-
hung stehende aggregierte Ressource.
Eine ReM muss über einen RDF-Graph und entsprechende RDF-Tripel seine Bezie-
hung zur Aggregation deklarieren, Metadaten zu dieser ReM und der Aggregation
spezifizieren sowie die Beziehungen der in der Aggregation enthaltenen Ressourcen
(Aggregation Graph) ausdrücken. Außerdem kann die ReM Beziehungen der Aggre-
gation oder in der Aggregation enthaltene Ressourcen zu externen Ressourcen defi-
nieren.
Abbildung 3.6 verdeutlicht die in der ReM ausgedrückten Beziehungen. Eine Aggre-
gation kann abhängig von der Art der Serialisierung durch mehrere ReMs wie im
Beispiel beschrieben werden. Die Metadaten können in Form von Literalen oder wie-
derum in Tripeln spezifiziert sein. Die Beziehungen einer Aggregation zu einer ande-
ren Aggregation oder einem anderen Objekt (beispielsweise über eine DOI oder eine
URN) können die Prädikate rdfs:seeAlso oder dessen Sub-Property ore:similarTo
tragen. Das Prädikat ore:similarTo drückt aus, dass die andere Ressource einen
ähnlichen Inhalt zur Aggregation besitzt, wohingegen rdfs:seeAlso schwächerer Na-
tur ist und beispielsweise eine Referenz darstellt.
Copyright TU Dresden, Alexander Haffner 25
32. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
Außerdem besteht die Möglichkeit in einer ReM, zusätzliche Tripel zu der ReM, einer
Aggregation, den aggregierten Ressourcen oder anderen in Beziehung stehenden
Ressourcen oder Literalen zu zuweisen. Über rdf:type wird im Beispiel der semanti-
sche Typ der Ressource ausgedrückt. T-1 bedeutet, dass es sich um den Typ „Arti-
kel“ handelt und T-2 weist darauf hin, dass die Ressourcen vom Typ „Text“ sind. Des
Weiteren definiert die Beziehung R-1, dass A-1 ein Teil der Ressource B ist. Für de-
taillierte Ausführungen zu den RDF-Ausdrücken und korrespondierenden URIs zu
den Ressourcen aus dem Beispiel sei der Leser auf die tabellarischen Übersichten in
Anhang E verwiesen.
A-2
DOI-1
rdfs:seeAlso
ore:similarTo
AR-1
rdf:type
ore:aggregates
ReM-2
ore:describes
A-1 ore:aggregates AR-2 rdf:type T-2
ore:describes
ReM-1 rdf:type
ore:aggregates
dcterms:creator AR-3 rdf:type
dcterms:creator
T-1
Y
X
dc:rights R-1
dcterms:modified
B
Abbildung 3.6: Primärbeziehungen in einer Aggregation gemäß OAI-ORE
Im weiteren Verlauf wird verdeutlicht, wie durch eine Resource Map Beziehungen
zwischen aggregierten Ressourcen und anderen Resource Maps oder Aggregatio-
nen ausgedrückt werden können.
Im einfachsten Falle kann eine aggregierte Ressource Bestandteil in einer Vielzahl
von Aggregationen sein. Des Weiteren besteht die Möglichkeit, Aggregationen zu
verschachteln. Da jede Ressource im OAI-ORE Abstract Model auch eine Aggrega-
tion sein kann, ist es lediglich notwendig, jede Aggregation über eine zugehörige
ReM sichtbar zu machen. Abbildung 3.7 illustriert ein einfaches Beispiel einer ge-
schachtelten Aggregation.
Copyright TU Dresden, Alexander Haffner 26
33. Metadatenanreicherung im digitalen Publikationsprozess Modellierung der Prozesse in digitalen Bibliotheken
ore:describes
ore:aggregates
AR-M
ReM-2 AR-1
ore:aggregates
AR-N
ore:aggregates
ReM-3 ore:describes
ReM-1 ore:describes A-1
ore:aggregates
ore:aggregates
ore:aggregates AR-2
AR-X
ore:aggregates
AR-3
AR-Y
Abbildung 3.7: Geschachtelte Aggregationen gemäß OAI-ORE
Ein weiteres Konzept des Abstract Model besteht im Einsatz von Proxies. Proxies
erlauben es, Zusammenhänge in einem bestimmten Kontext (Aggregations-intern
oder -extern) zu beschreiben. Beispielsweise kann eine Reihenfolge von aggregier-
ten Ressourcen in der Aggregation festgelegt werden oder die Abstammung einer
Ressource aus einer anderen Aggregation definiert werden. An dieser Stelle soll das
Konzept jedoch nicht vertiefend betrachtet werden. Für Interessenten sei auf
[ORE08] verwiesen.
Resource Maps können in verschiedenen Formaten wie Atom XML, RDF/XML,
RDFa, n3, turtle und anderen RDF-Serialisierungsformaten ausgedrückt werden. Im
Entstehungsprozess dieser Arbeit hat sich der Autor unter anderem mit Atom XML
auseinander gesetzt. Atom XML liegt ein viel versprechendes Konzept zu Grunde. Es
musste jedoch festgestellt werden, dass es nicht in der Lage ist, genauso umfangrei-
che und ausgereifte Definitionen wie mittels RDF/XML zu treffen.
Das für OAI-ORE entwickelte Vokabular stellt eine maschinenlesbare Verarbeitung
sicher. In diesem Zusammenhang wurde durch die OAI ein Vokabular für die Entitä-
ten und für deren Beziehungen untereinander spezifiziert. Im Vokabular wurde eine
Reihe von Ausdrücken aus dem Vokabular der DCMI und RDF übernommen.
Copyright TU Dresden, Alexander Haffner 27