Folien zum Referat "Eine Biografie aus ADB/NDB als XML" für das Hauptseminar "Datenbanken vs. Markup" bei Prof. Dr. Manfred Thaller an der Universität zu Köln im Wintersemester 2009 / 10
1. Eine Biografie aus ADB/NDB als XML
Datenbanken vs. Markup
Prof Dr. Manfred Thaller
WS 2009 / 2010
Referent: Bilal Erkin
2. 2
XML – (eXtensible Markup Language)
• Auszeichnungssprache zur Darstellung hierarchisch
strukturierter Daten
• Namen der Elemente und Attribute sind frei wählbar
• Dateistruktur durch DTD oder XML Schema
definierbar
• Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG,
X3D), Geodaten, Video (SMIL), Webservices (SOAP,
WSDL), Datenbanken (Xquery) …
3. 3
Vorteile von XML
• Für Mensch und Maschine verständliche
Informationen (semantic Web)
• Lizenzfreiheit
• Plattformunabhängigkeit
• Medienneutralität
▫ Einsatz in verschiedenen Systemen
▫ Konvertierung in andere Dateiformate
4. 4
Quelle für die Auszeichnung
• Biografie aus ADB / NDB am
Beispiel von „Curt Goetz“
• Grafik
• Ohne OCR (Texterkennung)
▫ Deshalb nicht durchsuchbar
• Große Dateigröße
5. 5
Ziel der Auszeichnung in XML
• Druchsuchbarer Text (geringe Dateigröße und
suchmaschinenkonform)
• Verlinkungen innerhalb des Textes für schnelle Navigation
• (Evtl. Kopplung an die Originalgrafik bei älteren Texten)
• Schnelle Konvertierung in andere Formate (PDF,
Datenbanken, CD-ROM)
• Semantische Struktur
• Für jede Personenbiografie eine Datei
6. 6
Das wichtigste Element: <person>
• Element <person> ist das Kernstück einer
Biografie
• Alle vorkommenden Personen werden damit
ausgezeichnet und bekommen eine eindeutige ID
• Berufe und Personenbeschreibungen werden an
die ID gekoppelt.
• Für die inter-biografische Verbindung wichtig!
7. 7
Beispiel des Elements <person>
• <person geschlecht="männlich„ id="Goetz_Curt_1">
• Attribute
▫ geschlecht = (männlich | weiblich)
▫ ID besteht aus Nachname_Vorname_Zahl
Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und
Nachnamen unterscheiden
• Dateinamen sind identisch mit Person ID
(Goetz_Curt_1.xml)
9. 9
Auszeichnung der Kurzinfo
Name wird hervorgehoben
Entities werden eingefügt († für Kreuz)
•
Beruf wird an person gekoppelt durch person_ref
•
Beruf bekommt eine Kategorie
•
•
11. 11
Analyse der Familie
Vater
Mutter
•
Ehepartner(in)
•
Kinder
•
•
• Ineinander verschachtelte
Personenbeschreibungen (teilweise sehr komplex)
• Symbole, für die es keine Entities gibt (Eheringe)
12. 12
Auszeichnung des Vaters
• Abschnitt innerhalb <familie>
• Personen bekommen ID
• Nähere Beschreibungen in
<beschreibung> mit Referenz an die
Person ID durch Attribut person_ref
14. 14
Auszeichnung des Ehepartners
• Eheringe als Bilddatei!
• Mehrere <ehepartner> möglich
• <scheidung> kann eingefügt werden (bei Goetz nicht
nötig)
• Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
15. 15
Analyse der „eigentlichen“ Biografie
• Durchgehender Text
• Weitere Personen kommen vor
• In anderen Biografien: Studium,
Institut und Studienjahre
• Mehrere Absätze
17. 17
Analyse der Werke
Kategorie (Werkstyp)
Titel
•
Erscheinungsjahr
•
Sonstige Bemerkungen
•
•
18. 18
Auszeichnung der Werke
• <werk> bekommt Attrribute
typ und jahr
• Titel in <werk_name>
• Sonstiges innerhalb <werk>
19. 19
Seitenumbrüche im Original
• Seitenumbrüche werden in der XML repräsentiert
durch
• Übergang von einer Seite zur anderen durch |
<seite umbruch="588|589"/>
• Auch Seitenzahlen nach anderem Format möglich
(XV|XVI; 10a|10b; 45.1|45.2 …)
Vorteil: PDF wird 1:1 repräsentiert
20. 20
Analyse des Literaturnachweises
Autor
Titel
•
Erscheinungsjahr
•
Verlag oder Seitennummer
•
•
• Literaturnachweise getrennt durch Semikolon
• Querverweise zu anderen Personen (Wilhelm
Rocco)
22. 22
Analyse des Fundstelle
Werk
Autor
•
Seitenzahlen
•
Bandnummer
•
•
• Mehrere Funstellen möglich
• Unterscheidung zwischen Haupteintrag und
Nebeneintrag
23. 23
Auszeichnung der Fundstelle
• Am Anfang der Datei in <meta>
• <fundstelle> hat alle Angaben
als Attribute und als Text
• Autor separat in <autor> getaggt
mit persönlicher ID
24. 24
Standartisierung der Struktur
• Für eine einheitliche Struktur für alle Einträge in
der ADB / NDB:
▫ Mehrere verschiedene Strukturtypen taggen
▫ Eine DTD oder ein XML-Schema definieren
• Dokumentation der DTD
▫ Welche Elemente können in welchen enthalten sein?