SlideShare una empresa de Scribd logo
1 de 25
Eine Biografie aus ADB/NDB als XML
Datenbanken vs. Markup
Prof Dr. Manfred Thaller
WS 2009 / 2010

Referent: Bilal Erkin
2




XML – (eXtensible Markup Language)
• Auszeichnungssprache zur Darstellung hierarchisch
  strukturierter Daten

• Namen der Elemente und Attribute sind frei wählbar

• Dateistruktur durch DTD oder XML Schema
  definierbar

• Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG,
  X3D), Geodaten, Video (SMIL), Webservices (SOAP,
  WSDL), Datenbanken (Xquery) …
3




Vorteile von XML
• Für Mensch und Maschine verständliche
  Informationen (semantic Web)

• Lizenzfreiheit

• Plattformunabhängigkeit

• Medienneutralität
  ▫ Einsatz in verschiedenen Systemen
  ▫ Konvertierung in andere Dateiformate
4




Quelle für die Auszeichnung
• Biografie aus ADB / NDB am
  Beispiel von „Curt Goetz“

• Grafik

• Ohne OCR (Texterkennung)
  ▫ Deshalb nicht durchsuchbar

• Große Dateigröße
5




Ziel der Auszeichnung in XML
• Druchsuchbarer Text (geringe Dateigröße und
  suchmaschinenkonform)

• Verlinkungen innerhalb des Textes für schnelle Navigation

• (Evtl. Kopplung an die Originalgrafik bei älteren Texten)

• Schnelle Konvertierung in andere Formate (PDF,
  Datenbanken, CD-ROM)

• Semantische Struktur

• Für jede Personenbiografie eine Datei
6




Das wichtigste Element: <person>
• Element <person> ist das Kernstück einer
  Biografie

• Alle vorkommenden Personen werden damit
  ausgezeichnet und bekommen eine eindeutige ID

• Berufe und Personenbeschreibungen werden an
  die ID gekoppelt.

• Für die inter-biografische Verbindung wichtig!
7




Beispiel des Elements <person>
• <person geschlecht="männlich„ id="Goetz_Curt_1">

• Attribute

  ▫ geschlecht = (männlich | weiblich)

  ▫ ID besteht aus Nachname_Vorname_Zahl
     Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und
      Nachnamen unterscheiden

• Dateinamen sind identisch mit Person ID
  (Goetz_Curt_1.xml)
8




Analyse der Kurzinfo
    Name, Vorname
    Beruf
•

    Geburtsdatum / -ort; Sterbadatum / -ort
•

    Konfession
•
•

• Orthographisch:
    ▫ Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“)
    ▫ Entities (Stern, Kreuz )
9




Auszeichnung der Kurzinfo


    Name wird hervorgehoben
    Entities werden eingefügt (&#8224; für Kreuz)
•

    Beruf wird an person gekoppelt durch person_ref
•

    Beruf bekommt eine Kategorie
•
•
10




Absätze im Original
• Absätze werden durch

  gekennzeichnet
  <absatz>...</absatz>
11




Analyse der Familie
    Vater
    Mutter
•

    Ehepartner(in)
•

    Kinder
•
•

• Ineinander verschachtelte
  Personenbeschreibungen (teilweise sehr komplex)

• Symbole, für die es keine Entities gibt (Eheringe)
12




Auszeichnung des Vaters
• Abschnitt innerhalb <familie>

• Personen bekommen ID

• Nähere Beschreibungen in
  <beschreibung> mit Referenz an die
  Person ID durch Attribut person_ref
13




Auszeichnung der Mutter
• Komplexe Verschachtelung

• Struktur Nur noch im Strukturbaum
  ersichtlich
14




Auszeichnung des Ehepartners
• Eheringe als Bilddatei!

• Mehrere <ehepartner> möglich

• <scheidung> kann eingefügt werden (bei Goetz nicht
  nötig)

• Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
15




Analyse der „eigentlichen“ Biografie
• Durchgehender Text

• Weitere Personen kommen vor

• In anderen Biografien: Studium,
  Institut und Studienjahre

• Mehrere Absätze
16




Auszeichnung der „eigentlichen“ Biografie
• Wird von <biographie>
  umschlossen

• Personen werden ausgezeichnet
  mittels ID
17




Analyse der Werke
    Kategorie (Werkstyp)
    Titel
•

    Erscheinungsjahr
•

    Sonstige Bemerkungen
•
•
18




Auszeichnung der Werke
• <werk> bekommt Attrribute
  typ und jahr
• Titel in <werk_name>
• Sonstiges innerhalb <werk>
19




Seitenumbrüche im Original
• Seitenumbrüche werden in der XML repräsentiert
  durch


• Übergang von einer Seite zur anderen durch |
 <seite umbruch="588|589"/>



• Auch Seitenzahlen nach anderem Format möglich
  (XV|XVI; 10a|10b; 45.1|45.2 …)

Vorteil: PDF wird 1:1 repräsentiert
20




Analyse des Literaturnachweises
    Autor
    Titel
•

    Erscheinungsjahr
•

    Verlag oder Seitennummer
•
•

• Literaturnachweise getrennt durch Semikolon

• Querverweise zu anderen Personen (Wilhelm
  Rocco)
21




Auszeichnung des Literaturnachweises
Einzelne Einträge in <lit-eintrag>

• Sinvoll in autor, titel, jahr usw. zu trennen?

• Kopplung der Einträge an ID (wegen W. Rocco) ?
22




Analyse des Fundstelle
    Werk
    Autor
•

    Seitenzahlen
•

    Bandnummer
•
•

• Mehrere Funstellen möglich

• Unterscheidung zwischen Haupteintrag und
  Nebeneintrag
23




Auszeichnung der Fundstelle
• Am Anfang der Datei in <meta>

• <fundstelle> hat alle Angaben
  als Attribute und als Text

• Autor separat in <autor> getaggt
  mit persönlicher ID
24




Standartisierung der Struktur
• Für eine einheitliche Struktur für alle Einträge in
  der ADB / NDB:

  ▫ Mehrere verschiedene Strukturtypen taggen

  ▫ Eine DTD oder ein XML-Schema definieren

• Dokumentation der DTD
  ▫ Welche Elemente können in welchen enthalten sein?
25

Más contenido relacionado

Destacado

Klassifizierung von Hadithen
Klassifizierung von HadithenKlassifizierung von Hadithen
Klassifizierung von HadithenBilal Erkin
 
Rich ajax platform (rap)
Rich ajax platform (rap)Rich ajax platform (rap)
Rich ajax platform (rap)Bilal Erkin
 
Übergangswahrscheinlichkeiten
ÜbergangswahrscheinlichkeitenÜbergangswahrscheinlichkeiten
ÜbergangswahrscheinlichkeitenBilal Erkin
 
Hidden Markov Modelle
Hidden Markov ModelleHidden Markov Modelle
Hidden Markov ModelleBilal Erkin
 
Hadithterminologie
HadithterminologieHadithterminologie
HadithterminologieBilal Erkin
 
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...Islamic Invitation
 
Mystik im Islam und Christentum
Mystik im Islam und ChristentumMystik im Islam und Christentum
Mystik im Islam und ChristentumBilal Erkin
 
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor OrtPraktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor OrtBilal Erkin
 
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann StiftungMenschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann StiftungStresemann Stiftung
 
Islam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und IntegrationIslam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und IntegrationBilal Erkin
 
Malaysia
MalaysiaMalaysia
MalaysiaJen S
 
Secrets of Surat Al-Kahf
Secrets of Surat Al-KahfSecrets of Surat Al-Kahf
Secrets of Surat Al-KahfMohammed Faris
 
Intro to islam power point presentation
Intro to islam power point presentationIntro to islam power point presentation
Intro to islam power point presentationmanishonlin
 
Presentation Islam
Presentation IslamPresentation Islam
Presentation IslamAzizjonZ
 

Destacado (16)

Klassifizierung von Hadithen
Klassifizierung von HadithenKlassifizierung von Hadithen
Klassifizierung von Hadithen
 
Rich ajax platform (rap)
Rich ajax platform (rap)Rich ajax platform (rap)
Rich ajax platform (rap)
 
Übergangswahrscheinlichkeiten
ÜbergangswahrscheinlichkeitenÜbergangswahrscheinlichkeiten
Übergangswahrscheinlichkeiten
 
Hidden Markov Modelle
Hidden Markov ModelleHidden Markov Modelle
Hidden Markov Modelle
 
Hadithterminologie
HadithterminologieHadithterminologie
Hadithterminologie
 
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10  ( commentary ...
A compilation of the Abridged Tafsir Ibn Kathir Volumes 1 - 10 ( commentary ...
 
Mystik im Islam und Christentum
Mystik im Islam und ChristentumMystik im Islam und Christentum
Mystik im Islam und Christentum
 
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor OrtPraktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
Praktikum beim Orient Institut Istanbul - Vorbereitung und Zeit vor Ort
 
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann StiftungMenschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
Menschenrecht Meinungsfreiheit - Vortrag der Stresemann Stiftung
 
Surat Al-Maun
Surat Al-MaunSurat Al-Maun
Surat Al-Maun
 
Islam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und IntegrationIslam in Deutschland zwischen Anspruch und Integration
Islam in Deutschland zwischen Anspruch und Integration
 
Malaysia
MalaysiaMalaysia
Malaysia
 
Secrets of Surat Al-Kahf
Secrets of Surat Al-KahfSecrets of Surat Al-Kahf
Secrets of Surat Al-Kahf
 
Intro to islam power point presentation
Intro to islam power point presentationIntro to islam power point presentation
Intro to islam power point presentation
 
Spracherkennung
SpracherkennungSpracherkennung
Spracherkennung
 
Presentation Islam
Presentation IslamPresentation Islam
Presentation Islam
 

Eine Biografie aus der ADB/NDB als XML

  • 1. Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin
  • 2. 2 XML – (eXtensible Markup Language) • Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten • Namen der Elemente und Attribute sind frei wählbar • Dateistruktur durch DTD oder XML Schema definierbar • Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …
  • 3. 3 Vorteile von XML • Für Mensch und Maschine verständliche Informationen (semantic Web) • Lizenzfreiheit • Plattformunabhängigkeit • Medienneutralität ▫ Einsatz in verschiedenen Systemen ▫ Konvertierung in andere Dateiformate
  • 4. 4 Quelle für die Auszeichnung • Biografie aus ADB / NDB am Beispiel von „Curt Goetz“ • Grafik • Ohne OCR (Texterkennung) ▫ Deshalb nicht durchsuchbar • Große Dateigröße
  • 5. 5 Ziel der Auszeichnung in XML • Druchsuchbarer Text (geringe Dateigröße und suchmaschinenkonform) • Verlinkungen innerhalb des Textes für schnelle Navigation • (Evtl. Kopplung an die Originalgrafik bei älteren Texten) • Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM) • Semantische Struktur • Für jede Personenbiografie eine Datei
  • 6. 6 Das wichtigste Element: <person> • Element <person> ist das Kernstück einer Biografie • Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID • Berufe und Personenbeschreibungen werden an die ID gekoppelt. • Für die inter-biografische Verbindung wichtig!
  • 7. 7 Beispiel des Elements <person> • <person geschlecht="männlich„ id="Goetz_Curt_1"> • Attribute ▫ geschlecht = (männlich | weiblich) ▫ ID besteht aus Nachname_Vorname_Zahl  Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und Nachnamen unterscheiden • Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)
  • 8. 8 Analyse der Kurzinfo Name, Vorname Beruf • Geburtsdatum / -ort; Sterbadatum / -ort • Konfession • • • Orthographisch: ▫ Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“) ▫ Entities (Stern, Kreuz )
  • 9. 9 Auszeichnung der Kurzinfo Name wird hervorgehoben Entities werden eingefügt (&#8224; für Kreuz) • Beruf wird an person gekoppelt durch person_ref • Beruf bekommt eine Kategorie • •
  • 10. 10 Absätze im Original • Absätze werden durch gekennzeichnet <absatz>...</absatz>
  • 11. 11 Analyse der Familie Vater Mutter • Ehepartner(in) • Kinder • • • Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex) • Symbole, für die es keine Entities gibt (Eheringe)
  • 12. 12 Auszeichnung des Vaters • Abschnitt innerhalb <familie> • Personen bekommen ID • Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref
  • 13. 13 Auszeichnung der Mutter • Komplexe Verschachtelung • Struktur Nur noch im Strukturbaum ersichtlich
  • 14. 14 Auszeichnung des Ehepartners • Eheringe als Bilddatei! • Mehrere <ehepartner> möglich • <scheidung> kann eingefügt werden (bei Goetz nicht nötig) • Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
  • 15. 15 Analyse der „eigentlichen“ Biografie • Durchgehender Text • Weitere Personen kommen vor • In anderen Biografien: Studium, Institut und Studienjahre • Mehrere Absätze
  • 16. 16 Auszeichnung der „eigentlichen“ Biografie • Wird von <biographie> umschlossen • Personen werden ausgezeichnet mittels ID
  • 17. 17 Analyse der Werke Kategorie (Werkstyp) Titel • Erscheinungsjahr • Sonstige Bemerkungen • •
  • 18. 18 Auszeichnung der Werke • <werk> bekommt Attrribute typ und jahr • Titel in <werk_name> • Sonstiges innerhalb <werk>
  • 19. 19 Seitenumbrüche im Original • Seitenumbrüche werden in der XML repräsentiert durch • Übergang von einer Seite zur anderen durch | <seite umbruch="588|589"/> • Auch Seitenzahlen nach anderem Format möglich (XV|XVI; 10a|10b; 45.1|45.2 …) Vorteil: PDF wird 1:1 repräsentiert
  • 20. 20 Analyse des Literaturnachweises Autor Titel • Erscheinungsjahr • Verlag oder Seitennummer • • • Literaturnachweise getrennt durch Semikolon • Querverweise zu anderen Personen (Wilhelm Rocco)
  • 21. 21 Auszeichnung des Literaturnachweises Einzelne Einträge in <lit-eintrag> • Sinvoll in autor, titel, jahr usw. zu trennen? • Kopplung der Einträge an ID (wegen W. Rocco) ?
  • 22. 22 Analyse des Fundstelle Werk Autor • Seitenzahlen • Bandnummer • • • Mehrere Funstellen möglich • Unterscheidung zwischen Haupteintrag und Nebeneintrag
  • 23. 23 Auszeichnung der Fundstelle • Am Anfang der Datei in <meta> • <fundstelle> hat alle Angaben als Attribute und als Text • Autor separat in <autor> getaggt mit persönlicher ID
  • 24. 24 Standartisierung der Struktur • Für eine einheitliche Struktur für alle Einträge in der ADB / NDB: ▫ Mehrere verschiedene Strukturtypen taggen ▫ Eine DTD oder ein XML-Schema definieren • Dokumentation der DTD ▫ Welche Elemente können in welchen enthalten sein?
  • 25. 25