Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Universität Potsdam, Germany, December 2001. December 4, 2001. Invited talk.
3. Status Quo I
Aus Sicht des (unerfahrenen) Benutzers:
• DWIM-Prinzip („do what I mean! )
• Spezifizierung einer Suchanfrage ist
schwierig
• Es ist unklar, nach welchen Kriterien
die Maschine sucht
4. Status Quo II
• ... lediglich Spezifizierung der
Sprache der Treffer-Dokumente
• nur in wenigen Fällen hilfreich
5. Status Quo III
• Kapselung der Query-Syntax
• Filterung nach Dateiformaten
• Filterung nach Sprache, Datum
und Domain
6. Folie von Monika Henzinger, Director of Research, Google Inc.
Tutorial: Web Information Retrieval
16th International Conference on Data Engineering (ICDE 2000)
?
Meint in diesem Kontext exclusiv:
Inhaltliche Kategorisierung!
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
7. Das Ziel
!
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
9. Textsorten
!
„... komplexe Muster sprachlicher Kommunikation
Textlinguistik: Textsorten (Brief, Rezept, ...),
[...], die innerhalb der Sprachgemeinschaft im Laufe unterschiedliche Typen Entwicklung aufd.h. der historisch-gesellschaftlichenvon Texten
grund kommunikativer Bedürfnisse entstanden sind.
! Klassifikationskriterien (u.a.):
"
"
"
Inhalt – Thema
Form – Aufbau, Struktur, Gliederung
Funktion – Zweck
Brinker (1985)
! Oftmals Taxonomie:
"
Viele Probleme ...
Leitartikel
Georg Rehm
Zeitungstexte
„Liebes Texte (?)
Gedichte
Brief
Leserbrief
Liebesbrief
CL Kolloquium, Universität Potsdam, 04.12.2001
Liebesgedicht
10. Hypnotic
! Zentrale Hypothese:
#
Im World Wide Web existieren Hypertextsorten:
Nach nur wenigen Jahren kanonisierte,
funktionsgebundene, hypertextuelle Strukturen
! Ziele:
1.
2.
3.
4.
Georg Rehm
Definition des Konzeptes „Hypertextsorte
Aufstellung einer Hypertextsorten-Taxonomie für
eine eingeschränkte Domäne
Automatische Klassifikation von Hypertextsorten
(→ Intelligentere Suchmaschinen)
Informationsextraktion (→ semi strukturierte Daten)
CL Kolloquium, Universität Potsdam, 04.12.2001
11. Hypertextsorten – Beispiele
! Eine sehr interessante, neue Hypertextsorte:
Persönliche Homepage
! Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.:
"
"
"
Persönliche Homepage von Studierenden
Persönliche Homepage admin./techn. Personals
Persönliche Homepage von Wissenschaftlern
Beispiele:
• aus vier verschiedenen Städten und
• aus vier unterschiedlichen Disziplinen
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
13. Hypnotic: Einführung
! Zwangsläufig: Empirischer Ansatz
! Daher ein Teilziel:
"
"
Aufbau eines großen Korpus von HTML-Dokumenten
Grund: HTML-Dokumente sind sehr „flüchtig , sie
werden gelöscht, verändert, verschoben; man
benötigt also einen sicheren und großen Vorrat
! Einschränkungen bei Datensammlung:
"
"
Georg Rehm
Nur Webserver deutscher Hochschulen
Nur deutschsprachige Dokumente
CL Kolloquium, Universität Potsdam, 04.12.2001
15. Warum Beschränkung auf den
akademischen Bereich?
! Enthält bzgl. der zugrundeliegenden Hypertextsorten
relativ stabile Dokumente
! Dokumente sind stark strukturiert
! Wenige binäre/proprietäre Dateien bzw. Dateitypen als
Vermittler von Text
! Bzgl. Inhalt und Form (einigermaßen) überschaubar
(vs. z.B. kommerziellen, künstlerischen oder HobbyAngeboten)
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
16. Implementation
! Linux-basierte Open Source-Lösung:
"
Datensammlung:
• Spider: Pavuk
• Tools zur Sprachidentifikation und zur Aufbereitung der
Metadaten zum Datenbankimport: Perl
• UNIX Shell-Scripting zur Modulverbindung
"
Benutzerschnittstelle:
• Webserver: Apache
• HTML-DBI und Benutzeroberfläche: PHP
• Datenbank zum Zugriff auf Metadaten: MySQL
"
Visualisierung:
• Graphviz (stand-alone und als Perl-Modul)
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
17. Ausnahmen
beschränkt
x-500
x-500-1
x-500-2
*.uni-giessen.de
(ca.120 versch. HTTP-Server)
MIME-Typen:
Suffixe: .tgz
.tar.gz .zip
.arj .pk .gz
.js .java ...
text/html,xml,
sgml,plain,css
message/news,
partial,rfc822
Rekursiver Transfer per HTTP
Datei kleiner als 500kB
und HTTP-Port = 80?
Speichern:
HTTP-Header
von jedem File
Verknüpfungen
HTML-Dokument deutschsprachig?
fung
knüp
Ver
generiert
Statistik: Anzahl Server, Dokumente etc.
ja, speichern
UNIXDateisystem
liefert Daten
SQLDatenbank
Tilgung von
Dokumentduplikaten
18. Language Identification I
!
!
!
!
Erwünscht: deutschsprachige Dokumente
Nicht notwendig: Multiple Sprachidentifikation
Stattdessen: deutsch vs. unbekannt
Potentielle Probleme:
"
"
"
"
Performanz: für jedes besuchte HTML-Dokument muß
die Sprache überprüft werden
Multilinguale Dokumente
Nicht-sprachliche Elemente (Formeln etc.)
Anderssprachige Navigationselemente
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
19. Language Identification II
!
!
!
!
In Perl realisierter, Lexikonbasierter Ansatz
Aufgrund der extrem geringen
Vorkommen keine Beachtung
entsprechender <meta> Tags bzw.
lang=... Attribute
Präzision: ~97%
Probleme:
"
Multilingualer Text
Namenlexikon
"
extrem kurze,
(ca. 60.000)
fachsprachliche
Dokumente
Lexikon
(ca. 156.000)
Georg Rehm
HTML-Dokument
Entfernen aller HTML-Tags
Tilgung von Personennamen, URLs,
Email-Adressen, Abkürzungen etc.
Zählen aller deutschsprachigen und
aller unbekannten Wörter
Verrechnung der (nicht) erkannten
Wörter und Zeichen mit Dateilänge
nein
unbekannt
Schwellwert
erreicht?
CL Kolloquium, Universität Potsdam, 04.12.2001
ja
deutsch
20. Umfang des Korpus
Stand: 28.11.2001
Universitäten in der Hypnotic-Datenbank
40
HTTP-Server und -Port-Kombinationen
6.703
6.152
Auf Port 80 arbeitende HTTP-Server
Unterschiedliche Webserver-Software
940
HTTP-Header in der Datenbank
7.631.048
2.041.087
Dokumente im Korpus
HTML-Dokumente
plain ASCII-Dateien
XML-Dateien #
CSS-Dateien #
SGML-Dateien #
News-Artikel #
E-Mails #
#
Georg Rehm
Wir erwarten:
Etwa 3.000.000
Dokumente von ca.
60 Universitäten
!text/html
#text/plain
#text/xml
#text/css
#text/sgml
#message/news
#message/rfc822
CL Kolloquium, Universität Potsdam, 04.12.2001
1.881.842
.237
18.487
13.584
863
263 #
151
21. Zugriff auf das Korpus-System
! Aktiv – Zugriff mittels Browserinterface:
Benutzerabhängiger Zugriff
Internet-weite, verteilte Analysen
Stichproben:
"
"
"
• Komfortable Generierung
• Speicherung in Datenbank
• DB-gestützte Analyse von Stichproben
Kapselung tw. sehr komplexer SQL-Queries
"
! Passiv – Zugriff mittels DBI API:
"
Sinnvoll für die maschinelle Auswertung sehr großer
Stichproben (→ Perl)
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
22. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
23. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Auswahl einer Universität
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
24. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Auflistung der Server einer Universität
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
25. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Auflistung der Dokumente eines Servers
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
26. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Ansicht eines Dokuments
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
27. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Generierung einer Stichprobe
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
28. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Die Dokumente einer Stichprobe
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
29. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
DB-gestützte Dokumentanalyse
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
30. Aktiver Zugriff auf das Korpus
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche ermöglicht
verteilten Zugriff:
"
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Analyseergebnisse
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
31. Passiver Zugriff auf Dokumente
! Einsatz eines DBI APIs (Perl, C) ermöglicht
vollautomatische Analyse:
"
"
"
Analysesystem kommuniziert direkt mit der KorpusDatenbank
Diese liefert zurück:
• Metadaten,
• Dokumentinhalte
Analyseprogramm speichert Ergebnisse in Datenbank
! Realisiert für Untersuchung der sprachlichen
Phänomene in persönlichen Homepages
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
33. Erstellung der Taxonomie
! Stichproben-Analysen:
1. Erste Stichprobe (200 tiefe Dokumente) ergab:
initiale Liste von Hypertextsorten,
• extremen Bedarf für eine Taxonomie!
2. Zwei weitere Stichproben:
a. top-down: 676 Dokumente der obersten
Verlinkungsebene der Einstiegsseiten der ersten 35
Universitäten im Korpus
b. bottom-up: 2000 „tiefe Dokumente
•
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001
34. Grobe Verteilung im 200er Sample
!
Administrative Informationen (14)
"
Studienordnung (2)
"
Lehrveranstaltungsbezogene
Informationen (2)
• Grundlegende Informationen zu
einem Kurs (9)
• Kommentar (7)
!
Institut/Lehrstuhl/Arbeitsbereich (15)
"
Einstiegsseite (4)
• Konferenz (5)
• Beschreibung einer
Arbeitsgruppe (2)
• Programmüberblick (1)
• Anmeldeformular (1)
Liste der Mitarbeiter (4)
• Persönliche Homepage (14)
• Wissenschaftler (4)
• Hilfskraft (3)
• Übungsaufgabe (5)
"
• Lösungen von Aufgaben (1)
• Liste von Veranstaltungen (2)
• LV-Materialien (2)
"
Informationen zu Stipendium (1)
• Virtuelle Visitenkarte (1)
"
Stellenangebot (1)
"
Beschreibung eines
• Chronik eines Vereins
Forschungsschwerpunkts (3)
! Universitäre Informationen (5) • Paragraph einer Verordnung
• Rangliste eines Sportereignisses
"
Wegbeschreibung/Lageplan (3)
• Bibliographie (9)
• Reisebericht
"
Beschreibung eines universitären
• eines Autors (3)
Informationsangebots (1)
• eines Instituts (3)
• thematisch sortiert (2)
• 84 Hypertextsorten sind enthalten.
• Forschungsprojekt (9)
• 11 Dokumenten konnte aus technischen
• Beschreibung (7)
Gründen keine Hypertextsorte zugeordnet
werden.
• 4 Hypertextsorten konnten nicht sinnvoll in
die Taxonomie integriert werden.
"
"
• Arbeitsplan (19)
Kurze Darstellung der Institution (1)
Organisationsplan (1)
38. Hypnotic-Hypertextsorten-Taxonomie
Version 0.1
Einige der offenen Fragen:
• Welche unterschiedlichen Knoten-Typen existieren?
• Welche dieser Typen treten in der Realität auf („Text )?
• Welche unterschiedlichen Kanten-Typen existieren?
• Ist eine Hyperlink-Typologie sinnvoll integrierbar?
• Welche Erkennungshinweise müssen in die Taxonomie
integriert werden?
• XML als einheitliches Repräsentationsformat ...
40. Merkmale für die maschinelle
Identifikation von Hypertextsorten
1.
2.
3.
4.
5.
Georg Rehm
Dokumentübergreifende Merkmale
Metadaten
Sprachliche und strukturelle Cues
Sprachliche Konzeption
HTML-Struktur
CL Kolloquium, Universität Potsdam, 04.12.2001
46. Die URL als grober HTS-Hinweis
Fachbereiche, Zentren, ...
Persönliche Homepage
Zahlreiche weitere wichtige Detektionsmerkmale:
• Länge eines Dokuments in Wörtern
• Stichwörter im <title> Tag
• Datum der letzten Änderung
• Art des eingesetzten HTML-Editors/-Erzeugers
• ...
http://www.uni-giessen.de/fb09/
http://www.uni-giessen.de/~g91062/
http://www.zmi.uni-giessen.de
47. Sprachliche und strukturelle Cues für
bestimmte Hypertextsorten
Titel Vorname Nachname
Universität ... → Institut ...
→ Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen:
Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit
Automatische Erkennung mittels:
• regulären Ausdrücken (für Telefonnummern etc.)
schränkt die Suche ein auf:
• named entity-Tagger (für Personen- und Stadtnamen)
• Persönliche Homepage eines Wissenschaftlers
• hochfrequenten Schlüsselwörtern einer Hypertextsorte
• Virtuelle Visitenkarte
• ...
50. Computer-Mediated Communication
! Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet
sind geprägt von konzeptioneller Mündlichkeit.
! Berichtete Merkmale:
! Umgangssprachliche Formen
! Einfache Syntax (Para(z.B. bei Begrüßungen und
taxe), einfache Lexik
Verabschiedungen)
! Freie, assoziative Themen! Hochfrequent: ich, man, du, einentwicklung
Diese Merkmale sind mit Hilfe
fach, mal, ziemlich, irgendwie von regulären Ausdrücken und
! Spontan gebildete
Äußerungen
! verschiedenen Listen (von Smileys, speziellen Akronymen etc.)
Regionalismen, Dialektismen
automatisch detektierbar!
! Ausgeprägte Dialogizität
! ...
! Emphasen: ist _eingeschränkt_
! Slangausdrücke: IMHO ...
! Bigraphen (gruen), Assimilationen
(gibt s), Auslassungspunkte
(...), reduplizierte Interpunktionszeichen (!!!!!!) etc.
Georg Rehm
! Smileys: :-)
! Isolierte Verbstämme:
*lach*, *grins*, ...
! Spezifische Abkürzungen:
*rotfl*
! Iterationen: Tschüßiiiii
CL Kolloquium, Universität Potsdam, 04.12.2001
51. Berechnung der sprachlichen Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
52. Berechnung der sprachlichen Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
53. Berechnung der sprachlichen Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
54. Berechnung der sprachlichen Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
!
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
55. Berechnung der sprachlichen Konzeption
Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebücher, Chat-Protokolle,
Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.
Kommentiertes Vorlesungsverzeichnis
Persönliche Homepage von
Prof. Dr. Henning Lobin
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
56. HTML-Struktur
! Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
"
Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs
Georg Rehm
• Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
• Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...
CL Kolloquium, Universität Potsdam, 04.12.2001
57. HTML-Struktur
! Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
"
"
Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs
Eingebettete Graphiken und
Bilder
Georg Rehm
• Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
• Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...
• Einige kleinere (bzgl. Größe
und Abmessungen) Graphiken in einem ansonsten stark
textlastigen Dokument ...
• Nur wenige Wörter, jedoch
viele JPEG-Dateien mit identischen Abmessungen (z. B.
1280x1024) ...
CL Kolloquium, Universität Potsdam, 04.12.2001
58. HTML-Struktur
! Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
"
"
"
Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs
Eingebettete Graphiken und
Bilder
Formulare
• Kleines Textfeld und Submit-Button
auf stark strukturierter Seite ...
• Viele kleine, strukturierte Dokumente
mit Radio-Buttons „unterhalb von
Materialien zu Lehrveranstaltungen ...
Georg Rehm
• Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
• Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...
• Einige kleinere (bzgl. Größe
und Abmessungen) Graphiken in einem ansonsten stark
textlastigen Dokument ...
• Nur wenige Wörter, jedoch
viele JPEG-Dateien mit identischen Abmessungen (z. B.
1280x1024) ...
CL Kolloquium, Universität Potsdam, 04.12.2001
60. Hypertextsorten-Module
! Hypertextsorten können aus unterschiedlichen Modulen
bestehen, d.h. sie sind nicht monolithisch.
! Module sind entweder
"
"
obligatorisch oder
optional
! Module sind optisch/strukturell voneinander abgetrennt.
! Persönliche Homepage eines Wissenschaftlers:
"
"
"
"
"
"
Georg Rehm
Name der Person
Kontaktinformationen
Publikationen
Projekte
Lehrveranstaltungen
...
CL Kolloquium, Universität Potsdam, 04.12.2001
66. Hypertextsorten und –Module
XML Schema-Repräsentation
definiert
• Stellt ein abstraktes Framework dar.
• Massiv generalisiert!
Default Belegung:
<content,form,function>
Hypertextsorte
Beispielinstanz:
Persönliche Homepage eines Wissenschaftlers
können fungieren als
Enthält die vorgeschriebenen Module ...
besteht aus
Erhöht das function-Attribut
modifiziert
Interaction!
Optionales Hypertextsorten-Modul:
Lokale Suchfunktion (mittels CGI-Skript)
Obligatorische
Hypertextsorten-Module
Optionale
Hypertextsorten-Module
Auflistung von Lehrveranstaltungen:
Mitarbeiterliste:
• Vorgeschriebenes Modul für HTS:
• Optionales Modul für HTS:
Instituts-Einstiegsseite
Instituts-Einstiegsseite
• Ebenfalls eine eigenständige • Ebenfalls eine eigenständige HyperHypertextsorte
textsorte
Spezifische Belegung:
<content,form,function
>
67. Definition einer Hypertextsorte
! Beispiel:
Persönliche Homepage eines Wissenschaftlers
! Analyse anhand eines kleinen Samples
! Bedingungen bei der Auswahl:
"
"
"
"
Georg Rehm
Unterschiedliche Universitäten und Städte
Unterschiedliche Fächer
Kein Einsatz von Framesets
Dokumente sollen in englischer und deutscher Version
vorliegen
CL Kolloquium, Universität Potsdam, 04.12.2001
69. !
!
!
!
!
Affiliation (obligatorisch) – Logo Graphik der Universität, des
Fachbereichs oder Instituts; wird evtl. begleitet/ersetzt durch textuelle
Version; kann auch im Schlußteil eines Dokuments vorhanden sein
Alternative Version eines Dokuments in einer anderen Sprache,
hier: Englisch; wird evtl. von einer entsprechender Flagge begleitet
(optional)
Name des Homepage-Besitzers (obligatorisch) – wird evtl. begleitet
von einem akademischen Titel („Dr. , „Prof. Dr. , etc.) und einer
entsprechenden Phrase („Homepage von Vorname Nachname )
"
Eigene Person vorstellen (Name,
Portrait Photo des Autors; räumlich relativ nah bei dem Namen platziert,
üblicherweise im oberen Drittel des Dokuments (optional)
Photo)
Kontaktinformationen (obligatorisch)
"
Ein individuelles, wissenschaftliches
"
Postadresse (optional) – Name des Autors, Institut, Universität,
Profil
Straße, Hausnummer, Postfach, Postleitzahl, Stadt, Land etablieren
"
Telefonnummer (optional)
"
Veröffentlichungen in digitaler Form
"
Telefonnummer des Sekretariats (optional)
anbieten
"
Faxnummer (optional)
"
E-Mail-Adresse (obligatorisch)
"
Lehrbezogene Materialien (Skripte,
Persönliche Homepage eines
Wissenschaftlers
! Funktionen:
Raumnummer (optional)
Folien, Übungsblätter, Lösungen,
"
Sprechstunde (optional)
interaktives Quiz etc.) anbieten
C.V. oder generelle bibliographische Informationen (obligatorisch)
(→ „digitaler Handapparat )
Informationen über Lehrveranstaltungen (obligatorisch)
Forschungsinteressen und/oder Forschungsprojekte (obligatorisch)
"
Kontaktinformationen offerieren
Auflistung von eigenen Publikationen (obligatorisch)
Auflistung von Vorträgen/Präsentationen (optional)
Verwandte Links (optional)
"
In hohem Maße strukturiert
"
Link zur Homepage der eigenen Universität (obligatorisch)
"
Link zur Homepage des eigenen Fachbereichs " Optische Trennung einzelner Module
(obligatorisch)
"
Link zur Homepage des eigenen Instituts/der eigenen Arbeitsgruppe
(oftmals <HR> oder Ersatz)
(obligatorisch)
Datum der letzten Änderung (optional)
"
!
!
!
!
!
!
!
! Form:
71. Hypertextsorten-Module und Information Extraction
! Prämisse für das Folgende:
Relativ genaue Detektion von
"
Hypertextsorten und
"
Hypertextsorten-Modulen
! Dies ermöglichte:
"
Eine neue Ebene für Information
Extraction-Systeme:
"
Anwendung spezialisierter Wrapper
auf die Inhalte von Hypertextsorten-Modulen (vs. vollständigen
HTML-Dokumenten)
• Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation
• Aufbruch von physikalischen
Dokumentgrenzen!
!
72. Etwa 120 Detektionsmerkmale
1. Dokumentübergreifende Merkmale: Wiederholt
auftauchende Hypertextsorten-Module, Position eines
Dokuments in der Hypertextstruktur einer Gruppe
2. Metadaten: URL, HTTP Response Header, Größe, Titel,
<meta>, HTML-DTD
3. Sprachliche und strukturelle Cues (an bestimmten
Hypertextsorten-spezifischen Positionen)
4. Sprachliche Konzeption (Kontinuum von mündlich nach
schriftlich)
5. HTML-Struktur (von Elementen aufgespannter Baum):
"
"
"
Georg Rehm
Hyperlinks: Anzahl, intern vs. extern, Hypertext-Struktur,
Dateityp des Ziels, Hypertextsorte des Ziels, Ankertext, LinkFunktion, Link-Position
Inline-Graphiken: Abmessungen, Anzahl, Datei- und
Verzeichnisnamen, Inhalt, ALT=...-Text, Dateityp
Interaktive Elemente: Formulare, JavaScript, PlugIns, JavaApplets
CL Kolloquium, Universität Potsdam, 04.12.2001
74. Text-Klassifikation – Clustering
! Ursprung: Data Mining
! Grundlage: Extraktion
sprachlicher Merkmale
! Merkmalsvektor eines
Textes als Distanzmaß
! Ziele:
"
"
...
Distanz zwischen Texten in
einem Cluster soll
möglichst minimal sein
Distanz zwischen Clustern
soll möglichst maximal
sein
Clusterer
! Problem:
"
Cluster werden dynamisch
erzeugt
Cluster 1
Cluster 2
Cluster 3
Cluster 4
75. Text-Klassifikation – Categorization
Trainingsdaten
unbekannte Dokumente
...
Probleme
• Sehr viele manuell kategorisierte und repräsentative
Trainingsdaten sind notwendig.
• Overfitting im Kategorisierungsschema.
• Wie kann man hier die HTML-Struktur und andere, nichtsprachliche Merkmale berücksichtigen?
Trainer
Klassifikator
Sport
Politik
Spaß
Kategorisierungsschema
Kunst
Thomas Brückner, „Textklassifikation (2001):
„Die Merkmale basieren meist auf Wörtern oder
Buchstaben-N-Grammen.
Cluster 1
Cluster 2
Cluster 3
Cluster 4
77. Textsorten-Klassifikation
Korpus
Karlgren &
Cutting (1994),
Recognizing Text
Genres with
Simple Metrics
Using Discriminant Functions
Kessler, Nunberg
& Schütze
(1997),
Automatic
Detection of Text
Genre
Stamatatos et al.
(2000), Text
Genre Detection
Using Common
Word Frequencies
Methoden
Genres
Informative,
Imaginative
4. Press,
Fiction, Misc.,
Non-Fiction
• Einfache Methoden liefern für wenige Textsorten sehr
gute Resultate
• 500 Texte aus Statististik/KNNs, 6. Reportage,
ca.In diesen Ansätzen ausschließlich: ASCII-Texte (!)
• Wie kann man sehr 55 Merkmale
viele HypertextsortenEditorial, Scimöglichst
dem Brown
(Interpunktion,
Tech, Legal,
präzise detektieren?
Corpus
Affixe, Passiv,
Non-Fiction,
(getaggt)
etc.)
Fiction
Jeweils 500 Texte
aus dem Brown
Corpus
(getaggt)
Wall Street
Journal Corpus
(ungetaggt)
DiskriminantenAnalyse – 20
Parameter (noun,
Fazit
it, adv., word etc.
counts)
DiskriminantenAnalyse – Worthäufigkeiten und
Interpunktionsz.
Präzision
2.
4.
Editorial, Letter to the
Editor,
Reportage,
Spot news
2.
4.
ca. 96%
ca. 73%
ca. 90% (für
„reportage und
„fiction )
ca. 97%
78. Hypertextsorten-Klassifikation
Genres
Methoden
Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Document Type
Classification
9: prod.
catalogue, online
shop, advertisement for help, CfP,
links, FAQ, glossary, home page,
bulletin board
Gewichtetes
PatternMatching in
HTMLFazit
Elementen
Karlgren et al.
(1998), Iterative
Information Retrieval Using Fast
Clustering and
Usage-Specific
Genres
• Informal/Pri11: Einfache Methoden liefern für wenige Hypertextsorten sehr gute Resultate
vate, Public/Com.,
• Sind Journ.
Indices,diese Ergebnisse auf sehr viele, tw. recht
if-then-Regeln,
Vorkommen von
ähnliche Hypertextsorten übertragbar?
Material, Reports,
kombiniert mit
Wörtern und
Text, FAQ, Link
Clustering
HTML-Elementen
Coll., Listings/Tables, Discussions, Error Messages
Rauber & MüllerKögler (2001),
Integrating
Automatic Genre
Analysis into
Digital Libraries
Cluster: Sport-Artikel, Interviews,
Berichte, juristische Texte etc.
Clustering (Self
Organizing
Map) zum nicht
überwachten
Erlernen von
Ähnlichkeiten
Merkmale
Präzision
keyword, link,
URL, structure,
image, OCR,
plugin
avg. precision of
document-type
search: 88,9%
(avg. precision of
keyword-based
search: 31,2%)
Text-Komplexität, Sonder- und
Interpunktionszeichen, Stoppund Schlüsselwörter, Markup
Zwischen 30%
und 90%, je
nach Genre
n.a., Cluster werden erlernt zur
Visualisierung
von Such-Ergebnissen einer neuen GUI-Metapher
79. Fünf Merkmalsgruppen
Architektur des Analysesystems I
Analyse I
Analyse II
Dispatcher
Analyse III
Metadaten
(Perl, HTML::PARSER)
Analyse IV
liest
Analyse V
extrahiert
Tool 1
DB1
Modul-Konfiguration
Tool 2
DB2
Tool 3
HTML
-Date
i(en)
Hybride Merkmals-Matrix
Trainings- bzw.
Input-Daten
ML- und Regelbasierter
Klassifikator
DB2
XML-Repräsentation
der Taxonomie
HypnoticDatenbank
80. Fünf Merkmalsgruppen
Architektur des Analysesystems II
Analyse I
Analyse II
Dispatcher
Analyse III
Metadaten
(Perl, HTML::PARSER)
Analyse IV
liest
Analyse V
HypnoticDatenbank
HTML
-Date
i(en)
Klassifikator
Tool 1
DB1
0.96
Tool 2
DB2
Tool 3
0.82
Spezialisierte Judges:
• berechnen Konfidenzwerte
0.48
DB2
Taxonomie
81. Fünf Merkmalsgruppen
Architektur des Analysesystems II
Analyse I
Analyse II
Analyse III
Dispatcher
Metadaten
(Perl, HTML::PARSER)
Analyse IV
liest
Analyse V
HypnoticDatenbank
HTML
-Date
i(en)
Klassifikator
Tool 1
DB1
0.96
Tool 2
DB2
Spezialisierte Judges:
Tool 3
• berechnen Konfidenzwerte
• schränken Suchraum ein
DB2
Taxonomie
82. Fünf Merkmalsgruppen
Architektur des Analysesystems II
Analyse I
Analyse II
Dispatcher
$
Analyse III
$
Metadaten
(Perl, HTML::PARSER)
Analyse IV
Analyse V
liest
extrahiert
Tool 1
DB1
$
DB2
Tool 2
Tool 3
Modul-Konfiguration
?
DB2
XML-Repräsentation
der Taxonomie
HypnoticDatenbank
HTML
-Date
i(en)
$
Hybride Merkmals-Matrix
$
Trainings- bzw.
Input-Daten
ML- und Regelbasierter
Klassifikator
$
$
84. Ausblick
! Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse
! Stichprobenauswertung (top-down/bottom-up)
! Entwicklung eines XML-Repräsentationsformats
für die Hypertextsorten-Taxonomie
! Validierung der ca. 120 Detektions-Merkmale
! Implementation des Klassifikationssystems
(evtl. als Multiagenten-System)
! Evaluation des Systems mit realen SuchFragestellungen
Georg Rehm
CL Kolloquium, Universität Potsdam, 04.12.2001