Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Hypertextsorten
Neuartige Möglichkeiten der
Informationsrecherche im World Wide Web
Georg Rehm, M.A.
Angewandte Sprachwissenschaft und Computerlinguistik
Justus-Liebig-Universität Gießen
Georg.Rehm@uni-giessen.de
http://www.uni-giessen.de/~g91063/

Status Quo I

Aus Sicht des (unerfahrenen) Benutzers:
•  DWIM-Prinzip („do what I mean! )
•  Spezifizierung einer Suchanfrage ist
schwierig
•  Es ist unklar, nach welchen Kriterien
die Maschine sucht

Status Quo II

•  ... lediglich Spezifizierung der
Sprache der Treffer-Dokumente
•  nur in wenigen Fällen hilfreich

Status Quo III

•  Kapselung der Query-Syntax
•  Filterung nach Dateiformaten
•  Filterung nach Sprache, Datum
und Domain

Folie von Monika Henzinger, Director of Research, Google Inc.
Tutorial: Web Information Retrieval
16th International Conference on Data Engineering (ICDE 2000)

?
Meint in diesem Kontext exclusiv:
Inhaltliche Kategorisierung!

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001

Das Ziel

!
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation

Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick

Textsorten
! 

„... komplexe Muster sprachlicher Kommunikation
Textlinguistik: Textsorten (Brief, Rezept, ...),
[...], die innerhalb der Sprachgemeinschaft im Laufe unterschiedliche Typen Entwicklung aufd.h. der historisch-gesellschaftlichenvon Texten
grund kommunikativer Bedürfnisse entstanden sind.

!  Klassifikationskriterien (u.a.):
" 
" 
" 

Inhalt – Thema
Form – Aufbau, Struktur, Gliederung
Funktion – Zweck

Brinker (1985)

!  Oftmals Taxonomie:
" 

Viele Probleme ...

Leitartikel

Georg Rehm

Zeitungstexte

„Liebes Texte (?)

Gedichte

Brief

Leserbrief

Liebesbrief


Liebesgedicht

Hypnotic
!  Zentrale Hypothese:
# 

Im World Wide Web existieren Hypertextsorten:
Nach nur wenigen Jahren kanonisierte,
funktionsgebundene, hypertextuelle Strukturen

!  Ziele:
1. 
2. 
3. 
4. 

Georg Rehm

Definition des Konzeptes „Hypertextsorte
Aufstellung einer Hypertextsorten-Taxonomie für
eine eingeschränkte Domäne
Automatische Klassifikation von Hypertextsorten
(→ Intelligentere Suchmaschinen)
Informationsextraktion (→ semi strukturierte Daten)


Hypertextsorten – Beispiele
!  Eine sehr interessante, neue Hypertextsorte:
Persönliche Homepage
!  Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.:
" 
" 
" 

Persönliche Homepage von Studierenden
Persönliche Homepage admin./techn. Personals
Persönliche Homepage von Wissenschaftlern
Beispiele:
•  aus vier verschiedenen Städten und
•  aus vier unterschiedlichen Disziplinen

Georg Rehm


Hypnotic: Einführung
!  Zwangsläufig: Empirischer Ansatz
!  Daher ein Teilziel:
" 
" 

Aufbau eines großen Korpus von HTML-Dokumenten
Grund: HTML-Dokumente sind sehr „flüchtig , sie
werden gelöscht, verändert, verschoben; man
benötigt also einen sicheren und großen Vorrat

!  Einschränkungen bei Datensammlung:
" 
" 

Georg Rehm

Nur Webserver deutscher Hochschulen
Nur deutschsprachige Dokumente


Warum Beschränkung auf den
akademischen Bereich?
!  Enthält bzgl. der zugrundeliegenden Hypertextsorten
relativ stabile Dokumente
!  Dokumente sind stark strukturiert
!  Wenige binäre/proprietäre Dateien bzw. Dateitypen als
Vermittler von Text
!  Bzgl. Inhalt und Form (einigermaßen) überschaubar
(vs. z.B. kommerziellen, künstlerischen oder HobbyAngeboten)

Georg Rehm


Implementation
!  Linux-basierte Open Source-Lösung:
" 

Datensammlung:
•  Spider: Pavuk
•  Tools zur Sprachidentifikation und zur Aufbereitung der
Metadaten zum Datenbankimport: Perl
•  UNIX Shell-Scripting zur Modulverbindung

" 

Benutzerschnittstelle:
•  Webserver: Apache
•  HTML-DBI und Benutzeroberfläche: PHP
•  Datenbank zum Zugriff auf Metadaten: MySQL

" 

Visualisierung:
•  Graphviz (stand-alone und als Perl-Modul)

Georg Rehm


Ausnahmen
beschränkt

x-500
x-500-1
x-500-2

*.uni-giessen.de

(ca.120 versch. HTTP-Server)

MIME-Typen:
Suffixe: .tgz
.tar.gz .zip
.arj .pk .gz
.js .java ...

text/html,xml,
sgml,plain,css
message/news,
partial,rfc822

Rekursiver Transfer per HTTP
Datei kleiner als 500kB
und HTTP-Port = 80?

Speichern:
HTTP-Header
von jedem File

Verknüpfungen

HTML-Dokument deutschsprachig?

fung
knüp
Ver

generiert

Statistik: Anzahl Server, Dokumente etc.

ja, speichern

UNIXDateisystem

liefert Daten

SQLDatenbank

Tilgung von
Dokumentduplikaten

Language Identification I
! 
! 
! 
! 

Erwünscht: deutschsprachige Dokumente
Nicht notwendig: Multiple Sprachidentifikation
Stattdessen: deutsch vs. unbekannt
Potentielle Probleme:
" 

" 
" 
" 

Performanz: für jedes besuchte HTML-Dokument muß
die Sprache überprüft werden
Multilinguale Dokumente
Nicht-sprachliche Elemente (Formeln etc.)
Anderssprachige Navigationselemente

Georg Rehm


Language Identification II
! 
! 

! 
! 

In Perl realisierter, Lexikonbasierter Ansatz
Aufgrund der extrem geringen
Vorkommen keine Beachtung
entsprechender <meta> Tags bzw.
lang=... Attribute
Präzision: ~97%
Probleme:
" 
Multilingualer Text
Namenlexikon
" 
extrem kurze,
(ca. 60.000)
fachsprachliche
Dokumente

Lexikon
(ca. 156.000)

Georg Rehm

HTML-Dokument
Entfernen aller HTML-Tags
Tilgung von Personennamen, URLs,
Email-Adressen, Abkürzungen etc.
Zählen aller deutschsprachigen und
aller unbekannten Wörter
Verrechnung der (nicht) erkannten
Wörter und Zeichen mit Dateilänge
nein

unbekannt

Schwellwert
erreicht?


ja

deutsch

Umfang des Korpus
Stand: 28.11.2001

Universitäten in der Hypnotic-Datenbank
40
HTTP-Server und -Port-Kombinationen
6.703
6.152
Auf Port 80 arbeitende HTTP-Server
Unterschiedliche Webserver-Software
940
HTTP-Header in der Datenbank
7.631.048
2.041.087
Dokumente im Korpus
HTML-Dokumente
plain ASCII-Dateien
XML-Dateien #
CSS-Dateien #
SGML-Dateien #
News-Artikel #
E-Mails #
#
Georg Rehm

Wir erwarten:
Etwa 3.000.000
Dokumente von ca.
60 Universitäten

!text/html
#text/plain
#text/xml
#text/css
#text/sgml
#message/news
#message/rfc822


1.881.842 
.237
18.487
13.584 
863
263 #
151

Zugriff auf das Korpus-System
!  Aktiv – Zugriff mittels Browserinterface:
Benutzerabhängiger Zugriff
Internet-weite, verteilte Analysen
Stichproben:

" 
" 
" 

•  Komfortable Generierung
•  Speicherung in Datenbank
•  DB-gestützte Analyse von Stichproben

Kapselung tw. sehr komplexer SQL-Queries

" 

!  Passiv – Zugriff mittels DBI API:
" 

Sinnvoll für die maschinelle Auswertung sehr großer
Stichproben (→ Perl)

Georg Rehm


Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten

Georg Rehm


!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auswahl einer Universität

Georg Rehm


verteilten Zugriff:
" 

Dokumentbestand

Auflistung der Server einer Universität

Georg Rehm


verteilten Zugriff:
" 

Dokumentbestand

Auflistung der Dokumente eines Servers

Georg Rehm


verteilten Zugriff:
" 

Dokumentbestand

Ansicht eines Dokuments

Georg Rehm


verteilten Zugriff:
" 

" 

Dokumentbestand
Zufällige Generierung von
Stichproben

Generierung einer Stichprobe

Georg Rehm


verteilten Zugriff:
" 

" 

" 

Dokumentbestand
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Die Dokumente einer Stichprobe

Georg Rehm


verteilten Zugriff:
" 

" 

" 

Dokumentbestand
Stichproben
DB-gestützte Dokumentanalyse

Georg Rehm


verteilten Zugriff:
" 

" 

" 

Dokumentbestand
Stichproben
Analyseergebnisse

Georg Rehm


Passiver Zugriff auf Dokumente
!  Einsatz eines DBI APIs (Perl, C) ermöglicht
vollautomatische Analyse:
" 

" 

" 

Analysesystem kommuniziert direkt mit der KorpusDatenbank
Diese liefert zurück:
•  Metadaten,
•  Dokumentinhalte
Analyseprogramm speichert Ergebnisse in Datenbank

!  Realisiert für Untersuchung der sprachlichen
Phänomene in persönlichen Homepages

Georg Rehm


Erstellung der Taxonomie
!  Stichproben-Analysen:
1.  Erste Stichprobe (200 tiefe Dokumente) ergab:

initiale Liste von Hypertextsorten,
•  extremen Bedarf für eine Taxonomie!
2.  Zwei weitere Stichproben:
a.  top-down: 676 Dokumente der obersten
Verlinkungsebene der Einstiegsseiten der ersten 35
Universitäten im Korpus
b.  bottom-up: 2000 „tiefe Dokumente
• 

Georg Rehm


Grobe Verteilung im 200er Sample
! 

Administrative Informationen (14)
" 
Studienordnung (2)
" 
Lehrveranstaltungsbezogene
Informationen (2)
•  Grundlegende Informationen zu
einem Kurs (9)
•  Kommentar (7)

! 

Institut/Lehrstuhl/Arbeitsbereich (15)
" 
Einstiegsseite (4)
•  Konferenz (5)
•  Beschreibung einer
Arbeitsgruppe (2)
•  Programmüberblick (1)
•  Anmeldeformular (1)
Liste der Mitarbeiter (4)
•  Persönliche Homepage (14)
•  Wissenschaftler (4)
•  Hilfskraft (3)

•  Übungsaufgabe (5)
" 
•  Lösungen von Aufgaben (1)
•  Liste von Veranstaltungen (2)
•  LV-Materialien (2)
" 
Informationen zu Stipendium (1)
•  Virtuelle Visitenkarte (1)
" 
Stellenangebot (1)
" 
Beschreibung eines
•  Chronik eines Vereins
Forschungsschwerpunkts (3)
!  Universitäre Informationen (5) •  Paragraph einer Verordnung
•  Rangliste eines Sportereignisses
" 
Wegbeschreibung/Lageplan (3)
•  Bibliographie (9)
•  Reisebericht
" 
Beschreibung eines universitären
•  eines Autors (3)
Informationsangebots (1)
•  eines Instituts (3)
•  thematisch sortiert (2)
•  84 Hypertextsorten sind enthalten.
•  Forschungsprojekt (9)
•  11 Dokumenten konnte aus technischen
•  Beschreibung (7)
Gründen keine Hypertextsorte zugeordnet
werden.
•  4 Hypertextsorten konnten nicht sinnvoll in
die Taxonomie integriert werden.

" 
" 

•  Arbeitsplan (19)
Kurze Darstellung der Institution (1)
Organisationsplan (1)

Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Version 0.1

Die oberen Ebenen der
Taxonomie werden mit Hilfe des
zweiten Samples top down
systematisch verfeinert.

Version 0.1

Die unteren Ebenen der Taxonomie
werden daraufhin mit Hilfe des dritten
Samples (N = 2000) bottom up
verfeinert.

Version 0.1

Einige der offenen Fragen:
•  Welche unterschiedlichen Knoten-Typen existieren?
•  Welche dieser Typen treten in der Realität auf („Text )?
•  Welche unterschiedlichen Kanten-Typen existieren?
•  Ist eine Hyperlink-Typologie sinnvoll integrierbar?
•  Welche Erkennungshinweise müssen in die Taxonomie
integriert werden?
•  XML als einheitliches Repräsentationsformat ...

Merkmale für die maschinelle
Identifikation von Hypertextsorten
1. 
2. 
3. 
4. 
5. 

Georg Rehm

Dokumentübergreifende Merkmale
Metadaten
Sprachliche und strukturelle Cues
Sprachliche Konzeption
HTML-Struktur


•  Identische Kopfzeile
•  Identische Logo-Grafik
•  Identische Fußzeile
•  Identischer Farbraum

Projekte

Mitarbeiter

Einstiegsseite
Angewandte Sprachwissenschaft
und Computerlinguistik
JLU Gießen
http://www.uni-giessen.de/fb09/ascl/

Lehrveranstaltungen

Aktuelles

Einstiegsseite
Angewandte Sprachwissenschaft
und Computerlinguistik
JLU Gießen

Einstiegsseite des
Fachgebiets Germanistik

von Henning Lobin

Zentrum für Medien
und Interaktivität

Position im Hypertextnetzwerk

.../ascl/proj/

.../ascl/contact/

.../ascl/lectures/

.../ascl/news/

•  Position/Funktion im Hypertextnetzwerk automatisch bestimmbar
•  Vorherrschend in dieser Domäne: Hierarchischer top-down „Hypertext !
•  Beteiligte URLs geben wichtige Hinweise (Anzahl, Einbettung, ...)

Position im Hypertextnetzwerk

http://www.uni-giessen.de/fb09/


http://www.zmi.uni-giessen.de

Die URL als grober HTS-Hinweis
Fachbereiche, Zentren, ...


Zahlreiche weitere wichtige Detektionsmerkmale:
•  Länge eines Dokuments in Wörtern
•  Stichwörter im <title> Tag
•  Datum der letzten Änderung
•  Art des eingesetzten HTML-Editors/-Erzeugers
•  ...

http://www.uni-giessen.de/fb09/


http://www.zmi.uni-giessen.de

Sprachliche und strukturelle Cues für
bestimmte Hypertextsorten

Titel Vorname Nachname
Universität ... → Institut ...
→ Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen:
Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit

Automatische Erkennung mittels:
•  regulären Ausdrücken (für Telefonnummern etc.)
schränkt die Suche ein auf:
•  named entity-Tagger (für Personen- und Stadtnamen)
•  Persönliche Homepage eines Wissenschaftlers
•  hochfrequenten Schlüsselwörtern einer Hypertextsorte
•  Virtuelle Visitenkarte
•  ...

!  Koch & Oesterreicher (1994) unterscheiden
" 
" 

mediale Mündlichkeit/Schriftlichkeit
konzeptionelle Mündlichkeit/Schriftlichkeit

!  Beispiele:
" 

" 

" 

Georg Rehm

Wissenschaftlicher Vortrag:
•  medial mündlich
•  konzeptionell schriftlich
Wissenschaftlicher Artikel:
•  medial schriftlich
Gespräch unter Freunden:
•  konzeptionell mündlich

dichotomisch:
entweder – oder


!  Koch & Oesterreicher (1994) unterscheiden
" 
" 

mediale Mündlichkeit/Schriftlichkeit
konzeptionelle Mündlichkeit/Schriftlichkeit

!  Beispiele:
" 

" 

" 

Georg Rehm

Wissenschaftlicher Vortrag:
Wissenschaftlicher Artikel:
•  medial schriftlich
Gespräch unter Freunden:
•  konzeptionell mündlich

Kontinuum:
von ... bis


Computer-Mediated Communication
!  Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet
sind geprägt von konzeptioneller Mündlichkeit.
!  Berichtete Merkmale:
!  Umgangssprachliche Formen
!  Einfache Syntax (Para(z.B. bei Begrüßungen und
taxe), einfache Lexik
Verabschiedungen)
!  Freie, assoziative Themen!  Hochfrequent: ich, man, du, einentwicklung
Diese Merkmale sind mit Hilfe
fach, mal, ziemlich, irgendwie von regulären Ausdrücken und
!  Spontan gebildete
Äußerungen
!  verschiedenen Listen (von Smileys, speziellen Akronymen etc.)
Regionalismen, Dialektismen
automatisch detektierbar!
!  Ausgeprägte Dialogizität
!  ...
!  Emphasen: ist _eingeschränkt_
!  Slangausdrücke: IMHO ...
!  Bigraphen (gruen), Assimilationen
(gibt s), Auslassungspunkte
(...), reduplizierte Interpunktionszeichen (!!!!!!) etc.
Georg Rehm

!  Smileys: :-)
!  Isolierte Verbstämme:
*lach*, *grins*, ...
!  Spezifische Abkürzungen:
*rotfl*
!  Iterationen: Tschüßiiiii


Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)




!

schriftlich

mündlich



Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebücher, Chat-Protokolle,
Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.


schriftlich

mündlich


HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs

Georg Rehm

•  Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
•  Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...


HTML-Struktur
" 

" 

Eingebettete Graphiken und
Bilder

Georg Rehm

„ftp beginnen ...
•  Einige kleinere (bzgl. Größe
und Abmessungen) Graphiken in einem ansonsten stark
textlastigen Dokument ...
•  Nur wenige Wörter, jedoch
viele JPEG-Dateien mit identischen Abmessungen (z. B.
1280x1024) ...


HTML-Struktur
" 

" 

" 

Eingebettete Graphiken und
Bilder
Formulare

•  Kleines Textfeld und Submit-Button
auf stark strukturierter Seite ...
•  Viele kleine, strukturierte Dokumente
mit Radio-Buttons „unterhalb von
Materialien zu Lehrveranstaltungen ...

Georg Rehm

„ftp beginnen ...
•  Einige kleinere (bzgl. Größe
und Abmessungen) Graphiken in einem ansonsten stark
textlastigen Dokument ...
•  Nur wenige Wörter, jedoch
viele JPEG-Dateien mit identischen Abmessungen (z. B.
1280x1024) ...


Hypertextsorten-Module
!  Hypertextsorten können aus unterschiedlichen Modulen
bestehen, d.h. sie sind nicht monolithisch.
!  Module sind entweder
" 
" 

obligatorisch oder
optional

!  Module sind optisch/strukturell voneinander abgetrennt.
!  Persönliche Homepage eines Wissenschaftlers:
" 
" 
" 
" 
" 
" 

Georg Rehm

Name der Person
Kontaktinformationen
Publikationen
Projekte
Lehrveranstaltungen
...


Hypertextsorten-Module: Beispiele

Modul: Kontaktinformationen

Muß vorhanden sein, kann jedoch in ein per Hyperlink referenziertes
Dokument ausgelagert werden.


Modul: Name

Das einzige Modul, das auf der Einstiegsseite
zwingend (physikalisch) vorhanden sein muß.


Modul: Aktuelle Informationen

Sehr untypisch für die Hypertextsorte Persönliche Homepage
eines Wissenschaftlers; optionales Modul.

Modul: Affiliation
Obligatorischer Status.

Hypertextsorten-Module: Weitere Beispiele

Hypertextsorten und –Module
XML Schema-Repräsentation
definiert
•  Stellt ein abstraktes Framework dar.
•  Massiv generalisiert!

Default Belegung:
<content,form,function>

Hypertextsorte
Beispielinstanz:
Persönliche Homepage eines Wissenschaftlers
können fungieren als

Enthält die vorgeschriebenen Module ...

besteht aus

Erhöht das function-Attribut
modifiziert
Interaction!

Optionales Hypertextsorten-Modul:
Lokale Suchfunktion (mittels CGI-Skript)

Obligatorische

Optionale

Auflistung von Lehrveranstaltungen:
Mitarbeiterliste:
•  Vorgeschriebenes Modul für HTS:
•  Optionales Modul für HTS:
Instituts-Einstiegsseite
Instituts-Einstiegsseite
•  Ebenfalls eine eigenständige •  Ebenfalls eine eigenständige HyperHypertextsorte
textsorte

Spezifische Belegung:
<content,form,function
>

Definition einer Hypertextsorte
!  Beispiel:
Persönliche Homepage eines Wissenschaftlers
!  Analyse anhand eines kleinen Samples
!  Bedingungen bei der Auswahl:
" 
" 
" 
" 

Georg Rehm

Unterschiedliche Universitäten und Städte
Unterschiedliche Fächer
Kein Einsatz von Framesets
Dokumente sollen in englischer und deutscher Version
vorliegen


! 

! 

! 

! 
! 

Affiliation (obligatorisch) – Logo Graphik der Universität, des
Fachbereichs oder Instituts; wird evtl. begleitet/ersetzt durch textuelle
Version; kann auch im Schlußteil eines Dokuments vorhanden sein
Alternative Version eines Dokuments in einer anderen Sprache,
hier: Englisch; wird evtl. von einer entsprechender Flagge begleitet
(optional)
Name des Homepage-Besitzers (obligatorisch) – wird evtl. begleitet
von einem akademischen Titel („Dr. , „Prof. Dr. , etc.) und einer
entsprechenden Phrase („Homepage von Vorname Nachname )
" 
Eigene Person vorstellen (Name,
Portrait Photo des Autors; räumlich relativ nah bei dem Namen platziert,
üblicherweise im oberen Drittel des Dokuments (optional)
Photo)
Kontaktinformationen (obligatorisch)
" 
Ein individuelles, wissenschaftliches
" 
Postadresse (optional) – Name des Autors, Institut, Universität,
Profil
Straße, Hausnummer, Postfach, Postleitzahl, Stadt, Land etablieren
" 
Telefonnummer (optional)
" 
Veröffentlichungen in digitaler Form
" 
Telefonnummer des Sekretariats (optional)
anbieten
" 
Faxnummer (optional)
" 
E-Mail-Adresse (obligatorisch)
" 
Lehrbezogene Materialien (Skripte,

Persönliche Homepage eines
Wissenschaftlers

!  Funktionen:

Raumnummer (optional)
Folien, Übungsblätter, Lösungen,
" 
Sprechstunde (optional)
interaktives Quiz etc.) anbieten
C.V. oder generelle bibliographische Informationen (obligatorisch)
(→ „digitaler Handapparat )
Informationen über Lehrveranstaltungen (obligatorisch)
Forschungsinteressen und/oder Forschungsprojekte (obligatorisch)
" 
Kontaktinformationen offerieren
Auflistung von eigenen Publikationen (obligatorisch)
Auflistung von Vorträgen/Präsentationen (optional)
Verwandte Links (optional)
" 
In hohem Maße strukturiert
" 
Link zur Homepage der eigenen Universität (obligatorisch)
" 
Link zur Homepage des eigenen Fachbereichs "  Optische Trennung einzelner Module
(obligatorisch)
" 
Link zur Homepage des eigenen Instituts/der eigenen Arbeitsgruppe
(oftmals <HR> oder Ersatz)
(obligatorisch)
Datum der letzten Änderung (optional)
" 

! 
! 
! 
! 
! 
! 

! 

!  Form:

Hypertextsorten-Module und Information Extraction

Hypertextsorten-Module und Information Extraction
!  Prämisse für das Folgende:
Relativ genaue Detektion von
" 
Hypertextsorten und
" 
Hypertextsorten-Modulen
!  Dies ermöglichte:
" 
Eine neue Ebene für Information
Extraction-Systeme:
" 
Anwendung spezialisierter Wrapper
auf die Inhalte von Hypertextsorten-Modulen (vs. vollständigen
HTML-Dokumenten)
•  Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation
•  Aufbruch von physikalischen
Dokumentgrenzen!

!

Etwa 120 Detektionsmerkmale
1.  Dokumentübergreifende Merkmale: Wiederholt
auftauchende Hypertextsorten-Module, Position eines
Dokuments in der Hypertextstruktur einer Gruppe
2.  Metadaten: URL, HTTP Response Header, Größe, Titel,
<meta>, HTML-DTD
3.  Sprachliche und strukturelle Cues (an bestimmten
Hypertextsorten-spezifischen Positionen)
4.  Sprachliche Konzeption (Kontinuum von mündlich nach
schriftlich)
5.  HTML-Struktur (von Elementen aufgespannter Baum):
" 

" 

" 

Georg Rehm

Hyperlinks: Anzahl, intern vs. extern, Hypertext-Struktur,
Dateityp des Ziels, Hypertextsorte des Ziels, Ankertext, LinkFunktion, Link-Position
Inline-Graphiken: Abmessungen, Anzahl, Datei- und
Verzeichnisnamen, Inhalt, ALT=...-Text, Dateityp
Interaktive Elemente: Formulare, JavaScript, PlugIns, JavaApplets

Text-Klassifikation – Clustering
!  Ursprung: Data Mining
!  Grundlage: Extraktion
sprachlicher Merkmale
!  Merkmalsvektor eines
Textes als Distanzmaß
!  Ziele:
" 

" 

...

Distanz zwischen Texten in
einem Cluster soll
möglichst minimal sein
Distanz zwischen Clustern
soll möglichst maximal
sein

Clusterer

!  Problem:
" 

Cluster werden dynamisch
erzeugt

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Text-Klassifikation – Categorization
Trainingsdaten

unbekannte Dokumente

...

Probleme
•  Sehr viele manuell kategorisierte und repräsentative
Trainingsdaten sind notwendig.
•  Overfitting im Kategorisierungsschema.
•  Wie kann man hier die HTML-Struktur und andere, nichtsprachliche Merkmale berücksichtigen?
Trainer
Klassifikator

Sport

Politik

Spaß

Kategorisierungsschema

Kunst

Thomas Brückner, „Textklassifikation (2001):
„Die Merkmale basieren meist auf Wörtern oder
Buchstaben-N-Grammen.

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Text-Klassifikation – Rule-Based
unbekannte Dokumente

Induzieren von decision trees (?)

...
Kategorie „Straßenverkehr
Rule-Based-System

( „auto ∨ „motorrad ∨ „autobahn ∨
„verkehr ∨ „straße ) ∧
¬ ( „zug ∨ „bahn ∨ „eisenbahn )

...
Cluster 1

Cluster 2

Cluster 3

Cluster 4

Textsorten-Klassifikation
Korpus
Karlgren &
Cutting (1994),
Recognizing Text
Genres with
Simple Metrics
Using Discriminant Functions
Kessler, Nunberg
& Schütze
(1997),
Automatic
Detection of Text
Genre
Stamatatos et al.
(2000), Text
Genre Detection
Using Common
Word Frequencies

Methoden

Genres

Informative,
Imaginative
4.  Press,
Fiction, Misc.,
Non-Fiction
•  Einfache Methoden liefern für wenige Textsorten sehr
gute Resultate
•  500 Texte aus Statististik/KNNs, 6.  Reportage,
ca.In diesen Ansätzen ausschließlich: ASCII-Texte (!)
•  Wie kann man sehr 55 Merkmale
viele HypertextsortenEditorial, Scimöglichst
dem Brown
(Interpunktion,
Tech, Legal,
präzise detektieren?
Corpus
Affixe, Passiv,
Non-Fiction,
(getaggt)
etc.)
Fiction
Jeweils 500 Texte
aus dem Brown
Corpus
(getaggt)

Wall Street
Journal Corpus
(ungetaggt)

DiskriminantenAnalyse – 20
Parameter (noun,
Fazit
it, adv., word etc.
counts)

DiskriminantenAnalyse – Worthäufigkeiten und
Interpunktionsz.

Präzision

2. 

4. 

Editorial, Letter to the
Editor,
Reportage,
Spot news

2. 
4. 

ca. 96%
ca. 73%

ca. 90% (für
„reportage und
„fiction )

ca. 97%

Hypertextsorten-Klassifikation
Genres

Methoden

Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Document Type
Classification

9: prod.
catalogue, online
shop, advertisement for help, CfP,
links, FAQ, glossary, home page,
bulletin board

Gewichtetes
PatternMatching in
HTMLFazit
Elementen

Karlgren et al.
(1998), Iterative
Information Retrieval Using Fast
Clustering and
Usage-Specific
Genres

•  Informal/Pri11: Einfache Methoden liefern für wenige Hypertextsorten sehr gute Resultate
vate, Public/Com.,
•  Sind Journ.
Indices,diese Ergebnisse auf sehr viele, tw. recht
if-then-Regeln,
Vorkommen von
ähnliche Hypertextsorten übertragbar?
Material, Reports,
kombiniert mit
Wörtern und
Text, FAQ, Link
Clustering
HTML-Elementen
Coll., Listings/Tables, Discussions, Error Messages

Rauber & MüllerKögler (2001),
Integrating
Automatic Genre
Analysis into
Digital Libraries

Cluster: Sport-Artikel, Interviews,
Berichte, juristische Texte etc.

Clustering (Self
Organizing
Map) zum nicht
überwachten
Erlernen von
Ähnlichkeiten

Merkmale

Präzision

keyword, link,
URL, structure,
image, OCR,
plugin

avg. precision of
document-type
search: 88,9%
(avg. precision of
keyword-based
search: 31,2%)

Text-Komplexität, Sonder- und
Interpunktionszeichen, Stoppund Schlüsselwörter, Markup

Zwischen 30%
und 90%, je
nach Genre

n.a., Cluster werden erlernt zur
Visualisierung
von Such-Ergebnissen einer neuen GUI-Metapher

Fünf Merkmalsgruppen

Architektur des Analysesystems I
Analyse I
Analyse II

Dispatcher

Analyse III

Metadaten

(Perl, HTML::PARSER)

Analyse IV

liest

Analyse V

extrahiert
Tool 1
DB1

Modul-Konfiguration

Tool 2
DB2

Tool 3

HTML
-Date
i(en)

Hybride Merkmals-Matrix
Trainings- bzw.
Input-Daten

ML- und Regelbasierter
Klassifikator

DB2
XML-Repräsentation
der Taxonomie

HypnoticDatenbank


Architektur des Analysesystems II
Analyse I
Analyse II

Dispatcher

Analyse III

Metadaten


Analyse IV

liest

Analyse V

HypnoticDatenbank

HTML
-Date
i(en)

Klassifikator
Tool 1
DB1

0.96
Tool 2
DB2

Tool 3

0.82

Spezialisierte Judges:

•  berechnen Konfidenzwerte

0.48

DB2
Taxonomie


Analyse I
Analyse II
Analyse III

Dispatcher

Metadaten


Analyse IV

liest

Analyse V

HypnoticDatenbank

HTML
-Date
i(en)

Klassifikator
Tool 1
DB1

0.96
Tool 2
DB2

Spezialisierte Judges:

Tool 3

•  berechnen Konfidenzwerte
•  schränken Suchraum ein

DB2
Taxonomie


Analyse I
Analyse II

Dispatcher

$

Analyse III

$

Metadaten


Analyse IV
Analyse V

liest

extrahiert
Tool 1
DB1

$

DB2

Tool 2

Tool 3

Modul-Konfiguration

?

DB2
XML-Repräsentation
der Taxonomie

HypnoticDatenbank

HTML
-Date
i(en)

$

Hybride Merkmals-Matrix

$

Trainings- bzw.
Input-Daten

ML- und Regelbasierter
Klassifikator

$

$

Ausblick
!  Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse
!  Stichprobenauswertung (top-down/bottom-up)
!  Entwicklung eines XML-Repräsentationsformats
für die Hypertextsorten-Taxonomie
!  Validierung der ca. 120 Detektions-Merkmale
!  Implementation des Klassifikationssystems
(evtl. als Multiagenten-System)
!  Evaluation des Systems mit realen SuchFragestellungen

Georg Rehm


Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Similar a Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web (20)

Más de Georg Rehm

Más de Georg Rehm (20)

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web