SlideShare una empresa de Scribd logo
1 de 84
Descargar para leer sin conexión
Hypertextsorten
Neuartige Möglichkeiten der
Informationsrecherche im World Wide Web
Georg Rehm, M.A.
Angewandte Sprachwissenschaft und Computerlinguistik
Justus-Liebig-Universität Gießen
Georg.Rehm@uni-giessen.de
http://www.uni-giessen.de/~g91063/
Zielsetzung
Status Quo I

Aus Sicht des (unerfahrenen) Benutzers:
•  DWIM-Prinzip („do what I mean! )
•  Spezifizierung einer Suchanfrage ist
schwierig
•  Es ist unklar, nach welchen Kriterien
die Maschine sucht
Status Quo II

•  ... lediglich Spezifizierung der
Sprache der Treffer-Dokumente
•  nur in wenigen Fällen hilfreich
Status Quo III

•  Kapselung der Query-Syntax
•  Filterung nach Dateiformaten
•  Filterung nach Sprache, Datum
und Domain
Folie von Monika Henzinger, Director of Research, Google Inc.
Tutorial: Web Information Retrieval
16th International Conference on Data Engineering (ICDE 2000)

?
Meint in diesem Kontext exclusiv:
Inhaltliche Kategorisierung!

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Das Ziel

!
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Textsorten
! 

„... komplexe Muster sprachlicher Kommunikation
Textlinguistik: Textsorten (Brief, Rezept, ...),
[...], die innerhalb der Sprachgemeinschaft im Laufe unterschiedliche Typen Entwicklung aufd.h. der historisch-gesellschaftlichenvon Texten
grund kommunikativer Bedürfnisse entstanden sind.

!  Klassifikationskriterien (u.a.):
" 
" 
" 

Inhalt – Thema
Form – Aufbau, Struktur, Gliederung
Funktion – Zweck

Brinker (1985)

!  Oftmals Taxonomie:
" 

Viele Probleme ...

Leitartikel

Georg Rehm

Zeitungstexte

„Liebes Texte (?)

Gedichte

Brief

Leserbrief

Liebesbrief

CL Kolloquium, Universität Potsdam, 04.12.2001

Liebesgedicht
Hypnotic
!  Zentrale Hypothese:
# 

Im World Wide Web existieren Hypertextsorten:
Nach nur wenigen Jahren kanonisierte,
funktionsgebundene, hypertextuelle Strukturen

!  Ziele:
1. 
2. 
3. 
4. 

Georg Rehm

Definition des Konzeptes „Hypertextsorte
Aufstellung einer Hypertextsorten-Taxonomie für
eine eingeschränkte Domäne
Automatische Klassifikation von Hypertextsorten
(→ Intelligentere Suchmaschinen)
Informationsextraktion (→ semi strukturierte Daten)

CL Kolloquium, Universität Potsdam, 04.12.2001
Hypertextsorten – Beispiele
!  Eine sehr interessante, neue Hypertextsorte:
Persönliche Homepage
!  Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.:
" 
" 
" 

Persönliche Homepage von Studierenden
Persönliche Homepage admin./techn. Personals
Persönliche Homepage von Wissenschaftlern
Beispiele:
•  aus vier verschiedenen Städten und
•  aus vier unterschiedlichen Disziplinen

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Hypertextsorten – Beispiele
Hypnotic: Einführung
!  Zwangsläufig: Empirischer Ansatz
!  Daher ein Teilziel:
" 
" 

Aufbau eines großen Korpus von HTML-Dokumenten
Grund: HTML-Dokumente sind sehr „flüchtig , sie
werden gelöscht, verändert, verschoben; man
benötigt also einen sicheren und großen Vorrat

!  Einschränkungen bei Datensammlung:
" 
" 

Georg Rehm

Nur Webserver deutscher Hochschulen
Nur deutschsprachige Dokumente

CL Kolloquium, Universität Potsdam, 04.12.2001
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Warum Beschränkung auf den
akademischen Bereich?
!  Enthält bzgl. der zugrundeliegenden Hypertextsorten
relativ stabile Dokumente
!  Dokumente sind stark strukturiert
!  Wenige binäre/proprietäre Dateien bzw. Dateitypen als
Vermittler von Text
!  Bzgl. Inhalt und Form (einigermaßen) überschaubar
(vs. z.B. kommerziellen, künstlerischen oder HobbyAngeboten)

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Implementation
!  Linux-basierte Open Source-Lösung:
" 

Datensammlung:
•  Spider: Pavuk
•  Tools zur Sprachidentifikation und zur Aufbereitung der
Metadaten zum Datenbankimport: Perl
•  UNIX Shell-Scripting zur Modulverbindung

" 

Benutzerschnittstelle:
•  Webserver: Apache
•  HTML-DBI und Benutzeroberfläche: PHP
•  Datenbank zum Zugriff auf Metadaten: MySQL

" 

Visualisierung:
•  Graphviz (stand-alone und als Perl-Modul)

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Ausnahmen
beschränkt

x-500
x-500-1
x-500-2

*.uni-giessen.de

(ca.120 versch. HTTP-Server)

MIME-Typen:
Suffixe: .tgz
.tar.gz .zip
.arj .pk .gz
.js .java ...

text/html,xml,
sgml,plain,css
message/news,
partial,rfc822

Rekursiver Transfer per HTTP
Datei kleiner als 500kB
und HTTP-Port = 80?

Speichern:
HTTP-Header
von jedem File

Verknüpfungen

HTML-Dokument deutschsprachig?

fung
knüp
Ver

generiert

Statistik: Anzahl Server, Dokumente etc.

ja, speichern

UNIXDateisystem

liefert Daten

SQLDatenbank

Tilgung von
Dokumentduplikaten
Language Identification I
! 
! 
! 
! 

Erwünscht: deutschsprachige Dokumente
Nicht notwendig: Multiple Sprachidentifikation
Stattdessen: deutsch vs. unbekannt
Potentielle Probleme:
" 

" 
" 
" 

Performanz: für jedes besuchte HTML-Dokument muß
die Sprache überprüft werden
Multilinguale Dokumente
Nicht-sprachliche Elemente (Formeln etc.)
Anderssprachige Navigationselemente

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Language Identification II
! 
! 

! 
! 

In Perl realisierter, Lexikonbasierter Ansatz
Aufgrund der extrem geringen
Vorkommen keine Beachtung
entsprechender <meta> Tags bzw.
lang=... Attribute
Präzision: ~97%
Probleme:
" 
Multilingualer Text
Namenlexikon
" 
extrem kurze,
(ca. 60.000)
fachsprachliche
Dokumente

Lexikon
(ca. 156.000)

Georg Rehm

HTML-Dokument
Entfernen aller HTML-Tags
Tilgung von Personennamen, URLs,
Email-Adressen, Abkürzungen etc.
Zählen aller deutschsprachigen und
aller unbekannten Wörter
Verrechnung der (nicht) erkannten
Wörter und Zeichen mit Dateilänge
nein

unbekannt

Schwellwert
erreicht?

CL Kolloquium, Universität Potsdam, 04.12.2001

ja

deutsch
Umfang des Korpus
Stand: 28.11.2001

Universitäten in der Hypnotic-Datenbank
40
HTTP-Server und -Port-Kombinationen
6.703
6.152
Auf Port 80 arbeitende HTTP-Server
Unterschiedliche Webserver-Software
940
HTTP-Header in der Datenbank
7.631.048
2.041.087
Dokumente im Korpus
HTML-Dokumente
plain ASCII-Dateien
XML-Dateien #
CSS-Dateien #
SGML-Dateien #
News-Artikel #
E-Mails #
#
Georg Rehm

Wir erwarten:
Etwa 3.000.000
Dokumente von ca.
60 Universitäten

!text/html
#text/plain
#text/xml
#text/css
#text/sgml
#message/news
#message/rfc822

CL Kolloquium, Universität Potsdam, 04.12.2001

1.881.842

.237
18.487
13.584

863
263 #
151
Zugriff auf das Korpus-System
!  Aktiv – Zugriff mittels Browserinterface:
Benutzerabhängiger Zugriff
Internet-weite, verteilte Analysen
Stichproben:

" 
" 
" 

•  Komfortable Generierung
•  Speicherung in Datenbank
•  DB-gestützte Analyse von Stichproben

Kapselung tw. sehr komplexer SQL-Queries

" 

!  Passiv – Zugriff mittels DBI API:
" 

Sinnvoll für die maschinelle Auswertung sehr großer
Stichproben (→ Perl)

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auswahl einer Universität

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auflistung der Server einer Universität

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Auflistung der Dokumente eines Servers

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

Navigation & Suche im
Dokumentbestand

Ansicht eines Dokuments

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben

Generierung einer Stichprobe

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Die Dokumente einer Stichprobe

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
DB-gestützte Dokumentanalyse

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Aktiver Zugriff auf das Korpus
!  SQL-Datenbank zur Referenzierung von Dokumenten
!  Web-Oberfläche ermöglicht
verteilten Zugriff:
" 

" 

" 

Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Analyseergebnisse

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Passiver Zugriff auf Dokumente
!  Einsatz eines DBI APIs (Perl, C) ermöglicht
vollautomatische Analyse:
" 

" 

" 

Analysesystem kommuniziert direkt mit der KorpusDatenbank
Diese liefert zurück:
•  Metadaten,
•  Dokumentinhalte
Analyseprogramm speichert Ergebnisse in Datenbank

!  Realisiert für Untersuchung der sprachlichen
Phänomene in persönlichen Homepages

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Erstellung der Taxonomie
!  Stichproben-Analysen:
1.  Erste Stichprobe (200 tiefe Dokumente) ergab:

initiale Liste von Hypertextsorten,
•  extremen Bedarf für eine Taxonomie!
2.  Zwei weitere Stichproben:
a.  top-down: 676 Dokumente der obersten
Verlinkungsebene der Einstiegsseiten der ersten 35
Universitäten im Korpus
b.  bottom-up: 2000 „tiefe Dokumente
• 

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001
Grobe Verteilung im 200er Sample
! 

Administrative Informationen (14)
" 
Studienordnung (2)
" 
Lehrveranstaltungsbezogene
Informationen (2)
•  Grundlegende Informationen zu
einem Kurs (9)
•  Kommentar (7)

! 

Institut/Lehrstuhl/Arbeitsbereich (15)
" 
Einstiegsseite (4)
•  Konferenz (5)
•  Beschreibung einer
Arbeitsgruppe (2)
•  Programmüberblick (1)
•  Anmeldeformular (1)
Liste der Mitarbeiter (4)
•  Persönliche Homepage (14)
•  Wissenschaftler (4)
•  Hilfskraft (3)

•  Übungsaufgabe (5)
" 
•  Lösungen von Aufgaben (1)
•  Liste von Veranstaltungen (2)
•  LV-Materialien (2)
" 
Informationen zu Stipendium (1)
•  Virtuelle Visitenkarte (1)
" 
Stellenangebot (1)
" 
Beschreibung eines
•  Chronik eines Vereins
Forschungsschwerpunkts (3)
!  Universitäre Informationen (5) •  Paragraph einer Verordnung
•  Rangliste eines Sportereignisses
" 
Wegbeschreibung/Lageplan (3)
•  Bibliographie (9)
•  Reisebericht
" 
Beschreibung eines universitären
•  eines Autors (3)
Informationsangebots (1)
•  eines Instituts (3)
•  thematisch sortiert (2)
•  84 Hypertextsorten sind enthalten.
•  Forschungsprojekt (9)
•  11 Dokumenten konnte aus technischen
•  Beschreibung (7)
Gründen keine Hypertextsorte zugeordnet
werden.
•  4 Hypertextsorten konnten nicht sinnvoll in
die Taxonomie integriert werden.

" 
" 

•  Arbeitsplan (19)
Kurze Darstellung der Institution (1)
Organisationsplan (1)
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Die oberen Ebenen der
Taxonomie werden mit Hilfe des
zweiten Samples top down
systematisch verfeinert.
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Die unteren Ebenen der Taxonomie
werden daraufhin mit Hilfe des dritten
Samples (N = 2000) bottom up
verfeinert.
Hypnotic-Hypertextsorten-Taxonomie
Version 0.1

Einige der offenen Fragen:
•  Welche unterschiedlichen Knoten-Typen existieren?
•  Welche dieser Typen treten in der Realität auf („Text )?
•  Welche unterschiedlichen Kanten-Typen existieren?
•  Ist eine Hyperlink-Typologie sinnvoll integrierbar?
•  Welche Erkennungshinweise müssen in die Taxonomie
integriert werden?
•  XML als einheitliches Repräsentationsformat ...
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Merkmale für die maschinelle
Identifikation von Hypertextsorten
1. 
2. 
3. 
4. 
5. 

Georg Rehm

Dokumentübergreifende Merkmale
Metadaten
Sprachliche und strukturelle Cues
Sprachliche Konzeption
HTML-Struktur

CL Kolloquium, Universität Potsdam, 04.12.2001
Dokumentübergreifende Merkmale
Dokumentübergreifende Merkmale
•  Identische Kopfzeile
•  Identische Logo-Grafik
•  Identische Fußzeile
•  Identischer Farbraum

Projekte

Mitarbeiter

Einstiegsseite
Angewandte Sprachwissenschaft
und Computerlinguistik
JLU Gießen
http://www.uni-giessen.de/fb09/ascl/

Lehrveranstaltungen

Aktuelles
Dokumentübergreifende Merkmale
Einstiegsseite
Angewandte Sprachwissenschaft
und Computerlinguistik
JLU Gießen
http://www.uni-giessen.de/fb09/ascl/

Einstiegsseite des
Fachgebiets Germanistik

Persönliche Homepage
von Henning Lobin

Zentrum für Medien
und Interaktivität
Position im Hypertextnetzwerk
http://www.uni-giessen.de/fb09/ascl/

.../ascl/proj/

.../ascl/contact/

.../ascl/lectures/

.../ascl/news/

•  Position/Funktion im Hypertextnetzwerk automatisch bestimmbar
•  Vorherrschend in dieser Domäne: Hierarchischer top-down „Hypertext !
•  Beteiligte URLs geben wichtige Hinweise (Anzahl, Einbettung, ...)
Position im Hypertextnetzwerk
http://www.uni-giessen.de/fb09/ascl/

http://www.uni-giessen.de/fb09/

http://www.uni-giessen.de/~g91062/

http://www.zmi.uni-giessen.de
Die URL als grober HTS-Hinweis
Fachbereiche, Zentren, ...

Persönliche Homepage

Zahlreiche weitere wichtige Detektionsmerkmale:
•  Länge eines Dokuments in Wörtern
•  Stichwörter im <title> Tag
•  Datum der letzten Änderung
•  Art des eingesetzten HTML-Editors/-Erzeugers
•  ...

http://www.uni-giessen.de/fb09/

http://www.uni-giessen.de/~g91062/

http://www.zmi.uni-giessen.de
Sprachliche und strukturelle Cues für
bestimmte Hypertextsorten

Titel Vorname Nachname
Universität ... → Institut ...
→ Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen:
Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit

Automatische Erkennung mittels:
•  regulären Ausdrücken (für Telefonnummern etc.)
schränkt die Suche ein auf:
•  named entity-Tagger (für Personen- und Stadtnamen)
•  Persönliche Homepage eines Wissenschaftlers
•  hochfrequenten Schlüsselwörtern einer Hypertextsorte
•  Virtuelle Visitenkarte
•  ...
Sprachliche Konzeption
!  Koch & Oesterreicher (1994) unterscheiden
" 
" 

mediale Mündlichkeit/Schriftlichkeit
konzeptionelle Mündlichkeit/Schriftlichkeit

!  Beispiele:
" 

" 

" 

Georg Rehm

Wissenschaftlicher Vortrag:
•  medial mündlich
•  konzeptionell schriftlich
Wissenschaftlicher Artikel:
•  medial schriftlich
•  konzeptionell schriftlich
Gespräch unter Freunden:
•  medial mündlich
•  konzeptionell mündlich

dichotomisch:
entweder – oder

CL Kolloquium, Universität Potsdam, 04.12.2001
Sprachliche Konzeption
!  Koch & Oesterreicher (1994) unterscheiden
" 
" 

mediale Mündlichkeit/Schriftlichkeit
konzeptionelle Mündlichkeit/Schriftlichkeit

!  Beispiele:
" 

" 

" 

Georg Rehm

Wissenschaftlicher Vortrag:
•  medial mündlich
•  konzeptionell schriftlich
Wissenschaftlicher Artikel:
•  medial schriftlich
•  konzeptionell schriftlich
Gespräch unter Freunden:
•  medial mündlich
•  konzeptionell mündlich

Kontinuum:
von ... bis

CL Kolloquium, Universität Potsdam, 04.12.2001
Computer-Mediated Communication
!  Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet
sind geprägt von konzeptioneller Mündlichkeit.
!  Berichtete Merkmale:
!  Umgangssprachliche Formen
!  Einfache Syntax (Para(z.B. bei Begrüßungen und
taxe), einfache Lexik
Verabschiedungen)
!  Freie, assoziative Themen!  Hochfrequent: ich, man, du, einentwicklung
Diese Merkmale sind mit Hilfe
fach, mal, ziemlich, irgendwie von regulären Ausdrücken und
!  Spontan gebildete
Äußerungen
!  verschiedenen Listen (von Smileys, speziellen Akronymen etc.)
Regionalismen, Dialektismen
automatisch detektierbar!
!  Ausgeprägte Dialogizität
!  ...
!  Emphasen: ist _eingeschränkt_
!  Slangausdrücke: IMHO ...
!  Bigraphen (gruen), Assimilationen
(gibt s), Auslassungspunkte
(...), reduplizierte Interpunktionszeichen (!!!!!!) etc.
Georg Rehm

!  Smileys: :-)
!  Isolierte Verbstämme:
*lach*, *grins*, ...
!  Spezifische Abkürzungen:
*rotfl*
!  Iterationen: Tschüßiiiii

CL Kolloquium, Universität Potsdam, 04.12.2001
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Berechnung der sprachlichen Konzeption

Persönliche Homepage von
Prof. Dr. Henning Lobin

Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU

!

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Berechnung der sprachlichen Konzeption

Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebücher, Chat-Protokolle,
Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.
Kommentiertes Vorlesungsverzeichnis
Persönliche Homepage von
Prof. Dr. Henning Lobin

des Fachgebiets Germanistik der JLU

Kontinuum der sprachlichen Konzeption
schriftlich

mündlich

Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs

Georg Rehm

•  Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
•  Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...

CL Kolloquium, Universität Potsdam, 04.12.2001
HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

" 

Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs
Eingebettete Graphiken und
Bilder

Georg Rehm

•  Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
•  Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...
•  Einige kleinere (bzgl. Größe
und Abmessungen) Graphiken in einem ansonsten stark
textlastigen Dokument ...
•  Nur wenige Wörter, jedoch
viele JPEG-Dateien mit identischen Abmessungen (z. B.
1280x1024) ...

CL Kolloquium, Universität Potsdam, 04.12.2001
HTML-Struktur
!  Neben den beteiligten URLs
sind diverse weitere Merkmale von Nutzen, u.a.:
" 

" 

" 

Protokoll, Hypertextsorte (!)
und evtl. Dateityp von URLs
Eingebettete Graphiken und
Bilder
Formulare

•  Kleines Textfeld und Submit-Button
auf stark strukturierter Seite ...
•  Viele kleine, strukturierte Dokumente
mit Radio-Buttons „unterhalb von
Materialien zu Lehrveranstaltungen ...

Georg Rehm

•  Ausschließlich ftp-Hyperlinks
auf Server, deren Namen mit
„ftp beginnen ...
•  Vorwiegend Links, die sich
innerhalb von <LI> ... </LI>
befinden, auf Dateien mit den
Suffixen *.ps und *.pdf ...
•  Einige kleinere (bzgl. Größe
und Abmessungen) Graphiken in einem ansonsten stark
textlastigen Dokument ...
•  Nur wenige Wörter, jedoch
viele JPEG-Dateien mit identischen Abmessungen (z. B.
1280x1024) ...

CL Kolloquium, Universität Potsdam, 04.12.2001
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Hypertextsorten-Module
!  Hypertextsorten können aus unterschiedlichen Modulen
bestehen, d.h. sie sind nicht monolithisch.
!  Module sind entweder
" 
" 

obligatorisch oder
optional

!  Module sind optisch/strukturell voneinander abgetrennt.
!  Persönliche Homepage eines Wissenschaftlers:
" 
" 
" 
" 
" 
" 

Georg Rehm

Name der Person
Kontaktinformationen
Publikationen
Projekte
Lehrveranstaltungen
...

CL Kolloquium, Universität Potsdam, 04.12.2001
Hypertextsorten-Module: Beispiele

Modul: Kontaktinformationen

Muß vorhanden sein, kann jedoch in ein per Hyperlink referenziertes
Dokument ausgelagert werden.
Hypertextsorten-Module: Beispiele

Modul: Name

Das einzige Modul, das auf der Einstiegsseite
zwingend (physikalisch) vorhanden sein muß.
Hypertextsorten-Module: Beispiele

Modul: Aktuelle Informationen

Sehr untypisch für die Hypertextsorte Persönliche Homepage
eines Wissenschaftlers; optionales Modul.
Hypertextsorten-Module: Beispiele
Modul: Affiliation
Obligatorischer Status.
Hypertextsorten-Module: Weitere Beispiele
Hypertextsorten und –Module
XML Schema-Repräsentation
definiert
•  Stellt ein abstraktes Framework dar.
•  Massiv generalisiert!

Default Belegung:
<content,form,function>

Hypertextsorte
Beispielinstanz:
Persönliche Homepage eines Wissenschaftlers
können fungieren als

Enthält die vorgeschriebenen Module ...

besteht aus

Erhöht das function-Attribut
modifiziert
Interaction!

Optionales Hypertextsorten-Modul:
Lokale Suchfunktion (mittels CGI-Skript)

Obligatorische
Hypertextsorten-Module

Optionale
Hypertextsorten-Module

Auflistung von Lehrveranstaltungen:
Mitarbeiterliste:
•  Vorgeschriebenes Modul für HTS:
•  Optionales Modul für HTS:
Instituts-Einstiegsseite
Instituts-Einstiegsseite
•  Ebenfalls eine eigenständige •  Ebenfalls eine eigenständige HyperHypertextsorte
textsorte

Spezifische Belegung:
<content,form,function
>
Definition einer Hypertextsorte
!  Beispiel:
Persönliche Homepage eines Wissenschaftlers
!  Analyse anhand eines kleinen Samples
!  Bedingungen bei der Auswahl:
" 
" 
" 
" 

Georg Rehm

Unterschiedliche Universitäten und Städte
Unterschiedliche Fächer
Kein Einsatz von Framesets
Dokumente sollen in englischer und deutscher Version
vorliegen

CL Kolloquium, Universität Potsdam, 04.12.2001
Die Dokumente des Samples
! 

! 

! 

! 
! 

Affiliation (obligatorisch) – Logo Graphik der Universität, des
Fachbereichs oder Instituts; wird evtl. begleitet/ersetzt durch textuelle
Version; kann auch im Schlußteil eines Dokuments vorhanden sein
Alternative Version eines Dokuments in einer anderen Sprache,
hier: Englisch; wird evtl. von einer entsprechender Flagge begleitet
(optional)
Name des Homepage-Besitzers (obligatorisch) – wird evtl. begleitet
von einem akademischen Titel („Dr. , „Prof. Dr. , etc.) und einer
entsprechenden Phrase („Homepage von Vorname Nachname )
" 
Eigene Person vorstellen (Name,
Portrait Photo des Autors; räumlich relativ nah bei dem Namen platziert,
üblicherweise im oberen Drittel des Dokuments (optional)
Photo)
Kontaktinformationen (obligatorisch)
" 
Ein individuelles, wissenschaftliches
" 
Postadresse (optional) – Name des Autors, Institut, Universität,
Profil
Straße, Hausnummer, Postfach, Postleitzahl, Stadt, Land etablieren
" 
Telefonnummer (optional)
" 
Veröffentlichungen in digitaler Form
" 
Telefonnummer des Sekretariats (optional)
anbieten
" 
Faxnummer (optional)
" 
E-Mail-Adresse (obligatorisch)
" 
Lehrbezogene Materialien (Skripte,

Persönliche Homepage eines
Wissenschaftlers

!  Funktionen:

Raumnummer (optional)
Folien, Übungsblätter, Lösungen,
" 
Sprechstunde (optional)
interaktives Quiz etc.) anbieten
C.V. oder generelle bibliographische Informationen (obligatorisch)
(→ „digitaler Handapparat )
Informationen über Lehrveranstaltungen (obligatorisch)
Forschungsinteressen und/oder Forschungsprojekte (obligatorisch)
" 
Kontaktinformationen offerieren
Auflistung von eigenen Publikationen (obligatorisch)
Auflistung von Vorträgen/Präsentationen (optional)
Verwandte Links (optional)
" 
In hohem Maße strukturiert
" 
Link zur Homepage der eigenen Universität (obligatorisch)
" 
Link zur Homepage des eigenen Fachbereichs "  Optische Trennung einzelner Module
(obligatorisch)
" 
Link zur Homepage des eigenen Instituts/der eigenen Arbeitsgruppe
(oftmals <HR> oder Ersatz)
(obligatorisch)
Datum der letzten Änderung (optional)
" 

! 
! 
! 
! 
! 
! 

! 

!  Form:
Hypertextsorten-Module und Information Extraction
Hypertextsorten-Module und Information Extraction
!  Prämisse für das Folgende:
Relativ genaue Detektion von
" 
Hypertextsorten und
" 
Hypertextsorten-Modulen
!  Dies ermöglichte:
" 
Eine neue Ebene für Information
Extraction-Systeme:
" 
Anwendung spezialisierter Wrapper
auf die Inhalte von Hypertextsorten-Modulen (vs. vollständigen
HTML-Dokumenten)
•  Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation
•  Aufbruch von physikalischen
Dokumentgrenzen!

!
Etwa 120 Detektionsmerkmale
1.  Dokumentübergreifende Merkmale: Wiederholt
auftauchende Hypertextsorten-Module, Position eines
Dokuments in der Hypertextstruktur einer Gruppe
2.  Metadaten: URL, HTTP Response Header, Größe, Titel,
<meta>, HTML-DTD
3.  Sprachliche und strukturelle Cues (an bestimmten
Hypertextsorten-spezifischen Positionen)
4.  Sprachliche Konzeption (Kontinuum von mündlich nach
schriftlich)
5.  HTML-Struktur (von Elementen aufgespannter Baum):
" 

" 

" 

Georg Rehm

Hyperlinks: Anzahl, intern vs. extern, Hypertext-Struktur,
Dateityp des Ziels, Hypertextsorte des Ziels, Ankertext, LinkFunktion, Link-Position
Inline-Graphiken: Abmessungen, Anzahl, Datei- und
Verzeichnisnamen, Inhalt, ALT=...-Text, Dateityp
Interaktive Elemente: Formulare, JavaScript, PlugIns, JavaApplets
CL Kolloquium, Universität Potsdam, 04.12.2001
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Text-Klassifikation – Clustering
!  Ursprung: Data Mining
!  Grundlage: Extraktion
sprachlicher Merkmale
!  Merkmalsvektor eines
Textes als Distanzmaß
!  Ziele:
" 

" 

...

Distanz zwischen Texten in
einem Cluster soll
möglichst minimal sein
Distanz zwischen Clustern
soll möglichst maximal
sein

Clusterer

!  Problem:
" 

Cluster werden dynamisch
erzeugt

Cluster 1

Cluster 2

Cluster 3

Cluster 4
Text-Klassifikation – Categorization
Trainingsdaten

unbekannte Dokumente

...

Probleme
•  Sehr viele manuell kategorisierte und repräsentative
Trainingsdaten sind notwendig.
•  Overfitting im Kategorisierungsschema.
•  Wie kann man hier die HTML-Struktur und andere, nichtsprachliche Merkmale berücksichtigen?
Trainer
Klassifikator

Sport

Politik

Spaß

Kategorisierungsschema

Kunst

Thomas Brückner, „Textklassifikation (2001):
„Die Merkmale basieren meist auf Wörtern oder
Buchstaben-N-Grammen.

Cluster 1

Cluster 2

Cluster 3

Cluster 4
Text-Klassifikation – Rule-Based
unbekannte Dokumente

Induzieren von decision trees (?)

...
Kategorie „Straßenverkehr
Rule-Based-System

( „auto ∨ „motorrad ∨ „autobahn ∨
„verkehr ∨ „straße ) ∧
¬ ( „zug ∨ „bahn ∨ „eisenbahn )

...
Cluster 1

Cluster 2

Cluster 3

Cluster 4
Textsorten-Klassifikation
Korpus
Karlgren &
Cutting (1994),
Recognizing Text
Genres with
Simple Metrics
Using Discriminant Functions
Kessler, Nunberg
& Schütze
(1997),
Automatic
Detection of Text
Genre
Stamatatos et al.
(2000), Text
Genre Detection
Using Common
Word Frequencies

Methoden

Genres

Informative,
Imaginative
4.  Press,
Fiction, Misc.,
Non-Fiction
•  Einfache Methoden liefern für wenige Textsorten sehr
gute Resultate
•  500 Texte aus Statististik/KNNs, 6.  Reportage,
ca.In diesen Ansätzen ausschließlich: ASCII-Texte (!)
•  Wie kann man sehr 55 Merkmale
viele HypertextsortenEditorial, Scimöglichst
dem Brown
(Interpunktion,
Tech, Legal,
präzise detektieren?
Corpus
Affixe, Passiv,
Non-Fiction,
(getaggt)
etc.)
Fiction
Jeweils 500 Texte
aus dem Brown
Corpus
(getaggt)

Wall Street
Journal Corpus
(ungetaggt)

DiskriminantenAnalyse – 20
Parameter (noun,
Fazit
it, adv., word etc.
counts)

DiskriminantenAnalyse – Worthäufigkeiten und
Interpunktionsz.

Präzision

2. 

4. 

Editorial, Letter to the
Editor,
Reportage,
Spot news

2. 
4. 

ca. 96%
ca. 73%

ca. 90% (für
„reportage und
„fiction )

ca. 97%
Hypertextsorten-Klassifikation
Genres

Methoden

Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Document Type
Classification

9: prod.
catalogue, online
shop, advertisement for help, CfP,
links, FAQ, glossary, home page,
bulletin board

Gewichtetes
PatternMatching in
HTMLFazit
Elementen

Karlgren et al.
(1998), Iterative
Information Retrieval Using Fast
Clustering and
Usage-Specific
Genres

•  Informal/Pri11: Einfache Methoden liefern für wenige Hypertextsorten sehr gute Resultate
vate, Public/Com.,
•  Sind Journ.
Indices,diese Ergebnisse auf sehr viele, tw. recht
if-then-Regeln,
Vorkommen von
ähnliche Hypertextsorten übertragbar?
Material, Reports,
kombiniert mit
Wörtern und
Text, FAQ, Link
Clustering
HTML-Elementen
Coll., Listings/Tables, Discussions, Error Messages

Rauber & MüllerKögler (2001),
Integrating
Automatic Genre
Analysis into
Digital Libraries

Cluster: Sport-Artikel, Interviews,
Berichte, juristische Texte etc.

Clustering (Self
Organizing
Map) zum nicht
überwachten
Erlernen von
Ähnlichkeiten

Merkmale

Präzision

keyword, link,
URL, structure,
image, OCR,
plugin

avg. precision of
document-type
search: 88,9%
(avg. precision of
keyword-based
search: 31,2%)

Text-Komplexität, Sonder- und
Interpunktionszeichen, Stoppund Schlüsselwörter, Markup

Zwischen 30%
und 90%, je
nach Genre

n.a., Cluster werden erlernt zur
Visualisierung
von Such-Ergebnissen einer neuen GUI-Metapher
Fünf Merkmalsgruppen

Architektur des Analysesystems I
Analyse I
Analyse II

Dispatcher

Analyse III

Metadaten

(Perl, HTML::PARSER)

Analyse IV

liest

Analyse V

extrahiert
Tool 1
DB1

Modul-Konfiguration

Tool 2
DB2

Tool 3

HTML
-Date
i(en)

Hybride Merkmals-Matrix
Trainings- bzw.
Input-Daten

ML- und Regelbasierter
Klassifikator

DB2
XML-Repräsentation
der Taxonomie

HypnoticDatenbank
Fünf Merkmalsgruppen

Architektur des Analysesystems II
Analyse I
Analyse II

Dispatcher

Analyse III

Metadaten

(Perl, HTML::PARSER)

Analyse IV

liest

Analyse V

HypnoticDatenbank

HTML
-Date
i(en)

Klassifikator
Tool 1
DB1

0.96
Tool 2
DB2

Tool 3

0.82

Spezialisierte Judges:

•  berechnen Konfidenzwerte

0.48

DB2
Taxonomie
Fünf Merkmalsgruppen

Architektur des Analysesystems II
Analyse I
Analyse II
Analyse III

Dispatcher

Metadaten

(Perl, HTML::PARSER)

Analyse IV

liest

Analyse V

HypnoticDatenbank

HTML
-Date
i(en)

Klassifikator
Tool 1
DB1

0.96
Tool 2
DB2

Spezialisierte Judges:

Tool 3

•  berechnen Konfidenzwerte
•  schränken Suchraum ein

DB2
Taxonomie
Fünf Merkmalsgruppen

Architektur des Analysesystems II
Analyse I
Analyse II

Dispatcher

$

Analyse III

$

Metadaten

(Perl, HTML::PARSER)

Analyse IV
Analyse V

liest

extrahiert
Tool 1
DB1

$

DB2

Tool 2

Tool 3

Modul-Konfiguration

?

DB2
XML-Repräsentation
der Taxonomie

HypnoticDatenbank

HTML
-Date
i(en)

$

Hybride Merkmals-Matrix

$

Trainings- bzw.
Input-Daten

ML- und Regelbasierter
Klassifikator

$

$
Zielsetzung
Einführung
Korpus-Datenbank
Hypertextsorten-Taxonomie
Detektionsmerkmale
Hypertextsorten und –Module
System-Architektur
Ausblick
Ausblick
!  Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse
!  Stichprobenauswertung (top-down/bottom-up)
!  Entwicklung eines XML-Repräsentationsformats
für die Hypertextsorten-Taxonomie
!  Validierung der ca. 120 Detektions-Merkmale
!  Implementation des Klassifikationssystems
(evtl. als Multiagenten-System)
!  Evaluation des Systems mit realen SuchFragestellungen

Georg Rehm

CL Kolloquium, Universität Potsdam, 04.12.2001

Más contenido relacionado

Destacado

Konzert des Leibnitzer Bezirksorchesters
Konzert des Leibnitzer BezirksorchestersKonzert des Leibnitzer Bezirksorchesters
Konzert des Leibnitzer BezirksorchestersManfred Rechberger
 
Présentation Corporate Kerensen Consulting Juin 2011
Présentation Corporate Kerensen Consulting Juin 2011Présentation Corporate Kerensen Consulting Juin 2011
Présentation Corporate Kerensen Consulting Juin 2011guillaume ollier
 
Test-Driven Development ... und mehr
Test-Driven Development ... und mehrTest-Driven Development ... und mehr
Test-Driven Development ... und mehrOliver Klee
 
Proceso De Atencion De Enfermeria
Proceso De Atencion De EnfermeriaProceso De Atencion De Enfermeria
Proceso De Atencion De Enfermeriaguest8fbce6
 
Landscape Line Drawings (sketch examples)
Landscape Line Drawings (sketch examples)Landscape Line Drawings (sketch examples)
Landscape Line Drawings (sketch examples)Frank Curkovic
 
Enfoque de sistemas de la administración
Enfoque de sistemas de la administraciónEnfoque de sistemas de la administración
Enfoque de sistemas de la administraciónMeliita123
 
Cation exchange and it’s role on soil behaviour
Cation exchange and it’s role on soil behaviourCation exchange and it’s role on soil behaviour
Cation exchange and it’s role on soil behaviourShahram Maghami
 
Cloud computing security from single to multiple
Cloud computing security from single to multipleCloud computing security from single to multiple
Cloud computing security from single to multipleKiran Kumar
 
Doctor Blade Metering
Doctor Blade MeteringDoctor Blade Metering
Doctor Blade MeteringFlexoGlobal
 
Monografia completa
Monografia completaMonografia completa
Monografia completaAnglesP
 
Nickel alloys corrosion performance chart
Nickel alloys corrosion performance chartNickel alloys corrosion performance chart
Nickel alloys corrosion performance chartHeanjia Alloys
 
Frabetti, carlo malditas matemáticas
Frabetti, carlo   malditas matemáticasFrabetti, carlo   malditas matemáticas
Frabetti, carlo malditas matemáticasRotxy Mendoza
 
Que es la educacion preescolar
Que es la educacion preescolarQue es la educacion preescolar
Que es la educacion preescolardiana2521
 

Destacado (20)

Konzert des Leibnitzer Bezirksorchesters
Konzert des Leibnitzer BezirksorchestersKonzert des Leibnitzer Bezirksorchesters
Konzert des Leibnitzer Bezirksorchesters
 
Présentation Corporate Kerensen Consulting Juin 2011
Présentation Corporate Kerensen Consulting Juin 2011Présentation Corporate Kerensen Consulting Juin 2011
Présentation Corporate Kerensen Consulting Juin 2011
 
Test-Driven Development ... und mehr
Test-Driven Development ... und mehrTest-Driven Development ... und mehr
Test-Driven Development ... und mehr
 
Proceso De Atencion De Enfermeria
Proceso De Atencion De EnfermeriaProceso De Atencion De Enfermeria
Proceso De Atencion De Enfermeria
 
Livorno - Hafen der Medici
Livorno - Hafen der MediciLivorno - Hafen der Medici
Livorno - Hafen der Medici
 
Tema 2: Probabilidad
Tema 2: ProbabilidadTema 2: Probabilidad
Tema 2: Probabilidad
 
Landscape Line Drawings (sketch examples)
Landscape Line Drawings (sketch examples)Landscape Line Drawings (sketch examples)
Landscape Line Drawings (sketch examples)
 
Enfoque de sistemas de la administración
Enfoque de sistemas de la administraciónEnfoque de sistemas de la administración
Enfoque de sistemas de la administración
 
Cours econometrie-uqam-st-3
Cours econometrie-uqam-st-3Cours econometrie-uqam-st-3
Cours econometrie-uqam-st-3
 
Cation exchange and it’s role on soil behaviour
Cation exchange and it’s role on soil behaviourCation exchange and it’s role on soil behaviour
Cation exchange and it’s role on soil behaviour
 
Cloud computing security from single to multiple
Cloud computing security from single to multipleCloud computing security from single to multiple
Cloud computing security from single to multiple
 
Hr innovation day 2015
Hr innovation day 2015Hr innovation day 2015
Hr innovation day 2015
 
Lois de finances et actualités fiscales 2015
Lois de finances et actualités fiscales 2015Lois de finances et actualités fiscales 2015
Lois de finances et actualités fiscales 2015
 
Doctor Blade Metering
Doctor Blade MeteringDoctor Blade Metering
Doctor Blade Metering
 
Breast feeding
Breast feedingBreast feeding
Breast feeding
 
Monografia completa
Monografia completaMonografia completa
Monografia completa
 
Agile KPIs
Agile KPIsAgile KPIs
Agile KPIs
 
Nickel alloys corrosion performance chart
Nickel alloys corrosion performance chartNickel alloys corrosion performance chart
Nickel alloys corrosion performance chart
 
Frabetti, carlo malditas matemáticas
Frabetti, carlo   malditas matemáticasFrabetti, carlo   malditas matemáticas
Frabetti, carlo malditas matemáticas
 
Que es la educacion preescolar
Que es la educacion preescolarQue es la educacion preescolar
Que es la educacion preescolar
 

Similar a Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischkostaedt
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...TIB Hannover
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...flimm
 
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...Jürgen Diet
 
KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'
KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'
KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'flimm
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungenredsys
 
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Kai Eckert
 
2013-10-10 Semantic Web und (Linked) Open Data
2013-10-10 Semantic Web und (Linked) Open Data2013-10-10 Semantic Web und (Linked) Open Data
2013-10-10 Semantic Web und (Linked) Open Datakostaedt
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenMarkus Erle
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...
KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...
KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...flimm
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
Eine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
Eine Infrastruktur für freie Katalogdaten. Konzeption und EntwicklungEine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
Eine Infrastruktur für freie Katalogdaten. Konzeption und EntwicklungAdrian Pohl
 
SS13 Sitzung 1
SS13 Sitzung 1SS13 Sitzung 1
SS13 Sitzung 1scuy
 

Similar a Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web (20)

Ziziphus/Tamboti
Ziziphus/TambotiZiziphus/Tamboti
Ziziphus/Tamboti
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
Lambert Heller @ Zukunftswerkstatt, BID-Kongreß 2010: Thesenpapier zum Thema ...
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
 
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
Freie und vernetzte Daten: Das Konzept des Linked Open Data und sein Einsatz ...
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'
KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'
KUG Praxisbericht - 'Betrieb einer Recherche-Infrastruktur'
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungen
 
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
Bibliotheken und Linked Open Data - Erfahrungen und Ideen aus der UB Mannheim
 
2013-10-10 Semantic Web und (Linked) Open Data
2013-10-10 Semantic Web und (Linked) Open Data2013-10-10 Semantic Web und (Linked) Open Data
2013-10-10 Semantic Web und (Linked) Open Data
 
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
Nah am Nutzer (Steinberg) - Konzept und Umsetzung eines Discovery-Services mi...
 
Was Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wolltenWas Sie schon immer über barrierefreie PDFs wissen wollten
Was Sie schon immer über barrierefreie PDFs wissen wollten
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...
KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...
KUG mit OpenBib - Aufbau des Kölner UniversitätsGesamtkatalogs (KUG) aus Open...
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Eine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
Eine Infrastruktur für freie Katalogdaten. Konzeption und EntwicklungEine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
Eine Infrastruktur für freie Katalogdaten. Konzeption und Entwicklung
 
SS13 Sitzung 1
SS13 Sitzung 1SS13 Sitzung 1
SS13 Sitzung 1
 

Más de Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 

Más de Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

  • 1. Hypertextsorten Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Georg Rehm, M.A. Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen Georg.Rehm@uni-giessen.de http://www.uni-giessen.de/~g91063/
  • 3. Status Quo I Aus Sicht des (unerfahrenen) Benutzers: •  DWIM-Prinzip („do what I mean! ) •  Spezifizierung einer Suchanfrage ist schwierig •  Es ist unklar, nach welchen Kriterien die Maschine sucht
  • 4. Status Quo II •  ... lediglich Spezifizierung der Sprache der Treffer-Dokumente •  nur in wenigen Fällen hilfreich
  • 5. Status Quo III •  Kapselung der Query-Syntax •  Filterung nach Dateiformaten •  Filterung nach Sprache, Datum und Domain
  • 6. Folie von Monika Henzinger, Director of Research, Google Inc. Tutorial: Web Information Retrieval 16th International Conference on Data Engineering (ICDE 2000) ? Meint in diesem Kontext exclusiv: Inhaltliche Kategorisierung! Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 7. Das Ziel ! Abstraktion über Inhalt bzw. Thema: Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
  • 9. Textsorten !  „... komplexe Muster sprachlicher Kommunikation Textlinguistik: Textsorten (Brief, Rezept, ...), [...], die innerhalb der Sprachgemeinschaft im Laufe unterschiedliche Typen Entwicklung aufd.h. der historisch-gesellschaftlichenvon Texten grund kommunikativer Bedürfnisse entstanden sind. !  Klassifikationskriterien (u.a.): "  "  "  Inhalt – Thema Form – Aufbau, Struktur, Gliederung Funktion – Zweck Brinker (1985) !  Oftmals Taxonomie: "  Viele Probleme ... Leitartikel Georg Rehm Zeitungstexte „Liebes Texte (?) Gedichte Brief Leserbrief Liebesbrief CL Kolloquium, Universität Potsdam, 04.12.2001 Liebesgedicht
  • 10. Hypnotic !  Zentrale Hypothese: #  Im World Wide Web existieren Hypertextsorten: Nach nur wenigen Jahren kanonisierte, funktionsgebundene, hypertextuelle Strukturen !  Ziele: 1.  2.  3.  4.  Georg Rehm Definition des Konzeptes „Hypertextsorte Aufstellung einer Hypertextsorten-Taxonomie für eine eingeschränkte Domäne Automatische Klassifikation von Hypertextsorten (→ Intelligentere Suchmaschinen) Informationsextraktion (→ semi strukturierte Daten) CL Kolloquium, Universität Potsdam, 04.12.2001
  • 11. Hypertextsorten – Beispiele !  Eine sehr interessante, neue Hypertextsorte: Persönliche Homepage !  Mittlerweile: empirisch nachweisbare, subgenerische Varianten, u.a.: "  "  "  Persönliche Homepage von Studierenden Persönliche Homepage admin./techn. Personals Persönliche Homepage von Wissenschaftlern Beispiele: •  aus vier verschiedenen Städten und •  aus vier unterschiedlichen Disziplinen Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 13. Hypnotic: Einführung !  Zwangsläufig: Empirischer Ansatz !  Daher ein Teilziel: "  "  Aufbau eines großen Korpus von HTML-Dokumenten Grund: HTML-Dokumente sind sehr „flüchtig , sie werden gelöscht, verändert, verschoben; man benötigt also einen sicheren und großen Vorrat !  Einschränkungen bei Datensammlung: "  "  Georg Rehm Nur Webserver deutscher Hochschulen Nur deutschsprachige Dokumente CL Kolloquium, Universität Potsdam, 04.12.2001
  • 15. Warum Beschränkung auf den akademischen Bereich? !  Enthält bzgl. der zugrundeliegenden Hypertextsorten relativ stabile Dokumente !  Dokumente sind stark strukturiert !  Wenige binäre/proprietäre Dateien bzw. Dateitypen als Vermittler von Text !  Bzgl. Inhalt und Form (einigermaßen) überschaubar (vs. z.B. kommerziellen, künstlerischen oder HobbyAngeboten) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 16. Implementation !  Linux-basierte Open Source-Lösung: "  Datensammlung: •  Spider: Pavuk •  Tools zur Sprachidentifikation und zur Aufbereitung der Metadaten zum Datenbankimport: Perl •  UNIX Shell-Scripting zur Modulverbindung "  Benutzerschnittstelle: •  Webserver: Apache •  HTML-DBI und Benutzeroberfläche: PHP •  Datenbank zum Zugriff auf Metadaten: MySQL "  Visualisierung: •  Graphviz (stand-alone und als Perl-Modul) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 17. Ausnahmen beschränkt x-500 x-500-1 x-500-2 *.uni-giessen.de (ca.120 versch. HTTP-Server) MIME-Typen: Suffixe: .tgz .tar.gz .zip .arj .pk .gz .js .java ... text/html,xml, sgml,plain,css message/news, partial,rfc822 Rekursiver Transfer per HTTP Datei kleiner als 500kB und HTTP-Port = 80? Speichern: HTTP-Header von jedem File Verknüpfungen HTML-Dokument deutschsprachig? fung knüp Ver generiert Statistik: Anzahl Server, Dokumente etc. ja, speichern UNIXDateisystem liefert Daten SQLDatenbank Tilgung von Dokumentduplikaten
  • 18. Language Identification I !  !  !  !  Erwünscht: deutschsprachige Dokumente Nicht notwendig: Multiple Sprachidentifikation Stattdessen: deutsch vs. unbekannt Potentielle Probleme: "  "  "  "  Performanz: für jedes besuchte HTML-Dokument muß die Sprache überprüft werden Multilinguale Dokumente Nicht-sprachliche Elemente (Formeln etc.) Anderssprachige Navigationselemente Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 19. Language Identification II !  !  !  !  In Perl realisierter, Lexikonbasierter Ansatz Aufgrund der extrem geringen Vorkommen keine Beachtung entsprechender <meta> Tags bzw. lang=... Attribute Präzision: ~97% Probleme: "  Multilingualer Text Namenlexikon "  extrem kurze, (ca. 60.000) fachsprachliche Dokumente Lexikon (ca. 156.000) Georg Rehm HTML-Dokument Entfernen aller HTML-Tags Tilgung von Personennamen, URLs, Email-Adressen, Abkürzungen etc. Zählen aller deutschsprachigen und aller unbekannten Wörter Verrechnung der (nicht) erkannten Wörter und Zeichen mit Dateilänge nein unbekannt Schwellwert erreicht? CL Kolloquium, Universität Potsdam, 04.12.2001 ja deutsch
  • 20. Umfang des Korpus Stand: 28.11.2001 Universitäten in der Hypnotic-Datenbank 40 HTTP-Server und -Port-Kombinationen 6.703 6.152 Auf Port 80 arbeitende HTTP-Server Unterschiedliche Webserver-Software 940 HTTP-Header in der Datenbank 7.631.048 2.041.087 Dokumente im Korpus HTML-Dokumente plain ASCII-Dateien XML-Dateien # CSS-Dateien # SGML-Dateien # News-Artikel # E-Mails # # Georg Rehm Wir erwarten: Etwa 3.000.000 Dokumente von ca. 60 Universitäten !text/html #text/plain #text/xml #text/css #text/sgml #message/news #message/rfc822 CL Kolloquium, Universität Potsdam, 04.12.2001 1.881.842
 .237 18.487 13.584
 863 263 # 151
  • 21. Zugriff auf das Korpus-System !  Aktiv – Zugriff mittels Browserinterface: Benutzerabhängiger Zugriff Internet-weite, verteilte Analysen Stichproben: "  "  "  •  Komfortable Generierung •  Speicherung in Datenbank •  DB-gestützte Analyse von Stichproben Kapselung tw. sehr komplexer SQL-Queries "  !  Passiv – Zugriff mittels DBI API: "  Sinnvoll für die maschinelle Auswertung sehr großer Stichproben (→ Perl) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 22. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 23. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auswahl einer Universität Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 24. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Server einer Universität Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 25. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Dokumente eines Servers Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 26. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Ansicht eines Dokuments Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 27. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Generierung einer Stichprobe Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 28. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Die Dokumente einer Stichprobe Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 29. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse DB-gestützte Dokumentanalyse Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 30. Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Analyseergebnisse Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 31. Passiver Zugriff auf Dokumente !  Einsatz eines DBI APIs (Perl, C) ermöglicht vollautomatische Analyse: "  "  "  Analysesystem kommuniziert direkt mit der KorpusDatenbank Diese liefert zurück: •  Metadaten, •  Dokumentinhalte Analyseprogramm speichert Ergebnisse in Datenbank !  Realisiert für Untersuchung der sprachlichen Phänomene in persönlichen Homepages Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 33. Erstellung der Taxonomie !  Stichproben-Analysen: 1.  Erste Stichprobe (200 tiefe Dokumente) ergab: initiale Liste von Hypertextsorten, •  extremen Bedarf für eine Taxonomie! 2.  Zwei weitere Stichproben: a.  top-down: 676 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus b.  bottom-up: 2000 „tiefe Dokumente •  Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • 34. Grobe Verteilung im 200er Sample !  Administrative Informationen (14) "  Studienordnung (2) "  Lehrveranstaltungsbezogene Informationen (2) •  Grundlegende Informationen zu einem Kurs (9) •  Kommentar (7) !  Institut/Lehrstuhl/Arbeitsbereich (15) "  Einstiegsseite (4) •  Konferenz (5) •  Beschreibung einer Arbeitsgruppe (2) •  Programmüberblick (1) •  Anmeldeformular (1) Liste der Mitarbeiter (4) •  Persönliche Homepage (14) •  Wissenschaftler (4) •  Hilfskraft (3) •  Übungsaufgabe (5) "  •  Lösungen von Aufgaben (1) •  Liste von Veranstaltungen (2) •  LV-Materialien (2) "  Informationen zu Stipendium (1) •  Virtuelle Visitenkarte (1) "  Stellenangebot (1) "  Beschreibung eines •  Chronik eines Vereins Forschungsschwerpunkts (3) !  Universitäre Informationen (5) •  Paragraph einer Verordnung •  Rangliste eines Sportereignisses "  Wegbeschreibung/Lageplan (3) •  Bibliographie (9) •  Reisebericht "  Beschreibung eines universitären •  eines Autors (3) Informationsangebots (1) •  eines Instituts (3) •  thematisch sortiert (2) •  84 Hypertextsorten sind enthalten. •  Forschungsprojekt (9) •  11 Dokumenten konnte aus technischen •  Beschreibung (7) Gründen keine Hypertextsorte zugeordnet werden. •  4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden. "  "  •  Arbeitsplan (19) Kurze Darstellung der Institution (1) Organisationsplan (1)
  • 36. Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Die oberen Ebenen der Taxonomie werden mit Hilfe des zweiten Samples top down systematisch verfeinert.
  • 37. Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Die unteren Ebenen der Taxonomie werden daraufhin mit Hilfe des dritten Samples (N = 2000) bottom up verfeinert.
  • 38. Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Einige der offenen Fragen: •  Welche unterschiedlichen Knoten-Typen existieren? •  Welche dieser Typen treten in der Realität auf („Text )? •  Welche unterschiedlichen Kanten-Typen existieren? •  Ist eine Hyperlink-Typologie sinnvoll integrierbar? •  Welche Erkennungshinweise müssen in die Taxonomie integriert werden? •  XML als einheitliches Repräsentationsformat ...
  • 40. Merkmale für die maschinelle Identifikation von Hypertextsorten 1.  2.  3.  4.  5.  Georg Rehm Dokumentübergreifende Merkmale Metadaten Sprachliche und strukturelle Cues Sprachliche Konzeption HTML-Struktur CL Kolloquium, Universität Potsdam, 04.12.2001
  • 42. Dokumentübergreifende Merkmale •  Identische Kopfzeile •  Identische Logo-Grafik •  Identische Fußzeile •  Identischer Farbraum Projekte Mitarbeiter Einstiegsseite Angewandte Sprachwissenschaft und Computerlinguistik JLU Gießen http://www.uni-giessen.de/fb09/ascl/ Lehrveranstaltungen Aktuelles
  • 43. Dokumentübergreifende Merkmale Einstiegsseite Angewandte Sprachwissenschaft und Computerlinguistik JLU Gießen http://www.uni-giessen.de/fb09/ascl/ Einstiegsseite des Fachgebiets Germanistik Persönliche Homepage von Henning Lobin Zentrum für Medien und Interaktivität
  • 44. Position im Hypertextnetzwerk http://www.uni-giessen.de/fb09/ascl/ .../ascl/proj/ .../ascl/contact/ .../ascl/lectures/ .../ascl/news/ •  Position/Funktion im Hypertextnetzwerk automatisch bestimmbar •  Vorherrschend in dieser Domäne: Hierarchischer top-down „Hypertext ! •  Beteiligte URLs geben wichtige Hinweise (Anzahl, Einbettung, ...)
  • 46. Die URL als grober HTS-Hinweis Fachbereiche, Zentren, ... Persönliche Homepage Zahlreiche weitere wichtige Detektionsmerkmale: •  Länge eines Dokuments in Wörtern •  Stichwörter im <title> Tag •  Datum der letzten Änderung •  Art des eingesetzten HTML-Editors/-Erzeugers •  ... http://www.uni-giessen.de/fb09/ http://www.uni-giessen.de/~g91062/ http://www.zmi.uni-giessen.de
  • 47. Sprachliche und strukturelle Cues für bestimmte Hypertextsorten Titel Vorname Nachname Universität ... → Institut ... → Arbeitsbereich ... Straße Hausnr. PLZ Stadt Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr. Sprechstunde Tag Uhrzeit Automatische Erkennung mittels: •  regulären Ausdrücken (für Telefonnummern etc.) schränkt die Suche ein auf: •  named entity-Tagger (für Personen- und Stadtnamen) •  Persönliche Homepage eines Wissenschaftlers •  hochfrequenten Schlüsselwörtern einer Hypertextsorte •  Virtuelle Visitenkarte •  ...
  • 48. Sprachliche Konzeption !  Koch & Oesterreicher (1994) unterscheiden "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich dichotomisch: entweder – oder CL Kolloquium, Universität Potsdam, 04.12.2001
  • 49. Sprachliche Konzeption !  Koch & Oesterreicher (1994) unterscheiden "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich Kontinuum: von ... bis CL Kolloquium, Universität Potsdam, 04.12.2001
  • 50. Computer-Mediated Communication !  Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet sind geprägt von konzeptioneller Mündlichkeit. !  Berichtete Merkmale: !  Umgangssprachliche Formen !  Einfache Syntax (Para(z.B. bei Begrüßungen und taxe), einfache Lexik Verabschiedungen) !  Freie, assoziative Themen!  Hochfrequent: ich, man, du, einentwicklung Diese Merkmale sind mit Hilfe fach, mal, ziemlich, irgendwie von regulären Ausdrücken und !  Spontan gebildete Äußerungen !  verschiedenen Listen (von Smileys, speziellen Akronymen etc.) Regionalismen, Dialektismen automatisch detektierbar! !  Ausgeprägte Dialogizität !  ... !  Emphasen: ist _eingeschränkt_ !  Slangausdrücke: IMHO ... !  Bigraphen (gruen), Assimilationen (gibt s), Auslassungspunkte (...), reduplizierte Interpunktionszeichen (!!!!!!) etc. Georg Rehm !  Smileys: :-) !  Isolierte Verbstämme: *lach*, *grins*, ... !  Spezifische Abkürzungen: *rotfl* !  Iterationen: Tschüßiiiii CL Kolloquium, Universität Potsdam, 04.12.2001
  • 51. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 52. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 53. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 54. Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU ! Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 55. Berechnung der sprachlichen Konzeption Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc. Kommentiertes Vorlesungsverzeichnis Persönliche Homepage von Prof. Dr. Henning Lobin des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • 56. HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • 57. HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Eingebettete Graphiken und Bilder Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... •  Einige kleinere (bzgl. Größe und Abmessungen) Graphiken in einem ansonsten stark textlastigen Dokument ... •  Nur wenige Wörter, jedoch viele JPEG-Dateien mit identischen Abmessungen (z. B. 1280x1024) ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • 58. HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  "  "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Eingebettete Graphiken und Bilder Formulare •  Kleines Textfeld und Submit-Button auf stark strukturierter Seite ... •  Viele kleine, strukturierte Dokumente mit Radio-Buttons „unterhalb von Materialien zu Lehrveranstaltungen ... Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... •  Einige kleinere (bzgl. Größe und Abmessungen) Graphiken in einem ansonsten stark textlastigen Dokument ... •  Nur wenige Wörter, jedoch viele JPEG-Dateien mit identischen Abmessungen (z. B. 1280x1024) ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • 60. Hypertextsorten-Module !  Hypertextsorten können aus unterschiedlichen Modulen bestehen, d.h. sie sind nicht monolithisch. !  Module sind entweder "  "  obligatorisch oder optional !  Module sind optisch/strukturell voneinander abgetrennt. !  Persönliche Homepage eines Wissenschaftlers: "  "  "  "  "  "  Georg Rehm Name der Person Kontaktinformationen Publikationen Projekte Lehrveranstaltungen ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • 61. Hypertextsorten-Module: Beispiele Modul: Kontaktinformationen Muß vorhanden sein, kann jedoch in ein per Hyperlink referenziertes Dokument ausgelagert werden.
  • 62. Hypertextsorten-Module: Beispiele Modul: Name Das einzige Modul, das auf der Einstiegsseite zwingend (physikalisch) vorhanden sein muß.
  • 63. Hypertextsorten-Module: Beispiele Modul: Aktuelle Informationen Sehr untypisch für die Hypertextsorte Persönliche Homepage eines Wissenschaftlers; optionales Modul.
  • 66. Hypertextsorten und –Module XML Schema-Repräsentation definiert •  Stellt ein abstraktes Framework dar. •  Massiv generalisiert! Default Belegung: <content,form,function> Hypertextsorte Beispielinstanz: Persönliche Homepage eines Wissenschaftlers können fungieren als Enthält die vorgeschriebenen Module ... besteht aus Erhöht das function-Attribut modifiziert Interaction! Optionales Hypertextsorten-Modul: Lokale Suchfunktion (mittels CGI-Skript) Obligatorische Hypertextsorten-Module Optionale Hypertextsorten-Module Auflistung von Lehrveranstaltungen: Mitarbeiterliste: •  Vorgeschriebenes Modul für HTS: •  Optionales Modul für HTS: Instituts-Einstiegsseite Instituts-Einstiegsseite •  Ebenfalls eine eigenständige •  Ebenfalls eine eigenständige HyperHypertextsorte textsorte Spezifische Belegung: <content,form,function >
  • 67. Definition einer Hypertextsorte !  Beispiel: Persönliche Homepage eines Wissenschaftlers !  Analyse anhand eines kleinen Samples !  Bedingungen bei der Auswahl: "  "  "  "  Georg Rehm Unterschiedliche Universitäten und Städte Unterschiedliche Fächer Kein Einsatz von Framesets Dokumente sollen in englischer und deutscher Version vorliegen CL Kolloquium, Universität Potsdam, 04.12.2001
  • 68. Die Dokumente des Samples
  • 69. !  !  !  !  !  Affiliation (obligatorisch) – Logo Graphik der Universität, des Fachbereichs oder Instituts; wird evtl. begleitet/ersetzt durch textuelle Version; kann auch im Schlußteil eines Dokuments vorhanden sein Alternative Version eines Dokuments in einer anderen Sprache, hier: Englisch; wird evtl. von einer entsprechender Flagge begleitet (optional) Name des Homepage-Besitzers (obligatorisch) – wird evtl. begleitet von einem akademischen Titel („Dr. , „Prof. Dr. , etc.) und einer entsprechenden Phrase („Homepage von Vorname Nachname ) "  Eigene Person vorstellen (Name, Portrait Photo des Autors; räumlich relativ nah bei dem Namen platziert, üblicherweise im oberen Drittel des Dokuments (optional) Photo) Kontaktinformationen (obligatorisch) "  Ein individuelles, wissenschaftliches "  Postadresse (optional) – Name des Autors, Institut, Universität, Profil Straße, Hausnummer, Postfach, Postleitzahl, Stadt, Land etablieren "  Telefonnummer (optional) "  Veröffentlichungen in digitaler Form "  Telefonnummer des Sekretariats (optional) anbieten "  Faxnummer (optional) "  E-Mail-Adresse (obligatorisch) "  Lehrbezogene Materialien (Skripte, Persönliche Homepage eines Wissenschaftlers !  Funktionen: Raumnummer (optional) Folien, Übungsblätter, Lösungen, "  Sprechstunde (optional) interaktives Quiz etc.) anbieten C.V. oder generelle bibliographische Informationen (obligatorisch) (→ „digitaler Handapparat ) Informationen über Lehrveranstaltungen (obligatorisch) Forschungsinteressen und/oder Forschungsprojekte (obligatorisch) "  Kontaktinformationen offerieren Auflistung von eigenen Publikationen (obligatorisch) Auflistung von Vorträgen/Präsentationen (optional) Verwandte Links (optional) "  In hohem Maße strukturiert "  Link zur Homepage der eigenen Universität (obligatorisch) "  Link zur Homepage des eigenen Fachbereichs "  Optische Trennung einzelner Module (obligatorisch) "  Link zur Homepage des eigenen Instituts/der eigenen Arbeitsgruppe (oftmals <HR> oder Ersatz) (obligatorisch) Datum der letzten Änderung (optional) "  !  !  !  !  !  !  !  !  Form:
  • 71. Hypertextsorten-Module und Information Extraction !  Prämisse für das Folgende: Relativ genaue Detektion von "  Hypertextsorten und "  Hypertextsorten-Modulen !  Dies ermöglichte: "  Eine neue Ebene für Information Extraction-Systeme: "  Anwendung spezialisierter Wrapper auf die Inhalte von Hypertextsorten-Modulen (vs. vollständigen HTML-Dokumenten) •  Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation •  Aufbruch von physikalischen Dokumentgrenzen! !
  • 72. Etwa 120 Detektionsmerkmale 1.  Dokumentübergreifende Merkmale: Wiederholt auftauchende Hypertextsorten-Module, Position eines Dokuments in der Hypertextstruktur einer Gruppe 2.  Metadaten: URL, HTTP Response Header, Größe, Titel, <meta>, HTML-DTD 3.  Sprachliche und strukturelle Cues (an bestimmten Hypertextsorten-spezifischen Positionen) 4.  Sprachliche Konzeption (Kontinuum von mündlich nach schriftlich) 5.  HTML-Struktur (von Elementen aufgespannter Baum): "  "  "  Georg Rehm Hyperlinks: Anzahl, intern vs. extern, Hypertext-Struktur, Dateityp des Ziels, Hypertextsorte des Ziels, Ankertext, LinkFunktion, Link-Position Inline-Graphiken: Abmessungen, Anzahl, Datei- und Verzeichnisnamen, Inhalt, ALT=...-Text, Dateityp Interaktive Elemente: Formulare, JavaScript, PlugIns, JavaApplets CL Kolloquium, Universität Potsdam, 04.12.2001
  • 74. Text-Klassifikation – Clustering !  Ursprung: Data Mining !  Grundlage: Extraktion sprachlicher Merkmale !  Merkmalsvektor eines Textes als Distanzmaß !  Ziele: "  "  ... Distanz zwischen Texten in einem Cluster soll möglichst minimal sein Distanz zwischen Clustern soll möglichst maximal sein Clusterer !  Problem: "  Cluster werden dynamisch erzeugt Cluster 1 Cluster 2 Cluster 3 Cluster 4
  • 75. Text-Klassifikation – Categorization Trainingsdaten unbekannte Dokumente ... Probleme •  Sehr viele manuell kategorisierte und repräsentative Trainingsdaten sind notwendig. •  Overfitting im Kategorisierungsschema. •  Wie kann man hier die HTML-Struktur und andere, nichtsprachliche Merkmale berücksichtigen? Trainer Klassifikator Sport Politik Spaß Kategorisierungsschema Kunst Thomas Brückner, „Textklassifikation (2001): „Die Merkmale basieren meist auf Wörtern oder Buchstaben-N-Grammen. Cluster 1 Cluster 2 Cluster 3 Cluster 4
  • 76. Text-Klassifikation – Rule-Based unbekannte Dokumente Induzieren von decision trees (?) ... Kategorie „Straßenverkehr Rule-Based-System ( „auto ∨ „motorrad ∨ „autobahn ∨ „verkehr ∨ „straße ) ∧ ¬ ( „zug ∨ „bahn ∨ „eisenbahn ) ... Cluster 1 Cluster 2 Cluster 3 Cluster 4
  • 77. Textsorten-Klassifikation Korpus Karlgren & Cutting (1994), Recognizing Text Genres with Simple Metrics Using Discriminant Functions Kessler, Nunberg & Schütze (1997), Automatic Detection of Text Genre Stamatatos et al. (2000), Text Genre Detection Using Common Word Frequencies Methoden Genres Informative, Imaginative 4.  Press, Fiction, Misc., Non-Fiction •  Einfache Methoden liefern für wenige Textsorten sehr gute Resultate •  500 Texte aus Statististik/KNNs, 6.  Reportage, ca.In diesen Ansätzen ausschließlich: ASCII-Texte (!) •  Wie kann man sehr 55 Merkmale viele HypertextsortenEditorial, Scimöglichst dem Brown (Interpunktion, Tech, Legal, präzise detektieren? Corpus Affixe, Passiv, Non-Fiction, (getaggt) etc.) Fiction Jeweils 500 Texte aus dem Brown Corpus (getaggt) Wall Street Journal Corpus (ungetaggt) DiskriminantenAnalyse – 20 Parameter (noun, Fazit it, adv., word etc. counts) DiskriminantenAnalyse – Worthäufigkeiten und Interpunktionsz. Präzision 2.  4.  Editorial, Letter to the Editor, Reportage, Spot news 2.  4.  ca. 96% ca. 73% ca. 90% (für „reportage und „fiction ) ca. 97%
  • 78. Hypertextsorten-Klassifikation Genres Methoden Matsuda & Fukushima (1999), Task-Oriented World Wide Web Retrieval by Document Type Classification 9: prod. catalogue, online shop, advertisement for help, CfP, links, FAQ, glossary, home page, bulletin board Gewichtetes PatternMatching in HTMLFazit Elementen Karlgren et al. (1998), Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres •  Informal/Pri11: Einfache Methoden liefern für wenige Hypertextsorten sehr gute Resultate vate, Public/Com., •  Sind Journ. Indices,diese Ergebnisse auf sehr viele, tw. recht if-then-Regeln, Vorkommen von ähnliche Hypertextsorten übertragbar? Material, Reports, kombiniert mit Wörtern und Text, FAQ, Link Clustering HTML-Elementen Coll., Listings/Tables, Discussions, Error Messages Rauber & MüllerKögler (2001), Integrating Automatic Genre Analysis into Digital Libraries Cluster: Sport-Artikel, Interviews, Berichte, juristische Texte etc. Clustering (Self Organizing Map) zum nicht überwachten Erlernen von Ähnlichkeiten Merkmale Präzision keyword, link, URL, structure, image, OCR, plugin avg. precision of document-type search: 88,9% (avg. precision of keyword-based search: 31,2%) Text-Komplexität, Sonder- und Interpunktionszeichen, Stoppund Schlüsselwörter, Markup Zwischen 30% und 90%, je nach Genre n.a., Cluster werden erlernt zur Visualisierung von Such-Ergebnissen einer neuen GUI-Metapher
  • 79. Fünf Merkmalsgruppen Architektur des Analysesystems I Analyse I Analyse II Dispatcher Analyse III Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V extrahiert Tool 1 DB1 Modul-Konfiguration Tool 2 DB2 Tool 3 HTML -Date i(en) Hybride Merkmals-Matrix Trainings- bzw. Input-Daten ML- und Regelbasierter Klassifikator DB2 XML-Repräsentation der Taxonomie HypnoticDatenbank
  • 80. Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Dispatcher Analyse III Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V HypnoticDatenbank HTML -Date i(en) Klassifikator Tool 1 DB1 0.96 Tool 2 DB2 Tool 3 0.82 Spezialisierte Judges: •  berechnen Konfidenzwerte 0.48 DB2 Taxonomie
  • 81. Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Analyse III Dispatcher Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V HypnoticDatenbank HTML -Date i(en) Klassifikator Tool 1 DB1 0.96 Tool 2 DB2 Spezialisierte Judges: Tool 3 •  berechnen Konfidenzwerte •  schränken Suchraum ein DB2 Taxonomie
  • 82. Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Dispatcher $ Analyse III $ Metadaten (Perl, HTML::PARSER) Analyse IV Analyse V liest extrahiert Tool 1 DB1 $ DB2 Tool 2 Tool 3 Modul-Konfiguration ? DB2 XML-Repräsentation der Taxonomie HypnoticDatenbank HTML -Date i(en) $ Hybride Merkmals-Matrix $ Trainings- bzw. Input-Daten ML- und Regelbasierter Klassifikator $ $
  • 84. Ausblick !  Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse !  Stichprobenauswertung (top-down/bottom-up) !  Entwicklung eines XML-Repräsentationsformats für die Hypertextsorten-Taxonomie !  Validierung der ca. 120 Detektions-Merkmale !  Implementation des Klassifikationssystems (evtl. als Multiagenten-System) !  Evaluation des Systems mit realen SuchFragestellungen Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001