Die elektronische Literaturverwaltung ist ein unverzichtbares Instrument für das wissenschaftliche Arbeiten. Wissenschaftler nutzen verschiedene Literaturverwaltungssysteme, um die informationelle Grundlage ihrer Arbeit zu organisieren. Der manuelle oder halbautomatische Import von bibliographischen Daten aus verschiedenen Kontexten in diese Systeme ist zum Teil zeitaufwendig und fehlerbehaftet.
Verschiedene Konzepte von Mikroformatierungen bieten die Möglichkeit, bibliographische Daten in HTML semantisch zu annotieren, um somit eine maschinelle Prozessierbarkeit zu erreichen, die nicht nur den Import von bibliographischen Daten in Literaturverwaltungssysteme effizienter gestaltet.
Der Vortrag gründet sich auf die am Fachbereich für nformationswissenschaften der FH Potsdam abgelegten Diplomarbeit "Mikroformate für bibliographische Daten: Vergleich verschiedener Konzepte zur semantischen Annotation". Er soll die Notwendigkeit für Mikroformate für bibliographische Daten verdeutlichen und besteht zudem aus einer mit Beispielen angereicherten Erläuterung der einzelnen Konzepte COinS, unAPI, hCitation, eRDF und RDFa, sowie deren Vergleich.
1. FHP:-)
FHP:-)
Fachbereich für Informationswissenschaften der Fachhochschule
Potsdam
1
Mikroformate für Bibliographische Daten
Vergleich verschiedener Konzepte zur semantischen
Annotation
Carsten M. Schulze
06.11.08
6. November 2008
Carsten Schulze
2. FHP:-)
FHP:-)
Übersicht
2
Warum brauchen wir Mikroformate für bibliographische
Daten?
– Der Kontext von bibliographischen Daten im Web
– Produktion und Nachnutzung von bibliographischen Daten
für die Wissenschaft
– Probleme der Nachnutzung von bibliographischen Daten
– Lösungsansätze
06.11.08
Mikroformate für bibliographische Daten
Carsten Schulze
– COinS, unAPI, Citation Microformat, (eRDF) und RDFa
3. FHP:-)
FHP:-)
Bibliographische Daten
3
Zur Identifikation und zur formalen Beschreibung einer Schrift
wichtige Daten in standardisierter Reihenfolge
[DIN 1505, 1]
bibliographische Angaben in digitaler Form
– Formalerschließung. NICHT Sacherschließung
keine definierte Präsentationsform
– abhängig von Wissensgemeinde
06.11.08
keine definierten Bestandteile
– abhängig von Kontext
Carsten Schulze
Überbegriff: Metadaten
– formal, inhaltlich, Nutzung, Rechte
8. FHP:-)
FHP:-)
Literaturverwaltung: Import
8
Literaturverwaltung
bibliographische Daten im Web
Copy&Paste
06.11.08
Carsten Schulze
9. FHP:-)
FHP:-)
Literaturverwaltung: Import
9
Literaturverwaltung
bibliographische Daten im Web
bibliographische Daten als
textbasiertes Austauschformat
Importfilter + Copy&Paste
06.11.08
Carsten Schulze
10. FHP:-)
FHP:-)
Literaturverwaltung: Import
10
Literaturverwaltung
bibliographische Daten im Web
bibliographische Daten als
textbasiertes Austauschformat
bibliographische Daten
06.11.08
als standardisiertes
Übergabeprotokoll
Effizienz durch direkten Import
Carsten Schulze
11. FHP:-)
FHP:-)
Literaturverwaltung: Import
11
Literaturverwaltung
bibliographische Daten im Web
Copy&Paste
Interoperabilität ??? bibliographische Daten als
textbasiertes Austauschformat
Importfilter + Copy&Paste
bibliographische Daten
06.11.08
als standardisiertes
Übergabeprotokoll
Effizienz durch direkten Import
Carsten Schulze
12. FHP:-)
FHP:-)
Metadateneinbindung in HTML
12
Eine Möglichkeit:
– Einbindung im <head>-Bereich von HTML-Seiten
– bekannt durch Dublin Core
Dublin Core Metadata Initiative (DCMI)
– Dublin Core Metadata Element Set (DCMES)
– Dublin Core Metadata Terms (DCTERMS)
06.11.08
– Beschreibung von Webressourcen
andere Vokabulare:
Carsten Schulze
– FOAF , address, Time etc.
13. FHP:-)
FHP:-)
Metadateneinbindung in HTML: Nachteile
Autor, Titel, Datum etc. 13
Metadateneinbindung im
<head>-Bereich
Web Dokument
Inhalt 1
Inhalt 2
Inhalt 3
Inhalt 4
06.11.08
...
Carsten Schulze
20. FHP:-)
FHP:-)
Semantic Web: Probleme
20
Nicht zur Rezeption durch Menschen geeignet
„schwer zu verstehende“ Spezifikationen
bisher wenig Anwendungen
Nutzen schwer zu vermitteln
Henne-Ei-Problem
06.11.08
Carsten Schulze
21. FHP:-)
FHP:-)
Mikroformate
21
„Semantic Web von Unten“
entstanden im Web 2.0-Kontext
– Microformats.org
– Kontakt-, Kalender-, Lizenzinformationen etc.
Datenformatierungen: zeichnen Daten dort semantisch aus, wo
sie rezipiert werden: in HTML
– humans first machines second...
06.11.08
nutzen die HTML-Infrastruktur
Carsten Schulze
– HTML-Attribut @class etc.
Semantik stützt sich auf Konventionen
22. FHP:-)
FHP:-)
22
MICROFORMTAS
„Designed for humans first and machines second,
microformats are a set of
simple, open
data formats
built upon existing and widely adopted standards.“
06.11.08
microformats.org
Carsten Schulze
25. FHP:-)
FHP:-)
Mikroformate: Vorteile
25
eher zugänglich als SW-Technologien
The Web
– humans fist...
– einfache Syntax
keine Redundanzen
– abhängig vom MF-Konzept
Einbindung ins SW (durch GRDDL ...)
direkter Nutzen / Problemlösung
06.11.08
z. T. schon Anwendungen vorhanden
Carsten Schulze
Interaktion mit dem Browser
– Screen Scraping
33. FHP:-)
FHP:-)
unAPI
33
Aussprache beliebig
besteht aus drei Teilen:
– Mikroformat / Konvention zur Identifikation
●
<abbr class=“unapi-id“ title=“urn:isbn:1590598148“>
– <link>-Tag automatische Erkennung der unAPI-Server
●
<link rel=“unapi-server“ type=“application/xml“ title=“unAPI“
href=“unapi.php“ />
06.11.08
– unAPI-Server bestehend aus drei HTTP-Funktionen
Carsten Schulze
+ strukturierte
Datenbasis
34. FHP:-)
FHP:-)
unAPI: Content Negotiation
34
Anwendung unAPI-Server
1. Anfrage: http://example.com/unapi.php
2. Antwort: Liste von Formaten in XML
3. Anfrage: http://example.com/unapi.php?id=urn:isbn:1590598148
4. Antwort: Liste von Formaten für die übergebene ID in XML
06.11.08
5. Anfrage: http://example.com/unapi.php?id=urn:isbn:1590598148&format=mods
Carsten Schulze
6. Antwort: Datensatz in dem gewünschten Format
38. FHP:-)
FHP:-)
Citation Microformat
38
nutzt bereits bestehende Microformats (Compound)
soll definierte Probleme lösen
Definition der Bestandteile basiert auf formalen Verfahren
– real world examples
●
Bestandteile bibliographischer Beschreibung
●
Kategorien bibliographischer Formate
06.11.08
es existieren mittlerweile zwei Markup-Vorschläge
– hCite und h3988
Carsten Schulze
39. FHP:-)
FHP:-)
hCite: Syntax
39
<div class=“hcite“>
<div class=“monograph“> / <div class=“type“>Monograph
<span class=quot;author firstauthorquot;>
<span class=quot;family-namequot;>Allsopp</span>,
<span class=quot;given-namequot;>John</span>
</span>
(<span class=quot;yearquot;>2006</span>):
<span class=quot;titlequot;>Microformats: empowering your Markup for
Web 2.0</span>
</div>
06.11.08
</div>
Carsten Schulze
Darstellung:
Allsopp, John (2006): Microformats: empowering your Markup for Web 2.0
40. FHP:-)
FHP:-)
h3988: Syntax
40
<div class=“h3988 mfo“>
<span class=quot;au vcardquot;>
<span class=quot;fn nquot;>
<span class=quot;family-namequot;>Allsopp</span>,
<span class=quot;given-namequot;>John</span>
</span>
(<span class=quot;datequot;>2006</span>):
<span class=quot;btitlequot;>Microformats: empowering your Markup for Web
2.0</span>
</div>
06.11.08
Carsten Schulze
Darstellung:
Allsopp, John (2006): Microformats: empowering your Markup for Web 2.0
41. FHP:-)
FHP:-)
Citation Microformat: Diskussion
41
Vorteile:
– einfache Syntax
– keine Redundanzen
– hohe Softwareunterstützung (ist zu erwarten)
Nachteile:
– Anpassungen nur durch quasidemokratischen Prozess
(skaliert nicht)
06.11.08
– wenig oder keine Relationen
Carsten Schulze
46. FHP:-)
FHP:-)
RDFa: Diskussion
46
Vorteile RDFa:
– Nutzung von Namespaces (skaliert)
– hohe RDF-Aussagekraft
– Relationen
– W3C-Recommendation (14.10.2008)
– Daten sind Teil des Semantic Web
06.11.08
Nachteile RDFa
– teilweise komplizierte Verschachtelung notwendig
Carsten Schulze
– noch wenig Anwendungen
47. FHP:-)
FHP:-)
Zusammenfassung
47
interoperable bibliographische Daten sind für ein
effizientes wissenschaftliches Arbeiten unverzichtbar
Semantic Web Technologien sind teilweise kompliziert und
es gibt nur wenige Anwendungen
Mikroformate sind eine einfache Art Daten semantisch in
HTML auszuzeichnen
es gibt mehrere Konzepte von Mikroformaten für
06.11.08
bibliographische Daten
ein Vergleich dieser Konzepte ist nur für den konkreten
Carsten Schulze
Anwendungsfall sinnvoll
48.
FHP:-)
FHP:-)
48
Vielen Dank für ihre
Aufmerksamkeit!
www.collidoscope.de
06.11.08
Carsten Schulze