1. Thesauruspflege mit ICE-Map und Semtinel
Thesaurusvisualisierung mit
ICE-Map und SEMTINEL
Kai Eckert
Universitätsbibliothek
Universität Mannheim
PETRUS-Workshop
Deutsche Nationalbibliothek
21. März 2011
Frankfurt
ZBW Workshop, Hamburg, 10. März 2011
2. Thesauruspflege mit ICE-Map und Semtinel
Forschungsschwerpunkte
● Effizienzsteigerung bei der Thesauruspflege in
Bibliotheken.
● Entwicklung von Werkzeugen und Prozessen, um
alternative Methoden der Verschlagwortung nutzbar zu
machen, ohne die Qualität zu gefährden.
● Durch bestmögliche Automatisierung den Menschen beim
Aufbau, der Pflege und der Nutzung eines Thesaurus zu
unterstützen.
● Dadurch den Einsatz thesaurusbasierter
Suchanwendungen auch in Bereichen ermöglichen, in
denen das bislang zu aufwändig ist.
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 2/27
3. Thesauruspflege mit ICE-Map und Semtinel
Visual Datamining
Cholera-Ausbruch 1854.
John Snow entdeckt die
Ursache durch Daten-
visualisierung.
Motivation für uns:
„Ich will das sehen!“
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 3/27
4. Thesauruspflege mit ICE-Map und Semtinel
ICE-Map Visualisierung
● Motivation: „Ich will das sehen!“
● Wie sieht denn der Thesaurus eigentlich aus?
● Welche Begriffe wurden denn zugewiesen?
● Gibt es Bereiche, die hauptsächlich verwendet wurden?
● Wie unterscheiden sich die Zuweisungen, wenn
verschiedene Verfahren zum Einsatz kommen
(Intellektuell, Automatisch, Tagging, ...)?
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 4/27
5. Thesauruspflege mit ICE-Map und Semtinel
Wo setzen wir an?
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 5/27
6. Thesauruspflege mit ICE-Map und Semtinel
Wie visualisiere ich einen Thesaurus?
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 6/27
7. Thesauruspflege mit ICE-Map und Semtinel
Slice and Dice Algorithmus
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 7/27
8. Thesauruspflege mit ICE-Map und Semtinel
Squarified Layout
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 8/27
9. Thesauruspflege mit ICE-Map und Semtinel
Intuitive Identifikation von problematischen
Konzepten
● Sehr hohe Anzahl Zuordnungen:
– Zu allgemein – sollte aufgeteilt werden
– Nicht signifikant
– Fehlerhafte Zuweisungen
● Sehr geringe Anzahl Zuordnungen:
– Zu spezialisiert – sollte mit anderen Begriffen
zusammengeführt werden
– Fehlende Synonyme
– Nicht signifikant
– Fehlende Zuweisungen
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 9/27
10. Thesauruspflege mit ICE-Map und Semtinel
Berücksichtigung der Thesaurus-Hierarchie
● Hohe Anzahl Höher in der Hierarchie
– Allgemeinere Begriffe
● Niedrige Anzahl Niedriger in der Hierarchie
– Speziellere Konzepte
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 10/27
11. Thesauruspflege mit ICE-Map und Semtinel
IC Differenz Analyse
Intrinsischer Informationsgehalt:
Informationsgehalt: ● Vorgestellt von Seco, Veale und Hayes
● Vorgestellt von Resnik
● Basiert auf der Anzahl der Unterbegriffe
● Basiert auf der Auftrittswahrscheinlichkeit Alternativ: Referenzset IC
in der Dokumentenbasis ● z.B. Manuell vergebene Schlagwörter
IC c=−log P c IIC c=−log
max
hypoc1
D IC c= IC c− IIC c
Intuitiv: Ein Wert zwischen -1 und 1, der angibt, ob
ein Begriff eine auffällige Häufigkeit hat bezüglich seiner
Position im Thesaurus oder im Vergleich zur Referenz.
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 11/27
12. Thesauruspflege mit ICE-Map und Semtinel
ICE-Map Visualisierung
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 12/27
13. Thesauruspflege mit ICE-Map und Semtinel
ICE-Map Visualisierung
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 13/27
14. Thesauruspflege mit ICE-Map und Semtinel
Anwendungen der ICE-Map Analyse
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 14/27
15. Thesauruspflege mit ICE-Map und Semtinel
Begrifflichkeiten
● IC Differenz Analyse: Das statistische Framework zur
Berechnung der IC Differenz eines Konzepts.
● ICE-Map Visualisierung: Die Visualierung der IC
Differenz Analyse mittels einer Treemap, plus
Navigationsunterstützung (Treeview, Rootline)
● SEMTINEL: Die Plattform zur Entwicklung und Nutzung
von Analysen und Visualisierungen, also der ganze Rest.
“Sorry für die Verwirrung ;-)”
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 15/27
16. Thesauruspflege mit ICE-Map und Semtinel
SEMTINEL ist...
– Eine Plattform zur Entwicklung eigener Anwendungen
● Integration in thesaurusbasierte Suchanwendungen
– Eine erweiterbare Anwendung, für die man eigene
Module entwickeln kann
● Analysen, Visualisierungen, Import-/Exportfilter, Editoren,
…
– Eine Anwendung zur Entwicklung von Analysen
● Entwicklung zur Laufzeit, noch nicht realisiert.
– Eine Anwendung zum Experimentieren
● Kombination von vorhandenen Analysen und
Visualisierungen
– Ein Werkzeug für Thesaurus-Ersteller und -Nutzer
● Einsatz der Werkzeuge, die von anderen entwickelt
wurden
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 16/27
17. Thesauruspflege mit ICE-Map und Semtinel
Netbeans Platform
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 17/27
18. Thesauruspflege mit ICE-Map und Semtinel
SEMTINEL Architektur
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 18/27
19. Thesauruspflege mit ICE-Map und Semtinel
SEMTINEL Datenmodell
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 19/27
20. Thesauruspflege mit ICE-Map und Semtinel
Experiment API
Configuration
Visualizations/
Datasets Output Analyses
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 20/27
21. Thesauruspflege mit ICE-Map und Semtinel
Konfiguration eines Experiments
Drag and Drop Support.
Erweiterbares Datenmodell.
Mehrfachauswahl möglich.
Register und Register Set.
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 21/27
22. Thesauruspflege mit ICE-Map und Semtinel
Hierarchische Analysen
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 22/27
23. Thesauruspflege mit ICE-Map und Semtinel
Explanation API
● Jede Analyse liefert Informationen:
– Was wird in der Analyse gemacht?
– Auf welchen Analysen baut sie auf?
– Was sind die Eingabewerte?
– Welche Zwischenergebnisse wurden berechnet?
– Welches Ergebnis wird zurückgegeben?
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 23/27
25. Thesauruspflege mit ICE-Map und Semtinel
Gruppierung von Experimenten
Group Management
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 25/27
26. Thesauruspflege mit ICE-Map und Semtinel
Vielen Dank.
http://www.semtinel.org
Fragen und Anregungen:
eckert@bib.uni-mannheim.de
Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 26/27