SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Thesauruspflege mit ICE-Map und Semtinel




Thesaurusvisualisierung mit
  ICE-Map und SEMTINEL



                   Kai Eckert
              Universitätsbibliothek
              Universität Mannheim




              PETRUS-Workshop
          Deutsche Nationalbibliothek
                21. März 2011
                  Frankfurt


      ZBW Workshop, Hamburg, 10. März 2011
Thesauruspflege mit ICE-Map und Semtinel



                Forschungsschwerpunkte

   ●   Effizienzsteigerung bei der Thesauruspflege in
       Bibliotheken.
   ●   Entwicklung von Werkzeugen und Prozessen, um
       alternative Methoden der Verschlagwortung nutzbar zu
       machen, ohne die Qualität zu gefährden.
   ●   Durch bestmögliche Automatisierung den Menschen beim
       Aufbau, der Pflege und der Nutzung eines Thesaurus zu
       unterstützen.
   ●   Dadurch den Einsatz thesaurusbasierter
       Suchanwendungen auch in Bereichen ermöglichen, in
       denen das bislang zu aufwändig ist.

Kai Eckert            ZBW Workshop, Hamburg, 10. März 2011    2/27
Thesauruspflege mit ICE-Map und Semtinel


                    Visual Datamining

 Cholera-Ausbruch 1854.
 John Snow entdeckt die
 Ursache durch Daten-
 visualisierung.
 Motivation für uns:
 „Ich will das sehen!“




Kai Eckert          ZBW Workshop, Hamburg, 10. März 2011   3/27
Thesauruspflege mit ICE-Map und Semtinel

                      ICE-Map Visualisierung

      ●      Motivation: „Ich will das sehen!“
      ●      Wie sieht denn der Thesaurus eigentlich aus?
      ●      Welche Begriffe wurden denn zugewiesen?
      ●      Gibt es Bereiche, die hauptsächlich verwendet wurden?
      ●      Wie unterscheiden sich die Zuweisungen, wenn
             verschiedene Verfahren zum Einsatz kommen
             (Intellektuell, Automatisch, Tagging, ...)?




Kai Eckert                ZBW Workshop, Hamburg, 10. März 2011   4/27
Thesauruspflege mit ICE-Map und Semtinel



                 Wo setzen wir an?




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   5/27
Thesauruspflege mit ICE-Map und Semtinel




             Wie visualisiere ich einen Thesaurus?




Kai Eckert              ZBW Workshop, Hamburg, 10. März 2011   6/27
Thesauruspflege mit ICE-Map und Semtinel




             Slice and Dice Algorithmus




Kai Eckert        ZBW Workshop, Hamburg, 10. März 2011   7/27
Thesauruspflege mit ICE-Map und Semtinel


                 Squarified Layout




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   8/27
Thesauruspflege mit ICE-Map und Semtinel


  Intuitive Identifikation von problematischen
                    Konzepten
  ●   Sehr hohe Anzahl Zuordnungen:
        –    Zu allgemein – sollte aufgeteilt werden
        –    Nicht signifikant
        –    Fehlerhafte Zuweisungen
  ●   Sehr geringe Anzahl Zuordnungen:
        –    Zu spezialisiert – sollte mit anderen Begriffen
             zusammengeführt werden
        –    Fehlende Synonyme
        –    Nicht signifikant
        –    Fehlende Zuweisungen

Kai Eckert                 ZBW Workshop, Hamburg, 10. März 2011   9/27
Thesauruspflege mit ICE-Map und Semtinel



  Berücksichtigung der Thesaurus-Hierarchie




  ●   Hohe Anzahl                                 Höher in der Hierarchie
        –    Allgemeinere Begriffe
  ●   Niedrige Anzahl                             Niedriger in der Hierarchie
        –    Speziellere Konzepte




Kai Eckert                ZBW Workshop, Hamburg, 10. März 2011              10/27
Thesauruspflege mit ICE-Map und Semtinel



                             IC Differenz Analyse
                                                   Intrinsischer Informationsgehalt:
Informationsgehalt:                                ●   Vorgestellt von Seco, Veale und Hayes
●   Vorgestellt von Resnik
                                                   ●   Basiert auf der Anzahl der Unterbegriffe
●   Basiert auf der Auftrittswahrscheinlichkeit    Alternativ: Referenzset IC
    in der Dokumentenbasis                         ●   z.B. Manuell vergebene Schlagwörter

    IC c=−log P c                                  IIC c=−log
                                                                       max  
                                                                    hypoc1
                                                                                                   
                               D IC c= IC c− IIC c
        Intuitiv: Ein Wert zwischen -1 und 1, der angibt, ob
        ein Begriff eine auffällige Häufigkeit hat bezüglich seiner
        Position im Thesaurus oder im Vergleich zur Referenz.
Kai Eckert                     ZBW Workshop, Hamburg, 10. März 2011                               11/27
Thesauruspflege mit ICE-Map und Semtinel

             ICE-Map Visualisierung




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   12/27
Thesauruspflege mit ICE-Map und Semtinel

             ICE-Map Visualisierung




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   13/27
Thesauruspflege mit ICE-Map und Semtinel


             Anwendungen der ICE-Map Analyse




Kai Eckert            ZBW Workshop, Hamburg, 10. März 2011   14/27
Thesauruspflege mit ICE-Map und Semtinel



                      Begrifflichkeiten


  ●   IC Differenz Analyse: Das statistische Framework zur
      Berechnung der IC Differenz eines Konzepts.
  ●   ICE-Map Visualisierung: Die Visualierung der IC
      Differenz Analyse mittels einer Treemap, plus
      Navigationsunterstützung (Treeview, Rootline)
  ●   SEMTINEL: Die Plattform zur Entwicklung und Nutzung
      von Analysen und Visualisierungen, also der ganze Rest.

                   “Sorry für die Verwirrung ;-)”


Kai Eckert           ZBW Workshop, Hamburg, 10. März 2011       15/27
Thesauruspflege mit ICE-Map und Semtinel

                                SEMTINEL ist...
        –    Eine Plattform zur Entwicklung eigener Anwendungen
                 ●   Integration in thesaurusbasierte Suchanwendungen
        –    Eine erweiterbare Anwendung, für die man eigene
               Module entwickeln kann
                 ●   Analysen, Visualisierungen, Import-/Exportfilter, Editoren,
                      …
        –    Eine Anwendung zur Entwicklung von Analysen
                 ●   Entwicklung zur Laufzeit, noch nicht realisiert.
        –    Eine Anwendung zum Experimentieren
                 ●   Kombination von vorhandenen Analysen und
                      Visualisierungen
        –    Ein Werkzeug für Thesaurus-Ersteller und -Nutzer
                 ●   Einsatz der Werkzeuge, die von anderen entwickelt
                       wurden


Kai Eckert                  ZBW Workshop, Hamburg, 10. März 2011                   16/27
Thesauruspflege mit ICE-Map und Semtinel



                Netbeans Platform




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   17/27
Thesauruspflege mit ICE-Map und Semtinel



              SEMTINEL Architektur




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   18/27
Thesauruspflege mit ICE-Map und Semtinel



             SEMTINEL Datenmodell




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   19/27
Thesauruspflege mit ICE-Map und Semtinel



                          Experiment API

                                       Configuration




                                                              Visualizations/
        Datasets                          Output                 Analyses




Kai Eckert             ZBW Workshop, Hamburg, 10. März 2011                20/27
Thesauruspflege mit ICE-Map und Semtinel



             Konfiguration eines Experiments




 Drag and Drop Support.
 Erweiterbares Datenmodell.
 Mehrfachauswahl möglich.
 Register und Register Set.




Kai Eckert           ZBW Workshop, Hamburg, 10. März 2011   21/27
Thesauruspflege mit ICE-Map und Semtinel



             Hierarchische Analysen




Kai Eckert       ZBW Workshop, Hamburg, 10. März 2011   22/27
Thesauruspflege mit ICE-Map und Semtinel



                            Explanation API


  ●   Jede Analyse liefert Informationen:
             –   Was wird in der Analyse gemacht?
             –   Auf welchen Analysen baut sie auf?
             –   Was sind die Eingabewerte?
             –   Welche Zwischenergebnisse wurden berechnet?
             –   Welches Ergebnis wird zurückgegeben?




Kai Eckert                ZBW Workshop, Hamburg, 10. März 2011   23/27
Thesaurusvisualisierung mit ICE-Map und SEMTINEL
Thesauruspflege mit ICE-Map und Semtinel



                Gruppierung von Experimenten




             Group Management



Kai Eckert                      ZBW Workshop, Hamburg, 10. März 2011   25/27
Thesauruspflege mit ICE-Map und Semtinel




                         Vielen Dank.


               http://www.semtinel.org


              Fragen und Anregungen:

             eckert@bib.uni-mannheim.de




Kai Eckert         ZBW Workshop, Hamburg, 10. März 2011   26/27

Más contenido relacionado

Más de Kai Eckert

Judaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische StudienJudaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische StudienKai Eckert
 
Linked Open Citation Database (LOC-DB)
Linked Open Citation Database (LOC-DB)Linked Open Citation Database (LOC-DB)
Linked Open Citation Database (LOC-DB)Kai Eckert
 
JudaicaLink: Linked Data in the Jewish Studies FID
JudaicaLink: Linked Data in the Jewish Studies FIDJudaicaLink: Linked Data in the Jewish Studies FID
JudaicaLink: Linked Data in the Jewish Studies FIDKai Eckert
 
JudaicaLink: Linked Data from Jewish Encyclopediae
JudaicaLink: Linked Data from Jewish EncyclopediaeJudaicaLink: Linked Data from Jewish Encyclopediae
JudaicaLink: Linked Data from Jewish EncyclopediaeKai Eckert
 
RDF Application Profiles
RDF Application ProfilesRDF Application Profiles
RDF Application ProfilesKai Eckert
 
The DM2E Data Model and the DM2E Ingestion Infrastructure
The DM2E Data Model and the DM2E Ingestion InfrastructureThe DM2E Data Model and the DM2E Ingestion Infrastructure
The DM2E Data Model and the DM2E Ingestion InfrastructureKai Eckert
 
Towards Interoperable Metadata Provenance
Towards Interoperable Metadata ProvenanceTowards Interoperable Metadata Provenance
Towards Interoperable Metadata ProvenanceKai Eckert
 
Linked Open Projects (DCMI Library Community)
Linked Open Projects (DCMI Library Community)Linked Open Projects (DCMI Library Community)
Linked Open Projects (DCMI Library Community)Kai Eckert
 
Metadata Provenance
Metadata ProvenanceMetadata Provenance
Metadata ProvenanceKai Eckert
 
Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)Kai Eckert
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open ProjectsKai Eckert
 
Crowdsourcing the Assembly of Concept Hierarchies
Crowdsourcing the Assembly of Concept HierarchiesCrowdsourcing the Assembly of Concept Hierarchies
Crowdsourcing the Assembly of Concept HierarchiesKai Eckert
 
A Unified Approach for Representing Metametadata
A Unified Approach for Representing MetametadataA Unified Approach for Representing Metametadata
A Unified Approach for Representing MetametadataKai Eckert
 
Semantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked DataSemantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked DataKai Eckert
 

Más de Kai Eckert (14)

Judaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische StudienJudaica link und der FID Jüdische Studien
Judaica link und der FID Jüdische Studien
 
Linked Open Citation Database (LOC-DB)
Linked Open Citation Database (LOC-DB)Linked Open Citation Database (LOC-DB)
Linked Open Citation Database (LOC-DB)
 
JudaicaLink: Linked Data in the Jewish Studies FID
JudaicaLink: Linked Data in the Jewish Studies FIDJudaicaLink: Linked Data in the Jewish Studies FID
JudaicaLink: Linked Data in the Jewish Studies FID
 
JudaicaLink: Linked Data from Jewish Encyclopediae
JudaicaLink: Linked Data from Jewish EncyclopediaeJudaicaLink: Linked Data from Jewish Encyclopediae
JudaicaLink: Linked Data from Jewish Encyclopediae
 
RDF Application Profiles
RDF Application ProfilesRDF Application Profiles
RDF Application Profiles
 
The DM2E Data Model and the DM2E Ingestion Infrastructure
The DM2E Data Model and the DM2E Ingestion InfrastructureThe DM2E Data Model and the DM2E Ingestion Infrastructure
The DM2E Data Model and the DM2E Ingestion Infrastructure
 
Towards Interoperable Metadata Provenance
Towards Interoperable Metadata ProvenanceTowards Interoperable Metadata Provenance
Towards Interoperable Metadata Provenance
 
Linked Open Projects (DCMI Library Community)
Linked Open Projects (DCMI Library Community)Linked Open Projects (DCMI Library Community)
Linked Open Projects (DCMI Library Community)
 
Metadata Provenance
Metadata ProvenanceMetadata Provenance
Metadata Provenance
 
Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open Projects
 
Crowdsourcing the Assembly of Concept Hierarchies
Crowdsourcing the Assembly of Concept HierarchiesCrowdsourcing the Assembly of Concept Hierarchies
Crowdsourcing the Assembly of Concept Hierarchies
 
A Unified Approach for Representing Metametadata
A Unified Approach for Representing MetametadataA Unified Approach for Representing Metametadata
A Unified Approach for Representing Metametadata
 
Semantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked DataSemantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked Data
 

Thesaurusvisualisierung mit ICE-Map und SEMTINEL

  • 1. Thesauruspflege mit ICE-Map und Semtinel Thesaurusvisualisierung mit ICE-Map und SEMTINEL Kai Eckert Universitätsbibliothek Universität Mannheim PETRUS-Workshop Deutsche Nationalbibliothek 21. März 2011 Frankfurt ZBW Workshop, Hamburg, 10. März 2011
  • 2. Thesauruspflege mit ICE-Map und Semtinel Forschungsschwerpunkte ● Effizienzsteigerung bei der Thesauruspflege in Bibliotheken. ● Entwicklung von Werkzeugen und Prozessen, um alternative Methoden der Verschlagwortung nutzbar zu machen, ohne die Qualität zu gefährden. ● Durch bestmögliche Automatisierung den Menschen beim Aufbau, der Pflege und der Nutzung eines Thesaurus zu unterstützen. ● Dadurch den Einsatz thesaurusbasierter Suchanwendungen auch in Bereichen ermöglichen, in denen das bislang zu aufwändig ist. Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 2/27
  • 3. Thesauruspflege mit ICE-Map und Semtinel Visual Datamining Cholera-Ausbruch 1854. John Snow entdeckt die Ursache durch Daten- visualisierung. Motivation für uns: „Ich will das sehen!“ Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 3/27
  • 4. Thesauruspflege mit ICE-Map und Semtinel ICE-Map Visualisierung ● Motivation: „Ich will das sehen!“ ● Wie sieht denn der Thesaurus eigentlich aus? ● Welche Begriffe wurden denn zugewiesen? ● Gibt es Bereiche, die hauptsächlich verwendet wurden? ● Wie unterscheiden sich die Zuweisungen, wenn verschiedene Verfahren zum Einsatz kommen (Intellektuell, Automatisch, Tagging, ...)? Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 4/27
  • 5. Thesauruspflege mit ICE-Map und Semtinel Wo setzen wir an? Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 5/27
  • 6. Thesauruspflege mit ICE-Map und Semtinel Wie visualisiere ich einen Thesaurus? Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 6/27
  • 7. Thesauruspflege mit ICE-Map und Semtinel Slice and Dice Algorithmus Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 7/27
  • 8. Thesauruspflege mit ICE-Map und Semtinel Squarified Layout Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 8/27
  • 9. Thesauruspflege mit ICE-Map und Semtinel Intuitive Identifikation von problematischen Konzepten ● Sehr hohe Anzahl Zuordnungen: – Zu allgemein – sollte aufgeteilt werden – Nicht signifikant – Fehlerhafte Zuweisungen ● Sehr geringe Anzahl Zuordnungen: – Zu spezialisiert – sollte mit anderen Begriffen zusammengeführt werden – Fehlende Synonyme – Nicht signifikant – Fehlende Zuweisungen Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 9/27
  • 10. Thesauruspflege mit ICE-Map und Semtinel Berücksichtigung der Thesaurus-Hierarchie ● Hohe Anzahl Höher in der Hierarchie – Allgemeinere Begriffe ● Niedrige Anzahl Niedriger in der Hierarchie – Speziellere Konzepte Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 10/27
  • 11. Thesauruspflege mit ICE-Map und Semtinel IC Differenz Analyse Intrinsischer Informationsgehalt: Informationsgehalt: ● Vorgestellt von Seco, Veale und Hayes ● Vorgestellt von Resnik ● Basiert auf der Anzahl der Unterbegriffe ● Basiert auf der Auftrittswahrscheinlichkeit Alternativ: Referenzset IC in der Dokumentenbasis ● z.B. Manuell vergebene Schlagwörter IC c=−log P c IIC c=−log max  hypoc1  D IC c= IC c− IIC c Intuitiv: Ein Wert zwischen -1 und 1, der angibt, ob ein Begriff eine auffällige Häufigkeit hat bezüglich seiner Position im Thesaurus oder im Vergleich zur Referenz. Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 11/27
  • 12. Thesauruspflege mit ICE-Map und Semtinel ICE-Map Visualisierung Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 12/27
  • 13. Thesauruspflege mit ICE-Map und Semtinel ICE-Map Visualisierung Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 13/27
  • 14. Thesauruspflege mit ICE-Map und Semtinel Anwendungen der ICE-Map Analyse Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 14/27
  • 15. Thesauruspflege mit ICE-Map und Semtinel Begrifflichkeiten ● IC Differenz Analyse: Das statistische Framework zur Berechnung der IC Differenz eines Konzepts. ● ICE-Map Visualisierung: Die Visualierung der IC Differenz Analyse mittels einer Treemap, plus Navigationsunterstützung (Treeview, Rootline) ● SEMTINEL: Die Plattform zur Entwicklung und Nutzung von Analysen und Visualisierungen, also der ganze Rest. “Sorry für die Verwirrung ;-)” Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 15/27
  • 16. Thesauruspflege mit ICE-Map und Semtinel SEMTINEL ist... – Eine Plattform zur Entwicklung eigener Anwendungen ● Integration in thesaurusbasierte Suchanwendungen – Eine erweiterbare Anwendung, für die man eigene Module entwickeln kann ● Analysen, Visualisierungen, Import-/Exportfilter, Editoren, … – Eine Anwendung zur Entwicklung von Analysen ● Entwicklung zur Laufzeit, noch nicht realisiert. – Eine Anwendung zum Experimentieren ● Kombination von vorhandenen Analysen und Visualisierungen – Ein Werkzeug für Thesaurus-Ersteller und -Nutzer ● Einsatz der Werkzeuge, die von anderen entwickelt wurden Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 16/27
  • 17. Thesauruspflege mit ICE-Map und Semtinel Netbeans Platform Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 17/27
  • 18. Thesauruspflege mit ICE-Map und Semtinel SEMTINEL Architektur Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 18/27
  • 19. Thesauruspflege mit ICE-Map und Semtinel SEMTINEL Datenmodell Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 19/27
  • 20. Thesauruspflege mit ICE-Map und Semtinel Experiment API Configuration Visualizations/ Datasets Output Analyses Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 20/27
  • 21. Thesauruspflege mit ICE-Map und Semtinel Konfiguration eines Experiments Drag and Drop Support. Erweiterbares Datenmodell. Mehrfachauswahl möglich. Register und Register Set. Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 21/27
  • 22. Thesauruspflege mit ICE-Map und Semtinel Hierarchische Analysen Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 22/27
  • 23. Thesauruspflege mit ICE-Map und Semtinel Explanation API ● Jede Analyse liefert Informationen: – Was wird in der Analyse gemacht? – Auf welchen Analysen baut sie auf? – Was sind die Eingabewerte? – Welche Zwischenergebnisse wurden berechnet? – Welches Ergebnis wird zurückgegeben? Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 23/27
  • 25. Thesauruspflege mit ICE-Map und Semtinel Gruppierung von Experimenten Group Management Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 25/27
  • 26. Thesauruspflege mit ICE-Map und Semtinel Vielen Dank. http://www.semtinel.org Fragen und Anregungen: eckert@bib.uni-mannheim.de Kai Eckert ZBW Workshop, Hamburg, 10. März 2011 26/27