2. Daten – Informationen – Wissen
Data-as-a-Service Plattform für
Business Anwendungen.
Wir liefern ihnen genau die Business-Daten, die sie brauchen.
Crawling, Mining, Analyse und Verarbeitung von
strukturierten und unstrukturierten Massendaten verbindet:
● Unternehmens- mit öffentlich publizierten Daten
● Intranet- mit Internet-Daten
● Online und Offline Business
deecoob “insight”
www.deecoob.com 120. RTTV Thomas Thom - 17. April 2018
3. Daten – Informationen – Wissen
Use Case Verwertungsrechte
kommerzielle Events & Musiknutzung
www.deecoob.com 220. RTTV Thomas Thom - 17. April 2018
Prozess
Suche nach bestimmten Informationen in Texten.
Nur jedes 100. Dokument ist relevant.
4. Daten – Informationen – Wissen
www.deecoob.com 320. RTTV Thomas Thom - 17. April 2018
● Suchproblem
○ ich muss in Millionen von Textdokumenten die für meine Aufgabe
Relevanten finden
● Suchstrategie
○ ich weiß, wonach ich suche (Muster)
○ ich orientiere mich an mir bekannten Kategorien (Beschreibungen)
○ ich erkenne Kategorien an bestimmten Eigenschaften (Wörtern)
○ ich grenze die Suche nach bestimmten Eigenschaften ein (Facetten)
○ ich entscheide ob ein Text relevant ist (Information + Vorwissen)
Suchen & Finden
manuelles Vorgehen
➔ Geht das effizienter und automatisiert?
5. Daten – Informationen – Wissen
www.deecoob.com 420. RTTV Thomas Thom - 17. April 2018
Lösungsansatz
Machine Learning
Suchproblem
● unbekannte Anzahl
an Eigenschaften
● begrenzte Anzahl
an Kategorien
Lösung
● Vorselektion relevanter
Textdokumente
● Suche in Tausenden von
gefilterten Textdokumenten
Modellierung von
Entscheidungen
Verstehen aller
Aspekte
Klassifikation
Herausforderung:
Optimierung eines Klassifikators
6. Daten – Informationen – Wissen
www.deecoob.com 520. RTTV Thomas Thom - 17. April 2018
Machine Learning
Modellierung von Entscheidungen
● Trainings- und Testdaten sind:
○ repräsentativ, divers, korrekt
Lernmethode Mensch Maschine Lernmethode ML Verfahren
passiv angeleitet angeleitet supervised Klassifikation
aktiv/passiv explorativ
angeleitet
komparativ
angeleitet
semi-supervised Klassifikation/
Clustering
aktiv explorativ komparativ unsupervised Clustering
● Entscheidungen sind:
○ komplex, situativ, individuell
Lernen = Lernmethode + Training + Tests
Trainingsdaten transportieren Vorwissen, auf welchem später
Entscheidungen getroffen werden können.
7. Daten – Informationen – Wissen
www.deecoob.com 620. RTTV Thomas Thom - 17. April 2018
● Aufwand für die Erstellung von Trainingsdaten optimieren
● Balance von Expertenwissen vs. Allgemeinwissen
● Skalierbarkeit gewährleisten
Active Learning - Akteure
semi-supervised learning
Data Scientist
nutzt Trainingsdaten &
entwickelt Algorithmen
End User
(Experte)
benötigt relevante Daten
Data Worker
erzeugt Trainingsdaten
Kontext
vs.
Komplexität
Label
Feedback
8. Daten – Informationen – Wissen
www.deecoob.com 720. RTTV Thomas Thom - 17. April 2018
Active Learning & Visual Analytics
Data Scientist - Entscheidungsmodell
Entscheidungs-
analyse
Analyse von Kategorien,
Facetten & Eigenschaften
Modellierung der Facetten
durch Fragen
9. Daten – Informationen – Wissen
www.deecoob.com 820. RTTV Thomas Thom - 17. April 2018
Active Learning & Visual Analytics
Data Scientist - “Feature Extraction”
[Wenskovitch et al. 2018]
Data Scientist untersucht Zusammenhang von
Kategorien, Facetten, Eigenschaften und Antworten.
Extraction Pipelines
Dimensionsreduktion
10. Daten – Informationen – Wissen
www.deecoob.com 920. RTTV Thomas Thom - 17. April 2018
Active Learning & Visual Analytics
Data Worker & End User
Data Worker und/oder End User
beantworten einfache Fragen.
Data Scientist untersucht Zusammenhang
von Antworten und Texteigenschaften.
Feedback
11. Daten – Informationen – Wissen
www.deecoob.com 1020. RTTV Thomas Thom - 17. April 2018
Selektion der Trainingsdaten
“Ground Truth” als Orientierung nutzen
do {
● Clustern von annotierten und
unbekannten Datensätzen
● do {
● automatisierte Auswahl eines
unbekannten Datensatzes durch
bestimmten Algorithmus
● Anzeige des Datensatzes, Auswahl
und Beantwortung einer Frage
● nach n Antworten {
○ Trainingsdaten neu
zusammenstellen
○ unbekannte Datensätze neu
klassifizieren
}
} while (true);
} while (true);
● “Ground Truth” (farbig)
○ kuratierte und annotierte
Dokumente
● unbekannte Dokumente (grau)
12. Daten – Informationen – Wissen
Inter-Rater Agreement
Active Learning - Testauswertung
www.deecoob.com 1120. RTTV Thomas Thom - 17. April 2018
Facette ja nein nicht eindeutig
Event? 882 191 45
Musik? 467 621 30
Relevant? 431 687 0
● 1.118 Datensätze, die von 3 Experten bewertet wurden
● Datensätze können gewichtet gelernt werden
● unsichere und nicht eindeutige Datensätze werden nicht trainiert
Verteilung: Event? Verteilung: Musik? Verteilung: Relevanz?
13. Daten – Informationen – Wissen
www.deecoob.com 1220. RTTV Thomas Thom - 17. April 2018
Klassifikation
“Bayes Error” & Inter-Rater Agreement
Die gezielte Auswahl von Trainingsdaten kann die
Qualität des Klassifikators signifikant verbessern.
14. Daten – Informationen – Wissen
www.deecoob.com 1320. RTTV Thomas Thom - 17. April 2018
Klassifikation
“Bayes Error” & Inter-Rater Agreement
Die gezielte Auswahl von Trainingsdaten kann die
Qualität des Klassifikators signifikant verbessern.
15. Daten – Informationen – Wissen
Effiziente Recherche
Automatisierung
www.deecoob.com 1420. RTTV Thomas Thom - 17. April 2018
Verbesserung der Conversion Rate um Faktor 10
Jedes 10. Dokument ist relevant.
Prozess
16. Daten – Informationen – Wissen
deecoob Technology GmbH
Thomas Thom
Head of Technology
+49 (0) 351 410 5610
thomas.thom@deecoob.com
www.deecoob.com