SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Qualitative Trainingsdaten für
Machine Learning effizient
gewinnen
VANDA
www.vanda-project.de
Daten – Informationen – Wissen
Data-as-a-Service Plattform für
Business Anwendungen.
Wir liefern ihnen genau die Business-Daten, die sie brauchen.
Crawling, Mining, Analyse und Verarbeitung von
strukturierten und unstrukturierten Massendaten verbindet:
● Unternehmens- mit öffentlich publizierten Daten
● Intranet- mit Internet-Daten
● Online und Offline Business
deecoob “insight”
www.deecoob.com 120. RTTV Thomas Thom - 17. April 2018
Daten – Informationen – Wissen
Use Case Verwertungsrechte
kommerzielle Events & Musiknutzung
www.deecoob.com 220. RTTV Thomas Thom - 17. April 2018
Prozess
Suche nach bestimmten Informationen in Texten.
Nur jedes 100. Dokument ist relevant.
Daten – Informationen – Wissen
www.deecoob.com 320. RTTV Thomas Thom - 17. April 2018
● Suchproblem
○ ich muss in Millionen von Textdokumenten die für meine Aufgabe
Relevanten finden
● Suchstrategie
○ ich weiß, wonach ich suche (Muster)
○ ich orientiere mich an mir bekannten Kategorien (Beschreibungen)
○ ich erkenne Kategorien an bestimmten Eigenschaften (Wörtern)
○ ich grenze die Suche nach bestimmten Eigenschaften ein (Facetten)
○ ich entscheide ob ein Text relevant ist (Information + Vorwissen)
Suchen & Finden
manuelles Vorgehen
➔ Geht das effizienter und automatisiert?
Daten – Informationen – Wissen
www.deecoob.com 420. RTTV Thomas Thom - 17. April 2018
Lösungsansatz
Machine Learning
Suchproblem
● unbekannte Anzahl
an Eigenschaften
● begrenzte Anzahl
an Kategorien
Lösung
● Vorselektion relevanter
Textdokumente
● Suche in Tausenden von
gefilterten Textdokumenten
Modellierung von
Entscheidungen
Verstehen aller
Aspekte
Klassifikation
Herausforderung:
Optimierung eines Klassifikators
Daten – Informationen – Wissen
www.deecoob.com 520. RTTV Thomas Thom - 17. April 2018
Machine Learning
Modellierung von Entscheidungen
● Trainings- und Testdaten sind:
○ repräsentativ, divers, korrekt
Lernmethode Mensch Maschine Lernmethode ML Verfahren
passiv angeleitet angeleitet supervised Klassifikation
aktiv/passiv explorativ
angeleitet
komparativ
angeleitet
semi-supervised Klassifikation/
Clustering
aktiv explorativ komparativ unsupervised Clustering
● Entscheidungen sind:
○ komplex, situativ, individuell
Lernen = Lernmethode + Training + Tests
Trainingsdaten transportieren Vorwissen, auf welchem später
Entscheidungen getroffen werden können.
Daten – Informationen – Wissen
www.deecoob.com 620. RTTV Thomas Thom - 17. April 2018
● Aufwand für die Erstellung von Trainingsdaten optimieren
● Balance von Expertenwissen vs. Allgemeinwissen
● Skalierbarkeit gewährleisten
Active Learning - Akteure
semi-supervised learning
Data Scientist
nutzt Trainingsdaten &
entwickelt Algorithmen
End User
(Experte)
benötigt relevante Daten
Data Worker
erzeugt Trainingsdaten
Kontext
vs.
Komplexität
Label
Feedback
Daten – Informationen – Wissen
www.deecoob.com 720. RTTV Thomas Thom - 17. April 2018
Active Learning & Visual Analytics
Data Scientist - Entscheidungsmodell
Entscheidungs-
analyse
Analyse von Kategorien,
Facetten & Eigenschaften
Modellierung der Facetten
durch Fragen
Daten – Informationen – Wissen
www.deecoob.com 820. RTTV Thomas Thom - 17. April 2018
Active Learning & Visual Analytics
Data Scientist - “Feature Extraction”
[Wenskovitch et al. 2018]
Data Scientist untersucht Zusammenhang von
Kategorien, Facetten, Eigenschaften und Antworten.
Extraction Pipelines
Dimensionsreduktion
Daten – Informationen – Wissen
www.deecoob.com 920. RTTV Thomas Thom - 17. April 2018
Active Learning & Visual Analytics
Data Worker & End User
Data Worker und/oder End User
beantworten einfache Fragen.
Data Scientist untersucht Zusammenhang
von Antworten und Texteigenschaften.
Feedback
Daten – Informationen – Wissen
www.deecoob.com 1020. RTTV Thomas Thom - 17. April 2018
Selektion der Trainingsdaten
“Ground Truth” als Orientierung nutzen
do {
● Clustern von annotierten und
unbekannten Datensätzen
● do {
● automatisierte Auswahl eines
unbekannten Datensatzes durch
bestimmten Algorithmus
● Anzeige des Datensatzes, Auswahl
und Beantwortung einer Frage
● nach n Antworten {
○ Trainingsdaten neu
zusammenstellen
○ unbekannte Datensätze neu
klassifizieren
}
} while (true);
} while (true);
● “Ground Truth” (farbig)
○ kuratierte und annotierte
Dokumente
● unbekannte Dokumente (grau)
Daten – Informationen – Wissen
Inter-Rater Agreement
Active Learning - Testauswertung
www.deecoob.com 1120. RTTV Thomas Thom - 17. April 2018
Facette ja nein nicht eindeutig
Event? 882 191 45
Musik? 467 621 30
Relevant? 431 687 0
● 1.118 Datensätze, die von 3 Experten bewertet wurden
● Datensätze können gewichtet gelernt werden
● unsichere und nicht eindeutige Datensätze werden nicht trainiert
Verteilung: Event? Verteilung: Musik? Verteilung: Relevanz?
Daten – Informationen – Wissen
www.deecoob.com 1220. RTTV Thomas Thom - 17. April 2018
Klassifikation
“Bayes Error” & Inter-Rater Agreement
Die gezielte Auswahl von Trainingsdaten kann die
Qualität des Klassifikators signifikant verbessern.
Daten – Informationen – Wissen
www.deecoob.com 1320. RTTV Thomas Thom - 17. April 2018
Klassifikation
“Bayes Error” & Inter-Rater Agreement
Die gezielte Auswahl von Trainingsdaten kann die
Qualität des Klassifikators signifikant verbessern.
Daten – Informationen – Wissen
Effiziente Recherche
Automatisierung
www.deecoob.com 1420. RTTV Thomas Thom - 17. April 2018
Verbesserung der Conversion Rate um Faktor 10
Jedes 10. Dokument ist relevant.
Prozess
Daten – Informationen – Wissen
deecoob Technology GmbH
Thomas Thom
Head of Technology
+49 (0) 351 410 5610
thomas.thom@deecoob.com
www.deecoob.com

Más contenido relacionado

Similar a Qualitative Trainingsdaten für Machine Learning effizient gewinnen

Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
e-teaching.org
 
Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A Relations
Georg Blum
 

Similar a Qualitative Trainingsdaten für Machine Learning effizient gewinnen (20)

Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
Learning Analytics - Tools zur Erforschung von Lehre und Lernen?
 
Enterprise Search Technologien im Dienste der DSGVO / GDPR
Enterprise Search Technologien im Dienste der DSGVO / GDPREnterprise Search Technologien im Dienste der DSGVO / GDPR
Enterprise Search Technologien im Dienste der DSGVO / GDPR
 
GAUC 2017 Workshop Saubere Webanalyse Prozesse aufziehen: Markus Vollmert (lu...
GAUC 2017 Workshop Saubere Webanalyse Prozesse aufziehen: Markus Vollmert (lu...GAUC 2017 Workshop Saubere Webanalyse Prozesse aufziehen: Markus Vollmert (lu...
GAUC 2017 Workshop Saubere Webanalyse Prozesse aufziehen: Markus Vollmert (lu...
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
KI und Architektur
KI und ArchitekturKI und Architektur
KI und Architektur
 
Social Media Monitoring für Information Professionals
Social Media Monitoring für Information ProfessionalsSocial Media Monitoring für Information Professionals
Social Media Monitoring für Information Professionals
 
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
Reportings & Insights mit Google Data Studio | Google Analytics Konferenz 2019
 
Suche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur DatenintegrationSuche ein effizientes Mittel zur Datenintegration
Suche ein effizientes Mittel zur Datenintegration
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
 
Erfolgreiche Datenstrategien für PIM & MDM entwerfen
Erfolgreiche Datenstrategien für PIM & MDM entwerfenErfolgreiche Datenstrategien für PIM & MDM entwerfen
Erfolgreiche Datenstrategien für PIM & MDM entwerfen
 
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
Google Analytics Konferenz 2019_Vom Reporting zu Insights_Maike Duhr (lunapar...
 
Was ist Performance Support? Und warum ist es ein Thema?
Was ist Performance Support? Und warum ist es ein Thema?Was ist Performance Support? Und warum ist es ein Thema?
Was ist Performance Support? Und warum ist es ein Thema?
 
ProgrammatiCon 2017 - First Party Data - Martin Frotzler, e-dialog
ProgrammatiCon 2017 - First Party Data - Martin Frotzler, e-dialogProgrammatiCon 2017 - First Party Data - Martin Frotzler, e-dialog
ProgrammatiCon 2017 - First Party Data - Martin Frotzler, e-dialog
 
Big Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A RelationsBig Data_und auf was es wirklich ankommt. 1A Relations
Big Data_und auf was es wirklich ankommt. 1A Relations
 
Learning analytics for reflective learning
Learning analytics for reflective learningLearning analytics for reflective learning
Learning analytics for reflective learning
 
Learning Analytics forReflectiveLearning
Learning Analytics forReflectiveLearningLearning Analytics forReflectiveLearning
Learning Analytics forReflectiveLearning
 
Michaela Heger & Marietheres Koch (e-dialog) Display & Video 360 - Programmat...
Michaela Heger & Marietheres Koch (e-dialog) Display & Video 360 - Programmat...Michaela Heger & Marietheres Koch (e-dialog) Display & Video 360 - Programmat...
Michaela Heger & Marietheres Koch (e-dialog) Display & Video 360 - Programmat...
 
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen KannBARC Was Datenmanagement Messbar Dazu Beitragen Kann
BARC Was Datenmanagement Messbar Dazu Beitragen Kann
 
Google Analytics Konferenz 2019_Customer Data Platform_Michaela Linhart (e-di...
Google Analytics Konferenz 2019_Customer Data Platform_Michaela Linhart (e-di...Google Analytics Konferenz 2019_Customer Data Platform_Michaela Linhart (e-di...
Google Analytics Konferenz 2019_Customer Data Platform_Michaela Linhart (e-di...
 

Más de VANDA - Visual Analytics Interfaces for Big Data Environments

Más de VANDA - Visual Analytics Interfaces for Big Data Environments (6)

Language independent nlp with deep learning
Language independent nlp with deep learningLanguage independent nlp with deep learning
Language independent nlp with deep learning
 
Active Learning for Record Linkage
Active Learning for Record LinkageActive Learning for Record Linkage
Active Learning for Record Linkage
 
Visual Analytics Interfaces for Big Data Environments
Visual Analytics Interfaces for Big Data EnvironmentsVisual Analytics Interfaces for Big Data Environments
Visual Analytics Interfaces for Big Data Environments
 
Exploring Big Data Landscapes with Elastic Displays
Exploring Big Data Landscapes with Elastic DisplaysExploring Big Data Landscapes with Elastic Displays
Exploring Big Data Landscapes with Elastic Displays
 
A Framework for Training Hybrid Recommender Systems
A Framework for Training Hybrid Recommender SystemsA Framework for Training Hybrid Recommender Systems
A Framework for Training Hybrid Recommender Systems
 
Towards Glyph-based Visualizations for Big Data Clustering
Towards Glyph-based Visualizations for Big Data ClusteringTowards Glyph-based Visualizations for Big Data Clustering
Towards Glyph-based Visualizations for Big Data Clustering
 

Qualitative Trainingsdaten für Machine Learning effizient gewinnen

  • 1. Qualitative Trainingsdaten für Machine Learning effizient gewinnen VANDA www.vanda-project.de
  • 2. Daten – Informationen – Wissen Data-as-a-Service Plattform für Business Anwendungen. Wir liefern ihnen genau die Business-Daten, die sie brauchen. Crawling, Mining, Analyse und Verarbeitung von strukturierten und unstrukturierten Massendaten verbindet: ● Unternehmens- mit öffentlich publizierten Daten ● Intranet- mit Internet-Daten ● Online und Offline Business deecoob “insight” www.deecoob.com 120. RTTV Thomas Thom - 17. April 2018
  • 3. Daten – Informationen – Wissen Use Case Verwertungsrechte kommerzielle Events & Musiknutzung www.deecoob.com 220. RTTV Thomas Thom - 17. April 2018 Prozess Suche nach bestimmten Informationen in Texten. Nur jedes 100. Dokument ist relevant.
  • 4. Daten – Informationen – Wissen www.deecoob.com 320. RTTV Thomas Thom - 17. April 2018 ● Suchproblem ○ ich muss in Millionen von Textdokumenten die für meine Aufgabe Relevanten finden ● Suchstrategie ○ ich weiß, wonach ich suche (Muster) ○ ich orientiere mich an mir bekannten Kategorien (Beschreibungen) ○ ich erkenne Kategorien an bestimmten Eigenschaften (Wörtern) ○ ich grenze die Suche nach bestimmten Eigenschaften ein (Facetten) ○ ich entscheide ob ein Text relevant ist (Information + Vorwissen) Suchen & Finden manuelles Vorgehen ➔ Geht das effizienter und automatisiert?
  • 5. Daten – Informationen – Wissen www.deecoob.com 420. RTTV Thomas Thom - 17. April 2018 Lösungsansatz Machine Learning Suchproblem ● unbekannte Anzahl an Eigenschaften ● begrenzte Anzahl an Kategorien Lösung ● Vorselektion relevanter Textdokumente ● Suche in Tausenden von gefilterten Textdokumenten Modellierung von Entscheidungen Verstehen aller Aspekte Klassifikation Herausforderung: Optimierung eines Klassifikators
  • 6. Daten – Informationen – Wissen www.deecoob.com 520. RTTV Thomas Thom - 17. April 2018 Machine Learning Modellierung von Entscheidungen ● Trainings- und Testdaten sind: ○ repräsentativ, divers, korrekt Lernmethode Mensch Maschine Lernmethode ML Verfahren passiv angeleitet angeleitet supervised Klassifikation aktiv/passiv explorativ angeleitet komparativ angeleitet semi-supervised Klassifikation/ Clustering aktiv explorativ komparativ unsupervised Clustering ● Entscheidungen sind: ○ komplex, situativ, individuell Lernen = Lernmethode + Training + Tests Trainingsdaten transportieren Vorwissen, auf welchem später Entscheidungen getroffen werden können.
  • 7. Daten – Informationen – Wissen www.deecoob.com 620. RTTV Thomas Thom - 17. April 2018 ● Aufwand für die Erstellung von Trainingsdaten optimieren ● Balance von Expertenwissen vs. Allgemeinwissen ● Skalierbarkeit gewährleisten Active Learning - Akteure semi-supervised learning Data Scientist nutzt Trainingsdaten & entwickelt Algorithmen End User (Experte) benötigt relevante Daten Data Worker erzeugt Trainingsdaten Kontext vs. Komplexität Label Feedback
  • 8. Daten – Informationen – Wissen www.deecoob.com 720. RTTV Thomas Thom - 17. April 2018 Active Learning & Visual Analytics Data Scientist - Entscheidungsmodell Entscheidungs- analyse Analyse von Kategorien, Facetten & Eigenschaften Modellierung der Facetten durch Fragen
  • 9. Daten – Informationen – Wissen www.deecoob.com 820. RTTV Thomas Thom - 17. April 2018 Active Learning & Visual Analytics Data Scientist - “Feature Extraction” [Wenskovitch et al. 2018] Data Scientist untersucht Zusammenhang von Kategorien, Facetten, Eigenschaften und Antworten. Extraction Pipelines Dimensionsreduktion
  • 10. Daten – Informationen – Wissen www.deecoob.com 920. RTTV Thomas Thom - 17. April 2018 Active Learning & Visual Analytics Data Worker & End User Data Worker und/oder End User beantworten einfache Fragen. Data Scientist untersucht Zusammenhang von Antworten und Texteigenschaften. Feedback
  • 11. Daten – Informationen – Wissen www.deecoob.com 1020. RTTV Thomas Thom - 17. April 2018 Selektion der Trainingsdaten “Ground Truth” als Orientierung nutzen do { ● Clustern von annotierten und unbekannten Datensätzen ● do { ● automatisierte Auswahl eines unbekannten Datensatzes durch bestimmten Algorithmus ● Anzeige des Datensatzes, Auswahl und Beantwortung einer Frage ● nach n Antworten { ○ Trainingsdaten neu zusammenstellen ○ unbekannte Datensätze neu klassifizieren } } while (true); } while (true); ● “Ground Truth” (farbig) ○ kuratierte und annotierte Dokumente ● unbekannte Dokumente (grau)
  • 12. Daten – Informationen – Wissen Inter-Rater Agreement Active Learning - Testauswertung www.deecoob.com 1120. RTTV Thomas Thom - 17. April 2018 Facette ja nein nicht eindeutig Event? 882 191 45 Musik? 467 621 30 Relevant? 431 687 0 ● 1.118 Datensätze, die von 3 Experten bewertet wurden ● Datensätze können gewichtet gelernt werden ● unsichere und nicht eindeutige Datensätze werden nicht trainiert Verteilung: Event? Verteilung: Musik? Verteilung: Relevanz?
  • 13. Daten – Informationen – Wissen www.deecoob.com 1220. RTTV Thomas Thom - 17. April 2018 Klassifikation “Bayes Error” & Inter-Rater Agreement Die gezielte Auswahl von Trainingsdaten kann die Qualität des Klassifikators signifikant verbessern.
  • 14. Daten – Informationen – Wissen www.deecoob.com 1320. RTTV Thomas Thom - 17. April 2018 Klassifikation “Bayes Error” & Inter-Rater Agreement Die gezielte Auswahl von Trainingsdaten kann die Qualität des Klassifikators signifikant verbessern.
  • 15. Daten – Informationen – Wissen Effiziente Recherche Automatisierung www.deecoob.com 1420. RTTV Thomas Thom - 17. April 2018 Verbesserung der Conversion Rate um Faktor 10 Jedes 10. Dokument ist relevant. Prozess
  • 16. Daten – Informationen – Wissen deecoob Technology GmbH Thomas Thom Head of Technology +49 (0) 351 410 5610 thomas.thom@deecoob.com www.deecoob.com