‘Metriken für ein ROI-basiertes Datenqualitätsmanagement’
Dr. Mathias Klier, Leopold-Franzens-University of Innsbruck/School of Management Information Systems
Human Inference - Product Update What Do I Know About My Customers
‘Metriken für ein ROI-basiertes Datenqualitätsmanagement’ Dr. Mathias Klier
1. Information Systems
University of Innsbruck
Metriken für ein ROI-basiertes
Datenqualitätsmanagement
Dr. Mathias Klier
Institut für Wirtschaftsinformatik,
Produktionswirtschaft und Logistik
Bereich Wirtschaftsinformatik II
Universitätsstrasse 15
A-6020 Innsbruck
Mathias.Klier@uibk.ac.at
2. Agenda
• Motivation und praktische Problemstellung
• Anforderungen an Datenqualitätsmetriken
• Entwicklung einer Metrik für das
Datenqualitätsmerkmal Aktualität
• Anwendung der Metrik bei einem
Mobilfunkanbieter
• Zusammenfassung und Diskussion
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 2
3. Projekt bei einem Mobilfunkanbieter
Projektfokus
Untersuchung der Kosten-Nutzen-Wirkung von Datenqualitäts-
maßnahmen am Beispiel des Kampagnenmanagementprozesses
Relevante Fragestellungen
• Wie kann man Datenqualität mittels Metriken messen?
• Wie verbessern sich die Metrikergebnisse durch die Anwendung
von Datenqualitätsmaßnahmen?
• Welche Datenqualitätsmaßnahmen sollen unter Kosten-Nutzen-
Aspekten durchgeführt werden?
• Wie kann man durch ein effizientes Datenqualitätsmanagement
den Nutzen für das Unternehmen verbessern?
Allgemeine Ergebnisse des Projekts
• Metriken zur Messung der Datenqualität
• Erfolgreiche Anwendung der Metriken im Kampagnen-
management
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 3
4. Fokussierte Datenqualitätsaspekte
Benötigte Datenmenge
z. B. tatsächlich in einer
Kampagne benötigte Daten
Spezifizierte Datenmenge
z. B. (Kunden)Attribute eines
Datenschemas
Datenqualitätsdimension
Fokus hier: Aktualität
Vorhandene Datenmenge
z. B. gespeicherte Attribut-
werte für jeden Kunden
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 4
5. Motivation: Datenqualitätsmessung
Um Datenqualitätsmaßnahmen hinsichtlich Kosten-Nutzen-
Aspekten bewerten zu können, ist ein Regelkreis mit integriertem
Messverfahren für die Datenqualität notwendig, denn „What
doesn't get measured doesn't get managed”.
Datenqualitätsregelkreis
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 5
6. Anforderungen an Datenqualitätsmetriken
A1 Normierung
A2 Kardinalskalierung
A3 Interpretierbarkeit
A4 Aggregierbarkeit
A5 Konfigurierbarkeit
A6 Operationalisierbarkeit
Heinrich, B.; Kaiser M.; Klier M.: A Procedure To Develop Metrics For Currency And Its Application
In CRM , erscheint in: ACM Journal of Data and Information Quality, 2009.
Heinrich, B.; Klier M.: Datenqualitätsmetriken für ein ökonomisch orientiertes
Qualitätsmanagement, in: K. Hildebrand, M. Gebauer, H. Hinrichs, M. Mielke, Hrsg., Daten- und
Informationsqualität – Auf dem Weg zur Information Excellence, Vieweg+Teubner, 2008.
Heinrich, B.; Kaiser M.; Klier M.: How to measure data quality? – a metric based approach,
Proceedings of the 28th International Conference on Information Systems (ICIS), Montreal 2007.
Heinrich, B.; Kaiser M.; Klier M.: DQ metrics: a novel approach to quantify timeliness and its
application in CRM, Proceedings of the 12th International Conference on Information Quality
(ICIQ), Boston 2007.
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 6
7. Fokus: Datenqualitätsdimension Aktualität
Definition/Verständnis von Aktualität
Unter Aktualität ist die Eigenschaft der Gegenwartsbezogenheit des
Datenbestandes zu verstehen, d.h. inwiefern die im Informations-
system erfassten Werte den aktuellen Gegebenheiten in der Realwelt
entsprechen und nicht veraltet sind.
Beispielhafte praktische Fragestellungen
• Inwiefern sind die im Informationssystem vorgehaltenen
Kundenkontaktdaten (z.B. Adresse) überhaupt noch aktuell?
• Inwiefern stimmt der erfasste Berufsstatus eines Kunden (z.B.
„Student“) noch mit den realen Gegebenheiten überein?
Problem
Bisher haben sich in Wissenschaft und Praxis keine Metriken
durchgesetzt, die eine Quantifizierung der Aktualität erlauben und
den Anforderungen A1 bis A6 genügen.
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 7
8. Entwicklung der Metrik für Aktualität (I)
Grundlegende Idee
Entwicklung einer Metrik auf Basis von wahrscheinlichkeits-
theoretischen Überlegungen, um einen automatisierten
Ablauf der Messung zu ermöglichen.
• Aktualität wird interpretiert als Wahrscheinlichkeit dafür, dass
ein Attributwert immer noch den aktuellen, realen
Gegebenheiten entspricht.
• Betrachtete Attributwerte werden „älter“ und besitzen eine
unbekannte Gültigkeitsdauer.
• Die Wahrscheinlichkeit, mit welcher der Wert im Datenbestand
zum Analysezeitpunkt noch aktuell ist, nimmt (für die meisten
Attribute) mit zunehmendem Alter des Attributwerts ab.
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 8
9. Entwicklung der Metrik für Aktualität (II)
Formalisierung (Attributwertebene)
Sei A ein Attribut, w ein Attributwert und Alter(w,A) das Alter des
Attributwertes. Sei zudem Verfall(A) die Verfallsrate von Werten des
Attributes A. Dann ergibt sich die Metrik bspw. bei einer
Exponentialverteilung zu
Verfall ( A ) Alter ( w , A )
Q Akt . ( w , A ) : e
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 9
10. Entwicklung der Metrik für Aktualität (III)
Beispiel (Tupelebene/Vermarktung einer Tarifoption)
1. Bestimmung der relevanten Attribute und deren relativer
Wichtigkeit hinsichtlich Aktualität
2. Berechnung von Alter(T.Ai,Ai) aus dem gegenwärtigen Zeitpunkt
und dem Zeitpunkt der Datenerfassung für die betrachteten
Attributwerte
3. Bestimmung von Verfall(Ai) mit Hilfe von empirischen Daten oder
Stichprobentests
4. Berechnung der Aktualitätsbewertungen auf Attributwertebene:
5. Bewertung der Aktualität des Tupels:
0 ,99 0 ,9 1, 00 0 , 2 0 ,82 0 ,9 0 ,82 1
Q Akt . (T , A1 ,..., A 4 ) 0 ,882
0 ,9 0,2 0 ,9 1, 0
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 10
11. Anwendung der Metrik für Aktualität (I.I)
Angebot einer Tarifoption für PrePaid-Kunden *)
1. Analyse einer früheren, vergleichbaren Kampagne
Erfolgsquote der früheren Kampagne in Abhängigkeit von den
Metrikergebnissen für Aktualität (ex post)
*) Das folgende Beispiel wurde anonymisiert und vereinfacht
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 11
12. Anwendung der Metrik für Aktualität (I.II)
2. Prognose der Profitabilität der neuen, aktuellen Kampagne
Erwarteter Erlös abzüglich Kosten bei: 1,25 Euro Kosten/Mailing;
20 Euro Durchschnittserlös/Neuvertrag
• Intervall [0; 0,4]: Mailingkosten erwartete Erlöse abzüglich Kosten
• Intervall ]0,4; 1]: Mailingkosten erwartete Erlöse abzüglich Kosten
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 12
13. Anwendung der Metrik für Aktualität (I.III)
3. Analyse einer potentiellen Datenqualitätsmaßnahme
Adresskauf zu 0,40 Euro/Adresse (z.B. Post Direkt GmbH)
• Im Intervall ]0,4; 1,0]: Adresskauf nicht rentabel
• Im Intervall ]0,0; 0,4]: Adresskauf rentabel
• Jedoch nur im Intervall ]0,2; 0,4] gilt:
Gesamterlöse (Summe Mailingkosten Kosten Adresskauf)
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 13
14. Anwendung der Metrik für Aktualität (I.IV)
4. Ex post Analyse der Kampagne
• Für ca. 20.000 Kunden des Intervalls ]0,2; 0,4] wurden die
Adressen bei einem externen Provider erworben und mit den
gespeicherten Adressen verglichen.
Auszug: ex ante und ex post Aktualität der Adressdaten
Intervall ]0,2; 0,3] Intervall ]0,3; 0,4]
Anzahl ca. 6.700 ca. 7.100
„ex post- ca. 1.880 Adressen ca. 2.270 Adressen
Aktualität“ aktuell (~0,28) aktuell (~0,32)
• Die ex ante prognostizierten Erfolgsquoten stellten sich mit
Abweichungen von ca. 0,6% ein.
• Datenqualitätsmaßnahmen konnten mit Hilfe der Metrik besser
dosiert und zielgerichteter eingesetzt werden.
• Die Profitabilität der Kampagnen konnte durch Berücksichtigung
der Datenqualität deutlich verbessert werden.
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 14
15. Aber: Metrik nicht für alle Attribute geeignet
Die Exponentialverteilung, die bei der bisherigen Definition
der Metrik zu Grunde liegt und bei Adressdaten gerechtfertigt
werden kann, ist gedächtnislos – d.h. die relative Verfallsrate
ist konstant und unabhängig vom Alter des Attributwertes.
Diese Annahme trifft natürlich nicht für alle Attribute zu.
Aber: Die Metrik 0,15 [Quelle: Statistisches Bundesamt 2007]
kann für andere
Relative Häufigkeit
Attribute und
Verfallsraten 0,1
angepasst und
entsprechend 0,05
verallgemeinert
werden (auf Basis
verschiedener 0
7 9 11 13 15 17 19 21 23 25
Verteilungen): Dauer des Studiums (Semesteranzahl)
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 15
16. Anwendung der Metrik für Aktualität (II.I)
Grundproblematik
Oftmals keine qualitätsgesicherten Daten über den Kunden, dessen
Transaktionen, Produkte etc.
Eine adäquate Ansprache des Kunden ist schwierig (bspw.
Fehler bei den Kundenstamm- und Vertragsdaten).
Eine Unterbreitung individueller, integrierter Kundenangebote
ist nur bedingt möglich.
Die Erfolgsquoten bei (ausgewählten) Kundenkampagnen sind
zum Teil mäßig.
Fokussierte Problemstellung
Durchführung einer „Studentenkampagne“ in der ein
neues, spezielles Produktangebot für Studenten (postalisch)
unterbreitet werden soll.
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 16
17. Anwendung der Metrik für Aktualität (II.II)
1. Bisheriges Vorgehen bei solchen Produktkampagnen *)
Schreibe die Top-30%-Kunden nach Umsatz an, bei denen der
Berufsstatus “Student” in der Datenbank hinterlegt ist.
Bisherige Erfolgsquote: ca. 9%
2. Kalkulation bei Anwendung dieses Vorgehens
a. Wenn die Top-30%-Kunden der im System gespeicherten
156.000 Studenten angeschrieben werden, liegt der bisherige
-Umsatz dieser 46.800 Kunden bei 1.340 €.
b. Bei einer Erfolgsquote von 9% würden ca. 4.200 Kunden das
Angebot annehmen. Bei diesen Kunden würde sich der
bisherige Ertrag um 5% erhöhen.
c. Geschätzter Mehrertrag: 4.200 * 1.340 € * 0,05 = 281.400 €
*) Das folgende Beispiel wurde anonymisiert und vereinfacht
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 17
18. Anwendung der Metrik für Aktualität (II.III)
3. Neues Vorgehen auf Basis der Metrik für Aktualität
a. Für alle Kunden mit dem Status „Student“ werden die Metrik-
ergebnisse für Aktualität berechnet.
7,000
Anzahl der Kunden
6,000
Number of customers
(top 30% sales)
5,000
4,000
3,000
2,000
1,000
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Metrikergebnisse (Wahrscheinlichkeiten)
Intervals of probabilities (metric for timeliness)
b. Danach wird für jeden Kunden der erwartete Umsatz als
Student ermittelt (Metrikergebnis*Umsatz).
c. Diese Kennzahl wird nunmehr als Selektionskriterium für die
TOP-30%-Kunden verwendet.
Von den 46.800 selektierten Kunden wurden ca. 28.100
Kunden beim bisherigen Vorgehen nicht berücksichtigt.
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 18
19. Anwendung der Metrik für Aktualität (II.IV)
4. Ergebnisse der durchgeführten Kampagne
Der Mobilfunkanbieter entschied sich allen 75.500 Kunden (d.h.
nach beiden Selektionskriterien) ein Angebot zu unterbreiten.
# Kunden = 18.100
Erfolgsquote = 10,4%
Umsatz = 1.210 EUR
KDQ KDQ,U KU
# Kunden = 28.700 # Kunden = 28.700
Erfolgsquote = 12,2% Erfolgsquote = 2,7%
Umsatz = 1.110 EUR Umsatz = 1.420 EUR
Bei bisherigem Vorgehen: Bei Einsatz der Metrik:
• Erfolgsquote: 5,7% • Erfolgsquote: 11,5%
• -Umsatz: 1.340 € • - Umsatz: 1.150 €
• Zus. Ertrag: 178.700 € • Zus. Ertrag: 309.200 €
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 19
20. Vielen Dank für Ihre Aufmerksamkeit!
Kontakt
Dr. Mathias Klier
Leopold-Franzens-University of Innsbruck
School of Management
Information Systems
Universitätsstraße 15
A-6020 Innsbruck
Austria
Phone: +43 (0) 512 507 7685
Fax: +43 (0) 512 507 9809
Email: mathias.klier@uibk.ac.at
WWW: http://www.uibk.ac.at/iwi2
Dr. Mathias Klier - University of Innsbruck – Information Systems Seite 20