Jakub Štěch a Eliška Králová na konferenci Data Restart 2019.
Co se skrývá pod buzzwordem “machine learning” a jak nám může pomoci zvýšit výkon kampaní? Na případu České spořitelny ukážeme, jak jsme optimalizovali nákup RTB a online data začala pomáhat i ve světě CRM kampaní.
3. Prezentující
Eliška Králová
• Digital Data Manager v České spořitelně
• Vedení týmu zaměřeného na zpracování a aktivaci online dat
Jakub Štěch
• Seniorní Data Scientist v DataSentics
• PhD student FJFI ČVUT v Praze (Matematika statistika)
18. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
3rd party
19. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
3rd party
20. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
Klientský profil (CRM)
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
3rd party
ON-PREM
PROSTŘEDÍ
21. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
Klientský profil (CRM)
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
NÁSTROJE
PRO SPRÁVU
ONLINE
REKLAMY
3rd party
NÁSTROJE
PRO SPRÁVU
KLASICKÝCH
KAMPANÍ
ON-PREM
PROSTŘEDÍ
24. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
Klientský profil (CRM)
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
NÁSTROJE
PRO SPRÁVU
ONLINE
REKLAMY
3rd party
NÁSTROJE
PRO SPRÁVU
KLASICKÝCH
KAMPANÍ
ON-PREM
PROSTŘEDÍ
25. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
Klientský profil (CRM)
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
NÁSTROJE
PRO SPRÁVU
ONLINE
REKLAMY
3rd party
NÁSTROJE
PRO SPRÁVU
KLASICKÝCH
KAMPANÍ
ON-PREM
PROSTŘEDÍ
27. Optimalizace nákupu online reklamy
Vstupní data pro optimalizační model
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
KLIK
ANGAŽOVANÁ
NÁVŠTĚVA WEBU
1.imprese 2.imprese 3.imprese
seznam sauto sauto 1 1
finance babiš - 1 1
finance seznam finance 0 1
lidl seznam seznam 0 1
idnes rohlik 0 0
idnes 0 0
CÍL
Získat více
angažovaných
návštěv
28. Optimalizace nákupu online reklamy
Vstupní data pro optimalizační model
VYSVĚTLUJÍCÍ PROMĚNNÉ
CÍL
Získat více
angažovaných
návštěv
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
KLIK
ANGAŽOVANÁ
NÁVŠTĚVA WEBU
1.imprese 2.imprese 3.imprese
seznam sauto sauto 1 1
finance babiš - 1 1
finance seznam finance 0 1
lidl seznam seznam 0 1
idnes rohlik 0 0
idnes 0 0
29. Optimalizace nákupu online reklamy
Vstupní data pro optimalizační model
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
KLIK
ANGAŽOVANÁ
NÁVŠTĚVA WEBU
1.imprese 2.imprese 3.imprese
seznam sauto sauto 1 1
finance babiš - 1 1
finance seznam finance 0 1
lidl seznam seznam 0 1
idnes rohlik 0 0
idnes 0 0
VYSVĚTLUJÍCÍ PROMĚNNÉ CÍL
CÍL
Získat více
angažovaných
návštěv
30. Optimalizace nákupu online reklamy
Nalezení signifikantních proměnných
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
KLIK
ANGAŽOVANÁ
NÁVŠTĚVA WEBU
1.imprese 2.imprese 3.imprese
seznam sauto sauto 1 1
finance babiš - 1 1
finance seznam finance 0 1
lidl seznam seznam 0 1
idnes rohlik 0 0
idnes 0 0
VYSVĚTLUJÍCÍ PROMĚNNÉ
CÍL
Získat více
angažovaných
návštěv
CÍL
31. Optimalizace nákupu online reklamy
Nalezení signifikantních proměnných
VYSVĚTLUJÍCÍ PROMĚNNÉ
CÍL
Získat více
angažovaných
návštěv
CÍL
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
KLIK
ANGAŽOVANÁ
NÁVŠTĚVA WEBU
1.imprese 2.imprese 3.imprese
seznam sauto sauto 1 1
finance babiš - 1 1
finance seznam finance 0 1
lidl seznam seznam 0 1
idnes rohlik 0 0
idnes 0 0
32. Optimalizace nákupu online reklamy
Nalezení signifikantních proměnných
VYSVĚTLUJÍCÍ PROMĚNNÉ
CÍL
Získat více
angažovaných
návštěv
CÍL
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
KLIK
ANGAŽOVANÁ
NÁVŠTĚVA WEBU
1.imprese 2.imprese 3.imprese
seznam sauto sauto 1 1
finance babiš - 1 1
finance seznam finance 0 1
lidl seznam seznam 0 1
idnes rohlik 0 0
idnes 0 0
34. Optimalizace nákupu online reklamy
Příprava machine learning modelu
1.Extrakce proměnných pomocí term frequency inverse document frequency
ze spojených URL
2.Obohacení URL o popis navštívených webů
3.Nalezení kontextu pomocí embedovacích technik word2vec
36. Optimalizace nákupu online reklamy
Machine learning model
1.Extrakce proměnných pomocí term frequency inverse document frequency
ze spojených URL
2.Obohacení URL o popis navštívených webů
3.Nalezení kontextu pomocí embedovacích technik word2vec
4.Machine learning model (glm, xgboost) pro predikci pravděpodobností
angažované návštěvy na základě featur z URL adres z Adform Master Data
37. Optimalizace nákupu online reklamy
Machine learning model nepotřebuje expertní pravidla
handmade_hardcoded_model.py
if url in [‘babis’, ‘sauto’, ‘finance’]:
return ‘click’
elif url in [‘blesk’, ‘seznam’] and clicks > 3:
return ‘click’
else
return ‘impression’
MACHINE LEARNING
MODEL
39. Evaluace modelu pro navýšení počtu angažovaných návštěv
TOP 10 % uživatelů
s největší pravděpodobností
ang. návštěvy CSAS.cz
Skutečné
navýšení
počtu
návštěv
40. MÍRA NÁVŠTĚVY PRO MODELEM VYBRANÉ SKUPINY UŽIVATELŮ
Optimalizace nákupu online reklamy
Přínos ML modelu pro predikci angažované návštěvy
2 000 000 000
záznamů
41. 2 000 000 000
záznamů
Optimalizace nákupu online reklamy
Přínos ML modelu pro predikci angažované návštěvy
2x více návštěv
za stejnou cenu
MÍRA NÁVŠTĚVY PRO MODELEM VYBRANÉ SKUPINY UŽIVATELŮ
42. Optimalizace péče o klienta
2.CÍL = Navýšení offline konverzí (např. sjednání půjčky)
43. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
Klientský profil (CRM)
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
NÁSTROJE
PRO SPRÁVU
ONLINE
REKLAMY
3rd party
NÁSTROJE
PRO SPRÁVU
KLASICKÝCH
KAMPANÍ
45. Optimalizace péče o klienta
Vstupní data pro optimalizační model
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
WEB ČS
1.imprese 2.imprese 3.imprese Kalkulačka FAQ BLOG
finance sauto sauto 1 1 0
finance babiš - 0 1 0
seznam seznam finance 1 0 1
lidl seznam seznam 0 0 1
idnes rohlik 0 0 0
idnes 0 0 0
CÍL
Predikce
sjednání
půjčky
46. Optimalizace péče o klienta
Vstupní data pro optimalizační model
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
WEB ČS
1.imprese 2.imprese 3.imprese Kalkulačka FAQ BLOG
finance sauto sauto 1 1 0
finance babiš - 0 1 0
seznam seznam finance 1 0 1
lidl seznam seznam 0 0 1
idnes rohlik 0 0 0
idnes 0 0 0
VYSVĚTLUJÍCÍ PROMĚNNÉ
z online světa
CÍL
Predikce
sjednání
půjčky
47. Optimalizace péče o klienta
Vstupní data pro optimalizační model
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
WEB ČS
OFFLINE
SKÓRE
1.imprese 2.imprese 3.imprese Kalkulačka FAQ BLOG
finance sauto sauto 1 1 0 0,79
finance babiš - 0 1 0 0,31
seznam seznam finance 1 0 1 0,34
lidl seznam seznam 0 0 1 0,01
idnes rohlik 0 0 0 0,07
idnes 0 0 0 0,08
VYSVĚTLUJÍCÍ PROMĚNNÉ
z online světa
VYSVĚTLUJÍCÍ PROMĚNNÉ
z offline světa
CÍL
Predikce
sjednání
půjčky
48. Optimalizace péče o klienta
Predikce offline konverze pro obohacení klientského profilu
NAVŠTÍVENÉ WEBY
S REKLAMOU ČS
WEB ČS
OFFLINE
SKÓRE
OFFLINE
KONVERZE
1.imprese 2.imprese 3.imprese Kalkulačka FAQ BLOG
finance sauto sauto 1 1 0 0,79 1
finance babiš - 0 1 0 0,31 0
seznam seznam finance 1 0 1 0,34 0
lidl seznam seznam 0 0 1 0,01 0
idnes rohlik 0 0 0 0,07 0
idnes 0 0 0 0,08 0
VYSVĚTLUJÍCÍ PROMĚNNÉ
z online světa CÍL
VYSVĚTLUJÍCÍ PROMĚNNÉ
z offline světa
49. Optimalizace péče o klienta
Příprava machine learning modelu
1.Extrakce proměnných pomocí term frequency inverse document frequency
ze spojených URL
2.Obohacení URL o popis navštívených webů
3.Nalezení kontextu pomocí embedovacích technik word2vec
4.Machine learning model (glm, xgboost) pro predikci pravděpodobností
offline konverze
51. REKLAMA WEB INTERNETOVÉ BANKOVNICTVÍ DALŠÍ ZDROJE
Uživatelský online profil
Klientský profil (CRM)
ONLINE
SVĚT
CLOUDOVÉ
PROSTŘEDÍ
OFFLINE
SVĚT
POBOČKY TRANSAKCE MAIL/SMS/PUSH CALLCENTRA
NÁSTROJE
PRO SPRÁVU
ONLINE
REKLAMY
3rd party
NÁSTROJE
PRO SPRÁVU
KLASICKÝCH
KAMPANÍ
52. Příprava machine learning modelu
1.Extrakce proměnných pomocí term frequency inverse document frequency
ze spojených URL
2.Obohacení URL o popis navštívených webů
3.Nalezení kontextu pomocí embedovacích technik word2vec
4.Machine learning model (glm, xgboost) pro predikci pravděpodobností
offline konverze
5.Vysvětlení koeficientů a signifikantních proměnných modelu
53. Obohacení klientského profilu o online signály
Generování doporučení pro zákazníky na pobočce
byty
idnes
půjčka
chalupy
hypotéka
finance
seznam
twitter
instagram
wikipedia
seznam
seznam
jágr
wikipedia
wikipedia
babiš
wikipedia
bezrealitky
54. Obohacení klientského profilu o online signály
Generování doporučení pro zákazníky na pobočce
byty
idnes
půjčka
chalupy
hypotéka
finance
seznam
twitter
instagram
wikipedia
seznam
seznam
jágr
wikipedia
wikipedia
bezrealitky
babiš
wikipedia
55. Obohacení klientského profilu o online signály
Generování témat komunikace
byty
idnes
půjčka
chalupy
hypotéka
finance
seznam
twitter
instagram
wikipedia
seznam
seznam
jágr
wikipedia
wikipedia
bezrealitky
babiš
wikipedia
Spousta cenných dat - využití bída = klasika = nevyužitý potenciál
Vyznat se v nich, zpracování - retardovaně deterministicky - byznysový pravidla - kombinace = smrt
Ok, udělejme to efektivněji - narážím na pain onpremu = sklep s kompem
systémů mega moc/propojení offline online = nemožný
Musíme se ke zpracování dat postavit jinak
snadné propojení - vzájemně v online a pak hlavně i s offline
Flexibilní prostředí pro zpracování (rychlost, custom nastavení odpovídající potřebám, cenová efektivita)
Chytristika - nechci to klikat, mozek to nevymyslí, je to neudržitelný, potřebuju něco co mi řekne
JAK TO ZÍSKAT?
chceme něco nového a tím pádem potřebujeme novou znalost → experti
pro digi data flexibilní cloudové prostředí, ve které bychom mohli vybudouvat onlinový profil klienta
cloud = ideální prostředí pro rychlé zpracování dat, prototyping a machine lerning
offline zdroje - ponechání původní struktury, cloud vybrán tak, že propojení bude možné
Museli jsme změnit i přístup - postupně, agilně, poc, ...
Obohacení o vstupy z webu
Idea: V datech z online reklamy nalézt ukazatele předpovídající, že uživatel klikne na náš banner
Použitá data: Přes 1,5 mld záznamů o každém zobrazení reklamy: ID uživatele, doba zobrazení reklamy, místo zobrazení = url stránky, interakce s reklamou
CTR = míra prokliku = poměr mezi počtem kliknutí na reklamu a celkovým počtem zobrazení reklamy