3. Exempel på användningsområden
BANK
Låneerbjudanden
Kreditrisk
Misstänkta korttransaktioner
CRM
Riktad marknadföring
Churn (kunder som går till
konkurenten)
MEDICIN
Troliga sjukdomsförlopp
Identifiering av nya läkemedel
4. Data mining är en iterativ
verksamhetsbaserad process
DATA → FRÅGOR → BEARBETNING →
SVAR → NYA FRÅGOR → NY DATA
ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI
7. Business understanding/data
understanding
Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan
skall frågeställningen styras av lönsamhet.
Analytikern måste ha förståelse för datat han får.
Skräckscenario:
Försäkringsbolag
data = statistik över bilkrockar+väderförhållanden+vägförhållanden
Data mining svarar: bilar krockar mest när det är mörkt och blött på
vägen
8.
9. Data preparation/modelling
Data mining sker alltid mot EN
tabell/vy/fil med underliggande
data.
Alltså: ETL-processer!
KNOW IT Helikopter bidra med
mycket konsultkunskap
11. Möjliga mål för DM projekt
Identifikation av grupper (klustrar) i data
vars struktur är ej synlig
Hitta faktorer som orsakar vissa konkreta
händelser
Beräkning av utfallsvariablernas värden
(prediktion)
12. Alltså finns det två olika “grupper av metoder”:
deskriptiv
Inga nya värden genereras, ingen
fördelning på historisk data och
ny data. Inga svar förväntas på
förhand. Kallas även
UNSUPERVISED LEARNING
prediktiv
Att förutse värden, antingen
numeriska eller kategoriska.
“hur mycket säljer vi i maj”
“är kunden en kreditrisk”
Kallas för SUPERVISED
LEARNING
13. Hur vi jobbar med prediktiv process
En del av gammal dala
(holdout)
validiering
14. MÅL: FÖRUTSE VÄRDET
C = F(X1,....XN)
Target, värdet vi Indatavariabler,
söker predictors
Funktionen som
dm-verktyget ska
hitta, predictor
function
15. Tre mest populära tekniker för supervised learning
LLIjär
• Regression
Linjär/icke linjär/logistisk
• Närmsta granne
• Beslutsträd
16. Linear regression
Enklaste regression har en prediktor och en target:
Y = β_0 + β_1*X
Lutningen och fria termen beräknas inuti datamining-maskinen så att
minstakvadratavvikningar av indata X från en beräknad linje Y(X) är
minimerade.
17. Faran med linjär regression: Anscombes kvartett
Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar
mycket annat.
Här åter ser vi vikten att man måste
FÖRSTÅ DITT DATA
18. K-närmsta grannemetoden
Exempel: testdata att klassificera/förutse – är
det en röd triangel eller en blå rektangel?
BRA:
Om k =3 är det en triangel: då är det flest Snabbt och lätta att träna.
trinaglar bland 3 “närmsta grannar” men
Om k =5 är det en rektangel, då det är flest
rektanglar bland 5 närmsta instanser av
historiskt data.
DÅLIGT:
Långsam metod att
skora.
Svårt att definiera vad
”nära” är exakt.
19. Beslutsträd BRA:
Grafisk Lätta att förstå
representation Relativt snabbt att träna
av ja/nej beslut. Snabb produktionssättning
Skalbara
DÅLIGT:
Kan ej hantera
komplicerade
förhållanden
Fungerar illa om
data saknas
22. Definition
Clustering can be considered the most important unsupervised
learning technique; so, as every other problem of this kind, it
deals with finding a structure in a collection of unlabeled data.
Clustering is “the process of organizing objects into groups
whose members are similar in some way”.
A cluster is therefore a collection of objects which are “similar”
between them and are “dissimilar” to the objects belonging to
other clusters.
26. In this case we easily identify the 4 clusters
into which the data can be divided; the
similarity criterion is distance: two or more
objects belong to the same cluster if they are
“close” according to a given distance. This is
called distance-based clustering.
27. Associationsregler
Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan
utvalda värden av kategoriska variabler i stora databaser(filer,tabeller).
Basket analysis
Det som undersöks är t.ex. följdköp: varan
(varor) som köps efter det givna köpet.
Tomatsås => Pasta
Chips => Cola
Eller (Amazon, skrämmande):
28. Vi tar ett litet exempel. Lanthandel, transaktionsdata:
För att kunna välja intressanta TransID Mjölk Bröd Smör Öl
associationer inför vi några mätvärden:
1.Stöd (support), dvs hur ofta itemset
intraffar.
1 1 1 0 0
{ MJÖLK; BRÖD} inträffar 2 gånger av
fem, alltså är 2 0 0 1 0
supp{MJÖK;BRÖD} = 2/5. 3 0 0 0 1
supp{MJÖLK;BRÖD;SMÖR} =1/5
4 1 1 1 0
2.Konfidens. conf(X=>Y) definieras som
supp(X∪Y)/ supp(X). 5 0 1 0 0
Conf({mjölk, bröd} =>{smör})
=0.2/0.4=0.5
Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och
Andra mätetal kan introduceras. konfidensvärden för de förväntade reglerna får vara och sedan
Vi letar efter regler som har vettigt stöd 1.Hitta alla itemsets med stort stöd
och relativt stor konfidens (evt minsta 2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens.
värde begränsningar på andra mått).