Data Mining för nybörjare

Data Mining/Kunskaputvinning

Nybörjargenomgång av
viktigaste koncept

Exempel på användningsområden
BANK
 Låneerbjudanden
 Kreditrisk
 Misstänkta korttransaktioner

CRM
 Riktad marknadföring
 Churn (kunder som går till
konkurenten)

MEDICIN
 Troliga sjukdomsförlopp
 Identifiering av nya läkemedel

Data mining är en iterativ
verksamhetsbaserad process

DATA → FRÅGOR → BEARBETNING →
SVAR → NYA FRÅGOR → NY DATA

ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI

CRISP-DM, cross-industry standard for
processes involving data mining

Business understanding/data
understanding
Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan
skall frågeställningen styras av lönsamhet.

Analytikern måste ha förståelse för datat han får.

Skräckscenario:

Försäkringsbolag
data = statistik över bilkrockar+väderförhållanden+vägförhållanden

Data mining svarar: bilar krockar mest när det är mörkt och blött på
vägen

Data preparation/modelling
Data mining sker alltid mot EN
tabell/vy/fil med underliggande
data.

Alltså: ETL-processer!
KNOW IT Helikopter bidra med
mycket konsultkunskap

Möjliga mål för DM projekt

Identifikation av grupper (klustrar) i data
vars struktur är ej synlig
Hitta faktorer som orsakar vissa konkreta
händelser
Beräkning av utfallsvariablernas värden
(prediktion)

Alltså finns det två olika “grupper av metoder”:
deskriptiv
Inga nya värden genereras, ingen
fördelning på historisk data och
ny data. Inga svar förväntas på
förhand. Kallas även
UNSUPERVISED LEARNING

prediktiv
Att förutse värden, antingen
numeriska eller kategoriska.
“hur mycket säljer vi i maj”
“är kunden en kreditrisk”
Kallas för SUPERVISED
LEARNING

Hur vi jobbar med prediktiv process

En del av gammal dala
(holdout)

validiering

MÅL: FÖRUTSE VÄRDET

C = F(X1,....XN)

Target, värdet vi Indatavariabler,
söker predictors

Funktionen som
dm-verktyget ska
hitta, predictor
function

Tre mest populära tekniker för supervised learning
LLIjär

• Regression
Linjär/icke linjär/logistisk

• Närmsta granne

• Beslutsträd

Linear regression
Enklaste regression har en prediktor och en target:
Y = β_0 + β_1*X

Lutningen och fria termen beräknas inuti datamining-maskinen så att
minstakvadratavvikningar av indata X från en beräknad linje Y(X) är
minimerade.

Faran med linjär regression: Anscombes kvartett
Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar
mycket annat.

Här åter ser vi vikten att man måste

FÖRSTÅ DITT DATA

K-närmsta grannemetoden
Exempel: testdata att klassificera/förutse – är
det en röd triangel eller en blå rektangel?
BRA:
Om k =3 är det en triangel: då är det flest Snabbt och lätta att träna.
trinaglar bland 3 “närmsta grannar” men

Om k =5 är det en rektangel, då det är flest
rektanglar bland 5 närmsta instanser av
historiskt data.
DÅLIGT:
Långsam metod att
skora.

Svårt att definiera vad
”nära” är exakt.

Beslutsträd BRA:

Grafisk Lätta att förstå

representation Relativt snabbt att träna

av ja/nej beslut. Snabb produktionssättning
Skalbara

DÅLIGT:

Kan ej hantera
komplicerade
förhållanden

Fungerar illa om
data saknas

POPULÄRASTE METODER
FÖR UNSUPERVISED
LEARNING

CLUSTERING

ASSOCIATION RULES

clustering
Poster grupperas tillsammans.
Exempel: sortera tvätt. 60 färg
90 vitt bomull
handtvätt
Hur tvättar man vit skjorta med röda ränder?

Definition

Clustering can be considered the most important unsupervised
learning technique; so, as every other problem of this kind, it
deals with finding a structure in a collection of unlabeled data.


Clustering is “the process of organizing objects into groups
whose members are similar in some way”.


A cluster is therefore a collection of objects which are “similar”
between them and are “dissimilar” to the objects belonging to
other clusters.

In this case we easily identify the 4 clusters
into which the data can be divided; the
similarity criterion is distance: two or more
objects belong to the same cluster if they are
“close” according to a given distance. This is
called distance-based clustering.

Associationsregler
Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan
utvalda värden av kategoriska variabler i stora databaser(filer,tabeller).

Basket analysis
Det som undersöks är t.ex. följdköp: varan
(varor) som köps efter det givna köpet.

Tomatsås => Pasta
Chips => Cola

Eller (Amazon, skrämmande):

Vi tar ett litet exempel. Lanthandel, transaktionsdata:

För att kunna välja intressanta TransID Mjölk Bröd Smör Öl
associationer inför vi några mätvärden:

1.Stöd (support), dvs hur ofta itemset
intraffar.
1 1 1 0 0
{ MJÖLK; BRÖD} inträffar 2 gånger av
fem, alltså är 2 0 0 1 0
supp{MJÖK;BRÖD} = 2/5. 3 0 0 0 1
supp{MJÖLK;BRÖD;SMÖR} =1/5
4 1 1 1 0
2.Konfidens. conf(X=>Y) definieras som
supp(X∪Y)/ supp(X). 5 0 1 0 0
Conf({mjölk, bröd} =>{smör})
=0.2/0.4=0.5
Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och
Andra mätetal kan introduceras. konfidensvärden för de förväntade reglerna får vara och sedan
Vi letar efter regler som har vettigt stöd 1.Hitta alla itemsets med stort stöd
och relativt stor konfidens (evt minsta 2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens.
värde begränsningar på andra mått).

GEORGE BOX,
Berömd statistiker

http://en.wikipedia.org/wiki/George_E._P._Box

“Alla modeller är
felaktiga. Några är
dock änvändbara.”

Data Mining för nybörjare

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Data Mining för nybörjare