SlideShare una empresa de Scribd logo
1 de 30
Data Mining/Kunskaputvinning


 Nybörjargenomgång av
   viktigaste koncept
Data mining är en mix:
Exempel på användningsområden
BANK
 Låneerbjudanden
 Kreditrisk
 Misstänkta korttransaktioner

CRM
 Riktad marknadföring
 Churn (kunder som går till
  konkurenten)

MEDICIN
 Troliga sjukdomsförlopp
 Identifiering av nya läkemedel
Data mining är en iterativ
  verksamhetsbaserad process

DATA → FRÅGOR → BEARBETNING →
 SVAR → NYA FRÅGOR → NY DATA

 ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI
CRISP-DM, cross-industry standard for
  processes involving data mining
Crisp-dm detaljerat
Business understanding/data
         understanding
Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan
             skall frågeställningen styras av lönsamhet.

           Analytikern måste ha förståelse för datat han får.

                          Skräckscenario:

                            Försäkringsbolag
 data = statistik över bilkrockar+väderförhållanden+vägförhållanden

Data mining svarar: bilar krockar mest när det är mörkt och blött på
                                vägen
Data preparation/modelling
Data mining sker alltid mot EN
tabell/vy/fil med underliggande
               data.

   Alltså: ETL-processer!
KNOW IT Helikopter bidra med
   mycket konsultkunskap
Typiskt dm-flöde (KNIME)
Möjliga mål för DM projekt

Identifikation av grupper (klustrar) i data
 vars struktur är ej synlig
Hitta faktorer som orsakar vissa konkreta
 händelser
Beräkning av utfallsvariablernas värden
 (prediktion)
Alltså finns det två olika “grupper av metoder”:
      deskriptiv
                          Inga nya värden genereras, ingen
                             fördelning på historisk data och
                             ny data. Inga svar förväntas på
                                  förhand. Kallas även
                              UNSUPERVISED LEARNING




       prediktiv
                            Att förutse värden, antingen
                             numeriska eller kategoriska.
                            “hur mycket säljer vi i maj”
                             “är kunden en kreditrisk”
                             Kallas för SUPERVISED
                                      LEARNING
Hur vi jobbar med prediktiv process

            En del av gammal dala
            (holdout)




                        validiering
MÅL: FÖRUTSE VÄRDET

            C = F(X1,....XN)

Target, värdet vi                      Indatavariabler,
söker                                  predictors


                    Funktionen som
                    dm-verktyget ska
                    hitta, predictor
                    function
Tre mest populära tekniker för supervised learning
     LLIjär




                    • Regression
              Linjär/icke linjär/logistisk

                 • Närmsta granne

                    • Beslutsträd
Linear regression
  Enklaste regression har en prediktor och en target:
                       Y = β_0 + β_1*X

Lutningen och fria termen beräknas inuti datamining-maskinen så att
minstakvadratavvikningar av indata X från en beräknad linje Y(X) är
                           minimerade.
Faran med linjär regression: Anscombes kvartett
Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar
                                                mycket annat.

                                   Här åter ser vi vikten att man måste

                            FÖRSTÅ DITT DATA
K-närmsta grannemetoden
Exempel: testdata att klassificera/förutse – är
det en röd triangel eller en blå rektangel?
                                                  BRA:
Om k =3 är det en triangel: då är det flest       Snabbt och lätta att träna.
trinaglar bland 3 “närmsta grannar” men

Om k =5 är det en rektangel, då det är flest
rektanglar bland 5 närmsta instanser av
historiskt data.
                                                   DÅLIGT:
                                                   Långsam metod att
                                                   skora.

                                                   Svårt att definiera vad
                                                   ”nära” är exakt.
Beslutsträd   BRA:

Grafisk                           Lätta att förstå

representation                    Relativt snabbt att träna

av ja/nej beslut.                 Snabb produktionssättning
                                  Skalbara


                                       DÅLIGT:

                                       Kan ej hantera
                                       komplicerade
                                       förhållanden

                                       Fungerar illa om
                                       data saknas
POPULÄRASTE METODER
  FÖR UNSUPERVISED
      LEARNING

    CLUSTERING


 ASSOCIATION RULES
clustering
Poster grupperas tillsammans.
Exempel: sortera tvätt.     60 färg
                             90 vitt bomull
                             handtvätt
Hur tvättar man vit skjorta med röda ränder?
Definition

    Clustering can be considered the most important unsupervised
    learning technique; so, as every other problem of this kind, it
    deals with finding a structure in a collection of unlabeled data.


    Clustering is “the process of organizing objects into groups
    whose members are similar in some way”.


    A cluster is therefore a collection of objects which are “similar”
    between them and are “dissimilar” to the objects belonging to
    other clusters.
Distance based method
In this case we easily identify the 4 clusters
into which the data can be divided; the
similarity criterion is distance: two or more
objects belong to the same cluster if they are
“close” according to a given distance. This is
called distance-based clustering.
Associationsregler
Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan
utvalda värden av kategoriska variabler i stora databaser(filer,tabeller).




                               Basket analysis
                    Det som undersöks är t.ex. följdköp: varan
                        (varor) som köps efter det givna köpet.

                                  Tomatsås => Pasta
                                    Chips => Cola

                            Eller (Amazon, skrämmande):
Vi tar ett litet exempel. Lanthandel, transaktionsdata:


    För att kunna välja intressanta          TransID         Mjölk           Bröd            Smör            Öl
associationer inför vi några mätvärden:

1.Stöd (support), dvs hur ofta itemset
intraffar.
                                             1               1               1               0               0
 { MJÖLK; BRÖD} inträffar 2 gånger av
fem, alltså är                               2               0               0               1               0
supp{MJÖK;BRÖD} = 2/5.                       3               0               0               0               1
  supp{MJÖLK;BRÖD;SMÖR} =1/5
                                             4               1               1               1               0
2.Konfidens. conf(X=>Y) definieras som
supp(X∪Y)/ supp(X).                          5               0               1               0               0
Conf({mjölk, bröd} =>{smör})
=0.2/0.4=0.5
                                             Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och
Andra mätetal kan introduceras.              konfidensvärden för de förväntade reglerna får vara och sedan
Vi letar efter regler som har vettigt stöd   1.Hitta alla itemsets med stort stöd
 och relativt stor konfidens (evt minsta     2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens.
värde begränsningar på andra mått).
GEORGE BOX,
Berömd statistiker

http://en.wikipedia.org/wiki/George_E._P._Box




 “Alla modeller är
 felaktiga. Några är
 dock änvändbara.”

Más contenido relacionado

Destacado

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Destacado (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

Data Mining för nybörjare

  • 2. Data mining är en mix:
  • 3. Exempel på användningsområden BANK  Låneerbjudanden  Kreditrisk  Misstänkta korttransaktioner CRM  Riktad marknadföring  Churn (kunder som går till konkurenten) MEDICIN  Troliga sjukdomsförlopp  Identifiering av nya läkemedel
  • 4. Data mining är en iterativ verksamhetsbaserad process DATA → FRÅGOR → BEARBETNING → SVAR → NYA FRÅGOR → NY DATA ALLTSÅ: BEHOV AV INDUSTRIELL STANDARD/METODOLOGI
  • 5. CRISP-DM, cross-industry standard for processes involving data mining
  • 7. Business understanding/data understanding Verksamheten måste ha klart för sig vad de vill veta/uppnå. I slutändan skall frågeställningen styras av lönsamhet. Analytikern måste ha förståelse för datat han får. Skräckscenario: Försäkringsbolag data = statistik över bilkrockar+väderförhållanden+vägförhållanden Data mining svarar: bilar krockar mest när det är mörkt och blött på vägen
  • 8.
  • 9. Data preparation/modelling Data mining sker alltid mot EN tabell/vy/fil med underliggande data. Alltså: ETL-processer! KNOW IT Helikopter bidra med mycket konsultkunskap
  • 11. Möjliga mål för DM projekt Identifikation av grupper (klustrar) i data vars struktur är ej synlig Hitta faktorer som orsakar vissa konkreta händelser Beräkning av utfallsvariablernas värden (prediktion)
  • 12. Alltså finns det två olika “grupper av metoder”: deskriptiv Inga nya värden genereras, ingen fördelning på historisk data och ny data. Inga svar förväntas på förhand. Kallas även UNSUPERVISED LEARNING prediktiv Att förutse värden, antingen numeriska eller kategoriska. “hur mycket säljer vi i maj” “är kunden en kreditrisk” Kallas för SUPERVISED LEARNING
  • 13. Hur vi jobbar med prediktiv process En del av gammal dala (holdout) validiering
  • 14. MÅL: FÖRUTSE VÄRDET C = F(X1,....XN) Target, värdet vi Indatavariabler, söker predictors Funktionen som dm-verktyget ska hitta, predictor function
  • 15. Tre mest populära tekniker för supervised learning LLIjär • Regression Linjär/icke linjär/logistisk • Närmsta granne • Beslutsträd
  • 16. Linear regression Enklaste regression har en prediktor och en target: Y = β_0 + β_1*X Lutningen och fria termen beräknas inuti datamining-maskinen så att minstakvadratavvikningar av indata X från en beräknad linje Y(X) är minimerade.
  • 17. Faran med linjär regression: Anscombes kvartett Statistiskt identiska datamängder, där linjär regression ger exakt samma svar, men visualiseringen avslöjar mycket annat. Här åter ser vi vikten att man måste FÖRSTÅ DITT DATA
  • 18. K-närmsta grannemetoden Exempel: testdata att klassificera/förutse – är det en röd triangel eller en blå rektangel? BRA: Om k =3 är det en triangel: då är det flest Snabbt och lätta att träna. trinaglar bland 3 “närmsta grannar” men Om k =5 är det en rektangel, då det är flest rektanglar bland 5 närmsta instanser av historiskt data. DÅLIGT: Långsam metod att skora. Svårt att definiera vad ”nära” är exakt.
  • 19. Beslutsträd BRA: Grafisk Lätta att förstå representation Relativt snabbt att träna av ja/nej beslut. Snabb produktionssättning Skalbara DÅLIGT: Kan ej hantera komplicerade förhållanden Fungerar illa om data saknas
  • 20. POPULÄRASTE METODER FÖR UNSUPERVISED LEARNING CLUSTERING ASSOCIATION RULES
  • 21. clustering Poster grupperas tillsammans. Exempel: sortera tvätt. 60 färg 90 vitt bomull handtvätt Hur tvättar man vit skjorta med röda ränder?
  • 22. Definition  Clustering can be considered the most important unsupervised learning technique; so, as every other problem of this kind, it deals with finding a structure in a collection of unlabeled data.  Clustering is “the process of organizing objects into groups whose members are similar in some way”.  A cluster is therefore a collection of objects which are “similar” between them and are “dissimilar” to the objects belonging to other clusters.
  • 23.
  • 24.
  • 26. In this case we easily identify the 4 clusters into which the data can be divided; the similarity criterion is distance: two or more objects belong to the same cluster if they are “close” according to a given distance. This is called distance-based clustering.
  • 27. Associationsregler Upptäck relationer (“om A då B”) eller associationer (“A och B oftast tillsammans”) mellan utvalda värden av kategoriska variabler i stora databaser(filer,tabeller). Basket analysis Det som undersöks är t.ex. följdköp: varan (varor) som köps efter det givna köpet. Tomatsås => Pasta Chips => Cola Eller (Amazon, skrämmande):
  • 28. Vi tar ett litet exempel. Lanthandel, transaktionsdata: För att kunna välja intressanta TransID Mjölk Bröd Smör Öl associationer inför vi några mätvärden: 1.Stöd (support), dvs hur ofta itemset intraffar. 1 1 1 0 0 { MJÖLK; BRÖD} inträffar 2 gånger av fem, alltså är 2 0 0 1 0 supp{MJÖK;BRÖD} = 2/5. 3 0 0 0 1 supp{MJÖLK;BRÖD;SMÖR} =1/5 4 1 1 1 0 2.Konfidens. conf(X=>Y) definieras som supp(X∪Y)/ supp(X). 5 0 1 0 0 Conf({mjölk, bröd} =>{smör}) =0.2/0.4=0.5 Algoritmen går ut på att man på förhand bestämmer sig för hur små stöd- och Andra mätetal kan introduceras. konfidensvärden för de förväntade reglerna får vara och sedan Vi letar efter regler som har vettigt stöd 1.Hitta alla itemsets med stort stöd och relativt stor konfidens (evt minsta 2.Forma regler mha dessa itemsets utifrån begränsningen på konfidens. värde begränsningar på andra mått).
  • 29.
  • 30. GEORGE BOX, Berömd statistiker http://en.wikipedia.org/wiki/George_E._P._Box “Alla modeller är felaktiga. Några är dock änvändbara.”