SlideShare una empresa de Scribd logo
1 de 23
LA METODOLOGIA STATISTICA
NEL DATA MINING
Dipartimento di Economia, Management e Diritto dell’mpresa
Tesi di Laurea in STATISTICA II
Laureando:
Francesco Tamburini
Relatrice:
Prof.ssa Antonella Massari
Anno accademico: 2015/2016
Il Data Mining Analisi statistica e Data mining sono al primo posto per le top skills
2016 più cercate in Italia secondo Linkedin, e al secondo posto in
moltissimi Paesi sviluppati e non (secondo anche nella classifica
globale). Nei primi nove mesi del 2016 in Italia le richieste di
specialisti nel settore sono aumentate del 137%.
Ma in cosa consiste il Data Mining?
Al Data Mining viene spesso affiancato il concetto di Knowledge
Discovery (KD): Il data mining è l'insieme di tecniche e metodologie
che hanno per oggetto l'estrazione di un sapere o di una
conoscenza a partire da grandi quantità di dati, in ambito aziendale
vengono considerate due classi principali di iniziative: quelle
orientate a supportare i processi interni, che permettono di
lavorare su informazioni più complete e di maggiore qualità, quelle
orientate in modo esplicito a cambiare il modo di relazionarsi con i
clienti.
Il Data Mining “Data mining is the process of selection, exploration, and
modelling of large quantities of data to discover regularities or
relations that are at first unknown with the aim of obtaining
clear and useful results for the owner of the database.”
DATABASE
TECHNOLOGY
STATISTICS
PATTERN
RECOGNITION
OTHER
DISCIPLINES
VISUALIZATIO
N
ALGORITHM
MACHINE
LEARNING
Traducendo
letteralmente il
termine MiningMining, esso
deriva da to mine,
ovvero estrarre risorse
preziose dai numerosi
dati a disposizione.
DATA
MINING
Il Data Mining
DATA WAREHOUSE e BI:
Data WareHouse può essere definito
come il database di tipo decisionale, il
deposito centralizzato dei dati, che viene
interrogato per intervenire sul business
dell’azienda.
Il rapporto tra Data Warehouse e Data
Mining è un rapporto molto stretto, uno ha
necessità dell’altro per sviluppare a pieno
le proprie funzioni.
Business Intelligence è un termine
abbastanza ampio, che comprende tutti i
modelli, metodi e processi per raccogliere,
conservare e trasformare opportunamente
i dati di un'azienda, per presentarli in una
forma semplice e flessibile, in modo che
siano di supporto alle decisioni aziendali.
I Pilastri del Data Mining
I compiti del DM possono
sintetizzarsi in:
-Classificazione
-Stima
-Previsione
-Raggruppamento per
affinità o regole di
associazione
-Clustering
-Descrizione e
visualizzazione
Il Data Mining fa largo uso di tecniche statistiche per raggiungere il
suo scopo.
Esempi di queste tecniche sono l'analisi dei cluster, gli alberi
decisionali e le reti neurali.
I Pilastri del Data Mining
Le tecniche di data mining che si avvalgono del metodo
statistico sono fondamentali e varie: bisogna
comprendere quale sia la più indicata per il relativo
problema di business.
Metodi predittivi
Anche detti metodi supervisionati
(supervised) o diretti, hanno come
obiettivo trovare relazioni tra feature e
target, al fine di identificare relazioni di
classificazione o predizione. Nel dataset
utilizzato è sempre presente un target.
Tra le tecniche: le reti neurali e gli alberi
decisionali.
Metodi descrittivi
Anche detti metodi non supervisionati
(unsupervised) o indiretti, mirano a
raggruppare i dati sulla base di relazioni
non note a priori o note con un’analisi
esplorativa. Non esiste una variabile target
usata per la descrizione e l’individuazione
di segmenti.
Tra le tecniche c’è il clustering.
Rilevazione dei Cluster
 Cluster: gruppo di
elementi omogenei in un
insieme di dati
 Tecnica:: K-MeansK-Means
 “Means” indica la media
statistica.
I componenti dei
cluster (record di un
database) hanno una
localizzazione:
per formare dei
cluster, ai record
vengono assegnate
coordinate in un
determinato “spazio
record”.
Lo spazio ha tante
dimensioni quanti sono
i campi nel record.
Rilevazione dei Cluster
L’algoritmo è di tipo iterativo:
1.1. Scegliere un valore di K, il numero di cluster
da generare.
2.2. Scegliere in modo casuale k osservazioni nel
dataset.
- Questi saranno i centri dei cluster, i centroidi.
3. Collocare ogni altra osservazione nel cluster
con il centro più vicino ad esso.
4.4. Utilizzare le osservazioni in ogni cluster per
calcolarne il nuovo centro.
55. Se i cluster non si sono modificati, allora si
termina il processo di clustering, altrimenti si
ripete il processo fino al raggiungimento di
nuovi cluster.
Esempio di clustering
bidimensionale
Rilevazione dei Cluster
CRITICITÀ
A meno che non esista a priori un motivo per sospettare
l’esistenza di un certo numero di cluster, l’analista vorrà
probabilmente sperimentare diversi valori di K.
In genere, la scelta ricade sull’analisi che meglio delle altre
mantiene la distanza minima tra i componenti dello stesso cluster
e massima tra componenti di cluster adiacenti.
Fondamentale per analizzare la bontà dei cluster k-means è
l’utilizzo dello scarto quadratico medio.
I cluster generati, una volta creati, devono esser interpretati
dall’utente.
Questa tecnica può presentare problemi quando i cluster hanno
differenti:
dimensioni, densità, forma non globulare e quando i dati
presentano molti outliers.
Alberi Decisionali
Gli alberi decisionali sono uno strumento di data mining
incredibilmente versatile, con molteplici aspetti e funzionalità.
In generale possiamo suddividere gli alberi decisionali in due
grandi categorie:
Alberi di Classificazione:
Alberi di decisione usati per predire variabili
categoriali (il nuovo cliente della
compagnia di assicurazione è un potenziale
cliente a rischio o no?).
In questo caso l’albero di classificazione
fornisce la probabilità della classe, cioè il
livello di confidenza di appartenenza ad una
classe.
Alberi di Regressione:
Stimano il valore di una variabile target che
assume valori numerici (variabile
quantitativa). Nel caso reale in cui le
caratteristiche analizzate sono grandezze
statistiche,
non si parla di creare un albero di
classificazione, ma più propriamente di
costruire un albero di
regressione.
Differenze che non comportano modifiche dal punto di vista strutturale.
Alberi Decisionali
Il processo di costruzione di
un albero decisionale si basa
su un partizionamento
ricorsivo: un processo
iterativo di divisione dei dati
in partizioni destinate ad
essere a loro volta suddivise
in altre sotto-partizioni.
Ogni path (cammino) dalla
radice fino alla foglia del
decision tree è classificabile
come regola.
Età < 23
RISCHIO
ALTO
Tipo di
autoveicolo
RISCHIO
ALTO
RISCHIO
BASSO
RISCHIO
BASSO
Vero
Falso
Sportiva
Autocarro
Familiare
Radice
Ramo
Nodo
Foglia
Alberi Decisionali
Le regole d’arresto della procedura rappresentano
l’insieme di criteri che determinano quando un nodo
debba essere dichiarato terminale e quindi non più
partizionabile in ulteriori nodi figli:
Ad esempio quando si definisce una soglia massima
di nodi, o quando il grado di impurità è al di sotto di
una soglia prefissata.
L’albero completo non è sempre quello che meglio di
altri classifica un nuovo set di record.
Il problema dell’overfitting, cioè sovradattamento
del modello.
Nasce così il concetto di pruning, cioè sfoltire
l’albero di foglie e rami per migliorare le prestazioni
dell’albero decisionale.
Reti Neurali
Le reti neurali dal punto di vista del DM non sono altro che
un metodo per applicare un modello a dati storici al fine di
poter ricavare classificazioni o previsioni.
Una rete neurale, “ignorante” in una fase iniziale, attraverso
un processo di “training” (apprendimento), si trasforma in
un modello di dipendenze tra variabili descrittive così da
prevederne il comportamento.
Le reti neurali sono tipicamente organizzate in strati (layers)
e gli strati sono costituiti da un numero di “nodi”
interconnessi, ciascuno dei quali contiene una “funzione di
attivazione”.
La funzione di attivazione è composta da una funzione di
combinazione e una di trasferimento.
Reti a propagazione diretta sono dette Feed Forward, dove i
nodi output sono calcolati in base ai nodi di input e i set
iniziale di pesi: le connessione tra le unità non formano cicli
ricorrenti.
Reti Neurali
output
input
Ogni unità di input è connessa ad una di output da un peso (Wxy).
Gli input vengono moltiplicati con dei pesi di connessione Wxy, sommati
i valori ottenuti, si applica la funzione di attivazione associata a quel
nodo e l’output ottenuto si trasferisce al nodo o ai nodi del successivo
strato.
Le funzioni di attivazioni sono composte da funzione di combinazione e
di trasferimento: la prima è la sommatoria pesata degli input, mentre la
seconda può essere sigmoide (MLP) o gaussiana (RBF). Le MLP e le reti
Radial Basis sono approssimatori universali: sono in grado teoricamente
di calcolare per approssimazione qualsiasi funzione continua
Funzione di attivazione
Reti Neurali
Tecnica della Backpropagation (propagazione all’indietro degli errori):
calcola l’ errore per ogni nodo di output e per ogni nodo interno in
modo tale che gli errori riscontrati vengano usati dall’algoritmo per
aggiustare il peso allo scopo di ridurre l’errore totale in maniera
progressiva.
È importante specificare che una rete che adatti perfettamente i dati
del training set non è detto che si comporti bene anche per altri
dataset in generale e per il test set in particolare (overfitting).
La caratteristica principale della rete neurale è di essere una black box,
ovvero una scatola nera che, se utilizzata con criterio, fornisce dei
risultati, ma della quale non si conoscono i meccanismi matematici
interni. La rete “impara” a fornire risposte appropriate agli stimoli di
ingresso modificando le caratteristiche delle connessioni sinaptiche (tra
unità) tramite delle regole di apprendimento. Queste ultime vengono
“insegnate” letteralmente alla rete dall’operatore tramite la
somministrazione di dati in entrata.
Il ruolo del Data
Scientist
È nata solo negli ultimi anni
la figura del data scientist,
figura composita,
multiforme, che raggruppa
in sé molteplici competenze,
che può avere diversi profili:
1. Advanced Business
Intelligence (BI) Specialist
2. Advanced Quantitative
Analyst
3. Advanced Developer
4. Advanced Business Data
Analyst
Data Mining in azienda
Come la figura del Data Scientist deve avere una
conoscenza trasversale, così l’ambito di applicazione delle
tecnologie relative al Data Mining può coprire innumerevoli
ambiti:
MARKETING:
Segmentazione della
clientela,
market basket analysis;
PROJECT MANAGEMENT:
Controllo della qualità e
gestione dei processi
produttivi;
SETTORE BANCARIO:
Analisi del rischio del
credito;
SETTORE
ASSICURATIVO:
Previsione dei sinistri,
customer retention.
Questi sono solo alcuni dei settori in cui vi è un utilizzo di tecniche di
DM.
Il Data Mining consente all’azienda di basarsi su quanto accaduto in
passato per avanzare previsioni sul futuro: CRM, fidelizzazione dei
Business Intelligence e Big Data in Italia
La Business Intelligence e la Big Data Analytics costituiscono due
importantissimi strumenti che, prima l’una e poi l’altra, sono negli
ultimi anni emersi con prepotenza nel mercato globale.
BUSSINESS INTELLIGENCE:
La Business Intelligence fa largo uso della
statistica descrittiva, analizzando dati con
un’alta densità di informazioni per ottenere
misurazioni (somma, medie, ecc), rilevare
tendenze...
Utilizza dunque dataset di limitate
dimensioni, dati puliti e modelli semplici.
BIG DATA ANALYTICS:
Si basa su tecniche di statistica inferenziale
per dedurre leggi (effetti causali, relazioni non
lineari) studiando grandi insieme di dati,
prevedendo risultati e comportamenti,
attraverso l’interrelazione di dati provenienti
potenzialmente da fonti eterogenee, quindi
anche con dati non strutturati.
Non è comunque giusto affermare che le due tecnologie siano distinte
l’una dall’altra o che la Big Data Analytics sostituisca quella che prima
era la Business Intelligence o possa sostituire i database tradizionali!
Quello a cui si punta (e si sta puntando) è l’integrazione delle
tecnologie riguardanti il mondo Big Data.
La situazione in Italia
In questo scenario, l’Osservatorio Big Data Analytics & Business
Intelligence monitora il valore strategico che le metodologie di Analytics
svolgono nelle imprese in Italia, stimandone il mercato e mettendo in
luce i potenziali vantaggi, per grandi imprese e PMI.
Sono state 952 le imprese prese in considerazione per il survey sul finire
del 2016, di cui 149 di grandi dimensioni (più di 249 dipendenti).
Si può subito notare il rilevante aumento degli investimenti del 15%,
passato dai €790 milioni del 2015 a €905 milioni, con il campo della Big
Data in forte crescita rispetto all’anno precedente, +44%.
La situazione in Italia
Investimenti che solo in
parte hanno riguardato le
PMI, infatti ben l’87% degli
investimenti nelle Analytics
è stato compiuto da grandi
imprese.
Ingenti investimenti sono
stati realizzati da imprese
assicurative, con una
crescita superiore del 25%
rispetto all’anno scorso.
Maggior impiego di questi
strumenti anche nelle
aziende bancarie,
manifatturiere e di utility.
Grande distribuzione, sanità
e PA invece ancora a
rilento.
Da questi dati emerge
che l’adozione di sistemi
di Analytics è una pratica
in via di consolidamento,
soprattutto per le grandi
aziende, ma secondo
l’Osservatorio, solo l’8%
di queste si può definire a
buon punto nel processo
di trasformazione in “Big
Data Enterprise”.
Il 26% è allo stadio
iniziale, mentre il 66% è
in posizione intermedia,
con governance già in
fase avanzata per alcuni
aspetti e ancora da
avviare per altri.
Conclusioni
Il mondo del Data Mining è un campo di studi vastissimo, in continua
evoluzione, travalica i confini della statistica e dell’economia.
Il data scientist, con le sue capacità di analizzare e interpretare dati, è
ormai una figura professionale centrale e quindi richiesta nel mondo del
lavoro. Su una cosa tutti gli analisti concordano: uno dei problemi dei
prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante
domanda di data scientist.
L’impresa in Italia si basa su aziende di piccole e medie dimensioni, che
stentano ancora ad approcciarsi a questo moderno sistema di business.
Lo sviluppo di tali metodi in ambito aziendale è in fase di evoluzione:
ingenti investimenti sono stati recentemente effettuati, ma
rappresentano ancora una piccola quota di quello che le imprese
dovrebbero fare per raggiungere livelli di efficienza nel gestire le
informazioni.
GRAZIE PER L’ATTENZIONEGRAZIE PER L’ATTENZIONE
«You can have data without information, but you cannot«You can have data without information, but you cannot
have information without data»have information without data»
Bibliografia Sitografia
 M.J.A. Berry e G.S. Linoff, Data mining, Apogeo 2001
 E. Coffetti e P. Pasini, Data scientist focus and trend,
Numbers, 2012
 U. Fayaad. Proceedings of the First Int. Conf. on Knowledge
Discovery and Data Mining. Montreal, Canada, 1995.
 A.K. Jain e R.C. Dubes, Algorithms for Clustering Data,
Prentice Hall, 1988
 Pilot Software, An Introduction to Data Mining, Whitepaper.
Pilot Software. 1998.
 R. Kimball e M. Ross. The Data Warehouse Toolkit (2nd
edition). John Wiley & Sons, 2002.
 Andrew R. Konicek, Jonathan Lefmana and Christopher
Szakal, Analyst, 2012
 Tom M. Mitchell, Machine Learning, McGraw-Hill, 1997
 P. Pasini e A. Perego, BI e decision making: un connubio alla
portata di tutti, Sistemi & Impresa, n. 4, 2011
 D. Bhardwaj e D. Kumar, Rise of Data Mining: Current and
Future Application Areas, IJCSI vol. 8, 2011
 www.ilsole24ore.com/
 www.infodata.ilsole24ore.com/
 www.wikipedia.it/
 www.ninjamarketing.it/
 www.osservatori.net/
 www.linkedin.com/
 www.onesecond.designly.com/
 www.elsevier.com/locate/eng/
 www.apogeonline.com/
 www.techopedia.com/
 https://andrea.burattin.net/
 www.egon.it/
 www.statsblogs.com/
 www.sdabocconi.it/

Más contenido relacionado

Similar a La metodologia statistica nel data mining

L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...Tiziana Capozzoli
 
Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Miningvaluccia84
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesDavidePanarella
 
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Stefano Saladino
 
Come sfruttare il potere dei dati: alla scoperta dell’Analisi Predittiva
Come sfruttare il potere dei dati: alla scoperta dell’Analisi PredittivaCome sfruttare il potere dei dati: alla scoperta dell’Analisi Predittiva
Come sfruttare il potere dei dati: alla scoperta dell’Analisi PredittivaKEA s.r.l.
 
Blockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaBlockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaAlessandro Greppi
 
Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaGiulio Lazzaro
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conferenceFelice Russo
 
I principi base dell’intelligenza artificiale spiegata ai non tecnici
I principi base dell’intelligenza artificiale spiegata ai non tecnici I principi base dell’intelligenza artificiale spiegata ai non tecnici
I principi base dell’intelligenza artificiale spiegata ai non tecnici KEA s.r.l.
 
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali4a Data Mining e motori computazionali
4a Data Mining e motori computazionaliMau-Messenger
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...Leonardo Di Donato
 
Machine learning: a cosa servono
Machine learning:   a cosa servonoMachine learning:   a cosa servono
Machine learning: a cosa servonoMario Gentili
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligenceAndrea Mecchia
 
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...Dario Crosera
 
Articolo qualita 3_2018_nicola_mezzetti
Articolo qualita 3_2018_nicola_mezzettiArticolo qualita 3_2018_nicola_mezzetti
Articolo qualita 3_2018_nicola_mezzettiNicola Mezzetti
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”StefanoChen1
 
JugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learningJugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learningOnofrio Panzarino
 

Similar a La metodologia statistica nel data mining (20)

L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
L'applicazione delle tecniche di data mining alla personalizzazione dei siti ...
 
Seminario Di Data Mining
Seminario Di Data MiningSeminario Di Data Mining
Seminario Di Data Mining
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
 
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
 
Come sfruttare il potere dei dati: alla scoperta dell’Analisi Predittiva
Come sfruttare il potere dei dati: alla scoperta dell’Analisi PredittivaCome sfruttare il potere dei dati: alla scoperta dell’Analisi Predittiva
Come sfruttare il potere dei dati: alla scoperta dell’Analisi Predittiva
 
Blockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaBlockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanza
 
Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla pratica
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conference
 
I principi base dell’intelligenza artificiale spiegata ai non tecnici
I principi base dell’intelligenza artificiale spiegata ai non tecnici I principi base dell’intelligenza artificiale spiegata ai non tecnici
I principi base dell’intelligenza artificiale spiegata ai non tecnici
 
Database Data Aggregator
Database Data AggregatorDatabase Data Aggregator
Database Data Aggregator
 
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali4a Data Mining e motori computazionali
4a Data Mining e motori computazionali
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
 
Machine learning: a cosa servono
Machine learning:   a cosa servonoMachine learning:   a cosa servono
Machine learning: a cosa servono
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligence
 
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
 
Articolo qualita 3_2018_nicola_mezzetti
Articolo qualita 3_2018_nicola_mezzettiArticolo qualita 3_2018_nicola_mezzetti
Articolo qualita 3_2018_nicola_mezzetti
 
Descrizione di NO-SQL
Descrizione di NO-SQLDescrizione di NO-SQL
Descrizione di NO-SQL
 
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
Extended Summary of “Exploring the Evolution of GANs through Quality Diversity”
 
JugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learningJugMarche: Machine learning: usi pratici di supervised learning
JugMarche: Machine learning: usi pratici di supervised learning
 
Presentazione ufficiale
Presentazione ufficialePresentazione ufficiale
Presentazione ufficiale
 

La metodologia statistica nel data mining

  • 1. LA METODOLOGIA STATISTICA NEL DATA MINING Dipartimento di Economia, Management e Diritto dell’mpresa Tesi di Laurea in STATISTICA II Laureando: Francesco Tamburini Relatrice: Prof.ssa Antonella Massari Anno accademico: 2015/2016
  • 2. Il Data Mining Analisi statistica e Data mining sono al primo posto per le top skills 2016 più cercate in Italia secondo Linkedin, e al secondo posto in moltissimi Paesi sviluppati e non (secondo anche nella classifica globale). Nei primi nove mesi del 2016 in Italia le richieste di specialisti nel settore sono aumentate del 137%. Ma in cosa consiste il Data Mining? Al Data Mining viene spesso affiancato il concetto di Knowledge Discovery (KD): Il data mining è l'insieme di tecniche e metodologie che hanno per oggetto l'estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati, in ambito aziendale vengono considerate due classi principali di iniziative: quelle orientate a supportare i processi interni, che permettono di lavorare su informazioni più complete e di maggiore qualità, quelle orientate in modo esplicito a cambiare il modo di relazionarsi con i clienti.
  • 3. Il Data Mining “Data mining is the process of selection, exploration, and modelling of large quantities of data to discover regularities or relations that are at first unknown with the aim of obtaining clear and useful results for the owner of the database.” DATABASE TECHNOLOGY STATISTICS PATTERN RECOGNITION OTHER DISCIPLINES VISUALIZATIO N ALGORITHM MACHINE LEARNING Traducendo letteralmente il termine MiningMining, esso deriva da to mine, ovvero estrarre risorse preziose dai numerosi dati a disposizione. DATA MINING
  • 4. Il Data Mining DATA WAREHOUSE e BI: Data WareHouse può essere definito come il database di tipo decisionale, il deposito centralizzato dei dati, che viene interrogato per intervenire sul business dell’azienda. Il rapporto tra Data Warehouse e Data Mining è un rapporto molto stretto, uno ha necessità dell’altro per sviluppare a pieno le proprie funzioni. Business Intelligence è un termine abbastanza ampio, che comprende tutti i modelli, metodi e processi per raccogliere, conservare e trasformare opportunamente i dati di un'azienda, per presentarli in una forma semplice e flessibile, in modo che siano di supporto alle decisioni aziendali.
  • 5. I Pilastri del Data Mining I compiti del DM possono sintetizzarsi in: -Classificazione -Stima -Previsione -Raggruppamento per affinità o regole di associazione -Clustering -Descrizione e visualizzazione Il Data Mining fa largo uso di tecniche statistiche per raggiungere il suo scopo. Esempi di queste tecniche sono l'analisi dei cluster, gli alberi decisionali e le reti neurali.
  • 6. I Pilastri del Data Mining Le tecniche di data mining che si avvalgono del metodo statistico sono fondamentali e varie: bisogna comprendere quale sia la più indicata per il relativo problema di business. Metodi predittivi Anche detti metodi supervisionati (supervised) o diretti, hanno come obiettivo trovare relazioni tra feature e target, al fine di identificare relazioni di classificazione o predizione. Nel dataset utilizzato è sempre presente un target. Tra le tecniche: le reti neurali e gli alberi decisionali. Metodi descrittivi Anche detti metodi non supervisionati (unsupervised) o indiretti, mirano a raggruppare i dati sulla base di relazioni non note a priori o note con un’analisi esplorativa. Non esiste una variabile target usata per la descrizione e l’individuazione di segmenti. Tra le tecniche c’è il clustering.
  • 7. Rilevazione dei Cluster  Cluster: gruppo di elementi omogenei in un insieme di dati  Tecnica:: K-MeansK-Means  “Means” indica la media statistica. I componenti dei cluster (record di un database) hanno una localizzazione: per formare dei cluster, ai record vengono assegnate coordinate in un determinato “spazio record”. Lo spazio ha tante dimensioni quanti sono i campi nel record.
  • 8. Rilevazione dei Cluster L’algoritmo è di tipo iterativo: 1.1. Scegliere un valore di K, il numero di cluster da generare. 2.2. Scegliere in modo casuale k osservazioni nel dataset. - Questi saranno i centri dei cluster, i centroidi. 3. Collocare ogni altra osservazione nel cluster con il centro più vicino ad esso. 4.4. Utilizzare le osservazioni in ogni cluster per calcolarne il nuovo centro. 55. Se i cluster non si sono modificati, allora si termina il processo di clustering, altrimenti si ripete il processo fino al raggiungimento di nuovi cluster. Esempio di clustering bidimensionale
  • 9. Rilevazione dei Cluster CRITICITÀ A meno che non esista a priori un motivo per sospettare l’esistenza di un certo numero di cluster, l’analista vorrà probabilmente sperimentare diversi valori di K. In genere, la scelta ricade sull’analisi che meglio delle altre mantiene la distanza minima tra i componenti dello stesso cluster e massima tra componenti di cluster adiacenti. Fondamentale per analizzare la bontà dei cluster k-means è l’utilizzo dello scarto quadratico medio. I cluster generati, una volta creati, devono esser interpretati dall’utente. Questa tecnica può presentare problemi quando i cluster hanno differenti: dimensioni, densità, forma non globulare e quando i dati presentano molti outliers.
  • 10. Alberi Decisionali Gli alberi decisionali sono uno strumento di data mining incredibilmente versatile, con molteplici aspetti e funzionalità. In generale possiamo suddividere gli alberi decisionali in due grandi categorie: Alberi di Classificazione: Alberi di decisione usati per predire variabili categoriali (il nuovo cliente della compagnia di assicurazione è un potenziale cliente a rischio o no?). In questo caso l’albero di classificazione fornisce la probabilità della classe, cioè il livello di confidenza di appartenenza ad una classe. Alberi di Regressione: Stimano il valore di una variabile target che assume valori numerici (variabile quantitativa). Nel caso reale in cui le caratteristiche analizzate sono grandezze statistiche, non si parla di creare un albero di classificazione, ma più propriamente di costruire un albero di regressione. Differenze che non comportano modifiche dal punto di vista strutturale.
  • 11. Alberi Decisionali Il processo di costruzione di un albero decisionale si basa su un partizionamento ricorsivo: un processo iterativo di divisione dei dati in partizioni destinate ad essere a loro volta suddivise in altre sotto-partizioni. Ogni path (cammino) dalla radice fino alla foglia del decision tree è classificabile come regola. Età < 23 RISCHIO ALTO Tipo di autoveicolo RISCHIO ALTO RISCHIO BASSO RISCHIO BASSO Vero Falso Sportiva Autocarro Familiare Radice Ramo Nodo Foglia
  • 12. Alberi Decisionali Le regole d’arresto della procedura rappresentano l’insieme di criteri che determinano quando un nodo debba essere dichiarato terminale e quindi non più partizionabile in ulteriori nodi figli: Ad esempio quando si definisce una soglia massima di nodi, o quando il grado di impurità è al di sotto di una soglia prefissata. L’albero completo non è sempre quello che meglio di altri classifica un nuovo set di record. Il problema dell’overfitting, cioè sovradattamento del modello. Nasce così il concetto di pruning, cioè sfoltire l’albero di foglie e rami per migliorare le prestazioni dell’albero decisionale.
  • 13. Reti Neurali Le reti neurali dal punto di vista del DM non sono altro che un metodo per applicare un modello a dati storici al fine di poter ricavare classificazioni o previsioni. Una rete neurale, “ignorante” in una fase iniziale, attraverso un processo di “training” (apprendimento), si trasforma in un modello di dipendenze tra variabili descrittive così da prevederne il comportamento. Le reti neurali sono tipicamente organizzate in strati (layers) e gli strati sono costituiti da un numero di “nodi” interconnessi, ciascuno dei quali contiene una “funzione di attivazione”. La funzione di attivazione è composta da una funzione di combinazione e una di trasferimento. Reti a propagazione diretta sono dette Feed Forward, dove i nodi output sono calcolati in base ai nodi di input e i set iniziale di pesi: le connessione tra le unità non formano cicli ricorrenti.
  • 14. Reti Neurali output input Ogni unità di input è connessa ad una di output da un peso (Wxy). Gli input vengono moltiplicati con dei pesi di connessione Wxy, sommati i valori ottenuti, si applica la funzione di attivazione associata a quel nodo e l’output ottenuto si trasferisce al nodo o ai nodi del successivo strato. Le funzioni di attivazioni sono composte da funzione di combinazione e di trasferimento: la prima è la sommatoria pesata degli input, mentre la seconda può essere sigmoide (MLP) o gaussiana (RBF). Le MLP e le reti Radial Basis sono approssimatori universali: sono in grado teoricamente di calcolare per approssimazione qualsiasi funzione continua Funzione di attivazione
  • 15. Reti Neurali Tecnica della Backpropagation (propagazione all’indietro degli errori): calcola l’ errore per ogni nodo di output e per ogni nodo interno in modo tale che gli errori riscontrati vengano usati dall’algoritmo per aggiustare il peso allo scopo di ridurre l’errore totale in maniera progressiva. È importante specificare che una rete che adatti perfettamente i dati del training set non è detto che si comporti bene anche per altri dataset in generale e per il test set in particolare (overfitting). La caratteristica principale della rete neurale è di essere una black box, ovvero una scatola nera che, se utilizzata con criterio, fornisce dei risultati, ma della quale non si conoscono i meccanismi matematici interni. La rete “impara” a fornire risposte appropriate agli stimoli di ingresso modificando le caratteristiche delle connessioni sinaptiche (tra unità) tramite delle regole di apprendimento. Queste ultime vengono “insegnate” letteralmente alla rete dall’operatore tramite la somministrazione di dati in entrata.
  • 16. Il ruolo del Data Scientist È nata solo negli ultimi anni la figura del data scientist, figura composita, multiforme, che raggruppa in sé molteplici competenze, che può avere diversi profili: 1. Advanced Business Intelligence (BI) Specialist 2. Advanced Quantitative Analyst 3. Advanced Developer 4. Advanced Business Data Analyst
  • 17. Data Mining in azienda Come la figura del Data Scientist deve avere una conoscenza trasversale, così l’ambito di applicazione delle tecnologie relative al Data Mining può coprire innumerevoli ambiti: MARKETING: Segmentazione della clientela, market basket analysis; PROJECT MANAGEMENT: Controllo della qualità e gestione dei processi produttivi; SETTORE BANCARIO: Analisi del rischio del credito; SETTORE ASSICURATIVO: Previsione dei sinistri, customer retention. Questi sono solo alcuni dei settori in cui vi è un utilizzo di tecniche di DM. Il Data Mining consente all’azienda di basarsi su quanto accaduto in passato per avanzare previsioni sul futuro: CRM, fidelizzazione dei
  • 18. Business Intelligence e Big Data in Italia La Business Intelligence e la Big Data Analytics costituiscono due importantissimi strumenti che, prima l’una e poi l’altra, sono negli ultimi anni emersi con prepotenza nel mercato globale. BUSSINESS INTELLIGENCE: La Business Intelligence fa largo uso della statistica descrittiva, analizzando dati con un’alta densità di informazioni per ottenere misurazioni (somma, medie, ecc), rilevare tendenze... Utilizza dunque dataset di limitate dimensioni, dati puliti e modelli semplici. BIG DATA ANALYTICS: Si basa su tecniche di statistica inferenziale per dedurre leggi (effetti causali, relazioni non lineari) studiando grandi insieme di dati, prevedendo risultati e comportamenti, attraverso l’interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi anche con dati non strutturati. Non è comunque giusto affermare che le due tecnologie siano distinte l’una dall’altra o che la Big Data Analytics sostituisca quella che prima era la Business Intelligence o possa sostituire i database tradizionali! Quello a cui si punta (e si sta puntando) è l’integrazione delle tecnologie riguardanti il mondo Big Data.
  • 19. La situazione in Italia In questo scenario, l’Osservatorio Big Data Analytics & Business Intelligence monitora il valore strategico che le metodologie di Analytics svolgono nelle imprese in Italia, stimandone il mercato e mettendo in luce i potenziali vantaggi, per grandi imprese e PMI. Sono state 952 le imprese prese in considerazione per il survey sul finire del 2016, di cui 149 di grandi dimensioni (più di 249 dipendenti). Si può subito notare il rilevante aumento degli investimenti del 15%, passato dai €790 milioni del 2015 a €905 milioni, con il campo della Big Data in forte crescita rispetto all’anno precedente, +44%.
  • 20. La situazione in Italia Investimenti che solo in parte hanno riguardato le PMI, infatti ben l’87% degli investimenti nelle Analytics è stato compiuto da grandi imprese. Ingenti investimenti sono stati realizzati da imprese assicurative, con una crescita superiore del 25% rispetto all’anno scorso. Maggior impiego di questi strumenti anche nelle aziende bancarie, manifatturiere e di utility. Grande distribuzione, sanità e PA invece ancora a rilento. Da questi dati emerge che l’adozione di sistemi di Analytics è una pratica in via di consolidamento, soprattutto per le grandi aziende, ma secondo l’Osservatorio, solo l’8% di queste si può definire a buon punto nel processo di trasformazione in “Big Data Enterprise”. Il 26% è allo stadio iniziale, mentre il 66% è in posizione intermedia, con governance già in fase avanzata per alcuni aspetti e ancora da avviare per altri.
  • 21. Conclusioni Il mondo del Data Mining è un campo di studi vastissimo, in continua evoluzione, travalica i confini della statistica e dell’economia. Il data scientist, con le sue capacità di analizzare e interpretare dati, è ormai una figura professionale centrale e quindi richiesta nel mondo del lavoro. Su una cosa tutti gli analisti concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda di data scientist. L’impresa in Italia si basa su aziende di piccole e medie dimensioni, che stentano ancora ad approcciarsi a questo moderno sistema di business. Lo sviluppo di tali metodi in ambito aziendale è in fase di evoluzione: ingenti investimenti sono stati recentemente effettuati, ma rappresentano ancora una piccola quota di quello che le imprese dovrebbero fare per raggiungere livelli di efficienza nel gestire le informazioni.
  • 22. GRAZIE PER L’ATTENZIONEGRAZIE PER L’ATTENZIONE «You can have data without information, but you cannot«You can have data without information, but you cannot have information without data»have information without data»
  • 23. Bibliografia Sitografia  M.J.A. Berry e G.S. Linoff, Data mining, Apogeo 2001  E. Coffetti e P. Pasini, Data scientist focus and trend, Numbers, 2012  U. Fayaad. Proceedings of the First Int. Conf. on Knowledge Discovery and Data Mining. Montreal, Canada, 1995.  A.K. Jain e R.C. Dubes, Algorithms for Clustering Data, Prentice Hall, 1988  Pilot Software, An Introduction to Data Mining, Whitepaper. Pilot Software. 1998.  R. Kimball e M. Ross. The Data Warehouse Toolkit (2nd edition). John Wiley & Sons, 2002.  Andrew R. Konicek, Jonathan Lefmana and Christopher Szakal, Analyst, 2012  Tom M. Mitchell, Machine Learning, McGraw-Hill, 1997  P. Pasini e A. Perego, BI e decision making: un connubio alla portata di tutti, Sistemi & Impresa, n. 4, 2011  D. Bhardwaj e D. Kumar, Rise of Data Mining: Current and Future Application Areas, IJCSI vol. 8, 2011  www.ilsole24ore.com/  www.infodata.ilsole24ore.com/  www.wikipedia.it/  www.ninjamarketing.it/  www.osservatori.net/  www.linkedin.com/  www.onesecond.designly.com/  www.elsevier.com/locate/eng/  www.apogeonline.com/  www.techopedia.com/  https://andrea.burattin.net/  www.egon.it/  www.statsblogs.com/  www.sdabocconi.it/