Tesi di laurea triennale
Esplorare le tecniche statistiche nel data mining, comprenderne in linee generali le modalità di utilizzo in ambito aziendale ed analizzarne la diffusione in Italia.
1. LA METODOLOGIA STATISTICA
NEL DATA MINING
Dipartimento di Economia, Management e Diritto dell’mpresa
Tesi di Laurea in STATISTICA II
Laureando:
Francesco Tamburini
Relatrice:
Prof.ssa Antonella Massari
Anno accademico: 2015/2016
2. Il Data Mining Analisi statistica e Data mining sono al primo posto per le top skills
2016 più cercate in Italia secondo Linkedin, e al secondo posto in
moltissimi Paesi sviluppati e non (secondo anche nella classifica
globale). Nei primi nove mesi del 2016 in Italia le richieste di
specialisti nel settore sono aumentate del 137%.
Ma in cosa consiste il Data Mining?
Al Data Mining viene spesso affiancato il concetto di Knowledge
Discovery (KD): Il data mining è l'insieme di tecniche e metodologie
che hanno per oggetto l'estrazione di un sapere o di una
conoscenza a partire da grandi quantità di dati, in ambito aziendale
vengono considerate due classi principali di iniziative: quelle
orientate a supportare i processi interni, che permettono di
lavorare su informazioni più complete e di maggiore qualità, quelle
orientate in modo esplicito a cambiare il modo di relazionarsi con i
clienti.
3. Il Data Mining “Data mining is the process of selection, exploration, and
modelling of large quantities of data to discover regularities or
relations that are at first unknown with the aim of obtaining
clear and useful results for the owner of the database.”
DATABASE
TECHNOLOGY
STATISTICS
PATTERN
RECOGNITION
OTHER
DISCIPLINES
VISUALIZATIO
N
ALGORITHM
MACHINE
LEARNING
Traducendo
letteralmente il
termine MiningMining, esso
deriva da to mine,
ovvero estrarre risorse
preziose dai numerosi
dati a disposizione.
DATA
MINING
4. Il Data Mining
DATA WAREHOUSE e BI:
Data WareHouse può essere definito
come il database di tipo decisionale, il
deposito centralizzato dei dati, che viene
interrogato per intervenire sul business
dell’azienda.
Il rapporto tra Data Warehouse e Data
Mining è un rapporto molto stretto, uno ha
necessità dell’altro per sviluppare a pieno
le proprie funzioni.
Business Intelligence è un termine
abbastanza ampio, che comprende tutti i
modelli, metodi e processi per raccogliere,
conservare e trasformare opportunamente
i dati di un'azienda, per presentarli in una
forma semplice e flessibile, in modo che
siano di supporto alle decisioni aziendali.
5. I Pilastri del Data Mining
I compiti del DM possono
sintetizzarsi in:
-Classificazione
-Stima
-Previsione
-Raggruppamento per
affinità o regole di
associazione
-Clustering
-Descrizione e
visualizzazione
Il Data Mining fa largo uso di tecniche statistiche per raggiungere il
suo scopo.
Esempi di queste tecniche sono l'analisi dei cluster, gli alberi
decisionali e le reti neurali.
6. I Pilastri del Data Mining
Le tecniche di data mining che si avvalgono del metodo
statistico sono fondamentali e varie: bisogna
comprendere quale sia la più indicata per il relativo
problema di business.
Metodi predittivi
Anche detti metodi supervisionati
(supervised) o diretti, hanno come
obiettivo trovare relazioni tra feature e
target, al fine di identificare relazioni di
classificazione o predizione. Nel dataset
utilizzato è sempre presente un target.
Tra le tecniche: le reti neurali e gli alberi
decisionali.
Metodi descrittivi
Anche detti metodi non supervisionati
(unsupervised) o indiretti, mirano a
raggruppare i dati sulla base di relazioni
non note a priori o note con un’analisi
esplorativa. Non esiste una variabile target
usata per la descrizione e l’individuazione
di segmenti.
Tra le tecniche c’è il clustering.
7. Rilevazione dei Cluster
Cluster: gruppo di
elementi omogenei in un
insieme di dati
Tecnica:: K-MeansK-Means
“Means” indica la media
statistica.
I componenti dei
cluster (record di un
database) hanno una
localizzazione:
per formare dei
cluster, ai record
vengono assegnate
coordinate in un
determinato “spazio
record”.
Lo spazio ha tante
dimensioni quanti sono
i campi nel record.
8. Rilevazione dei Cluster
L’algoritmo è di tipo iterativo:
1.1. Scegliere un valore di K, il numero di cluster
da generare.
2.2. Scegliere in modo casuale k osservazioni nel
dataset.
- Questi saranno i centri dei cluster, i centroidi.
3. Collocare ogni altra osservazione nel cluster
con il centro più vicino ad esso.
4.4. Utilizzare le osservazioni in ogni cluster per
calcolarne il nuovo centro.
55. Se i cluster non si sono modificati, allora si
termina il processo di clustering, altrimenti si
ripete il processo fino al raggiungimento di
nuovi cluster.
Esempio di clustering
bidimensionale
9. Rilevazione dei Cluster
CRITICITÀ
A meno che non esista a priori un motivo per sospettare
l’esistenza di un certo numero di cluster, l’analista vorrà
probabilmente sperimentare diversi valori di K.
In genere, la scelta ricade sull’analisi che meglio delle altre
mantiene la distanza minima tra i componenti dello stesso cluster
e massima tra componenti di cluster adiacenti.
Fondamentale per analizzare la bontà dei cluster k-means è
l’utilizzo dello scarto quadratico medio.
I cluster generati, una volta creati, devono esser interpretati
dall’utente.
Questa tecnica può presentare problemi quando i cluster hanno
differenti:
dimensioni, densità, forma non globulare e quando i dati
presentano molti outliers.
10. Alberi Decisionali
Gli alberi decisionali sono uno strumento di data mining
incredibilmente versatile, con molteplici aspetti e funzionalità.
In generale possiamo suddividere gli alberi decisionali in due
grandi categorie:
Alberi di Classificazione:
Alberi di decisione usati per predire variabili
categoriali (il nuovo cliente della
compagnia di assicurazione è un potenziale
cliente a rischio o no?).
In questo caso l’albero di classificazione
fornisce la probabilità della classe, cioè il
livello di confidenza di appartenenza ad una
classe.
Alberi di Regressione:
Stimano il valore di una variabile target che
assume valori numerici (variabile
quantitativa). Nel caso reale in cui le
caratteristiche analizzate sono grandezze
statistiche,
non si parla di creare un albero di
classificazione, ma più propriamente di
costruire un albero di
regressione.
Differenze che non comportano modifiche dal punto di vista strutturale.
11. Alberi Decisionali
Il processo di costruzione di
un albero decisionale si basa
su un partizionamento
ricorsivo: un processo
iterativo di divisione dei dati
in partizioni destinate ad
essere a loro volta suddivise
in altre sotto-partizioni.
Ogni path (cammino) dalla
radice fino alla foglia del
decision tree è classificabile
come regola.
Età < 23
RISCHIO
ALTO
Tipo di
autoveicolo
RISCHIO
ALTO
RISCHIO
BASSO
RISCHIO
BASSO
Vero
Falso
Sportiva
Autocarro
Familiare
Radice
Ramo
Nodo
Foglia
12. Alberi Decisionali
Le regole d’arresto della procedura rappresentano
l’insieme di criteri che determinano quando un nodo
debba essere dichiarato terminale e quindi non più
partizionabile in ulteriori nodi figli:
Ad esempio quando si definisce una soglia massima
di nodi, o quando il grado di impurità è al di sotto di
una soglia prefissata.
L’albero completo non è sempre quello che meglio di
altri classifica un nuovo set di record.
Il problema dell’overfitting, cioè sovradattamento
del modello.
Nasce così il concetto di pruning, cioè sfoltire
l’albero di foglie e rami per migliorare le prestazioni
dell’albero decisionale.
13. Reti Neurali
Le reti neurali dal punto di vista del DM non sono altro che
un metodo per applicare un modello a dati storici al fine di
poter ricavare classificazioni o previsioni.
Una rete neurale, “ignorante” in una fase iniziale, attraverso
un processo di “training” (apprendimento), si trasforma in
un modello di dipendenze tra variabili descrittive così da
prevederne il comportamento.
Le reti neurali sono tipicamente organizzate in strati (layers)
e gli strati sono costituiti da un numero di “nodi”
interconnessi, ciascuno dei quali contiene una “funzione di
attivazione”.
La funzione di attivazione è composta da una funzione di
combinazione e una di trasferimento.
Reti a propagazione diretta sono dette Feed Forward, dove i
nodi output sono calcolati in base ai nodi di input e i set
iniziale di pesi: le connessione tra le unità non formano cicli
ricorrenti.
14. Reti Neurali
output
input
Ogni unità di input è connessa ad una di output da un peso (Wxy).
Gli input vengono moltiplicati con dei pesi di connessione Wxy, sommati
i valori ottenuti, si applica la funzione di attivazione associata a quel
nodo e l’output ottenuto si trasferisce al nodo o ai nodi del successivo
strato.
Le funzioni di attivazioni sono composte da funzione di combinazione e
di trasferimento: la prima è la sommatoria pesata degli input, mentre la
seconda può essere sigmoide (MLP) o gaussiana (RBF). Le MLP e le reti
Radial Basis sono approssimatori universali: sono in grado teoricamente
di calcolare per approssimazione qualsiasi funzione continua
Funzione di attivazione
15. Reti Neurali
Tecnica della Backpropagation (propagazione all’indietro degli errori):
calcola l’ errore per ogni nodo di output e per ogni nodo interno in
modo tale che gli errori riscontrati vengano usati dall’algoritmo per
aggiustare il peso allo scopo di ridurre l’errore totale in maniera
progressiva.
È importante specificare che una rete che adatti perfettamente i dati
del training set non è detto che si comporti bene anche per altri
dataset in generale e per il test set in particolare (overfitting).
La caratteristica principale della rete neurale è di essere una black box,
ovvero una scatola nera che, se utilizzata con criterio, fornisce dei
risultati, ma della quale non si conoscono i meccanismi matematici
interni. La rete “impara” a fornire risposte appropriate agli stimoli di
ingresso modificando le caratteristiche delle connessioni sinaptiche (tra
unità) tramite delle regole di apprendimento. Queste ultime vengono
“insegnate” letteralmente alla rete dall’operatore tramite la
somministrazione di dati in entrata.
16. Il ruolo del Data
Scientist
È nata solo negli ultimi anni
la figura del data scientist,
figura composita,
multiforme, che raggruppa
in sé molteplici competenze,
che può avere diversi profili:
1. Advanced Business
Intelligence (BI) Specialist
2. Advanced Quantitative
Analyst
3. Advanced Developer
4. Advanced Business Data
Analyst
17. Data Mining in azienda
Come la figura del Data Scientist deve avere una
conoscenza trasversale, così l’ambito di applicazione delle
tecnologie relative al Data Mining può coprire innumerevoli
ambiti:
MARKETING:
Segmentazione della
clientela,
market basket analysis;
PROJECT MANAGEMENT:
Controllo della qualità e
gestione dei processi
produttivi;
SETTORE BANCARIO:
Analisi del rischio del
credito;
SETTORE
ASSICURATIVO:
Previsione dei sinistri,
customer retention.
Questi sono solo alcuni dei settori in cui vi è un utilizzo di tecniche di
DM.
Il Data Mining consente all’azienda di basarsi su quanto accaduto in
passato per avanzare previsioni sul futuro: CRM, fidelizzazione dei
18. Business Intelligence e Big Data in Italia
La Business Intelligence e la Big Data Analytics costituiscono due
importantissimi strumenti che, prima l’una e poi l’altra, sono negli
ultimi anni emersi con prepotenza nel mercato globale.
BUSSINESS INTELLIGENCE:
La Business Intelligence fa largo uso della
statistica descrittiva, analizzando dati con
un’alta densità di informazioni per ottenere
misurazioni (somma, medie, ecc), rilevare
tendenze...
Utilizza dunque dataset di limitate
dimensioni, dati puliti e modelli semplici.
BIG DATA ANALYTICS:
Si basa su tecniche di statistica inferenziale
per dedurre leggi (effetti causali, relazioni non
lineari) studiando grandi insieme di dati,
prevedendo risultati e comportamenti,
attraverso l’interrelazione di dati provenienti
potenzialmente da fonti eterogenee, quindi
anche con dati non strutturati.
Non è comunque giusto affermare che le due tecnologie siano distinte
l’una dall’altra o che la Big Data Analytics sostituisca quella che prima
era la Business Intelligence o possa sostituire i database tradizionali!
Quello a cui si punta (e si sta puntando) è l’integrazione delle
tecnologie riguardanti il mondo Big Data.
19. La situazione in Italia
In questo scenario, l’Osservatorio Big Data Analytics & Business
Intelligence monitora il valore strategico che le metodologie di Analytics
svolgono nelle imprese in Italia, stimandone il mercato e mettendo in
luce i potenziali vantaggi, per grandi imprese e PMI.
Sono state 952 le imprese prese in considerazione per il survey sul finire
del 2016, di cui 149 di grandi dimensioni (più di 249 dipendenti).
Si può subito notare il rilevante aumento degli investimenti del 15%,
passato dai €790 milioni del 2015 a €905 milioni, con il campo della Big
Data in forte crescita rispetto all’anno precedente, +44%.
20. La situazione in Italia
Investimenti che solo in
parte hanno riguardato le
PMI, infatti ben l’87% degli
investimenti nelle Analytics
è stato compiuto da grandi
imprese.
Ingenti investimenti sono
stati realizzati da imprese
assicurative, con una
crescita superiore del 25%
rispetto all’anno scorso.
Maggior impiego di questi
strumenti anche nelle
aziende bancarie,
manifatturiere e di utility.
Grande distribuzione, sanità
e PA invece ancora a
rilento.
Da questi dati emerge
che l’adozione di sistemi
di Analytics è una pratica
in via di consolidamento,
soprattutto per le grandi
aziende, ma secondo
l’Osservatorio, solo l’8%
di queste si può definire a
buon punto nel processo
di trasformazione in “Big
Data Enterprise”.
Il 26% è allo stadio
iniziale, mentre il 66% è
in posizione intermedia,
con governance già in
fase avanzata per alcuni
aspetti e ancora da
avviare per altri.
21. Conclusioni
Il mondo del Data Mining è un campo di studi vastissimo, in continua
evoluzione, travalica i confini della statistica e dell’economia.
Il data scientist, con le sue capacità di analizzare e interpretare dati, è
ormai una figura professionale centrale e quindi richiesta nel mondo del
lavoro. Su una cosa tutti gli analisti concordano: uno dei problemi dei
prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante
domanda di data scientist.
L’impresa in Italia si basa su aziende di piccole e medie dimensioni, che
stentano ancora ad approcciarsi a questo moderno sistema di business.
Lo sviluppo di tali metodi in ambito aziendale è in fase di evoluzione:
ingenti investimenti sono stati recentemente effettuati, ma
rappresentano ancora una piccola quota di quello che le imprese
dovrebbero fare per raggiungere livelli di efficienza nel gestire le
informazioni.
22. GRAZIE PER L’ATTENZIONEGRAZIE PER L’ATTENZIONE
«You can have data without information, but you cannot«You can have data without information, but you cannot
have information without data»have information without data»
23. Bibliografia Sitografia
M.J.A. Berry e G.S. Linoff, Data mining, Apogeo 2001
E. Coffetti e P. Pasini, Data scientist focus and trend,
Numbers, 2012
U. Fayaad. Proceedings of the First Int. Conf. on Knowledge
Discovery and Data Mining. Montreal, Canada, 1995.
A.K. Jain e R.C. Dubes, Algorithms for Clustering Data,
Prentice Hall, 1988
Pilot Software, An Introduction to Data Mining, Whitepaper.
Pilot Software. 1998.
R. Kimball e M. Ross. The Data Warehouse Toolkit (2nd
edition). John Wiley & Sons, 2002.
Andrew R. Konicek, Jonathan Lefmana and Christopher
Szakal, Analyst, 2012
Tom M. Mitchell, Machine Learning, McGraw-Hill, 1997
P. Pasini e A. Perego, BI e decision making: un connubio alla
portata di tutti, Sistemi & Impresa, n. 4, 2011
D. Bhardwaj e D. Kumar, Rise of Data Mining: Current and
Future Application Areas, IJCSI vol. 8, 2011
www.ilsole24ore.com/
www.infodata.ilsole24ore.com/
www.wikipedia.it/
www.ninjamarketing.it/
www.osservatori.net/
www.linkedin.com/
www.onesecond.designly.com/
www.elsevier.com/locate/eng/
www.apogeonline.com/
www.techopedia.com/
https://andrea.burattin.net/
www.egon.it/
www.statsblogs.com/
www.sdabocconi.it/