1. Big Data Analysis: dalla
teoria alla pratica
Presentazione Social Media Web & Smart Apps
Studente Giulio Lazzaro mat. 835232
Prof. Gianluigi Cogo
A.A. 2013/2014 06/06/2014
Università Ca’ Foscari Venezia
2. Big data, cosa sono
Raccolte di dati con volumi estremamente elevati,
raggruppati per genere in dataset.
Caratteristiche:
Volume
Velocità
Varietà
Veracità
Valore
Immagine: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
3. Big Data Analysis
Ricavare informazioni (utili e di valore) dai Big Data.
I dati presi singolarmente possono non aver valore,
mentre insiemi di dati possono avere informazioni
aggiuntive nascoste (valore aggiunto).
4. Perché analizzarli
Sono la nuova frontiera dell’informazione.
Sfruttati in IT, comunicazioni, medicina, trasporti,
pubbliche amministrazioni, istruzione, catasto ecc.
Le aziende possono massimizzare i loro profitti,
ottimizzare i loro processi e offrire nuovi servizi:
business analytics.
5. Dati più comuni: machine data
Dati generati da macchine
• Log
• Coordinate GPS
• File di testo, configurazione ecc.
6. Dati più comuni: database
Database: Relazionali e non solo, sono utilizzati in
ogni campo.
7. Gli strumenti per l’analisi
• Splunk: indicizza, processa e analizza i dati. Tramite
dashboard mostra statistiche e risultati
• Hadoop: programma scalabile di analisi big data,
sfrutta l’algoritmo MapReduce di Google
• Fluentd e Logstash: raccolta di log (centralizzazione)
• Molti altri strumenti specializzati
• Algoritmi e abilità (data scientist).
8. Vantaggi offerti
Semplicità e astrazione. Le dashboard contengono i
risultati che ci interessano.
Splunk Dashboard - Immagine: http://www.linux-
magazine.com/Online/Features/Unified-Event-Monitoring-with-Splunk
10. I tipi di analisi
• Descriptive analytics: semplice «lettura» dei dati
• Diagnostic analytics: ricavare ulteriori informazioni
dai dati in possesso tramite l’analisi
• Predictive analytics: creare modelli dai dati raccolti,
in modo da poterli poi usare per prevedere
l’andamento futuro
• Prescriptive analytics: usare i modelli di dati ricavati
per analizzare e ottimizzare processi ripetitivi.
11. Buone norme
Confirmation bias
Di solito si cerca di dare ragione alle proprie ipotesi
invece di confutarle.
Si dovrebbe essere in grado di confutare le proprie
teorie e se necessario cambiare strada.
Immagine: http://online.wsj.com/
12. Buone norme
Irrilevanza e distrazione
Bisogna concentrarsi nei dati veramente utili senza
includere dati non inerenti che potrebbero fornire
risultati fuorvianti.
Es: refresh di un browser o nuova richiesta
13. Buone norme
Causa e correlazione
Eventi che si manifestano assieme non sono
necessariamente correlati.
14. Buone norme
Statistical significance
Non bisogna limitarsi a piccole porzioni di dati, la
statistica è sui grandi numeri.
Es: prendere una porzione di dati totalmente diversa
dal resto conduce ad un’analisi errata
15. Buone norme
Varietà dei dati da analizzare
A volte i dati da analizzare per poter fare un’analisi
accurata sono di diverso tipo.
Es: limitarsi ai commenti negativi escludendo le mail
di lamentela.