2. Chi sono?
• Marco Montanari
@ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com
• Sviluppatore, Appassionato di giochi, Nerd…
– passione per i dati
• “I am a journalist looking for coder friends.”
– Jens Finnäs (HacksHackers Helsinki)
• “I am a coder with journalist friends.”
– Marco Montanari
Milano, 13.12.2012
3. Indice
• Il Fatto • I Formati
• Le Dimensioni
• Trovare dati on-line
• Descrivere fatti
• Aggregazioni
Milano, 13.12.2012
5. Il Fatto
• 5W:
– Who is it about?
– What happened?
– When did it take place?
– Where did it take place?
– Why did it happen?
Milano, 13.12.2012
6. Le Dimensioni
Chi
Dove Cosa
Fatto
Perché Quando
Milano, 13.12.2012
7. Le Dimensioni
Cliente1
Vendita
Amazon.it di un ProdottoX
prodotto
12.12.2012
09:24:22
Milano, 13.12.2012
8. Le Dimensioni
Nome utente:
sirmmo
Destinazione: Pagina:
/area1/p3 /area1/p2
Utente
visita
Orario di
Modalità di
uscita: clic su
sito ingresso:
13.12.2012
link
09:24:22
Orario di
Durata: uscita:
2m50s 13.12.2012
09:27:12
Milano, 13.12.2012
10. Descrivere i fatti
Ogni dimensione è una colonna
Pro Contro
• Disaggregato • Disaggregato
• Semplice • Tanti elementi
• Atomico • Da tenere sempre
organizzato
Milano, 13.12.2012
11. Descrivere i fatti
Ogni dimensione è una colonna
Pro Contro
• Disaggregato • Disaggregato
• Semplice • Tanti elementi
• Atomico • Da tenere sempre
organizzato
Milano, 13.12.2012
12. Aggregazioni
• Dal mondo del management
• Tabella Pivot (analisi multidimensionale)
– Impossibile con dati già aggregati
– Le dimensioni sono correlabili come si vuole
Milano, 13.12.2012
13. Aggregazioni
Pivoting
Pivoting
Dati disaggregati
Milano, 13.12.2012
14. Aggregazioni
Pivoting
Criteri di aggregazione
Risultato: la tabella pivot
Milano, 13.12.2012
16. Si utilizza un dataset molto disaggregato per vedere come
giocare con le tabelle pivot
Milano, 13.12.2012
17. I Formati
• Tabellari
– xls xlsx csv tsv ods dbf 75%
• Strutturati
20%
– xml json (shp)
• Linked data 5
%
– RDF
• Altro… 50%
– HTML
Milano, 13.12.2012
18. I Formati
• Tabellari
– xls xlsx csv tsv ods dbf 75%
• Strutturati
20%
– xml json (shp)
• Linked data 5
%
– RDF
• Altro… 50%
– HTML
Milano, 13.12.2012
19. Analisi rapida dei principali formati:
• CSV, TSV
• SHP
• HTML
Milano, 13.12.2012
20. Trovare dati on-line
La versione facile
• Il browser (non IE) come strumento di analisi
• Chrome
– Scraper
• https://chrome.google.com/webstore/detail/scraper/m
bigbapnjcgaffohmbkdlecaccepngjd
– Table Capture
• https://chrome.google.com/webstore/detail/table-
capture/iebpjdmgckacbodjpijphcplhebcmeop
Milano, 13.12.2012
21. Trovare dati on-line
La versione facile
• Firefox
– Outwit
• http://www.outwit.com/products/hub/
Milano, 13.12.2012
22. Trovare dati on-line
La versione intermedia
• Strumenti più specialistici ma anche più «fragili»
• Excel
Milano, 13.12.2012
23. Trovare dati on-line
La versione intermedia
• Google Refine -
https://code.google.com/p/google-refine/
Milano, 13.12.2012
26. Riassumendo
• Decidere le dimensioni di interesse
• Descrivere i fatti in base alle dimensioni
• Trovare i dati, pulirli e adattarli alle dimensioni
• Analizzare le aggregazioni
Milano, 13.12.2012
27. Riassumendo
• Decidere le dimensioni di interesse
• Descrivere i fatti in base alle dimensioni
• Trovare i dati, pulirli e adattarli alle dimensioni
• Analizzare le aggregazioni
Milano, 13.12.2012
28. Qualche link utile
• http://dataist.wordpress.com/ - Jens Finnäs
– Ottimo blog dove seguire le escursioni in terra di
codice di un giornalista
• https://code.google.com/p/google-refine/ -
Google Refine
– Strumento di Google per l’elaborazione e la pulizia
dei dati
Milano, 13.12.2012
29. Qualche link utile
• https://scraperwiki.com/ - ScraperWiki
– Strumento per trovare e collezionare script di
scraping scritti in python, ruby o php
• https://github.com/ - GitHub
– Repository di progetti open source tra i quali
anche tantissimi strumenti di scraping più specifici
Milano, 13.12.2012
30. That’s all folks!
GRAZIE!
Per qualsiasi domanda:
@ingmmo
marco.montanari@gmail.com
sirmmo.blogspot.com, …
sirmmo
http://it.linkedin.com/in/montanarim/
marco.montanari
Milano, 13.12.2012