Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati
1. Andrea Borruso – Gabriele Gattiglia
Reperire, scaricare e pulire i dati
2. Premessa
Talking and making / learning by doing
Approccio hacker
«Hack ha solo un significato: quello estremamente
sottile e profondo di qualcosa che rifiuta ulteriori
spiegazioni» Phil Agre
Da cui discende che un hacker è colui che affronta sfide
intellettuali per aggirare o superare creativamente le
limitazioni senza manuale di istruzioni.
L’hacker non è un pirata informatico quello è un
cracker!
6. ATTENZIONE!
E’ importante – e fondamentale – non confondere il termine
open data con quello open access.
Con open access ci riferiamo per lo più a testi – articoli, libri,
relazioni, tesi di laurea, ecc… -, liberamente consultabili e spesso
scaricabili in rete. In ambito archeologico si possono definire ad
accesso aperto anche i webGIS, quando sono usati per la sola
visualizzazione geografica del dato archeologico, che però non
ne permettono lo scaricamento e il riuso.
7. PRIMARI: cioè grezzi (raw), in modo da poter
essere integrati e aggregati con altri dati e
contenuti, in formato digitale.
TEMPESTIVI: gli utenti devono essere messi in
condizione di accedere velocemente alle
informazioni e utilizzare i dati presenti sul web
in modo rapido e immediato, massimizzando il
valore e l’utilità derivanti dall’accesso e
dall’uso di queste risorse.
RICERCABILI: è necessario assicurare agli utenti
l’opportunità di ricercare con facilità e
immediatezza i dati, mediante strumenti di
ricerca ad hoc. (IMPORTANTE!!! I Dati devono
poter essere usati)
PERMANENTI: le peculiarità descritte devono
caratterizzare i dati nel corso del loro intero
ciclo di vita sul web.
I DATI APERTI devono essere:
NON PROPRIETARI
Liberi di essere UTILIZZATI
Liberi di essere RIUTILIZZATI
Liberi di essere RIDISTRIBUITI
per qualunque scopo
Quindi
8. Accesso
L’opera deve essere
disponibile nella sua
interezza ed a un costo di
riproduzione ragionevole,
preferibilmente tramite il
download gratuito via
Internet
I dati devono essere completi:
esportabili, utilizzabili online e
offline, integrabili e aggregabili con
altre risorse, diffondibili via web e
riportare le specifiche adottate per
la loro realizzazione
I dati devono essere accessibili a tutti
senza alcuna sottoscrizione di contratto,
pagamento, registrazione o richiesta
ufficiale; devono essere trasmissibili e
interscambiabili tra tutti gli utenti
direttamente via web
9. Assenza di restrizioni tecnologiche
L’opera deve essere fornita in un formato
che non ponga ostacoli tecnologici al
riuso.
Dati machine-readable
Gli utenti devono poter utilizzare e
processare i dati attraverso
programmi, applicazioni e interfacce
non proprietarie e aperte.
I dati devono essere pubblicati
e riutilizzabili in formati
semplici e generalmente
supportati dai programmi più
usati dalla collettività
digitalizzata
10. Ridistribuzione:
licenza
La licenza non deve imporre alcuna limitazione alla vendita o all’offerta gratuita dell’opera
singolarmente considerata o come parte di un pacchetto composto da opere provenienti
da fonti diverse.
La licenza non deve richiedere alcuna “royalty” o altra forma di pagamento per tale
vendita o distribuzione.
La licenza deve consentire il riutilizzo, la realizzazione cioè di modifiche e di opere
derivate e deve consentire la loro distribuzione agli stessi termini dell’opera originaria.
Attribuzione:
La licenza può richiedere di citare i vari contributori e creatori dell’opera (BY) come
condizione per la ridistribuzione ed il riutilizzo di quest’ultima. Se imposta, questa
condizione non deve essere onerosa.
Integrità:
La licenza può richiedere, di distinguere l’opera derivata dall’opera originaria (originalità
del nome).
La licenza non deve contenere nessuna discriminazione di persone , gruppi o settori
d’attività
11. Oggi produciamo miliardi di dati
Questi dati ci appartengono
L’ecologia dei dati
La produzione di dati ha un
costo sostenuto dall’intera collettività
I dati sono prodotti a prescindere dal loro riuso
PERCHE’ NON RIUTILIZZARLI?
12. I dati grezzi sono il vero unico
«codice sorgente» dell’archeologia,
quello che consente di formulare ulteriori
ipotesi e ricostruzioni storiche
Doc. grafica
Doc. fotografica
Doc. compilativa
Relazioni
Apparato
archeografico
(dataset)
Letteratura grigia
13. PERCHE’?
‘Aprire per proteggere’
Archiviazione digitale dei dati
Utilizzo dei dati come materiale di
confronto immediatamente fruibile
Pubblicazione di tutti i dati
Riconoscimento del lavoro archeografico
anche in termini scientifici e di ‘titoli’
Verifica del processo di indagine
NO archeologia dogmatica,
ma esplicitazione della componente
soggettiva del processo interpretativo
Ri- uso dei dati per creare nuove analisi
(scalarità dei dati) e nuove interpretazioni
Ottimizzazione dei costi
di gestione/tutela
Conservazione dei dati
16. QUALI SONO I PROBLEMI?
• Eterogeneità dei dati: formati proprietari, formati non
adatti alla pubblicazione dei dati, documentazione
mancante, non omogenea o parziale, vincoli giuridici alla
circolazione, protocolli proprietari
• I dati sono difficili da trovare: diverse amministrazioni
pubbliche, diversi siti web, diverse modalità di ricerca,
accessibilità ed utilizzo del dato
• Mancanza di standard condivisi nella produzione e
nella diffusione: i dati sono difficili da interpretare.
Diverse sono le classificazioni , i vocabolari utilizzati , gli
schemi e i modelli per rappresentare il mondo reale
(Dove esistente) diversa modalità di metadazione.
17. Barriere giuridiche alla pubblicazione e al riuso degli open data:
poca chiarezza in campo legislativo (regolamentazioni generali –
Codice Amministrazione Digitale – ma difficoltà di applicazione
nei settori specifici)
Impreparazione tecnica (carenza formazione) (cosa pubblicare?
Come pubblicare? Dove? Cosa farne dei dati open?)
Scelta dei dati (?) Cosa serve pubblicare e cosa no
Diffidenza culturale (siamo ancora nella fase di
«sensibilizzazione»)
Difficoltà di comunicazione. Esiste ancora il «preconcetto
tecnologico»: gli open data sono qualcosa che serve solo agli
informatici. Non vi è migliore forma di comunicazione che la
dimostrazione
28. MOD
Mappa Open Data
archaeological archive
Come per la PA, per i beni archeologici non sono ancora stati
affrontati centralmente i problemi e le potenzialità reali delle
pubblicazione di dati aperti
Pubblicare l’archeologia italiana
in forma di Open Data
http://www.mappaproject.org/mod
29. La struttura del MOD
http://mappaproject.arch.unipi.it/mod/Index.php
Modello ripreso dall’Archaeological
Data Service (ADS , GB)
creato e gestito dall’Università di York
Archivio
Intervento
LETTERATURA GRIGIADATASET
Relazione
DOI
Schede US
Planimetrie
Schede di quantificazione
Schede materiali
Matrix
Sezioni
….
DOI
Introduzione
Work in progress: - collegamento a MAPPAGIS
- nuova strutturazione su base nazionale
35. TSV, CSV, *SV, Excel (.xls and .xlsx), JSON,
XML, RDF as XML
http://openrefine.org/
36. 1. Prendiamo i dati MOD
2. Facciamo una ricerca per formati
3. Scarichiamo come .csv
4. Lo importiamo in OpenRefine
5. Lo ripuliamo lavorando coi cluster
6. Lo prepariamo per future visualizzazioni
(grafici)
37. Reperire, scaricare, ripulire i dati
Ma i dati si possono trovare anche sui siti
internet esposti come tabelle…..
…..come li togliamo di lì???
40. 1. Estraggo i dati dalla
tabella
2. Li importo in OpenRefine
3. Modifico il campo
cronologia
4. Esporto come csv
Appuriamolo
NO, no lo è SI, anche se non hanno
messo una licenza e
potremmo considerare tutto
di pubblico dominio, citiamo
ugualmente la fonte
45. E siccome i dati non sono
sempre bene ordinati come
quelli del portale della
Trasparenza…
http://open.pompeiisites.or
g/
46. 1. Apriamo il portale della
trasparenza
2. Scarichiamo il pdf
3. Estraiamo i dati con tabula
4. Li apriamo in OpenRefine
5. Trasformiamo la data
6. Trasformiamo il campo costi
7. Filtriamo le voci
8. Esportiamo come .csv
48. 2002, Wheatley and Gillings: «Contrary to popular
mythology, contemporary professional archaeologists
may spend more time using GIS than a trowel»
2014, CAA Session: Is GIS the new trowel?
Sicuramente il GIS permette di scavare nei dati
49.
50. Geocoding
1. Scarichiamo i dati interventi filtrati da
MAPPAgis
2. Importiamo in OpenRefine
3. Ripuliamo la colonna ubicazioni
4. Applichiamo Fetching URL
"http://maps.google.com/maps/api/geocode/json?sensor=false&address=" +
escape(value, "url")
5. Trasformiamo in coordinate (lat/long)
with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
6. Dividiamo la colonna (split)
7. Esportiamo in .csv
8. Importiamo .csv in qGIS (layer testo
delimitato)
9. Colleghiamo a WMS regione Toscana
http://www502.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmscastor
e http://web.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmsctr
10.Usiamo OSM
11.Mappa di Concentrazione / KDE
https://github.com/OpenRefine/OpenRefine/wiki/Geocoding
51. OpenStreetMap
«OpenStreetMap è una mappa
liberamente modificabile dell'intero
pianeta. È fatta da persone come te.
OpenStreetMap permette a chiunque
sulla Terra di visualizzare, modificare
ed utilizzare dati geografici con un
approccio collaborativo.»
In parole povere una cartografia
collaborativa open data
Ma riguarda anche l’archeologia?
Incredibile, SI!
52. Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Nel dicembre 2008 venne fatto un Mapping Party a Pompei,
che ha prodotto la migliore cartografia on-line del sito:
guardare per credere
OSM Google Map