SlideShare a Scribd company logo
1 of 56
Download to read offline
Andrea Borruso – Gabriele Gattiglia
Reperire, scaricare e pulire i dati
Premessa
Talking and making / learning by doing
Approccio hacker
«Hack ha solo un significato: quello estremamente
sottile e profondo di qualcosa che rifiuta ulteriori
spiegazioni» Phil Agre
Da cui discende che un hacker è colui che affronta sfide
intellettuali per aggirare o superare creativamente le
limitazioni senza manuale di istruzioni.
L’hacker non è un pirata informatico quello è un
cracker!
Siamo alla MODA?
www.modarc.org
@Manifesto_MODA
MODA
ATTENZIONE!
E’ importante – e fondamentale – non confondere il termine
open data con quello open access.
Con open access ci riferiamo per lo più a testi – articoli, libri,
relazioni, tesi di laurea, ecc… -, liberamente consultabili e spesso
scaricabili in rete. In ambito archeologico si possono definire ad
accesso aperto anche i webGIS, quando sono usati per la sola
visualizzazione geografica del dato archeologico, che però non
ne permettono lo scaricamento e il riuso.
PRIMARI: cioè grezzi (raw), in modo da poter
essere integrati e aggregati con altri dati e
contenuti, in formato digitale.
TEMPESTIVI: gli utenti devono essere messi in
condizione di accedere velocemente alle
informazioni e utilizzare i dati presenti sul web
in modo rapido e immediato, massimizzando il
valore e l’utilità derivanti dall’accesso e
dall’uso di queste risorse.
RICERCABILI: è necessario assicurare agli utenti
l’opportunità di ricercare con facilità e
immediatezza i dati, mediante strumenti di
ricerca ad hoc. (IMPORTANTE!!! I Dati devono
poter essere usati)
PERMANENTI: le peculiarità descritte devono
caratterizzare i dati nel corso del loro intero
ciclo di vita sul web.
I DATI APERTI devono essere:
NON PROPRIETARI
Liberi di essere UTILIZZATI
Liberi di essere RIUTILIZZATI
Liberi di essere RIDISTRIBUITI
per qualunque scopo
Quindi
Accesso
L’opera deve essere
disponibile nella sua
interezza ed a un costo di
riproduzione ragionevole,
preferibilmente tramite il
download gratuito via
Internet
I dati devono essere completi:
esportabili, utilizzabili online e
offline, integrabili e aggregabili con
altre risorse, diffondibili via web e
riportare le specifiche adottate per
la loro realizzazione
I dati devono essere accessibili a tutti
senza alcuna sottoscrizione di contratto,
pagamento, registrazione o richiesta
ufficiale; devono essere trasmissibili e
interscambiabili tra tutti gli utenti
direttamente via web
Assenza di restrizioni tecnologiche
L’opera deve essere fornita in un formato
che non ponga ostacoli tecnologici al
riuso.
Dati machine-readable
Gli utenti devono poter utilizzare e
processare i dati attraverso
programmi, applicazioni e interfacce
non proprietarie e aperte.
I dati devono essere pubblicati
e riutilizzabili in formati
semplici e generalmente
supportati dai programmi più
usati dalla collettività
digitalizzata
Ridistribuzione:
licenza
La licenza non deve imporre alcuna limitazione alla vendita o all’offerta gratuita dell’opera
singolarmente considerata o come parte di un pacchetto composto da opere provenienti
da fonti diverse.
La licenza non deve richiedere alcuna “royalty” o altra forma di pagamento per tale
vendita o distribuzione.
La licenza deve consentire il riutilizzo, la realizzazione cioè di modifiche e di opere
derivate e deve consentire la loro distribuzione agli stessi termini dell’opera originaria.
Attribuzione:
La licenza può richiedere di citare i vari contributori e creatori dell’opera (BY) come
condizione per la ridistribuzione ed il riutilizzo di quest’ultima. Se imposta, questa
condizione non deve essere onerosa.
Integrità:
La licenza può richiedere, di distinguere l’opera derivata dall’opera originaria (originalità
del nome).
La licenza non deve contenere nessuna discriminazione di persone , gruppi o settori
d’attività
Oggi produciamo miliardi di dati
Questi dati ci appartengono
L’ecologia dei dati
La produzione di dati ha un
costo sostenuto dall’intera collettività
I dati sono prodotti a prescindere dal loro riuso
PERCHE’ NON RIUTILIZZARLI?
I dati grezzi sono il vero unico
«codice sorgente» dell’archeologia,
quello che consente di formulare ulteriori
ipotesi e ricostruzioni storiche
Doc. grafica
Doc. fotografica
Doc. compilativa
Relazioni
Apparato
archeografico
(dataset)
Letteratura grigia
PERCHE’?
‘Aprire per proteggere’
Archiviazione digitale dei dati
Utilizzo dei dati come materiale di
confronto immediatamente fruibile
Pubblicazione di tutti i dati
Riconoscimento del lavoro archeografico
anche in termini scientifici e di ‘titoli’
Verifica del processo di indagine
NO archeologia dogmatica,
ma esplicitazione della componente
soggettiva del processo interpretativo
Ri- uso dei dati per creare nuove analisi
(scalarità dei dati) e nuove interpretazioni
Ottimizzazione dei costi
di gestione/tutela
Conservazione dei dati
ruolo sociale
dell’archeologo
lavoro
ricerca
tutela
trasparenza
beni comuni
Big Data
ma soprattutto di sviluppi inaspettati e
imprevedibili………..
QUALI SONO I PROBLEMI?
• Eterogeneità dei dati: formati proprietari, formati non
adatti alla pubblicazione dei dati, documentazione
mancante, non omogenea o parziale, vincoli giuridici alla
circolazione, protocolli proprietari
• I dati sono difficili da trovare: diverse amministrazioni
pubbliche, diversi siti web, diverse modalità di ricerca,
accessibilità ed utilizzo del dato
• Mancanza di standard condivisi nella produzione e
nella diffusione: i dati sono difficili da interpretare.
Diverse sono le classificazioni , i vocabolari utilizzati , gli
schemi e i modelli per rappresentare il mondo reale
(Dove esistente) diversa modalità di metadazione.
Barriere giuridiche alla pubblicazione e al riuso degli open data:
poca chiarezza in campo legislativo (regolamentazioni generali –
Codice Amministrazione Digitale – ma difficoltà di applicazione
nei settori specifici)
Impreparazione tecnica (carenza formazione) (cosa pubblicare?
Come pubblicare? Dove? Cosa farne dei dati open?)
Scelta dei dati (?) Cosa serve pubblicare e cosa no
Diffidenza culturale (siamo ancora nella fase di
«sensibilizzazione»)
Difficoltà di comunicazione. Esiste ancora il «preconcetto
tecnologico»: gli open data sono qualcosa che serve solo agli
informatici. Non vi è migliore forma di comunicazione che la
dimostrazione
Ma dove sono i dati degli scavi???
http://sitar.archeoroma.beniculturali.it/
http://www.mappaproject.org/webgis
http://dati.trentino.it/dataset/siti-di-interesse-archeologico-pup-986531
CC0
http://www.regione.liguria.it/opendata/dati-cartografici/item/34292-carta-
del-patrimonio-archeologico-architettonico-e-storico-ambientale-ligure-
paasal-sc-1-10000.html
http://dati.comune.roma.it/download/cultura-e-sport/aree-archeologiche-
di-competenza-di-roma-capitale-anno-2011
CC0
http://www.opendatahub.it
https://www.dati.lombardia.it/browse?q=ARCHEOLOGIA&sortBy=relevance&utf8=
%E2%9C%93&page=1
http://datigis.comune.fi.it/catalogo/?layer=archeologia:scavi_archeo&uuid=92dd6b
30-72eb-48e1-bd1d-
d0b5219d8479%20&wmsurl=http%3A%2F%2Ftms.comune.fi.it%2Ftiles%2Fservice%
2Fwms
Massaciuccoli romana
http://www.massaciuccoliromana.it/wordpress/documentazione/
MOD
Mappa Open Data
archaeological archive
Come per la PA, per i beni archeologici non sono ancora stati
affrontati centralmente i problemi e le potenzialità reali delle
pubblicazione di dati aperti
Pubblicare l’archeologia italiana
in forma di Open Data
http://www.mappaproject.org/mod
La struttura del MOD
http://mappaproject.arch.unipi.it/mod/Index.php
Modello ripreso dall’Archaeological
Data Service (ADS , GB)
creato e gestito dall’Università di York
Archivio
Intervento
LETTERATURA GRIGIADATASET
Relazione
DOI
Schede US
Planimetrie
Schede di quantificazione
Schede materiali
Matrix
Sezioni
….
DOI
Introduzione
Work in progress: - collegamento a MAPPAGIS
- nuova strutturazione su base nazionale
Troppe
chiacchere
…
per partire….
parliamo di tabelle
I dati tabellari non sempre sono buoni, anzi il
più delle volte sono brutti e cattivi!
pdf portable document format
esempio
Web
.xls
.csv comma separated value
esempio
.json JavaScript Obiect Notation
esempio
a volte serve la ramazza
TSV, CSV, *SV, Excel (.xls and .xlsx), JSON,
XML, RDF as XML
http://openrefine.org/
1. Prendiamo i dati MOD
2. Facciamo una ricerca per formati
3. Scarichiamo come .csv
4. Lo importiamo in OpenRefine
5. Lo ripuliamo lavorando coi cluster
6. Lo prepariamo per future visualizzazioni
(grafici)
Reperire, scaricare, ripulire i dati
Ma i dati si possono trovare anche sui siti
internet esposti come tabelle…..
…..come li togliamo di lì???
Ovvero:
KEEP
CALM
and
WEB
SCRAPING
?????????????????
ma è legale???????????
è etico??????
1. Estraggo i dati dalla
tabella
2. Li importo in OpenRefine
3. Modifico il campo
cronologia
4. Esporto come csv
Appuriamolo
NO, no lo è SI, anche se non hanno
messo una licenza e
potremmo considerare tutto
di pubblico dominio, citiamo
ugualmente la fonte
…..la ciliegina sulla torta
Dulcis in fundo
I più brutti di tutti…..
Siccome l’archeologia non è solo scavi e ricerche,
ma è anche appalti e
contratti
E siccome i dati non sono
sempre bene ordinati come
quelli del portale della
Trasparenza…
http://open.pompeiisites.or
g/
1. Apriamo il portale della
trasparenza
2. Scarichiamo il pdf
3. Estraiamo i dati con tabula
4. Li apriamo in OpenRefine
5. Trasformiamo la data
6. Trasformiamo il campo costi
7. Filtriamo le voci
8. Esportiamo come .csv
Mmmmmmm…..geografia….
2002, Wheatley and Gillings: «Contrary to popular
mythology, contemporary professional archaeologists
may spend more time using GIS than a trowel»
2014, CAA Session: Is GIS the new trowel?
Sicuramente il GIS permette di scavare nei dati
Geocoding
1. Scarichiamo i dati interventi filtrati da
MAPPAgis
2. Importiamo in OpenRefine
3. Ripuliamo la colonna ubicazioni
4. Applichiamo Fetching URL
"http://maps.google.com/maps/api/geocode/json?sensor=false&address=" +
escape(value, "url")
5. Trasformiamo in coordinate (lat/long)
with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
6. Dividiamo la colonna (split)
7. Esportiamo in .csv
8. Importiamo .csv in qGIS (layer testo
delimitato)
9. Colleghiamo a WMS regione Toscana
http://www502.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmscastor
e http://web.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmsctr
10.Usiamo OSM
11.Mappa di Concentrazione / KDE
https://github.com/OpenRefine/OpenRefine/wiki/Geocoding
OpenStreetMap
«OpenStreetMap è una mappa
liberamente modificabile dell'intero
pianeta. È fatta da persone come te.
OpenStreetMap permette a chiunque
sulla Terra di visualizzare, modificare
ed utilizzare dati geografici con un
approccio collaborativo.»
In parole povere una cartografia
collaborativa open data
Ma riguarda anche l’archeologia?
Incredibile, SI!
Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Nel dicembre 2008 venne fatto un Mapping Party a Pompei,
che ha prodotto la migliore cartografia on-line del sito:
guardare per credere
OSM Google Map
Diverse
rappresentazioni…
…anche 3D
Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Molte possibilità di utilizzo dai servizi mobile agli stradari…
Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
Formati e problemi
http://dati.comune.matera.it/dataset/19luoghidellacultura
.shp VS Geojson
Buon appetito

More Related Content

What's hot (13)

9. Il Web semantico
9. Il Web semantico9. Il Web semantico
9. Il Web semantico
 
Data journalism
Data journalismData journalism
Data journalism
 
La Biblioteca Digitale come metafora
La Biblioteca Digitale come metaforaLa Biblioteca Digitale come metafora
La Biblioteca Digitale come metafora
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
 
Brochure: Linked Open Data PILLS
Brochure: Linked Open Data PILLSBrochure: Linked Open Data PILLS
Brochure: Linked Open Data PILLS
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
 
Web Dav
Web DavWeb Dav
Web Dav
 
Il web tra contenuti e usi sociali 2. I motori di ricerca e la google generation
Il web tra contenuti e usi sociali 2. I motori di ricerca e la google generationIl web tra contenuti e usi sociali 2. I motori di ricerca e la google generation
Il web tra contenuti e usi sociali 2. I motori di ricerca e la google generation
 
Collaborare ed apprendere in rete
Collaborare ed apprendere in reteCollaborare ed apprendere in rete
Collaborare ed apprendere in rete
 
Metadati2008
Metadati2008Metadati2008
Metadati2008
 
1. I social network nella didattica
1. I social network nella didattica1. I social network nella didattica
1. I social network nella didattica
 
Collaborative on line network
Collaborative on line networkCollaborative on line network
Collaborative on line network
 
Progettazione e realizzazione di siti web, a.a. 2014-2015, slide 1-33
Progettazione e realizzazione di siti web, a.a. 2014-2015, slide 1-33Progettazione e realizzazione di siti web, a.a. 2014-2015, slide 1-33
Progettazione e realizzazione di siti web, a.a. 2014-2015, slide 1-33
 

Viewers also liked

Ldb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgis
Ldb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgisLdb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgis
Ldb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgislaboratoridalbasso
 
Gabriele Gattiglia - Progettare la pubblicazione dei dati
Gabriele Gattiglia - Progettare la pubblicazione dei datiGabriele Gattiglia - Progettare la pubblicazione dei dati
Gabriele Gattiglia - Progettare la pubblicazione dei datiOpenPompei
 
Cittadinanza digitale e diritti della rete
Cittadinanza digitale e diritti della reteCittadinanza digitale e diritti della rete
Cittadinanza digitale e diritti della reteFernanda Faini
 
Taller tola jornadas (1)
Taller tola jornadas (1)Taller tola jornadas (1)
Taller tola jornadas (1)Elisabetta Tola
 
Julian D. Richards - Open Data in European Archaeology
Julian D. Richards -  Open Data in European ArchaeologyJulian D. Richards -  Open Data in European Archaeology
Julian D. Richards - Open Data in European ArchaeologyOpenPompei
 
Smau milano 2013 pierluigi perri
Smau milano 2013 pierluigi perriSmau milano 2013 pierluigi perri
Smau milano 2013 pierluigi perriSMAU
 
Andrea Borruso & Gabriele Gattiglia - Comunicare i dati
Andrea Borruso & Gabriele Gattiglia - Comunicare i datiAndrea Borruso & Gabriele Gattiglia - Comunicare i dati
Andrea Borruso & Gabriele Gattiglia - Comunicare i datiOpenPompei
 
Francesca Bosco, Cybercrimes - Bicocca 31.03.2011
Francesca Bosco, Cybercrimes  - Bicocca 31.03.2011Francesca Bosco, Cybercrimes  - Bicocca 31.03.2011
Francesca Bosco, Cybercrimes - Bicocca 31.03.2011Andrea Rossetti
 
Nuove professioni digitali: il Responsabile della conservazione documentale
Nuove professioni digitali: il Responsabile della conservazione documentaleNuove professioni digitali: il Responsabile della conservazione documentale
Nuove professioni digitali: il Responsabile della conservazione documentaleSMAU
 
Come creare un filtro per geolocalizzare i Tweet
Come creare un filtro per geolocalizzare i TweetCome creare un filtro per geolocalizzare i Tweet
Come creare un filtro per geolocalizzare i TweetLivia Iacolare
 
The State of Social TV
The State of Social TVThe State of Social TV
The State of Social TVLivia Iacolare
 
Windows as a service
Windows as a serviceWindows as a service
Windows as a serviceSMAU
 
03_opendata e diritto di accesso
03_opendata e diritto di accesso03_opendata e diritto di accesso
03_opendata e diritto di accessoElisabetta Tola
 

Viewers also liked (13)

Ldb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgis
Ldb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgisLdb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgis
Ldb 25 strumenti gis e webgis_2014-05-20e21 lami - presentazione qgis
 
Gabriele Gattiglia - Progettare la pubblicazione dei dati
Gabriele Gattiglia - Progettare la pubblicazione dei datiGabriele Gattiglia - Progettare la pubblicazione dei dati
Gabriele Gattiglia - Progettare la pubblicazione dei dati
 
Cittadinanza digitale e diritti della rete
Cittadinanza digitale e diritti della reteCittadinanza digitale e diritti della rete
Cittadinanza digitale e diritti della rete
 
Taller tola jornadas (1)
Taller tola jornadas (1)Taller tola jornadas (1)
Taller tola jornadas (1)
 
Julian D. Richards - Open Data in European Archaeology
Julian D. Richards -  Open Data in European ArchaeologyJulian D. Richards -  Open Data in European Archaeology
Julian D. Richards - Open Data in European Archaeology
 
Smau milano 2013 pierluigi perri
Smau milano 2013 pierluigi perriSmau milano 2013 pierluigi perri
Smau milano 2013 pierluigi perri
 
Andrea Borruso & Gabriele Gattiglia - Comunicare i dati
Andrea Borruso & Gabriele Gattiglia - Comunicare i datiAndrea Borruso & Gabriele Gattiglia - Comunicare i dati
Andrea Borruso & Gabriele Gattiglia - Comunicare i dati
 
Francesca Bosco, Cybercrimes - Bicocca 31.03.2011
Francesca Bosco, Cybercrimes  - Bicocca 31.03.2011Francesca Bosco, Cybercrimes  - Bicocca 31.03.2011
Francesca Bosco, Cybercrimes - Bicocca 31.03.2011
 
Nuove professioni digitali: il Responsabile della conservazione documentale
Nuove professioni digitali: il Responsabile della conservazione documentaleNuove professioni digitali: il Responsabile della conservazione documentale
Nuove professioni digitali: il Responsabile della conservazione documentale
 
Come creare un filtro per geolocalizzare i Tweet
Come creare un filtro per geolocalizzare i TweetCome creare un filtro per geolocalizzare i Tweet
Come creare un filtro per geolocalizzare i Tweet
 
The State of Social TV
The State of Social TVThe State of Social TV
The State of Social TV
 
Windows as a service
Windows as a serviceWindows as a service
Windows as a service
 
03_opendata e diritto di accesso
03_opendata e diritto di accesso03_opendata e diritto di accesso
03_opendata e diritto di accesso
 

Similar to Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.Progetto Mappa
 
Open Source e Open Data - workshop LOW COST 3D
Open Source e Open Data - workshop LOW COST 3DOpen Source e Open Data - workshop LOW COST 3D
Open Source e Open Data - workshop LOW COST 3DMaurizio Napolitano
 
Open data e app: questo matrimonio s'ha da fare
Open data e app: questo matrimonio s'ha da fareOpen data e app: questo matrimonio s'ha da fare
Open data e app: questo matrimonio s'ha da fareLibreItalia
 
App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015
App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015
App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015Todi Appy Days
 
Architetture informatiche, media di interazione e nuove tecnologie nel mondo...
Architetture informatiche, media di interazione e nuove tecnologie nel  mondo...Architetture informatiche, media di interazione e nuove tecnologie nel  mondo...
Architetture informatiche, media di interazione e nuove tecnologie nel mondo...italo losero
 
Open Data: un cantiere aperto verso l'Open Data Day 2014
Open Data: un cantiere aperto verso l'Open Data Day 2014Open Data: un cantiere aperto verso l'Open Data Day 2014
Open Data: un cantiere aperto verso l'Open Data Day 2014FPA
 
Module No. 1 – Elaborazione delle informazioni
Module No. 1 – Elaborazione delle informazioniModule No. 1 – Elaborazione delle informazioni
Module No. 1 – Elaborazione delle informazioniKarel Van Isacker
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012INPSDG
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive
 
The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)Imola Informatica
 
Open Data e conservazione dei documenti informatici
Open Data e conservazione dei documenti informaticiOpen Data e conservazione dei documenti informatici
Open Data e conservazione dei documenti informaticiGianluca Satta
 
Open Data Confindustria Padova
Open Data Confindustria PadovaOpen Data Confindustria Padova
Open Data Confindustria PadovaGianluigi Cogo
 
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaIl "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaGraphRM
 
Dandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismDandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismSpazioDati
 
OntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaOntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaGiorgia Lodi
 
IWA ForumPA 2008
IWA ForumPA 2008IWA ForumPA 2008
IWA ForumPA 2008alscar
 
I 4 passaggi base per pubblicare open data
I 4 passaggi base per pubblicare open dataI 4 passaggi base per pubblicare open data
I 4 passaggi base per pubblicare open dataMaurizio Napolitano
 

Similar to Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati (20)

Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.Apriamo il passato. Gli Open Data in archeologia.
Apriamo il passato. Gli Open Data in archeologia.
 
Open Source e Open Data - workshop LOW COST 3D
Open Source e Open Data - workshop LOW COST 3DOpen Source e Open Data - workshop LOW COST 3D
Open Source e Open Data - workshop LOW COST 3D
 
Open data e app: questo matrimonio s'ha da fare
Open data e app: questo matrimonio s'ha da fareOpen data e app: questo matrimonio s'ha da fare
Open data e app: questo matrimonio s'ha da fare
 
App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015
App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015
App & Open Data: un matrimonio che s'ha da fare - Todi Appy Days 2015
 
Architetture informatiche, media di interazione e nuove tecnologie nel mondo...
Architetture informatiche, media di interazione e nuove tecnologie nel  mondo...Architetture informatiche, media di interazione e nuove tecnologie nel  mondo...
Architetture informatiche, media di interazione e nuove tecnologie nel mondo...
 
Open Data: un cantiere aperto verso l'Open Data Day 2014
Open Data: un cantiere aperto verso l'Open Data Day 2014Open Data: un cantiere aperto verso l'Open Data Day 2014
Open Data: un cantiere aperto verso l'Open Data Day 2014
 
Module No. 1 – Elaborazione delle informazioni
Module No. 1 – Elaborazione delle informazioniModule No. 1 – Elaborazione delle informazioni
Module No. 1 – Elaborazione delle informazioni
 
Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012Formez Opendata Inps - webinar 29 marzo 2012
Formez Opendata Inps - webinar 29 marzo 2012
 
Lodlive - browsing the web of data
Lodlive - browsing the web of dataLodlive - browsing the web of data
Lodlive - browsing the web of data
 
The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)The Knowledge Gap (Busanelli - Proscia)
The Knowledge Gap (Busanelli - Proscia)
 
Open Data e conservazione dei documenti informatici
Open Data e conservazione dei documenti informaticiOpen Data e conservazione dei documenti informatici
Open Data e conservazione dei documenti informatici
 
Open Data Confindustria Padova
Open Data Confindustria PadovaOpen Data Confindustria Padova
Open Data Confindustria Padova
 
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaIl "Knowledge Graph" della Pubblica Amministrazione Italiana
Il "Knowledge Graph" della Pubblica Amministrazione Italiana
 
Dandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismDandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data Journalism
 
Lavorare con i LOD
Lavorare con i LODLavorare con i LOD
Lavorare con i LOD
 
OntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italianaOntoPiA e il knowledge graph della pubblica amministrazione italiana
OntoPiA e il knowledge graph della pubblica amministrazione italiana
 
About open data
About open dataAbout open data
About open data
 
IWA ForumPA 2008
IWA ForumPA 2008IWA ForumPA 2008
IWA ForumPA 2008
 
Open data: un'introduzione
Open data: un'introduzioneOpen data: un'introduzione
Open data: un'introduzione
 
I 4 passaggi base per pubblicare open data
I 4 passaggi base per pubblicare open dataI 4 passaggi base per pubblicare open data
I 4 passaggi base per pubblicare open data
 

Andrea Borruso & Gabriele Gattiglia - Reperire, scaricare, pulire i dati

  • 1. Andrea Borruso – Gabriele Gattiglia Reperire, scaricare e pulire i dati
  • 2. Premessa Talking and making / learning by doing Approccio hacker «Hack ha solo un significato: quello estremamente sottile e profondo di qualcosa che rifiuta ulteriori spiegazioni» Phil Agre Da cui discende che un hacker è colui che affronta sfide intellettuali per aggirare o superare creativamente le limitazioni senza manuale di istruzioni. L’hacker non è un pirata informatico quello è un cracker!
  • 3.
  • 6. ATTENZIONE! E’ importante – e fondamentale – non confondere il termine open data con quello open access. Con open access ci riferiamo per lo più a testi – articoli, libri, relazioni, tesi di laurea, ecc… -, liberamente consultabili e spesso scaricabili in rete. In ambito archeologico si possono definire ad accesso aperto anche i webGIS, quando sono usati per la sola visualizzazione geografica del dato archeologico, che però non ne permettono lo scaricamento e il riuso.
  • 7. PRIMARI: cioè grezzi (raw), in modo da poter essere integrati e aggregati con altri dati e contenuti, in formato digitale. TEMPESTIVI: gli utenti devono essere messi in condizione di accedere velocemente alle informazioni e utilizzare i dati presenti sul web in modo rapido e immediato, massimizzando il valore e l’utilità derivanti dall’accesso e dall’uso di queste risorse. RICERCABILI: è necessario assicurare agli utenti l’opportunità di ricercare con facilità e immediatezza i dati, mediante strumenti di ricerca ad hoc. (IMPORTANTE!!! I Dati devono poter essere usati) PERMANENTI: le peculiarità descritte devono caratterizzare i dati nel corso del loro intero ciclo di vita sul web. I DATI APERTI devono essere: NON PROPRIETARI Liberi di essere UTILIZZATI Liberi di essere RIUTILIZZATI Liberi di essere RIDISTRIBUITI per qualunque scopo Quindi
  • 8. Accesso L’opera deve essere disponibile nella sua interezza ed a un costo di riproduzione ragionevole, preferibilmente tramite il download gratuito via Internet I dati devono essere completi: esportabili, utilizzabili online e offline, integrabili e aggregabili con altre risorse, diffondibili via web e riportare le specifiche adottate per la loro realizzazione I dati devono essere accessibili a tutti senza alcuna sottoscrizione di contratto, pagamento, registrazione o richiesta ufficiale; devono essere trasmissibili e interscambiabili tra tutti gli utenti direttamente via web
  • 9. Assenza di restrizioni tecnologiche L’opera deve essere fornita in un formato che non ponga ostacoli tecnologici al riuso. Dati machine-readable Gli utenti devono poter utilizzare e processare i dati attraverso programmi, applicazioni e interfacce non proprietarie e aperte. I dati devono essere pubblicati e riutilizzabili in formati semplici e generalmente supportati dai programmi più usati dalla collettività digitalizzata
  • 10. Ridistribuzione: licenza La licenza non deve imporre alcuna limitazione alla vendita o all’offerta gratuita dell’opera singolarmente considerata o come parte di un pacchetto composto da opere provenienti da fonti diverse. La licenza non deve richiedere alcuna “royalty” o altra forma di pagamento per tale vendita o distribuzione. La licenza deve consentire il riutilizzo, la realizzazione cioè di modifiche e di opere derivate e deve consentire la loro distribuzione agli stessi termini dell’opera originaria. Attribuzione: La licenza può richiedere di citare i vari contributori e creatori dell’opera (BY) come condizione per la ridistribuzione ed il riutilizzo di quest’ultima. Se imposta, questa condizione non deve essere onerosa. Integrità: La licenza può richiedere, di distinguere l’opera derivata dall’opera originaria (originalità del nome). La licenza non deve contenere nessuna discriminazione di persone , gruppi o settori d’attività
  • 11. Oggi produciamo miliardi di dati Questi dati ci appartengono L’ecologia dei dati La produzione di dati ha un costo sostenuto dall’intera collettività I dati sono prodotti a prescindere dal loro riuso PERCHE’ NON RIUTILIZZARLI?
  • 12. I dati grezzi sono il vero unico «codice sorgente» dell’archeologia, quello che consente di formulare ulteriori ipotesi e ricostruzioni storiche Doc. grafica Doc. fotografica Doc. compilativa Relazioni Apparato archeografico (dataset) Letteratura grigia
  • 13. PERCHE’? ‘Aprire per proteggere’ Archiviazione digitale dei dati Utilizzo dei dati come materiale di confronto immediatamente fruibile Pubblicazione di tutti i dati Riconoscimento del lavoro archeografico anche in termini scientifici e di ‘titoli’ Verifica del processo di indagine NO archeologia dogmatica, ma esplicitazione della componente soggettiva del processo interpretativo Ri- uso dei dati per creare nuove analisi (scalarità dei dati) e nuove interpretazioni Ottimizzazione dei costi di gestione/tutela Conservazione dei dati
  • 15. ma soprattutto di sviluppi inaspettati e imprevedibili………..
  • 16. QUALI SONO I PROBLEMI? • Eterogeneità dei dati: formati proprietari, formati non adatti alla pubblicazione dei dati, documentazione mancante, non omogenea o parziale, vincoli giuridici alla circolazione, protocolli proprietari • I dati sono difficili da trovare: diverse amministrazioni pubbliche, diversi siti web, diverse modalità di ricerca, accessibilità ed utilizzo del dato • Mancanza di standard condivisi nella produzione e nella diffusione: i dati sono difficili da interpretare. Diverse sono le classificazioni , i vocabolari utilizzati , gli schemi e i modelli per rappresentare il mondo reale (Dove esistente) diversa modalità di metadazione.
  • 17. Barriere giuridiche alla pubblicazione e al riuso degli open data: poca chiarezza in campo legislativo (regolamentazioni generali – Codice Amministrazione Digitale – ma difficoltà di applicazione nei settori specifici) Impreparazione tecnica (carenza formazione) (cosa pubblicare? Come pubblicare? Dove? Cosa farne dei dati open?) Scelta dei dati (?) Cosa serve pubblicare e cosa no Diffidenza culturale (siamo ancora nella fase di «sensibilizzazione») Difficoltà di comunicazione. Esiste ancora il «preconcetto tecnologico»: gli open data sono qualcosa che serve solo agli informatici. Non vi è migliore forma di comunicazione che la dimostrazione
  • 18. Ma dove sono i dati degli scavi???
  • 28. MOD Mappa Open Data archaeological archive Come per la PA, per i beni archeologici non sono ancora stati affrontati centralmente i problemi e le potenzialità reali delle pubblicazione di dati aperti Pubblicare l’archeologia italiana in forma di Open Data http://www.mappaproject.org/mod
  • 29. La struttura del MOD http://mappaproject.arch.unipi.it/mod/Index.php Modello ripreso dall’Archaeological Data Service (ADS , GB) creato e gestito dall’Università di York Archivio Intervento LETTERATURA GRIGIADATASET Relazione DOI Schede US Planimetrie Schede di quantificazione Schede materiali Matrix Sezioni …. DOI Introduzione Work in progress: - collegamento a MAPPAGIS - nuova strutturazione su base nazionale
  • 32. I dati tabellari non sempre sono buoni, anzi il più delle volte sono brutti e cattivi!
  • 33. pdf portable document format esempio Web .xls .csv comma separated value esempio .json JavaScript Obiect Notation esempio
  • 34. a volte serve la ramazza
  • 35. TSV, CSV, *SV, Excel (.xls and .xlsx), JSON, XML, RDF as XML http://openrefine.org/
  • 36. 1. Prendiamo i dati MOD 2. Facciamo una ricerca per formati 3. Scarichiamo come .csv 4. Lo importiamo in OpenRefine 5. Lo ripuliamo lavorando coi cluster 6. Lo prepariamo per future visualizzazioni (grafici)
  • 37. Reperire, scaricare, ripulire i dati Ma i dati si possono trovare anche sui siti internet esposti come tabelle….. …..come li togliamo di lì???
  • 40. 1. Estraggo i dati dalla tabella 2. Li importo in OpenRefine 3. Modifico il campo cronologia 4. Esporto come csv Appuriamolo NO, no lo è SI, anche se non hanno messo una licenza e potremmo considerare tutto di pubblico dominio, citiamo ugualmente la fonte
  • 41. …..la ciliegina sulla torta Dulcis in fundo
  • 42. I più brutti di tutti…..
  • 43.
  • 44. Siccome l’archeologia non è solo scavi e ricerche, ma è anche appalti e contratti
  • 45. E siccome i dati non sono sempre bene ordinati come quelli del portale della Trasparenza… http://open.pompeiisites.or g/
  • 46. 1. Apriamo il portale della trasparenza 2. Scarichiamo il pdf 3. Estraiamo i dati con tabula 4. Li apriamo in OpenRefine 5. Trasformiamo la data 6. Trasformiamo il campo costi 7. Filtriamo le voci 8. Esportiamo come .csv
  • 48. 2002, Wheatley and Gillings: «Contrary to popular mythology, contemporary professional archaeologists may spend more time using GIS than a trowel» 2014, CAA Session: Is GIS the new trowel? Sicuramente il GIS permette di scavare nei dati
  • 49.
  • 50. Geocoding 1. Scarichiamo i dati interventi filtrati da MAPPAgis 2. Importiamo in OpenRefine 3. Ripuliamo la colonna ubicazioni 4. Applichiamo Fetching URL "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url") 5. Trasformiamo in coordinate (lat/long) with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng) 6. Dividiamo la colonna (split) 7. Esportiamo in .csv 8. Importiamo .csv in qGIS (layer testo delimitato) 9. Colleghiamo a WMS regione Toscana http://www502.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmscastor e http://web.regione.toscana.it/wmsraster/com.rt.wms.RTmap/wms?map=wmsctr 10.Usiamo OSM 11.Mappa di Concentrazione / KDE https://github.com/OpenRefine/OpenRefine/wiki/Geocoding
  • 51. OpenStreetMap «OpenStreetMap è una mappa liberamente modificabile dell'intero pianeta. È fatta da persone come te. OpenStreetMap permette a chiunque sulla Terra di visualizzare, modificare ed utilizzare dati geografici con un approccio collaborativo.» In parole povere una cartografia collaborativa open data Ma riguarda anche l’archeologia? Incredibile, SI!
  • 52. Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party Nel dicembre 2008 venne fatto un Mapping Party a Pompei, che ha prodotto la migliore cartografia on-line del sito: guardare per credere OSM Google Map
  • 53. Diverse rappresentazioni… …anche 3D Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party
  • 54. Molte possibilità di utilizzo dai servizi mobile agli stradari… Fonte: Maurizio Napolitano OpenStreetMap e Pompei. Storia di un Mapping Party