La presentazione è stata fatta in occasione di un corso di formazione presso alcuni comuni della Regione Veneto. La presentazione spazia su diversi temi dell'open data, big data, condivisione di dati (principio once-only), ontologie
13. Il valore dei dati
Fonte: Analytical Report 9: The Economic Benefits of Open Data
325€ billion direct market – period 2016-2020
100K jobs in Open Data in 2020
More than 2500 jobs in at least nine countries
1.7€ billion saved in costs in EU countries for Public
Administration
Fonte: Open Data Institute UK
The open data companies we studied (270)
have an annual turnover of over £92bn, and
over 500k employees between them
15. Scenario Europeo: Nuova Direttiva Europea
15
In conformità con la GDPR – General Data Protection Regulation
Nuovo nome «Open Data e riutilizzo dell’informazione pubblica» giugno
2019
1. Real time data e API per dati dinamici
2. Tutti i contenuti del settore pubblico acceduti secondo le regole per
l’accesso ai documenti della PA sono liberamente e gratuitamente
disponibili per il riutilizzo
3. Assenza di esclusiva (no data lock in) - obblighi di trasparenza tra
enti pubblici e privati
4. Dati sui trasporti e di pubblica utilità
5. Dati su ricerca finanziata con soldi pubblici
6. High Value Dataset
16. Ambito di applicazione
Articolo 1 Oggetto e ambito di applicazione
1.Al fine di promuovere l'utilizzo di dati aperti e di incentivare l'innovazione nei prodotti e nei servizi,
la presente direttiva detta un complesso di norme minime in materia di riutilizzo e di modalità
pratiche per agevolare il riutilizzo:
a) dei documenti esistenti in possesso degli enti pubblici degli Stati membri;
b) dei documenti esistenti in possesso delle imprese pubbliche:
i) attive nei settori definiti nella direttiva 2014/25/UE (settori: acqua, trasporti, energia, servizi
postali);
ii) che agiscono in qualità di operatori di servizio pubblico a norma dell'articolo 2 del
regolamento (CE) n. 1370/2007;
iii) iche agiscono in qualità di vettori aerei che assolvono oneri di servizio pubblico a norma
dell'articolo 16 del regolamento (CE) n. 1008/2008; o
iv) che agiscono in qualità di armatori comunitari che assolvono obblighi di servizio pubblico
a norma dell'articolo 4 del regolamento (CEE) n. 3577/92;
c) dei dati della ricerca, conformemente alle condizioni di cui all'articolo 10
https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:32019L1024&from=EN
17. Dataset di alto valore
17
Dati geospaziali
Dati relativi all'osservazione
della terra e all'ambiente
Dati meteorologici
Dati statistici
Dati relativi alle imprese e alla
proprietà delle imprese
Dati relativi alla mobilità
18. Scenario normativo italiano
REGIONE CAMPANIA era ULTIMA
Codice per l’Amministrazione Digitale – CAD
• Articolo 1 comma 1 lettera l-ter) – definizione di dati aperti
• Articolo 50 comma 1 – messa a disposizione di dati aperti
• Articolo 52 –
• principio open data by default,
• responsabilità dirigenziale,
• capitolati di gara
https://docs.italia.it/italia/piano-triennale-ict/codice-amministrazione-digitale-docs/it/v2018-09-28/
D.Lgs 102/2015 – recepimento direttiva (2013)
riutilizzo informazione del settore pubblico
https://www.gazzettaufficiale.it/eli/id/2015/07/10/15G00116/sg
Piano Triennale – Capitolo 5 - I dati della
Pubblica Amministrazione (e le ontologie)
https://pianotriennale-ict.italia.it/
Scenario normativo italiano
19. Open Data - articolo 1 del CAD
19
• Disponibile (requisito giuridico): disaggregato,
secondo i termini di una licenza aperta che ne
consenta il riutilizzo, anche per finalità commerciali
• Accessibile (requisito tecnologico): da macchine, in
formato aperto e corredato di metadati
• Gratuito (requisito economico): gratuito o a costi
marginali sostenuti per la riproduzione, messa a
disposizione e divulgazione
20. Open Data – articolo 50 comma 1 del CAD
20
I dati delle pubbliche amministrazioni sono formati, raccolti,
conservati, resi disponibili e accessibili con l’uso delle tecnologie
ICT che ne consentano la fruizionee riutilizzazione[…]
da parte delle altre pubbliche amministrazioni e
dai privati; restano salvi i limiti alla conoscibilità dei dati previsti
dalle leggi e dai regolamenti, le norme in materia di protezione
dei dati personali ed il rispetto della normativa comunitaria in
materia di riutilizzo delle informazioni del settore pubblico
21. Open Data – articolo 52 del CAD
21
I dati e i documenti che le PA pubblicano [..] senza l’espressa adozione di
una licenza [..] si intendono rilasciati come dati di tipo aperto [..] ad
eccezione dei casi in cui la pubblicazione riguardi dati personali del
presente Codice
Nella definizione dei capitolati o degli schemi dei contratti
di appalto relativi a prodotti e servizi che comportino la
formazione, la raccolta e la gestione di dati, le PA prevedono
clausole idonee a consentirne l’utilizzazione in
conformità a quanto previsto dall’articolo 50
Le attività volte a garantire l’accesso telematico e il riutilizzo dei dati [..]
rientrano tra i parametri di valutazione della performance dirigenziale
22. Nelle linee guida AgID del 2014…
https://www.agid.gov.it/sites/default/files/repository_files/linee_guida/patrimoniopubblicolg2014_v0.7finale.pdf
• Fornisce un’indicazione di massima su una clausola
generale da inserire nei capitolati
• Fornisce raccomandazioni su cosa includere come
requisiti distinguendo tra
o servizi che possono generare indirettamente dati
pubblici
o servizi che riguardano specificatamente la
generazione di dati pubblici (e.g., gestione di uno
specifico sistema informativo)
23. Open Data non deve essere confuso con…
Pubblicazione online di un documento o di un
dato (es. pubblicare un file PDF o un sito web con
ricerca sui dati NON è open data !!)
Pubblicare online dataset strutturati con licenze
NON aperte
30. Linee guida valorizzazione patrimonio pubblico
Contesto Legale
I dati delle Pubbliche Amministrazioni
I modelli per i dati e per i metadati (DCAT-AP_IT)
Modello operativo e qualità dei dati
Architettura di riferimento per l’informazione del
settore pubblico
Licenze e modelli di costo
Come pubblicare dati aperti e il catalogo
nazionale dei dati
https://docs.italia.it/italia/daf/lg-patrimonio-pubblico/it/stabile/
33. Big data
Le 5 V
dei Big
Data
Volume
Varietà
VelocitàValore
Veradicità
Dati di grandi
dimensioni
Dati strutturati e
non strutturati
Velocità nel flusso
di generazioen dei
dati
Affidabilità del dato
Abilità di combinare i dati
per trasformarli in valore
35. REGIONE CAMPANIA era ULTIMA
Piattaforma
Digitale
Nazionale dei
Dati (PDND)
Piano triennale 2019-2021
36. Articolo 50-ter del CAD
La Presidenza del Consiglio dei ministri promuove la
progettazione, lo sviluppo e la sperimentazione di una
Piattaforma Digitale Nazionale Dati finalizzata a favorire la
conoscenza e l’utilizzo del patrimonio informativo detenuto,
per finalità istituzionali, dai soggetti di cui all’articolo 2, comma 2,
lettera a), ad esclusione delle autorità amministrative indipendenti di
garanzia, vigilanza e regolazione, nonché alla condivisione dei
dati tra i soggetti che hanno diritto ad accedervi ai fini
della semplificazione degli adempimenti amministrativi dei
cittadini e delle imprese, in conformità alla disciplina
vigente
38. Modello organizzativo
Linee guida
nazionali per la
valorizzazione del
patrimonio
informative
pubblico* -
incoraggiano ad
utilizzare un’altra
linea guida…
* https://docs.italia.it/italia/daf/lg-
patrimonio-
pubblico/it/stabile/aspettiorg.html#lin
ea-3-linked-open-data
39. Modello organizzativo – selezionare i dati
Guidati dalla domanda
Effettiva disponibilità dei
dati possibilmente
agganciati a sistemi
esistenti
Dare più alta priorità ai
dataset chiave definiti a
livello nazionale
40. Quali dataset chiave definiti a livello
nazionale?
Individuiamo i dataset
Paniere
dinamico
di dataset
Basi di
dati
chiave
*
41. Basi di dati chiave: quali
41
TRASPORTI (TRAFFICO E MOBILITÀ)
DATI DEL TRAFFICO REAL TIME,
PARCHEGGI, DATI DEL TRASPORTO
PUBBLICO REAL TIME E STATICI,
PATENTI ATTIVE, INCIDENTI, PERIMETRO
VARCHI E ZTL
ISTRUZIONE, CULTURA E SPORT
LUOGHI ED EVENTI CULTURALI, BENI
CULTURALI, GUIDE TURISTICHE,
STRUTTURE RICETTIVE, CAMMINI
REGIONI E CITTÀ
ARCHIVIO STORICO DEI COMUNI,
ANAGRAFE NAZIONALE NUMERI
CIVICI E STRADE URBANE
GIUSTIZIA, SISTEMA
LEGALE, SICUREZZA
PUBBLICA
NORMATTIVA
ECONOMIA E FINANZE
STATISTICHE SU STARTUP E IMPRESE,
CATASTO – OSSERVATORIO MERCATO
IMMOBILIARE
Parzialmente
aperti in alcune
regioni/comuni
Buona
parte aperti
Solo
l’archivio
storico dei
comuni Non aperto
In parte
aperti
42. Paniere dinamico di dataset
OBIETTIVO
• Misurazione indicatore “Disponibilità di banche dati pubbliche in
formato aperto”, inserito nell’Accordo di Partenariato 2014-2020
(AP)
• Definito come “Numero di banche dati pubbliche disponibili in
formato aperto in percentuale sulle banche dati pubbliche di un
paniere selezionato”
• Lavoro congiunto tra AgID ISTAT e NUVAP – Presidenza del
Consiglio dei Ministri
COMPONENTI
• Una componente nazionale
• Una componente regionale Circa 100 dataset
43. Paniere dinamico di dataset –regione Veneto
43
Componente
regionale
Componente
Nazionale
Valore
medio per
regione
Veneto
44. Analisi giuridica - checklist
Diversi aspetti da
verificare per
una corretta
pubblicazione
Privacy/Segretezza
Temporalizzazione
Trasparenza
Accessibilità legale
(licenze)
Esempio:
Il dataset contiene dati personali?
I dati personali permettono l’identificazione
diretta dell’interessato (es. nome, cognomen)?
Esempio:
I dati sono soggetti per legge a restrizioni
temporali di pubblicazione?
Esempio
I dati rientrano nella lista dell’allegato A del
d.lgs. 33/2013?
Esempio
Stai rilasciando i dati di cui possiedi la proprietà
accompagnati da
una licenza?
45. Modello organizzativo – altre fasi del processo
Bonifica Produzione sostenibile di dataset
almeno di livello 3
Metadatazione del dataset
scegliendo la licenza per il riutilizzo Pubblicazione
46. Modello organizzativo – altre fasi del processo
Bonifica Produzione sostenibile di dataset
almeno di livello 3
Metadatazione del dataset
scegliendo la licenza per il riutilizzo Pubblicazione
47. Bonifica per avere data quality
Generalmente l’analisi della qualità del dato può richiedere una
fase di bonifica. Infatti, i dati all’interno dei sistemi informativi o
degli archivi di un’amministrazione sono spesso “sporchi” e non
rispondenti ai requisiti di qualità – Linee guida valorizzazione patrimonio
pubblico
Standard di riferimento ISO/IEC 25012 e ISO/IEC
25012:2014 – Definizione e calcolo di 15
caratteristiche
48. Almeno le seguenti caratteristiche di qualità
Linee guida AgID richiedono il rispetto almeno delle seguenti:
• Accuratezza sintattica e semantica - il dato, e i suoi attributi,
rappresenta correttamente il valore reale del concetto o
evento cui si riferisce
• Coerenza - l dato, e i suoi attributi, non presenta
contraddittorietà rispetto ad altri dati del contesto d’uso
dell’amministrazione titolare
• Completezza - il dato risulta esaustivo per tutti i suoi valori attesi
e rispetto alle entità relative (fonti) che concorrono alla
definizione del procedimento
• Attualità (o tempestività di aggiornamento) - il dato, e i suoi
attributi, è del “giusto tempo” (è aggiornato) rispetto al
procedimento cui si riferisce
49. Ci sono anche
dei cap e dei
numeri di
telefono (!)
Dataset 1
Alcuni esempi di dati reali
50. Dataset 2
Con un po’ di
contesto FORSE
volevano dire
«aperto», «chiuso»
oppure «attivo», «non
attivo» oppure altro??
Alcuni esempi di dati reali
52. Modello organizzativo – altre fasi del processo
Bonifica Produzione sostenibile di dataset
almeno di livello 3
Metadatazione del dataset
scegliendo la licenza per il riutilizzo Pubblicazione
54. Formati per i dati
Si adottano formati aperti senza assumere che gli utenti
possano leggere formati proprietari. Nel caso inevitabile di
rilascio in formati proprietari, è necessario assicurare la
disponibilità anche di un’alternativa non proprietaria
Dataset
Nel caso di CSV bisogna specificare
• il separatore
• la codifica dei caratteri,
privilegiando ove possibile UTF-8
Dataset
57. Formati per i dati
PD Immagine:
NO senza se e senza MA
58. Formati per i documenti
Standardizzato dall’ISO (ISO/IEC 32000-1:2008) con
formati differenti, ognuno con propria prerogativa (e.g.,
PDF/UA per l’accessibilità, PDF/H per documenti sanitari,
PDF/A per l’archiviazione, ecc)
Standard OASIS basato su XML
Standard OASIS basato su XML per documenti giuridici.
Normattiva renderà disponibili a breve open data delle
norme italiane sulla base di questo standard
59. Modello organizzativo – altre fasi del processo
Bonifica Produzione sostenibile di dataset
almeno di livello 3
Metadatazione del dataset
scegliendo la licenza per il riutilizzo Pubblicazione
63. Problemi con i metadati
• Diversi livelli di qualità dei metadati
• Diverse piattaforme utilizzate per rappresentarli
nei vari cataloghi
• DKAN, CKAN, Socrata, Piattaforme
proprietarie
• Classificazioni dei dataset diverse
• Miriade di modi diversi di specificare le licenze
per i dati
63
64. Possibile soluzione
64
Fornire un modello per una metadatazione uniforme
dei dataset che ponga i riutilizzatori (collettività ma
anche altre PA) al centro!
65. Il modello Europeo DCAT-AP
La specifica di un profilo applicativo basata sullo
standard W3C DCAT – Data Catalogue, a sua volta
costruito sulla base dello standard RDF – Resource
Description Framework (livelli 4 e 5)
DCAT-AP può essere visto come un livello comune
per l’interscambio di metadati associati a una
varietà ampia di dataset
• Principali concetti: Catalogo, Dataset,
Distribuzione (del Dataset)
La specifica può essere estesa dagli Stati Europei
65
DCAT
DCAT-AP
NO DE CH IT
66. Estensioni DCAT-AP
• GeoDCAT-AP
• Facilita la condivisione di descrizione di dataset geospaziali
tra geoportali e portali dei dati generali
• StatDCAT-AP
• Estende la specifica DCAT-AP con un piccolo numero di
elementi particolarmente rilevanti per i dati statistici.
• Facillita l’interoperabilità tra descrizioni di dati statistici tipici
del dominio statistico con i portali di dati in generale
• Utili per abilitare #interoperabilità tra cataloghi diversi
66
68. DCAT-AP_IT
68
Linee guida per i cataloghi dati
Disponibile online su docs.italia e
raggiungibile via dati.gov.it
https://docs.italia.it/italia/daf/linee-guida-
cataloghi-dati-dcat-ap-it/it/stabile/
NON SOLO per
dati aperti
69. DCAT-AP_IT: principali concetti
PROPRIETÀ OBBLIGATORIE
• Titolo à ex: Catalogo open data di Roma
Capitale, evitate titoli generici come
CKAN o Open Data!
• Descrizione --> breve descrizione
• Editore à chi lo rende disponibile
• Data ultima modifica
• dataset à collegamento con tutti i
dataset contenuti nel catalogo
69
CATALOGO
70. DCAT-AP_IT: principali concetti
70
DATASET
PROPRIETÀ OBBLIGATORIE
• ID
• Titolo --> breve. Evitate titoli chilometrici!
• Descrizione
• Data ultima modifica
• Tema à uso vocabolario europeo con 13
temi
• Frequenza di aggiornamento à uso del
vocabolario controllato europeo
• distribuzione à se il dataset è aperto
71. DCAT-AP_IT: principali concetti
71
PROPRIETÀ OBBLIGATORIE
• Titolare à Chi ha la responsabilità di curare la
gestione del dato, dalla sua creazione fino alla
sua evoluzione
Attenzione a confusione tra titolare, editore e
creatore
Necessario specificare codice IPA e nome del
titolare editore, creatore attraverso concetto di
Agente
DATASET
72. DCAT-AP_IT: principali concetti
72
DISTRIBUTION
PROPRIETÀ OBBLIGATORIE
• Formato à uso vocabolario controllato
europeo
• Licenza à uso vocabolario controllato
sulle licenze italiano
• URL di accesso
Descrizione è elemento raccomandato
Titolo e URL download non sono
obbligatori ma potrebbe essere utile
specificarli
73. Metadati geospaziali
PROFILO NAZIONALE PER I METADATI DEI DATI GEOSPAZIALI
• Definito con provvedimento della Presidenza del Consiglio
nel 2011
• Basato su standard quali ISO 19115, 19119, TS19139
• Basato su regole tecniche definite nell’ambito della Direttiva
INSPIRE
• Implementato attraverso il Repertorio Nazionale dei Dati
Territoriali (RNDT)
73
74. Cataloghi nazionali dei dati
74
INSPIRE/RNDT
PROFILE
DCAT-AP_IT
GeoDCAT-AP
INTEROPERABILITÀ
Geo Data sono documented nell’RNDT
GeoDCAT-AP è il ponte tra I due cataloghi
76. Federazione di cataloghi – diversi casi
• Uso della stessa piattaforma per la gestione dei portali dei dati CKAN à
Federazione tra cataloghi molto facile e immediata ma meno ricca di
metadati
• E.g., Catalogo del Comune di Bari
• Uso della stessa piattaforma per la gestione dei portal dei dati CKAN +
estensione DCAT-AP_IT à Federazione tra cataloghi molto facile e
immediatae ricchezza dei metadati
• E.g., Catalogo del Trentino, Catalogo della Regione Toscana, Catalogo di Milano
• Uso di piattaforme proprietarie ma con implementazione o di API CKAN o
del modello DCAT-AP_IT à Federazione tra cataloghi molto facile e
immediate (ricchezza di metadati in presenza del modello DCAT-AP_IT)
• E.g., Regione Veneto, Comune di Palermo, Ministero dei Beni e delle Attività Culturali
76
77. Federazione di cataloghi – diversi casi
• Uso di piattaforme diverse per i portal dei dati (e.g., DKAN) ma metadata
esposti via data.json à Federazione facile e immediate ma meno
ricca di metadati
• E.g., ACI
• Uso di piattaforme diverse per i portali dei dati (e.g., Metarepo) con API
proprietarie disponibili à Federazione non possibile
• E.g., Comune di Cagliari
• Uso di pagine web o piattaforme proprietarie senza l’implementazione
del modello DCAT-AP_IT o ogni altro tipo di API à Federazione non
possibile
• E.g., Regione Liguria, Comune di Venezia
77
86. Il portale Regione Veneto – DCAT-AP_IT
In fase di test a livello centrale
l’harvesting via DCAT-AP_IT
API CKAN al momento non funzionanti
ma ci si sta lavorando
88. Strumenti nazionali centrali per i cataloghi dati
88
1. Esempi pratici a cui ispirarsi
https://linee-guida-cataloghi-dati-profilo-dcat-ap-
it.readthedocs.io/it/latest/dcat-ap_it.html
2. Docker CKAN con estensione DCAT-
AP_IT
3. Validatore
https://github.com/italia/daf-
semantics/tree/master/semantic_validator
91. Principio Once only e interoperabilità
semantica - Il paradigma dei Linked
(Open) Data
92. Principio Once Only
Cittadini e imprese forniscono dati diversi una sola
volta alla pubblica amministrazione
Le pubbliche amministrazioni implementano il
principio con una serie di azioni che consentano il
riutilizzo e la massima condivisione tra loro di questi
dati, anche transfrontaliera, nel rispetto della
normativa in materia di protezione dei dati personali
93. Il dato è una rete
“A single road only takes us to places between
two locations; roads real value comes from
being part of a network. Data works in the same
way: it is not just having more data that unlocks
its value, but linking it together. Data is not
individual datasets, it is a network”
93
“I dati hanno valore solo se si combinano
con altri dati. I dataset presi individualmente
hanno uno scarso valore. Solo attraverso la
loro aggregazione possono aprire le
straordinarie possibilità offerte dalle tecniche
di data analysis” - Presidente del Consiglio Conte
– Data Driven Innovation 2019, Roma
94. Condivisione dei dati – articolo 50 comma 2
Qualunque dato trattato da una pubblica amministrazione, con le
esclusioni di cui all’articolo 2, comma 6, salvi i casi previsti dall’articolo 24 della
legge 7 agosto 1990, n. 241, e nel rispetto della normativa in
materia di protezione dei dati personali, è reso
accessibile e fruibile alle altre amministrazioni quando
l’utilizzazione del dato sia necessaria per lo svolgimento
dei compiti istituzionali dell’amministrazione
richiedente, senza oneri a carico di quest’ultima, salvo per
la prestazione di elaborazioni aggiuntive; è fatto comunque salvo il disposto
dell’articolo 43, comma 4, del decreto del Presidente della Repubblica 28
dicembre 2000, n. 445.
95. Condivisione dati istituzionali vs Open Data
Caratteristiche Condivisione dati istituzionali Open data
Tipo di dati Dati pubblici e a
conoscibilità limitata (anche
dati personali)
Dati pubblici - non contiene
dati personali e dati soggetti
a segreto di stato e statistico
Finalità Istituzionali Qualunque anche
commerciale
Costi Gratuito Gratuito / Costi marginali per
la loro riproduzione e
divulgazione
Destinatari Amministrazioni Tutti (amministrazioni, private
e singoli cittadini)
Linee guida Nuovo modello di
interoperabilità
Linee guida per la
valorizzazione del patrimonio
informative pubblico 2017
96. Basi di dati di interesse nazionale
Una fonte ufficiale, affidabile e autentica di informazioni che costituisce il
fondamento per la costruzione di servizi pubblici e che è rilevante per lo
svolgimento delle funzioni istituzionali delle pubbliche amministrazioni
• Alcune già identificate all’articolo 60 del Codice dell’Amministrazione
Digitale – i.e., Registro imprese, Banca dati contratti pubblici, RNDT,
Anagrafe Nazionale Popolazione Residente (ANPR), Anagrafe nazionale
Assistiiti (ANA), Archivi automatizzati in materia di immigrazione e di asilo,
Casellario Giudiziale, Banca dati aziende agricole
• Altre identificate in altre normative – Anagrafe Nazionale delle Strade
Urbane e dei Numeri Civivi (ANNCSU), Indice Pubblica Amministrazione (IPA)
• Altre equiparabili a banche dati di interesse nazionale identificate da AgID –
e.g., dati.gov.it
• Nell’ambito dell’European Interoperability Framework sono i cosiddetti Base
Register
98. In altri paesi europei….
• Belgio, Norvegia, Repubblica Ceca, Olanda stanno
sperimentando nuovi modi per collegare
nativamente i dati contenuti nelle proprie banche
dati di interesse nazionale
• Uso del paradigma dei Linked (Open) Data per
banche dati quali quelle sugli indirizzi, sugli edifici,
sulle aziende
99. Passiamo dalle 3 alle 4 e 5 stelle
Se il dato è una rete e dobbiamo eliminare
duplicazione dobbiamo abilitare i collegamenti
tra i dati rendendoli interoperabili
Dobbiamo quindi passare a dati nativamente
«linked»
101. Standard del Web Semantico
101
Href link non tipato)
Risorse: Documenti Web
HTML con link non tipati (href)
Interrogazioni più complesse sui dati sono impossibili
102. Interrogazioni complesse
Qual è il percorso più breve per raggiungere un parcheggio
gratuito con posti riservati ai disabili vicino al Colosseo?
109. Standard Web Semantico: RDF
109
• Un modello per I dati nel web dove I dati sono espressi
sottoforma di Triple
• Soggetto Predicato Oggetto
• Ogni entità è identificata univocamente da un URI (Uniform
Resource Identifier)
• Il Soggetto e il Predicato hanno sempre un URI I
• L’Oggetto può anche essere un valore predefinito (Literale)
• Le triple sono interconnesse quando condividono la stessa
entità
• Il risultato è un grafo interconnesso di triple (Linked Data)
110. Vantaggi del modello RDF
110
• E’ un modello di rappresentazione dei dati pensato per il Web
• E’ basato su standard del Web
• Consente nativamente di abilitare l’integrazione tra I dati
• Fornisce un meccanismo per risolvere l’identitià delle cose
• Nativamente fornisce meccanismi per garantire interoperabilità
semantica
• E’ usato insieme al linguaggio per interrogare I dati (i.e.,
SPARQL)
• I dati sono così associati a delle API che facilitano l’interrogazione da
parte delle macchine
111. Facciamo un esempio partendo dalle tabelle
111
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
Codice
IPA
Denominazione
agid Agenzia per l’Italia
Digitale
112. Facciamo un esempio partendo dalle tabelle
Dobbiamo attribuirgli un URI – passo fondamentale nel Web dei dati
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
113. Facciamo un esempio partendo dalle tabelle
Dobbiamo attribuirgli un URI – passo fondamentale nel Web dei dati
https://dati.italia.it/risorsa/persona/1
https://{dominio}/{tipo}/{di cosa parliamo}/{codice univoco}
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
114. Facciamo un esempio partendo dalle tabelle
Nel Web dei dati si definiscono i tipi.
https://dati.italia.it/risorsa/persona/1 cos’è?
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
115. Facciamo un esempio partendo dalle tabelle
E’ una persona
Nel Web dei dati si definiscono i tipi.
https://dati.italia.it/risorsa/persona/1 cos’è?
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
116. Facciamo un esempio partendo dalle tabelle
E’ una persona
Nel Web dei dati si definiscono i tipi.
https://dati.italia.it/risorsa/persona/1 cos’è?
Concetto definito in un’ontologia (in questo caso delle persone)
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
117. Facciamo un esempio partendo dalle tabelle
https://dati.italia.it/risorsa/persona/1 è definito come
<https://dati.italia.it/risorsa/persona/1>
<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<https://w3id.org/italia/onto/CPV/Person>
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
118. Facciamo un esempio partendo dalle tabelle
https://dati.italia.it/risorsa/persona/1 è definito come
<https://dati.italia.it/risorsa/persona/1>
<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<https://w3id.org/italia/onto/CPV/Person>
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
Tripla
120. In RDF
ID Nome Cognome Sesso PA di
riferimeto
1 Giorgia Lodi F agid
@prefix cpv: <https://w3id.org/italia/onto/CPV/> .
<https://dati.italia.it/risorsa/persona/1>
a cpv:Person ;
cpv:familyName "Lodi";
cpv:givenName "Giorgia" ;
… .
121. Codice
IPA
Denominazione
agid Agenzia per l’Italia
Digitale
@prefix cov: <https://w3id.org/italia/onto/COV/> .
<https://dati.italia.it/risorsa/pubblica-amministrazione/agid>
a cov:PublicOrganization ;
cov:legalName "Agenzia per l’Italia Digitale";
…. .
E’ una organizzazione (pubblica)
Ontologia delle organizzazioni (pubbliche e
private)
Facciamo un esempio partendo dalle tabelle
122. @prefix cpv: <https://w3id.org/italia/onto/COV/> .
@prefix cpv: <https://w3id.org/italia/onto/CPV/> .
@prefix org: <http://www.w3.org/ns/org#> .
<https://dati.italia.it/risorsa/persona/1>
a cpv:Person ;
cpv:familyName "Lodi";
cpv:givenName "Giorgia" ;
org:memberOf <https://dati.italia.it/risorsa/pubblica-amministrazione/agid> .
<https://dati.italia.it/risorsa/pubblica-amministrazione/agid >
a cov:PublicOrganization ;
cov:legalName "Agenzia per l’Italia Digitale» .
Colleghiamo i due oggetti
Definizione oggetto
persona
Definizione oggetto
organizzazione
123. RDF – grafo della conoscenza (linked data)
<https://dati.italia.it/risorsa/persona/1>
<https://dati.italia.it/risorsa/pubblica-amministrazione/agid >
org:MemberOf
<https://dbpedia.org/resource/Roma>
clv:hasSpatialCoverage
<https://www.agid.gov.it>
foaf:homepage
cov:residentIn
Si forma così un enorme grafo distribuito nel web che può essere acceduto
da chiunque per qualunque scopo
124. RDF - serializzazioni
• Diversi formati o serializzazioni
oN-triples – formato molto prolisso con URI tutti
esplicitati per soggetto predicato e oggetto,
quando non literale
oRDF/Turtle – formato compatto a oggetti (slide
precedent)
oRDF/XML – sintassi simile a XML
oJSON-LD – sintassi JSON per rappresentare dati a
grafo
125. Come li interroghiamo?
• Attraverso uno standard chiamato SPARQL
• SPARQL è supportato da cosiddetti SPARQL endpoint
ovvero sistemi di gestione di dati complessi che
consentono di interrogare grafi
• Negli endpoint i dataset RDF sono memorizzati in Triple
store
• Più diffusi: Virtuoso, BlazeGraph , Fuseki
126. SPARQL
#Dichiarazione dei prefissi
PREFIX cov: https://w3id.org/italia/onto/COV/
#Definizione delle variabili che contengono il risultato che si vuole ottenere
SELECT ?x ?y ?z
#Grafo da interrogare
FROM …
FROM NAMED …
#Triple PATTERN MATCHING
WHERE { …}
#Modificatori (GROUP BY, HAVING, ORDER BY, …)
134. OntoPiA – la rete di ontologie e
vocabolari controllati della Pubblica
Amministrazione
135. 13
5
Cos’è OntoPiA e a cosa serve
• Definisce un linguaggio comune per l’interscambio di dati
(interoperabilità semantica)
• Definisce un modello formale, elaborabile da dispositivi digitali
e leggibile da umani (i.e., superamento della logica delle
specifiche scritte in soli file PDF!)
• Apre la strada alla creazione di dati nativamente collegati,
i.e., fornisce gli schemi dati per creare, interrogare il “grafo
della conoscenza” (knowledge graph) della PA italiana
136. • ONTOLOGIA: una specifica formale ed
esplicita di rappresentazione
(concettualizzazione) condivisa di un
dominio di conoscenza, definita sulla
base di requisiti specifici
• VOCABOLARIO CONTROLLATO: una serie di
termini e codici standard predefiniti e
autorizzati, preselezionati al fine di
indicizzare e recuperare informazioni
.
13
6
13
6
OntoPiA- rete di ontologie e vocabolari controllati
137. OntoPiA – perché?
FACILITARE LO SVILUPPO DI NUOVI
SISTEMI INFORMATIVI
AGEVOLARE LO
SCAMBIO DI DATI
ABILITARE L’INTEGRAZIONE TRA
DATI PROVENIENTI DA SORGENTI
DIVERSE
STANDARDIZZARE I DATI
(APERTI)
FACILITARE L’IMPLEMENTAZIONE DELLA DATA
PORTABILITY (GDPR)
138. 13
8
13
8
OntoPiA – dal punto di vista tecnico
Basata su standard del Web
Semantico (standard dei livelli 4, 5
stelle)
Sono disponibili in diverse serializzazioni
dello standard RDF, modello per la
rappresentazione dei dati nel Web
139. OntoPiA e gli ecosistemi del piano triennale
FINANZA PUBBLICA SVILUPPO E
SOSTENIBILITÀ
INFRASTRUTTURA E
LOGISTICA - MOBILITÀ
BENI CULTURALI TURISMO SMART LANDSCAPE
142. OntoPiA – metodologia di sviluppo
3 ELEMENTI CARDINE
• Rispetto costante dei principi FAIR
• Politica per la gestione degli URI ben definita
• Modellazione basata su «ontology design pattern» con
o riutilizzo indiretto di ontologie del Web Semantico
o utilizzo diretto delle ontologie della rete OntoPiA
143. 14
3
OntoPiA e i principi del modello FAIR
• Findable: si usano URI permanenti per identificare concetti e
relazioni nella rete di ontologie e termini nei vocabolari controllati
• Accessible: si utilizzano protocolli standard aperti per l’accesso sul
Web (i.e. HTTP(S)) and per l’interrogazione dei dati (i.e. SPARQL)
• Interoperable: si utilizzano protocolli standard aperti per modellare i
dati i.e. RDF e OWL
• Reusable: tutte le ontologie e i vocabolari controllati sono pubblici,
rilasciati secondo una licenza aperta (CC-BY 4.0) e sono collegati
ad altre ontologie standard (de facto) disponibili nel Web dei Dati
144. Politica di gestione degli URI
• Persistenti: Gli URI devono essere univoci e persistenti nel tempo.
URI per la stessa entità non varia al variare del dataset
• Pattern raccomandato (soprattutto per dati):
https://dominio/tipo/concetto/riferimento
• In inglese: per superare le barriere linguistiche e usare una lingua
comune (interoperabilità transfrontaliera)
• 3 macro tipi: «onto», «controlled-vocabulary», «data»
• URI neutri gestiti con servizio esterno: w3id.org – URI redirect per
gestire anche content-negotiation
Esempi:
https://w3id.org/italia/onto/COV
https://w3di.org/italia/controlled-vocabulary/classifications-for-people/sex
https://w3id.org/italia/data/public-organization/agid
149. • COLLABORAZIONE CON CENTRI DI RICERCA
STLab – Semantic Technologies Laboratory
del CNR, Sapienza Università di Roma
• COLLABORAZIONE CON PUBBLICHE AMMINISTRAZIONI
e.g.,ISTAT, MIBACT, Regione Piemonte,
ANAC, Comuni di Palermo, Udine e Cagliari,
Provincia Autonoma di Trento, Consorzio dei
Comuni Trentini, diversi Comuni del FVG
• COINVOLGIMENTO DEGLI UTENTI FINALI
Disponibile su Github: chiunque può SEMPRE
commentare e/o proporre cambiamenti e
correzioni
https://github.com/italia/daf-ontologie-vocabolari-controllati
.
14
9
14
9
OntoPiA- coinvolgimento PA e utenti
150. OntoPiA – chi la usa
• PDND – Piattaforma Digitale
Nazionale dei Dati
• Alcuni interessanti riusi da PA
e Aziende
150