Sapienza Università di Roma
Anno Accademico 2012 – 2013
Informatica per gli Archivi e le Biblioteche
Prof.ssa Linda Giuva
Prof. Maurizio Caminito
Lezione 9
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024
9. Il Web semantico
1. WEB SEMANTICO:
struttura e organizzazione dei dati
Sapienza Università di Roma
Anno Accademico 2012 – 2013
Informatica per gli Archivi e le Biblioteche
Prof.ssa Linda Giuva
Prof. Maurizio Caminito
LEZIONE 9 1
2. Web attuale:
difficoltà nella ricerca di informazioni
Un limite del Web attuale:
i risultati delle ricerche
riguardano interi documenti (parole all’interno di pagine)
e non la specifica informazione
Dopo il lavoro di ricerca dei documenti
segue
l’estrazione «manuale» delle informazioni desiderate 2
3. Web attuale:
poca integrazione delle informazioni
Ogni informazione si trova in documenti diversi
e una volta estratta va integrata con tutte le altre
Mancano applicazioni per il web
in grado di combinare informazioni
provenienti da fonti diverse
in modo da risolvere uno specifico problema 3
4. Web attuale: poche applicazioni
La maggior parte dei siti web
non sono progettati
per interagire tra loro o con altre applicazioni.
Se il Web venisse progettato per fornire servizi
ad altri servizi, consentendo la cooperazione sia
tra programmi che tra programmi ed utenti, ci
sarebbe un utilizzo diverso di Internet
4
5. La ridondanza nel Web
La ricerca nei grandi cataloghi mostra dei limiti
che il modello FRBR vuole superare.
Analogamente le ricerche sul Web finiscono
spesso in una interminabile serie di risultati
spesso irrilevanti che devono essere «filtrati»
dall’utente.
La sfida del WEB SEMANTICO:
risolvere questi problemi 5
6. I motori di ricerca e le parole nel web
“Un browser (Internet Explorer, Firefox o Chrome) o un motore di
ricerca (Google, Yahoo, Bing) sono in grado, secondo precise istruzioni, di
disporre e visualizzare in una certa maniera delle informazioni ma non hanno
la capacità di riconoscerle o attribuire loro un significato particolare per
elaborarle.
Infatti un motore di ricerca non distingue se la parola 'espresso' si riferisca ad
un treno piuttosto che ad un caffè, oppure se 'verdi' sia riferito ad un colore o
al compositore.
Il motore di ricerca può tentare di recepire i significati ricavandoli dal contesto
della pagina, utilizzare sinonimi per espandere le ricerche, ma in ultima analisi
il suo archivio è un elenco, certamente molto ben organizzato, di parole
chiave.
Se fosse in grado di comprendere il significato dei contenuti di una pagina,
potrebbe accettare domande più complesse e fornire un'unica risposta
altrettanto complessa ed efficace".
6
(Stefano Epifani, Introduzione al Web semantico)
7. VERSO IL WEB SEMANTICO
Tim Berners Lee:
«Fino ad oggi il Web si è sviluppato più come
strumento di contenuti per uso ‘umano’,
piuttosto che come mezzo di informazione per
l’elaborazione automatizzata. Servono dati
specificatamente progettati per computer, dati
comprensibili alle macchine […] I computer
devono aver accesso a serie strutturate di
informazioni e a regole di deduzione che
permettano un ‘ragionamento’ automatizzato» 7
8. T.Berners Lee, inventore del World Wide
Web, scrive:
"Il Web fu disegnato come uno spazio di informazioni,
non solo per la comunicazione uomo-uomo, ma affinché
anche le macchine potessero avere la possibilità di
partecipare e dare il loro contributo.
Uno dei maggiori ostacoli è stato il fatto che la maggior
parte dell'informazione sul Web è disegnata per essere
fruita dall'uomo (...), la struttura dei dati non è
riconoscibile per un robot che naviga il Web.
L'approccio del Web Semantico, invece, sviluppa
linguaggi per esprimere le informazioni in una forma
accessibile e processabile da una macchina". 8
9. L’interoperabilità tra le applicazioni
Il Web si deve dotare di una sovrastruttura per
l’interoperabilità (semantica) tra le applicazioni,
in modo da poter svolgere automaticamente
quelle funzioni che oggi debbono essere eseguite
a mano o codificate dentro ai programmi 9
10. Il WEB come Data Base
I nuovi motori di ricerca dovranno essere in grado di
analizzare non soltanto le parole chiave, ma anche
le
relazioni che intercorrono tra loro.
Per ottenere questo risultato è necessario che tutte
le informazioni presenti sul WWW siano “racchiuse”
in un unico grande data base.
10
11. Informazioni “su se stessi”
E’ necessario che le informazioni possano essere
espresse in una forma "comprensibile" per una macchina
COME?
In una risorsa i metadati forniscono informazioni
su se stessa.
I metadati dovrebbero essere "scritti"
in una forma leggibile dalle macchine. 11
12. WEB SEMANTICO = estendere il web
L'idea del Web Semantico nasce per
estendere l'attuale web
e favorire lo scambio di informazioni oltre
che tra esseri umani
anche tra programmi per computer,
tramite una rappresentazione
che anche questi ultimi siano in grado di
utilizzare e di “comprendere”.
12
13. Web semantico
Da Wikipedia, l'enciclopedia libera.
Con il termine web semantico, termine coniato dal suo ideatore, Tim
Berners-Lee, si intende la trasformazione del World Wide Web in un
ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e
così via) sono associati ad informazioni e dati (metadati) che ne
specificano il contesto semantico in un formato adatto
all'interrogazione e l'interpretazione (es. tramite motori di ricerca) e,
più in generale, all'elaborazione automatica.
Con l'interpretazione del contenuto dei documenti che il Web
semantico impone, saranno possibili ricerche molto più evolute delle
attuali, basate sulla presenza nel documento di parole chiave, e altre
operazioni specialistiche come la costruzione di reti di relazioni e
connessioni tra documenti secondo logiche più elaborate del
semplice collegamento ipertestuale.
14. XML e oltre
Per la sua costruzione/definizione si utilizza l'XML, un
linguaggio che consente di descrivere le diverse parti di
un documento.
Ma la sintassi XML non definisce alcun meccanismo
esplicito per qualificare le relazioni tra documenti.
Non è di aiuto neppure il meccanismo dei collegamenti
ipertestuali usato dall'HTML perché «amorfo», cioè
non prevede la possibilità di descrivere il legame
definito.
15. RDF: un nuovo standard
Viene approvato dal WW3 un nuovo standard:
l’RDF - Resource Description Framework,
una particolare applicazione XML
che standardizza la definizione di
relazioni tra informazioni
ispirandosi ai principi della logica dei predicati
(o logica predicativa del primo ordine)
e ricorrendo agli strumenti tipici del Web
(ad es. URI) e dell'XML.
16. MEMO: logica dei predicati
Il mondo è analizzato in termini di
OGGETTI, PROPRIETA’, RELAZIONI.
Predicato: parte di una proposizione che indica le proprietà o le
relazioni di cui godono i soggetti o termini della proposizione.
Per esempio nelle proposizioni “Mario è romano”, “7 è maggiore di
3”, “Firenze si trova tra Roma e Milano”, le espressioni “è romano”,
“è maggiore di”, “si trova tra... e...” sono dei predicati. La prima
indica una proprietà, mentre le altre due indicano delle relazioni
17. «semantico»: cosa vuol dire?
La semantica (dal greco sémeìon, segno) è quella parte
della linguistica che studia il significato delle parole,
degli insiemi delle parole, delle frasi e dei testi.
La semantica è ciò che mette in relazione le espressioni
linguistiche con quello che il contenuto di tali
espressioni "vuole dire".
Implica un processo di interpretazione. 17
18. XML e il Web Semantico
XML non aggiunge senso ai dati, almeno non lo aggiunge in modo
«computazionalmente» accessibile e trattabile
(le etichette XML sono leggibili e comprensibili da un utente umano. Di solito il
vocabolario utilizzato nei linguaggi XML usa termini sensati tratti da una lingua
naturale)
Ma il significato del vocabolario XML è del tutto inaccessibile a un elaboratore.
18
19. XML e il Web Semantico
Se si sceglie di percorrere la strada della standardizzazione a priori
l’indifferenza semantica di XML (e di qualsiasi altro metalinguaggio di
modellizzazione dati) non sarebbe un problema rilevante.
In questo caso infatti una comunità di utenti decide di adottare un
Vocabolario:
•condiviso
•definito a priori
•con una semantica chiara e prefissata
Si tratta di una pratica ben nota nel mondo delle biblioteche e degli archivi
che sin dai primordi dell’automazione hanno avvertito l’esigenza di definire
modelli di descrizione, formati, vocabolari controllati per la descrizione
semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD
a FRBR, dal soggettario LC ai vari thesaura settoriali…..
Fabio Ciotti, XML metadati Semantic Web. Dall’interoperabilità sintattica a quella semantica
19
20. Oltre XML
Non appena il dominio applicativo si estende o l’ambiente si
estende e diviene eterogeneo (come nel Web) l’uniformità a
priori dei linguaggi descrittivi non è praticabile.
Si pone dunque l’esigenza di individuare dei sistemi di
interoperabilità semantica che consentano
•l’integrazione di sistemi eterogenei
•l’erogazione servizi avanzati di descrizione ed elaborazione
semantica.
In questa direzione si muovono le sperimentazioni che ricadono
nell’area del Semantic Web.
20
21. RDF: un linguaggio per il computer
Affinché i metadati semantici siano utilizzabili non solo dagli
esseri umani ma anche dai computer, è necessario che vengano
espressi in un linguaggio che sia computazionalmente trattabile
sia dal punto di vista sintattico sia da quello semantico
È questo il fine del Resource Description Framework (RDF)
Si tratta di un metalinguaggio dichiarativo per la formalizzare di
asserti (predicati) che esprimono proprietà di e relazioni tra
risorse
21
22. Il futuro possibile?
Attraverso il web sarà possibile, ad esempio, prendere un
appuntamento con il chirurgo per un intervento, prenotare il posto
letto in ospedale, fissare il volo aereo per raggiungere l’ospedale,
ottenere un prestito dalla banca a copertura delle spese,
con una sola operazione.
Saranno le applicazioni di gestione dell’ospedale, della
compagnia aerea, della banca a “parlarsi tra loro” per
fornire la soluzione al problema indicato
22
23. Il “cantiere” del WEB SEMANTICO
Creazione di linguaggi e tecnologie (agenti intelligenti) in grado di:
• estrarre significati (attributi) da informazioni
• creare percorsi in base alle informazioni richieste dall'utente,
guidandolo poi verso di esse
• spostarsi di sito in sito collegando logicamente elementi diversi23
dell'informazione richiesta
24. Le «affermazioni» o «asserzioni»
del WEB SEMANTICO
Nel web semantico non si scrivono testi
(all'interno dei quali le informazioni stanno nascoste e
richiedono un intervento umano),
ma affermazioni o asserzioni
(informazioni non ambigue, che esprimono relazioni
tra oggetti, risorse, esseri umani, fatti del mondo reale,
e che possono essere utilizzate anche da applicazioni
automatiche) 24
25. Le “asserzioni” del Web Semantico -1
Ad esempio, le affermazioni
sul Presidente della Repubblica italiana:
Il Signor Napolitano vive a Roma
oppure
Il Signor Napolitano ha codice fiscale NPLGRG20T09E625V
possono essere schematicamente così scomposte:
Asserzione 1 Asserzione 2
Soggetto Il Sig. Napolitano Il Sig. Napolitano
Predicato vive a ha codice fiscale
Valore Roma NPLGRG20T09E625V
25
26. Le “asserzioni” del Web Semantico -2
Per questi elementi è possibile reperire sul Web URI che li
identificano univocamente:
Il Signor Napolitano http://www.quirinale.it/
vive a http://it.wiktionary.org/wiki/vivere
Roma http://www.comune.roma.it/index.asp
Ha codice fiscale http://it.wikipedia.org/wiki/codice_fiscale
In questo caso, per Il Signor Napolitano si è scelto di fare
riferimento alla relativa biografia disponibile sul sito ufficiale del
Quirinale. Per Roma si è scelto di utilizzare il sito istituzionale del
Comune di Roma . Per vive a si è scelto di referenziare la
definizione del verbo vivere disponibile su Wikizionario;
per ha codice fiscale si è scelta la definizione di codice fiscale
disponibile su Wikipedia 26
27. Gli “agenti” del WEB SEMANTICO
l termine Web Semantico, proposto per la prima volta
nel 2001 da Tim Berners-Lee, è un Web in cui
agiscono agenti intelligenti (applicazioni)
• in grado di comprendere il significato dei testi
presenti sulla rete
• in grado di guidare l'utente direttamente verso
l'informazione ricercata
• in grado di sostituirsi a lui nello svolgimento di
operazioni. 27
28. Verso il web semantico: i metadati
• I “metadati” sono l'insieme delle informazioni che compongono il
modello di un oggetto: il nome, il cognome, la data di nascita, etc... sono
metadati del set “Carta d'Identità” e sono sufficienti a descrivere una
persona in contesti legali e anagrafici.
• Titolo, editore, autore, anno di edizione, etc... sono metadati del set
“Libro” e sono sufficienti a descrivere un libro di carta quando non lo si
vuole leggere, ma solo cercare.
• E' importante mettersi d'accordo su un unico set di metadati
che descrivono lo stesso oggetto pur in realtà diverse.
Un set di metadati standard per un oggetto in uno specifico
contesto così da essere riconosciuto, conservato, trovato. 28
29. Concetto di metadati semantici
“Annotare semanticamente le risorse”
significa
associare ad esse
descrizioni semantiche
che consentono di collegarle logicamente
ad un certo numero di classi e proprietà
29
30. I metadati semantici
I metadati semantici sono di tipo “comprensibile dalla
macchina” e possono essere utilizzati dalle applicazioni
per ottenere una piena interoperabilità ed un retrieval
efficace.
Nel Web Semantico
si fanno asserzioni (statement in inglese)
formate da soggetto, predicato e valore
(costituite, quindi, da triple).
30
31. Il Web Semantico
ha una architettura a livelli
Il Web Semantico è un sistema controllato di organizzazione di dati.
Adotta una serie di standard:
Al livello superiore si pone il livello ontologico.
Una ontologia descrive le relazioni tra i tipi di elementi
• lo standard URI (Uniform Resource Identifiers), per la definizione
univoca di indirizzi Internet
• l’RDF (Resource Description Framework) e RDF Schema, che
costituiscono il linguaggio per descrivere le risorse e i loro tipi
(derivano da XML).
31
32. La piramide del WEB SEMANTICO
L’architettura del Web Semantico si compone di vari livelli:
• i dati
• i metadati
• i concetti che esprimono le relazioni fra i dati
• un linguaggio che descriva la struttura dei dati
32
33. L’architettura del WEB SEMANTICO
E’ importante lo schema utilizzato per archiviare le informazioni.
Lo schema RDF è un insieme di regole sull'organizzazione dei dati.
Definisce relazioni fra i dati.
I metadati devono mappare i dati rispetto a classi, o concetti, di
questo schema.
In questo modo si hanno strutture in grado di descrivere e
automatizzare i collegamenti esistenti fra i dati.
Il Web Semantico è, come l'XML, un ambiente dichiarativo,
in cui si specifica il significato dei dati.
La semantica dei dati consiste nel dare alla macchina delle informazioni
utili in modo che essa possa utilizzare i dati nel modo corretto.
33
34. WEB SEMANTICO:
un esempio di applicazione di ontologie
Si può fare una ricerca del tipo: quali sono…
le aziende (soggetto)
che hanno come servizio (predicato)
la fornitura di scarpe (oggetto)?
N.B. Questa query è diversa da quella che si potrebbe
fare ad un motore di ricerca, a cui si propongono le
tre parole: azienda, servizio e scarpe, ma senza mai
esprimere il legame fra di essi. Da qui derivano
appunto le imprecisioni dei motori di ricerca. 34
35. MEMO: cos’è l’URI
URI è acronimo di Uniform Resource Identifier: un
indirizzo che, in forma compatta, consente di
identificare una qualsiasi risposta come una pagina
web, un documento, un'immagine, un indirizzo e-
mail e così via. Gli URI sono definiti utilizzando una
specifica sintassi, facente riferimento all'uso di
differenti protocolli. URL (Uniform Resource
Locator) e URN (Uniform Resource Name) possono
essere considerati sottoinsiemi di URI.
35
36. Il Web Semantico
e i livelli di controllo
Prevede dei livelli di controllo e validazione interna:
• Adotta la firma digitale
• Prevede un livello di “proof”
• Porta ad un risultato univoco e credibile (livello
“trust”)
36
38. Web semantico: conclusioni
Difficilmente il Web diventerà Web Semantico in breve tempo.
Il lavoro è lungo e difficile.
Questa proposta ha però affascinato molto la comunità
informatica.
Il W3C ha attivato un gruppo di lavoro.
Le università hanno aperto numerosi programmi di ricerca
legati a questi temi.
Si sono imposti subito degli standard
Le critiche sulla validità di questo progetto sono legate al fattore tempo
(quanto tempo occorre per mappare tutto il Web sulle ontologie?)
oppure sulle difficoltà di comunicazione tra ontologie diverse.
Molti ritengono che avranno validità solo nel dominio per le quali sono
state progettate. Diverso, infatti, è il discorso se parliamo dell'uso di schemi
semantici all'interno di architetture legate ad un dominio ben definito, quindi
a servizio di comunità ristrette di utenti, per ottenere uno scopo preciso. 38
39. Linguaggi e strumenti per gestire le
ontologie
Linguaggi formali per la definizione di ontologie e basi
di conoscenza, per supportare il ragionamento su di
esse ed interrogarle.
RDF produce specifiche di contenuto grazie alle triple
(soggetto-predicato-oggetto)
RDFS che usa le triple per dichiarare le classi e le
relazioni valide sulla base di conoscenza
OWL (Web Ontology Language) è un linguaggio di
markup per rappresentare esplicitamente ontologie (
semantica formale di termini e relazioni tra i
39
termini).
40. WEB SEMANTICO – link utili
A. Volpon, Web Semantico, il linguaggio del mondo
Mytech:
URL http://www.mytech.it/mytech/internet/art006010046709.jsp
P. Ceravolo, Che cos'è e a cosa serve il Web Semantico
HTML.it: URL: http://pro.html.it/articoli/id_327/id_cat_46/pro.html
P. Ceravolo, I linguaggi del Web Semantico
HTML.it: URL: http://pro.html.it/articoli/id_334/id_cat_46/pro.html
P. Ceravolo, Costruiamo le ontologie per il Web Semantico
HTML.it: URL: http://pro.html.it/articoli/id_341/id_cat_46/pro.html
AA. VV. Semantic Web
W3C URL: http://www.w3.org/2001/sw/
40