XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
Indicizzare nel mondo digitale
1. Bologna, 18 maggio 2009
Michele Santoro
Indicizzare nel mondo digitale
Michele Santoro
Coordinamento dell’Area Scientifico-tecnica
Sistema Bibliotecario di Ateneo
Università di Bologna
e-mail: <michele.santoro@unibo.it> 1
2. Di cosa parleremo
i documenti digitali
i criteri di indicizzazione del web
i virtual reference desk
i motori di ricerca
i metadati
il web semantico
i criteri di ricerca di Google
le folksonomies
2
3. I documenti digitali
aumento esponenziale dell’informazione:
si stima che negli ultimi 30 anni siano stati
prodotti più documenti che nei precedenti 5000
anni
documenti esistenti non solo nella tradizionale forma
cartacea, ma anche e soprattutto in formato digitale
considerando solo i contenuti del World Wide
Web, è stato calcolato che sono presenti oltre 175
milioni di siti web
e 3 milioni di nuovi siti vanno online ogni mese
3
4. Documenti digitali/vantaggi
i documenti digitali, rispetto ai tradizionali
documenti “analogici”, presentano numerosi
vantaggi:
flessibilità, maneggevolezza, ipertestualità
trasmissibilità, da qualsiasi luogo e anche senza
intervento umano
qualità, di norma assai elevata e in costante
aumento
riproducibilità, in maniera assolutamente “fedele”
4
5. Documenti digitali/vantaggi
capacità di ricerca sul testo pieno
miglioramento continuo delle interfacce
possibilità di utilizzare in maniera più amichevole
grandi quantità di dati
ciò spinge a cercare nuovi criteri con cui questi
materiali possono essere fruiti dagli utenti
e quindi a individuare nuove forme di
indicizzazione
5
6. La realtà di Internet
abbiamo visto che Internet è uno sterminato
contenitore di informazioni, da cui è assolutamente
impossibile prescindere
ma… occorre “districarsi” tra la quantità di fonti
utili e quelle futili, inutili o persino dannose:
è proprio questa immensa mole di informazioni
che provoca i problemi maggiori
rendendo Internet un contenitore di risorse tanto
enorme quanto caotico
6
7. Criteri di indicizzazione del web
per questo è apparso subito necessario mettere
ordine nel caos tipico della rete
attraverso criteri di vera e propria “catalogazione”
delle sue risorse:
tali criteri, anche se il più delle volte sono stati
elaborati da informatici
sono apparsi molto simili a quelli tipicamente
usati dai bibliotecari
perché basati sui principi della classificazione,
dell’indicizzazione per soggetto e della
descrizione bibliografica 7
8. Criterio classificato
diretto a organizzare le risorse di Internet secondo
determinate categorie
utilizzando a volte classificazioni “empiriche”, altre
volte schemi tipicamente bibliotecari (CDD, CDU)
e dando vita a insiemi chiamati anche Virtual
Reference Desk
ben presto però questo criterio è entrato in crisi
a causa dell’impossibilità di individuare e censire
l’immensa quantità di risorse disponibili in rete
anche se viene ancora usato per insiemi limitati
su cui è possibile esercitare un controllo rigoroso 8
11. Ricerca per parola significativa
l’avvento dei primi motori di ricerca (Altavista,
Yahoo!, etc.)
ha imposto un criterio di ricerca delle risorse di
Internet basato su parole “significative”
ma poiché la ricerca avviene sul testo pieno del
documento
ogni parola individuata dall’utente diventa
“significativa”
e ciò dà vita a un enorme “rumore”
da questo punto di vista infatti il web presenta
una serie di problemi: 11
12. Problemi del web
problemi legati al linguaggio naturale:
polisemia (termini con più significati)
sinonimia (diversi termini con lo stesso
significato)
integrazione di informazioni provenienti da più fonti
assenza di “macchine intelligenti”
cioè in grado di comprendere le informazioni
strutturate in maniera differente e di “ragionarci
sopra”
12
13. Il web profondo
oltre al web “di superficie”, ossia quello visibile e
ricercabile attraverso i motori di ricerca,
esiste un “web profondo”, che risulterebbe essere
molto più grande (da 400 a 550 volte) rispetto a
quello di superficie
deep web: parte del web che non è accessibile ai
motori di ricerca
per due motivi principali:
13
14. Il web profondo
1. il sito è protetto da password (ad esempio un
periodico elettronico non disponibile
gratuitamente)
2. il contenuto informativo del sito è raggiungibile
solo attraverso una ricerca interattiva in una base
di dati (ad es. i cataloghi online delle biblioteche)
studi recenti affermano che il web profondo è il
più consultato (ha il 50% del traffico in più)
cresce più velocemente
ed è di qualità più elevata 14
15. Possibili soluzioni
trovare dei criteri per “forzare” il web profondo
perfezionare la tecnologia e rendere le macchine
più intelligenti
migliorare gli algoritmi di ricerca dei motori
accrescere la “significatività” delle parole utilizzate
per le ricerche
15
16. Possibili soluzioni
tutte queste possibilità sono state sviluppate negli
anni recenti
in particolare, l’ultima opzione (migliorare i criteri
di recupero per termini significativi) ha trovato una
sua specifica realizzazione
attraverso l’impiego di un criterio assai simile a
quello, tipicamente bibliotecario, della descrizione
bibliografica
e ciò è stato possibile grazie a una serie di strumenti
che hanno preso il nome di metadati 16
17. I metadati
difatti, analogamente a quanto avviene con le
tradizionali regole di catalogazione bibliografica
i metadati permettono di descrivere le risorse
elettroniche, i testi e i documenti multimediali
rendendo meno caotico l’ambiente digitale
e consentendo un più efficace recupero
dell’informazione ricercata
17
18. I metadati
ma diversamente dalla catalogazione tradizionale
che dà vita a prodotti “esterni” ai documenti descritti
(e cioè schede catalografiche o record bibliografici a
se stanti)
i metadati sono inclusi nella stessa risorsa che
descrivono
per cui “non c’è più bisogno di trascrivere i metadati
in un «contenitore» esterno (catalogo cartaceo,
opac...), perché i motori li rintracciano dove già si
trovano, e cioè nel «paratesto» del documento
primario” (Metitieri-Ridi) 18
20. Definizioni di metadati
a) informazioni comprensibili dalla macchina
relative a risorse web o altri oggetti (T. Berners
Lee)
b) strumenti che aiutano a identificare, descrivere,
localizzare e gestire una risorsa
c) «dati sui dati», cioè informazioni, generalmente
strutturate e scandite in campi, relative a
documenti primari «a testo pieno» (full text), che
ne permettono una più efficiente organizzazione e
recupero (Metitieri-Ridi)
20
21. Funzione dei metadati
1. ricerca, che consiste nell’individuare l’esistenza
di un documento
2. localizzazione, ovvero rintracciare una
particolare occorrenza del documento
3. selezione, realizzabile analizzando, valutando e
filtrando una serie di documenti
21
22. Funzione dei metadati
4. interoperabilità semantica, che consiste nel
permettere la ricerca in ambiti disciplinari
diversi grazie a una serie di equivalenze fra
descrittori
5. gestione delle risorse, ossia capacità di gestire
le raccolte di documenti grazie
all’intermediazione di banche dati e cataloghi
6. disponibilità, ovvero ottenere informazioni
sull’effettiva disponibilità del documento
22
23. Tipi di metadati
di norma, vengono individuate tre grandi categorie:
1. metadati descrittivi: hanno il compito di facilitare
l’identificazione e l’accesso alla risorsa
2. metadati amministrativi: volti a supportare la
gestione della risorsa attraverso la presenza di
informazioni appropriate, ad es. la definizione del
formato dei file, il riconoscimento dei diritti, etc.
3. metadati strutturali: diretti a fornire specifiche
informazioni sulla composizione e
l’organizzazione delle risorse digitali
con più precisione, i diversi tipi di metadati e le loro
rispettive funzioni sono:
23
24. Tipi di metadati e loro funzioni
Amministrativi Usati nella gestione e nell’amministrazione delle
risorse informative
Descrittivi Usati per descrivere o identificare le risorse
informative
Strutturali Relativi alla gestione della conservazione delle
risorse informative
Tecnici Relativi a come funziona un sistema e a quali
metadati comporta
Di uso Relativi al livello e al tipo di uso delle risorse
informative
24
25. Metadati descrittivi
fra i molti set di metadati predisposti per la
descrizione delle risorse di Internet
si è imposto (in particolare nel mondo bibliotecario)
il modello Dublin Core
sviluppato a partire dal Metadata Workshop del
marzo 1995 tenutosi presso la sede dell’OCLC a
Dublin (Ohio)
e sponsorizzato da Online Computer Library Center
(OCLC) e dal National Center for Supercomputing
Applications (NCSA)
25
26. Caratteri essenziali di Dublin Core
semplicità: Dublin Core si rivolge a catalogatori
esperti ma anche (e soprattutto) ai non esperti di
catalogazione
interoperabilità semantica: per consentire a Dublin
Core di diventare una “lingua franca” per la ricerca
di risorse in rete
flessibilità: volta a codificare descrizioni di risorse
anche in modo più formale
consenso internazionale: Dublin Core è stato
preparato da esperti di varie nazioni e sono in corso
numerosi progetti di utilizzo dello standard 26
27. Dublin Core
Dublin Core Metadata si presenta come uno
standard di descrizione delle risorse in formato
elettronico
è costitutito da 15 elementi descrittivi
è concepito allo scopo di consentire agli autori di
effettuare direttamente in modo standardizzato la
descrizione di risorse rese disponibili sulla rete
senza le mediazione di un’agenzia catalografica
27
28. I quindici elementi del Dublin Core simple
1. Title Titolo della risorsa
2. Subject Parole chiave o termini tratti da un vocabolario controllato
3. Description Descrizione o abstract
4. Creator Persona o organizzazione primariamente responsabile del contenuto
intellettuale della risorsa
5. Publisher Editore
6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa
7. Date Data associata con la creazione o la disponibilità della risorsa
8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.)
9. Format Normalmente di tipo MIME (ad es. text/html)
10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore
11. Source Risorsa da cui deriva la risorsa descritta
12. Language Lingua della risorsa
13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta
14. Coverage Caratteristiche spazio-temporali della risorsa
15. Rights Condizioni di copyright della risorsa 28
34. Web semantico
il termine “Semantic Web” è stato proposto per la
prima volta nel 2001 da Tim Berners Lee
da allora il termine è stato associato all’idea di un
web nel quale agiscano “agenti intelligenti”
ossia applicazioni in grado di comprendere il
significato dei documenti presenti sulla rete
quindi guidare l’utente direttamente verso
l’informazione ricercata
o sostituirsi a lui nello svolgimento di alcune
operazioni
34
35. Definizione di web semantico
“con il termine web semantico si intende la
trasformazione del World Wide Web in un
ambiente dove i documenti pubblicati (pagine
HTML, file, immagini, e così via) siano associati
ad informazioni e dati (metadati) che ne
specifichino il contesto semantico in un formato
adatto all’interrogazione, all’interpretazione e, più
in generale, all’elaborazione automatica”
(Wikipedia)
35
36. Web semantico
il web semantico è oggetto di continua
elaborazione
al fine di rendere possibile non solo ricerche molto
più evolute delle attuali
ma anche operazioni altamente specialistiche,
come la costruzione di reti di relazioni e
connessioni tra documenti
secondo logiche decisamente più raffinate rispetto
a quella basata sul semplice link ipertestuale
36
37. Web semantico
in altre parole, il web semantico permette di dotarsi
di strutture e collegamenti più espressivi di quelli
attuali
oggi infatti in un documento web (ad es. una pagina
HTML)
è possibile parlare di un Signor Rossi ed esprimere
semanticamente ciò con opportune etichette
ma è difficile capire se due documenti che parlano
di un Signor Rossi si riferiscono alla stessa persona
con conseguente scarsa qualità dei risultati restituiti
dai motori di ricerca 37
38. Web semantico
è vero che il web è un insieme di testi collegati tra loro
ma questi collegamenti sono “deboli”, nel senso che
sono troppo generici e vaghi
difatti un collegamento, oltre a portare in un
determinato luogo, dovrebbe descrivere il luogo verso
cui porta
questa funzione viene definita capacità semantica
un meccanismo semantico è quello che sa predire
il valore della sua azione
per arrivare a ciò, è necessario attivare una serie di
collegamenti semantici 38
39. Web semantico
è quanto consente il web semantico, con cui è
possibile recuperare documenti esprimendo query
complesse:
ad esempio, partendo da concetti semplici, si
può raffinare la ricerca esprimendo vere e
proprie asserzioni
composte da un soggetto, un predicato e un
oggetto
si può quindi fare una richiesta del tipo: aziende
(soggetto) che hanno come servizio (predicato)
la fornitura di scarpe (oggetto) 39
40. Web semantico
tale possibilità è radicalmente diversa
dall’interrogazione effettuata con un motore di
ricerca
attraverso il quale si possono indicare i tre
concetti di azienda, di servizio e di scarpe
ma non si può esprimere in nessun modo il tipo
di legame esistente fra essi
e da ciò derivano tutte le imprecisioni tipiche
dei motori di ricerca
40
41. Problemi del web semantico
quanto tempo e quanto denaro occorrono per
mappare in questo modo tutto il web?
“purtroppo molte delle persone coinvolte in questo
progetto tendono a sottovalutare l’estrema
difficoltà insita nella creazione e manutenzione
degli opportuni metadati, sia che essa venga
effettuata da umani sia che venga realizzata da
computer” (Metitieri-Ridi)
41
42. Problemi del web semantico
“l’estrazione delle descrizioni potrebbe infatti essere
parzialmente automatizzata, partendo comunque dalle
informazioni inserite dagli autori stessi nelle pagine
scritte in XML, ma risulterebbe poco accurata,
oppure potrebbe essere completamente manuale, da
parte di catalogatori esperti, ma con costi (fino a 50
euro per record) e tempi che rendono impossibile
pensare a qualcosa di più di progetti limitati e
riguardanti biblioteche e musei o enti accademici e di
ricerca” (Metitieri-Ridi)._
42
44. Criteri di ricerca di Google
il criterio adottato da Google per definirne la
posizione di una pagina web in seguito a una
ricerca
è basato sul grado di “popolarità” della pagina
stessa
ossia sul numero di legami (links) che essa riceve
da parte di altre pagine
più una pagina è linkata, più è conosciuta e
quindi (si suppone), più è importante e utile
44
45. Criteri di ricerca di Google
tuttavia ben presto si è capito che questo non
poteva essere l’unico criterio
messo in atto da Google per indicizzare l’enorme
quantità di pagine web disponibili in rete
e offrirle all’utente in un preciso ordine di
importanza
di recente sono stati individuati gli elementi che
compongono il famoso (anche se tuttora
segreto) algoritmo di ricerca di Google
45
46. Algoritmo di ricerca di Google
algoritmo: sequenza logica di istruzioni elementari
(univocamente interpretabili) che, eseguite in un
ordine stabilito, permettono la soluzione di un
problema in un numero finito di passi
punteggio Google = (Utilizzo delle parole chiave *
0.3) + (Importanza del dominio * 0.25) + (Link in
ingresso * 0.25) + (Dati degli utenti * 0.1) +
(Qualità del contenuto * 0.1) + (Spinte manuali) -
(Penalizzazioni automatiche e manuali)
46
47. 1. Utilizzo delle parole chiave
parole chiave nel tag del titolo
parole chiave nei tag degli header
parole chiave nel testo del documento
parole chiave nei link interni che puntano alla
pagina
parole chiave nel nome di dominio e/o
nell’indirizzo della pagina (URL)
47
48. 2. Importanza del dominio
storia della registrazione
età del dominio
importanza dei link che puntano al dominio
rilevanza del dominio sull’argomento basata sui
link in entrata ed in uscita
utilizzo storico e reattività dei link verso il dominio
48
49. 3. Punteggio dei link in entrata
età dei link
qualità dei domini che mandano il link
qualità delle pagine che mandano il link
testo dei link
valutazione della quantità e del peso dei link
rilevanza sull’argomento delle pagine e dei siti che
mandano i link
49
50. 4. Dati degli utenti
storia della percentuale dei click effettuati sulla
pagina nei risultati dei motori di ricerca
tempo speso dagli utenti sulla pagina
numero di ricerche per URL o per nome del
dominio
storia delle visite e degli utilizzi dell’URL o del
nome del dominio, da parte degli utenti, che
Google può monitorare (toolbar, wifi, analytics,
etc.)
50
51. 5. Qualità del contenuto
dati rilevati per le ricerche e le pagine più popolari
dati forniti da valutatori interni di Google
algoritmi automatizzati per valutare il testo
(qualità, leggibilità, etc.)
._
51
52. Folksonomies
“indicizzazione personalizzata”
possibilità, concessa agli utenti del web, di
attribuire parole chiave (“tags”)
a un gran numero di pagine web, risorse e oggetti
fra cui libri, fotografie, blog, etc.
una vera e propria indicizzazione per soggetto
fatta dalla gente
52
53. Definizione di folksonomy
“la parola folksonomy è un neologismo composto da
‘folks’ (gente) e ‘taxonomy’ (tassonomia). Il termine
è stato ideato da Thomas Vander Wal, architetto
dell’informazione, che lo ha coniato durante una
discussione online. Si tratta quindi di una
classificazione ‘dal basso’, creata dagli utilizzatori
che attribuiscono una parola chiave, cioè il tag, ad una
risorsa messa sul web al fine di condividerla. Le
risorse non vengono quindi classificate a priori, ma
aggregate dai navigatori/utenti (De Maurissens)
53
54. Le folksonomies e il “Web 2.0”
le folksonomies (insieme ai blog, ai wiki e ai diversi
social networks), costituiscono la nuova frontiera
della rete: il cosiddetto “Web 2.0”
ogni utente può trasformarsi “da consumatore a
partecipante, da utilizzatore passivo ad autore attivo
di contenuti, messi a disposizione di chiunque si
affacci su Internet” (Montalto)
oggi questo discorso viene esteso anche alla realtà
bibliotecaria (“Library 2.0”)
folksonomies social tagging
54
57. Vantaggi delle folksonomies
sono prive di condizionamenti culturali o ideologici
non devono fare i conti con pesanti sovrastrutture
enumerative o gerarchiche
possono essere create e utilizzate da tutti, e non solo
da una ristretta cerchia di professionisti
sono in grado di intercettare i gusti e le opinioni di
una vasta platea di persone
e dar vita a una nuova forma di ricerca delle
informazioni ad esse correlate
57
58. Vantaggi delle folksonomies
consentono la partecipazione di un numero vasto di
persone all’attività di tagging
utilizzano termini che siano il più possibile
“parlanti”
e quindi in grado di essere condivisi da una
comunità assai ampia di utenti
58
59. Problemi delle folksonomies
rifiutano qualsiasi struttura semantica predefinita
(classificazioni, soggettari, thesauri...)
ciò porta ad una eccessiva semplificazione
semantica
che non solo non rispecchia la realtà conoscitiva
odierna, molto complessa e articolata
ma riduce le possibilità di un’efficace ricerca e
un idoneo recupero dell’informazione
in particolare:
59
60. 1. Assenza di gerarchia
i tags vengono assegnati in maniera piatta,
“orizzontale”
senza tener conto delle relazioni gerarchiche che
intercorrono fra i concetti
ciò non consente di far emergere delle “classi”
e quindi non giustifica l’idea che, per quanto fatte
dalla gente, si tratta comunque di tassononomie
60
61. Ad esempio: tags assegnati a libri
sulla “information technology”
61
62. 2. Scarsa precisione semantica
il rifiuto di utilizzare “vocabolari controllati”
(soggettari, thesauri) impedisce:
di riconoscere i collegamenti fra i termini
di “disambiguare” i concetti a seconda del
contesto tematico di riferimento
di eliminare i problemi di sinonimia, omofonia,
omografia e omonimia che sono assai frequenti
nel linguaggio naturale
62
63. 2. Scarsa precisione semantica
insomma il rifiuto di qualsiasi strumento di
controllo terminologico
non permette di individuare le voci più appropriate
per descrivere un determinato concetto
e quindi di avere un set di termini “accettati” da
usare per l’indicizzazione e per la ricerca
questo dimimuisce notevolmente l’efficacia della
ricerca
e quindi la soddisfazione dell’utente (eccesso di
“rumore” o eccesso di “silenzio”) 63
64. 3. Mancanza di un ordine di citazione
impossibilità di collegare i termini in modo idoneo
e dar vita a una “stringa coestesa”, ossia capace di
definire in modo unitario i diversi concetti presenti
nel documento
“quando etichetto una foto, posso usare dei tags per
descrivere un gatto nero e un cane bianco. Ma una
volta che i diversi tags, (“gatto”, “nero”, “cane”,
“bianco”) sono inclusi nella base di dati, il loro
significato si perde: gli utenti che fanno una ricerca
non sanno più quale animale è bianco e quale è nero”
(Guy -Tonkin)
64
65. Le folksonomies oggi
oggi si cerca di raggiungere un maggior equilibrio
tra i vantaggi di un tagging diffuso e “dal basso”
e quelli che vengono dalla tradizione
biblioteconomica, legati all’indicizzazione per
soggetto e alla classificazione; in particolare:
si creano “mini-stringhe” in grado di esprimere
con più precisione i soggetti complessi
si evidenziano i legami gerarchici fra i tags
particolari tipi di folksonomies cominciano ad
essere integrati in banche dati, opac, etc. 65