SlideShare una empresa de Scribd logo
1 de 70
Descargar para leer sin conexión
Bologna, 18 maggio 2009

                                 Michele Santoro


      Indicizzare nel mondo digitale


Michele Santoro
Coordinamento dell’Area Scientifico-tecnica
Sistema Bibliotecario di Ateneo
Università di Bologna
e-mail: <michele.santoro@unibo.it>                            1
Di cosa parleremo
i documenti digitali
i criteri di indicizzazione del web
   i virtual reference desk
   i motori di ricerca
   i metadati
il web semantico
i criteri di ricerca di Google
le folksonomies

                                      2
I documenti digitali
aumento esponenziale dell’informazione:
   si stima che negli ultimi 30 anni siano stati
   prodotti più documenti che nei precedenti 5000
   anni
documenti esistenti non solo nella tradizionale forma
cartacea, ma anche e soprattutto in formato digitale
   considerando solo i contenuti del World Wide
   Web, è stato calcolato che sono presenti oltre 175
   milioni di siti web
   e 3 milioni di nuovi siti vanno online ogni mese
                                                    3
Documenti digitali/vantaggi
i documenti digitali, rispetto ai tradizionali
documenti “analogici”, presentano numerosi
vantaggi:
   flessibilità, maneggevolezza, ipertestualità
   trasmissibilità, da qualsiasi luogo e anche senza
   intervento umano
   qualità, di norma assai elevata e in costante
   aumento
   riproducibilità, in maniera assolutamente “fedele”
                                                        4
Documenti digitali/vantaggi
capacità di ricerca sul testo pieno
miglioramento continuo delle interfacce
possibilità di utilizzare in maniera più amichevole
grandi quantità di dati
    ciò spinge a cercare nuovi criteri con cui questi
   materiali possono essere fruiti dagli utenti
    e quindi a individuare nuove forme di
   indicizzazione


                                                        5
La realtà di Internet
abbiamo visto che Internet è uno sterminato
contenitore di informazioni, da cui è assolutamente
impossibile prescindere
ma… occorre “districarsi” tra la quantità di fonti
utili e quelle futili, inutili o persino dannose:
   è proprio questa immensa mole di informazioni
   che provoca i problemi maggiori
   rendendo Internet un contenitore di risorse tanto
   enorme quanto caotico
                                                       6
Criteri di indicizzazione del web
per questo è apparso subito necessario mettere
ordine nel caos tipico della rete
attraverso criteri di vera e propria “catalogazione”
delle sue risorse:
   tali criteri, anche se il più delle volte sono stati
   elaborati da informatici
   sono apparsi molto simili a quelli tipicamente
   usati dai bibliotecari
   perché basati sui principi della classificazione,
   dell’indicizzazione per soggetto e della
   descrizione bibliografica                              7
Criterio classificato
diretto a organizzare le risorse di Internet secondo
determinate categorie
   utilizzando a volte classificazioni “empiriche”, altre
   volte schemi tipicamente bibliotecari (CDD, CDU)
   e dando vita a insiemi chiamati anche Virtual
   Reference Desk
ben presto però questo criterio è entrato in crisi
a causa dell’impossibilità di individuare e censire
l’immensa quantità di risorse disponibili in rete
anche se viene ancora usato per insiemi limitati
su cui è possibile esercitare un controllo rigoroso 8
Un virtual reference desk




                            9
10
Ricerca per parola significativa
l’avvento dei primi motori di ricerca (Altavista,
Yahoo!, etc.)
ha imposto un criterio di ricerca delle risorse di
Internet basato su parole “significative”
ma poiché la ricerca avviene sul testo pieno del
documento
ogni parola individuata dall’utente diventa
“significativa”
e ciò dà vita a un enorme “rumore”
   da questo punto di vista infatti il web presenta
   una serie di problemi:                             11
Problemi del web
problemi legati al linguaggio naturale:
   polisemia (termini con più significati)
   sinonimia (diversi termini con lo stesso
   significato)
integrazione di informazioni provenienti da più fonti
assenza di “macchine intelligenti”
cioè in grado di comprendere le informazioni
strutturate in maniera differente e di “ragionarci
sopra”
                                                    12
Il web profondo
oltre al web “di superficie”, ossia quello visibile e
ricercabile attraverso i motori di ricerca,
esiste un “web profondo”, che risulterebbe essere
molto più grande (da 400 a 550 volte) rispetto a
quello di superficie
   deep web: parte del web che non è accessibile ai
   motori di ricerca
   per due motivi principali:

                                                        13
Il web profondo
1. il sito è protetto da password (ad esempio un
   periodico elettronico non disponibile
   gratuitamente)
2. il contenuto informativo del sito è raggiungibile
   solo attraverso una ricerca interattiva in una base
   di dati (ad es. i cataloghi online delle biblioteche)
   studi recenti affermano che il web profondo è il
   più consultato (ha il 50% del traffico in più)
   cresce più velocemente
   ed è di qualità più elevata                             14
Possibili soluzioni
trovare dei criteri per “forzare” il web profondo
perfezionare la tecnologia e rendere le macchine
più intelligenti
migliorare gli algoritmi di ricerca dei motori
accrescere la “significatività” delle parole utilizzate
per le ricerche




                                                          15
Possibili soluzioni
tutte queste possibilità sono state sviluppate negli
anni recenti
in particolare, l’ultima opzione (migliorare i criteri
di recupero per termini significativi) ha trovato una
sua specifica realizzazione
attraverso l’impiego di un criterio assai simile a
quello, tipicamente bibliotecario, della descrizione
bibliografica
e ciò è stato possibile grazie a una serie di strumenti
che hanno preso il nome di metadati                     16
I metadati
difatti, analogamente a quanto avviene con le
tradizionali regole di catalogazione bibliografica
i metadati permettono di descrivere le risorse
elettroniche, i testi e i documenti multimediali
rendendo meno caotico l’ambiente digitale
e consentendo un più efficace recupero
dell’informazione ricercata



                                                     17
I metadati
ma diversamente dalla catalogazione tradizionale
che dà vita a prodotti “esterni” ai documenti descritti
(e cioè schede catalografiche o record bibliografici a
se stanti)
i metadati sono inclusi nella stessa risorsa che
descrivono
per cui “non c’è più bisogno di trascrivere i metadati
in un «contenitore» esterno (catalogo cartaceo,
opac...), perché i motori li rintracciano dove già si
trovano, e cioè nel «paratesto» del documento
primario” (Metitieri-Ridi)                            18
Un esempio di metadati




                         19
Definizioni di metadati
a) informazioni comprensibili dalla macchina
   relative a risorse web o altri oggetti (T. Berners
   Lee)
b) strumenti che aiutano a identificare, descrivere,
   localizzare e gestire una risorsa
c) «dati sui dati», cioè informazioni, generalmente
   strutturate e scandite in campi, relative a
   documenti primari «a testo pieno» (full text), che
   ne permettono una più efficiente organizzazione e
   recupero (Metitieri-Ridi)
                                                        20
Funzione dei metadati
1.   ricerca, che consiste nell’individuare l’esistenza
     di un documento
2.   localizzazione, ovvero rintracciare una
     particolare occorrenza del documento
3.   selezione, realizzabile analizzando, valutando e
     filtrando una serie di documenti




                                                          21
Funzione dei metadati
4.   interoperabilità semantica, che consiste nel
     permettere la ricerca in ambiti disciplinari
     diversi grazie a una serie di equivalenze fra
     descrittori
5.   gestione delle risorse, ossia capacità di gestire
     le raccolte di documenti grazie
     all’intermediazione di banche dati e cataloghi
6.   disponibilità, ovvero ottenere informazioni
     sull’effettiva disponibilità del documento
                                                         22
Tipi di metadati
 di norma, vengono individuate tre grandi categorie:
1. metadati descrittivi: hanno il compito di facilitare
    l’identificazione e l’accesso alla risorsa
2. metadati amministrativi: volti a supportare la
    gestione della risorsa attraverso la presenza di
    informazioni appropriate, ad es. la definizione del
    formato dei file, il riconoscimento dei diritti, etc.
3. metadati strutturali: diretti a fornire specifiche
    informazioni sulla composizione e
    l’organizzazione delle risorse digitali
 con più precisione, i diversi tipi di metadati e le loro
 rispettive funzioni sono:
                                                        23
Tipi di metadati e loro funzioni
Amministrativi Usati nella gestione e nell’amministrazione delle
               risorse informative
Descrittivi    Usati per descrivere o identificare le risorse
               informative
Strutturali      Relativi alla gestione della conservazione delle
                 risorse informative
Tecnici          Relativi a come funziona un sistema e a quali
                 metadati comporta
Di uso           Relativi al livello e al tipo di uso delle risorse
                 informative
                                                                      24
Metadati descrittivi
fra i molti set di metadati predisposti per la
descrizione delle risorse di Internet
si è imposto (in particolare nel mondo bibliotecario)
il modello Dublin Core
sviluppato a partire dal Metadata Workshop del
marzo 1995 tenutosi presso la sede dell’OCLC a
Dublin (Ohio)
e sponsorizzato da Online Computer Library Center
(OCLC) e dal National Center for Supercomputing
Applications (NCSA)
                                                        25
Caratteri essenziali di Dublin Core
semplicità: Dublin Core si rivolge a catalogatori
esperti ma anche (e soprattutto) ai non esperti di
catalogazione
interoperabilità semantica: per consentire a Dublin
Core di diventare una “lingua franca” per la ricerca
di risorse in rete
flessibilità: volta a codificare descrizioni di risorse
anche in modo più formale
consenso internazionale: Dublin Core è stato
preparato da esperti di varie nazioni e sono in corso
numerosi progetti di utilizzo dello standard            26
Dublin Core
Dublin Core Metadata si presenta come uno
standard di descrizione delle risorse in formato
elettronico
è costitutito da 15 elementi descrittivi
è concepito allo scopo di consentire agli autori di
effettuare direttamente in modo standardizzato la
descrizione di risorse rese disponibili sulla rete
senza le mediazione di un’agenzia catalografica


                                                      27
I quindici elementi del Dublin Core simple
1. Title            Titolo della risorsa
2. Subject          Parole chiave o termini tratti da un vocabolario controllato
3. Description      Descrizione o abstract
4. Creator          Persona o organizzazione primariamente responsabile del contenuto
                    intellettuale della risorsa
5. Publisher        Editore
6. Contributor      Autore di ulteriore contributo al contenuto intellettuale della risorsa
7. Date             Data associata con la creazione o la disponibilità della risorsa
8. Type             Genere della risorsa (home page, articolo, tesi, data set, etc.)
9. Format           Normalmente di tipo MIME (ad es. text/html)
10. Identifier      URL, DOI, ISBN, ISSN, URN o altro identificatore
11. Source          Risorsa da cui deriva la risorsa descritta
12. Language        Lingua della risorsa
13. Relation        Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta
14. Coverage        Caratteristiche spazio-temporali della risorsa
15. Rights          Condizioni di copyright della risorsa                                            28
Come funziona Dublin Core




                            29
Una pagina HTML

  Pagina HTML




                  30
31
Una pagina HTML con metadati




                               32
Una pagina XML con metadati




                              ._   33
Web semantico
il termine “Semantic Web” è stato proposto per la
prima volta nel 2001 da Tim Berners Lee
da allora il termine è stato associato all’idea di un
web nel quale agiscano “agenti intelligenti”
ossia applicazioni in grado di comprendere il
significato dei documenti presenti sulla rete
    quindi guidare l’utente direttamente verso
    l’informazione ricercata
    o sostituirsi a lui nello svolgimento di alcune
    operazioni
                                                        34
Definizione di web semantico
“con il termine web semantico si intende la
trasformazione del World Wide Web in un
ambiente dove i documenti pubblicati (pagine
HTML, file, immagini, e così via) siano associati
ad informazioni e dati (metadati) che ne
specifichino il contesto semantico in un formato
adatto all’interrogazione, all’interpretazione e, più
in generale, all’elaborazione automatica”
(Wikipedia)


                                                        35
Web semantico
il web semantico è oggetto di continua
elaborazione
al fine di rendere possibile non solo ricerche molto
più evolute delle attuali
ma anche operazioni altamente specialistiche,
come la costruzione di reti di relazioni e
connessioni tra documenti
secondo logiche decisamente più raffinate rispetto
a quella basata sul semplice link ipertestuale
                                                       36
Web semantico
in altre parole, il web semantico permette di dotarsi
di strutture e collegamenti più espressivi di quelli
attuali
oggi infatti in un documento web (ad es. una pagina
HTML)
è possibile parlare di un Signor Rossi ed esprimere
semanticamente ciò con opportune etichette
ma è difficile capire se due documenti che parlano
di un Signor Rossi si riferiscono alla stessa persona
con conseguente scarsa qualità dei risultati restituiti
dai motori di ricerca                                   37
Web semantico
è vero che il web è un insieme di testi collegati tra loro
ma questi collegamenti sono “deboli”, nel senso che
sono troppo generici e vaghi
difatti un collegamento, oltre a portare in un
determinato luogo, dovrebbe descrivere il luogo verso
cui porta
questa funzione viene definita capacità semantica
   un meccanismo semantico è quello che sa predire
   il valore della sua azione
   per arrivare a ciò, è necessario attivare una serie di
   collegamenti semantici                                 38
Web semantico
è quanto consente il web semantico, con cui è
possibile recuperare documenti esprimendo query
complesse:
   ad esempio, partendo da concetti semplici, si
   può raffinare la ricerca esprimendo vere e
   proprie asserzioni
   composte da un soggetto, un predicato e un
   oggetto
   si può quindi fare una richiesta del tipo: aziende
   (soggetto) che hanno come servizio (predicato)
   la fornitura di scarpe (oggetto)                     39
Web semantico
tale possibilità è radicalmente diversa
dall’interrogazione effettuata con un motore di
ricerca
   attraverso il quale si possono indicare i tre
   concetti di azienda, di servizio e di scarpe
   ma non si può esprimere in nessun modo il tipo
   di legame esistente fra essi
      e da ciò derivano tutte le imprecisioni tipiche
      dei motori di ricerca
                                                        40
Problemi del web semantico
quanto tempo e quanto denaro occorrono per
mappare in questo modo tutto il web?
“purtroppo molte delle persone coinvolte in questo
progetto tendono a sottovalutare l’estrema
difficoltà insita nella creazione e manutenzione
degli opportuni metadati, sia che essa venga
effettuata da umani sia che venga realizzata da
computer” (Metitieri-Ridi)


                                                     41
Problemi del web semantico
“l’estrazione delle descrizioni potrebbe infatti essere
parzialmente automatizzata, partendo comunque dalle
informazioni inserite dagli autori stessi nelle pagine
scritte in XML, ma risulterebbe poco accurata,
oppure potrebbe essere completamente manuale, da
parte di catalogatori esperti, ma con costi (fino a 50
euro per record) e tempi che rendono impossibile
pensare a qualcosa di più di progetti limitati e
riguardanti biblioteche e musei o enti accademici e di
ricerca” (Metitieri-Ridi)._
                                                      42
Google




         43
Criteri di ricerca di Google
il criterio adottato da Google per definirne la
posizione di una pagina web in seguito a una
ricerca
è basato sul grado di “popolarità” della pagina
stessa
ossia sul numero di legami (links) che essa riceve
da parte di altre pagine
    più una pagina è linkata, più è conosciuta e
    quindi (si suppone), più è importante e utile
                                                     44
Criteri di ricerca di Google
tuttavia ben presto si è capito che questo non
poteva essere l’unico criterio
messo in atto da Google per indicizzare l’enorme
quantità di pagine web disponibili in rete
e offrirle all’utente in un preciso ordine di
importanza
   di recente sono stati individuati gli elementi che
   compongono il famoso (anche se tuttora
   segreto) algoritmo di ricerca di Google
                                                        45
Algoritmo di ricerca di Google
algoritmo: sequenza logica di istruzioni elementari
(univocamente interpretabili) che, eseguite in un
ordine stabilito, permettono la soluzione di un
problema in un numero finito di passi
punteggio Google = (Utilizzo delle parole chiave *
0.3) + (Importanza del dominio * 0.25) + (Link in
ingresso * 0.25) + (Dati degli utenti * 0.1) +
(Qualità del contenuto * 0.1) + (Spinte manuali) -
(Penalizzazioni automatiche e manuali)
                                                      46
1. Utilizzo delle parole chiave
parole chiave nel tag del titolo
parole chiave nei tag degli header
parole chiave nel testo del documento
parole chiave nei link interni che puntano alla
pagina
parole chiave nel nome di dominio e/o
nell’indirizzo della pagina (URL)


                                                  47
2. Importanza del dominio
storia della registrazione
età del dominio
importanza dei link che puntano al dominio
rilevanza del dominio sull’argomento basata sui
link in entrata ed in uscita
utilizzo storico e reattività dei link verso il dominio



                                                          48
3. Punteggio dei link in entrata
età dei link
qualità dei domini che mandano il link
qualità delle pagine che mandano il link
testo dei link
valutazione della quantità e del peso dei link
rilevanza sull’argomento delle pagine e dei siti che
mandano i link



                                                       49
4. Dati degli utenti
storia della percentuale dei click effettuati sulla
pagina nei risultati dei motori di ricerca
tempo speso dagli utenti sulla pagina
numero di ricerche per URL o per nome del
dominio
storia delle visite e degli utilizzi dell’URL o del
nome del dominio, da parte degli utenti, che
Google può monitorare (toolbar, wifi, analytics,
etc.)
                                                      50
5. Qualità del contenuto
dati rilevati per le ricerche e le pagine più popolari
dati forniti da valutatori interni di Google
algoritmi automatizzati per valutare il testo
(qualità, leggibilità, etc.)

                                               ._



                                                         51
Folksonomies
“indicizzazione personalizzata”
possibilità, concessa agli utenti del web, di
attribuire parole chiave (“tags”)
a un gran numero di pagine web, risorse e oggetti
fra cui libri, fotografie, blog, etc.
    una vera e propria indicizzazione per soggetto
   fatta dalla gente


                                                     52
Definizione di folksonomy
“la parola folksonomy è un neologismo composto da
‘folks’ (gente) e ‘taxonomy’ (tassonomia). Il termine
è stato ideato da Thomas Vander Wal, architetto
dell’informazione, che lo ha coniato durante una
discussione online. Si tratta quindi di una
classificazione ‘dal basso’, creata dagli utilizzatori
che attribuiscono una parola chiave, cioè il tag, ad una
risorsa messa sul web al fine di condividerla. Le
risorse non vengono quindi classificate a priori, ma
aggregate dai navigatori/utenti (De Maurissens)
                                                           53
Le folksonomies e il “Web 2.0”
le folksonomies (insieme ai blog, ai wiki e ai diversi
social networks), costituiscono la nuova frontiera
della rete: il cosiddetto “Web 2.0”
    ogni utente può trasformarsi “da consumatore a
   partecipante, da utilizzatore passivo ad autore attivo
   di contenuti, messi a disposizione di chiunque si
   affacci su Internet” (Montalto)
oggi questo discorso viene esteso anche alla realtà
bibliotecaria (“Library 2.0”)
folksonomies social tagging
                                                      54
55
56
Vantaggi delle folksonomies
sono prive di condizionamenti culturali o ideologici
non devono fare i conti con pesanti sovrastrutture
enumerative o gerarchiche
possono essere create e utilizzate da tutti, e non solo
da una ristretta cerchia di professionisti
sono in grado di intercettare i gusti e le opinioni di
una vasta platea di persone
e dar vita a una nuova forma di ricerca delle
informazioni ad esse correlate
                                                          57
Vantaggi delle folksonomies
consentono la partecipazione di un numero vasto di
persone all’attività di tagging
utilizzano termini che siano il più possibile
“parlanti”
e quindi in grado di essere condivisi da una
comunità assai ampia di utenti




                                                     58
Problemi delle folksonomies
rifiutano qualsiasi struttura semantica predefinita
(classificazioni, soggettari, thesauri...)
    ciò porta ad una eccessiva semplificazione
    semantica
    che non solo non rispecchia la realtà conoscitiva
    odierna, molto complessa e articolata
    ma riduce le possibilità di un’efficace ricerca e
    un idoneo recupero dell’informazione
in particolare:
                                                        59
1. Assenza di gerarchia
i tags vengono assegnati in maniera piatta,
“orizzontale”
senza tener conto delle relazioni gerarchiche che
intercorrono fra i concetti
ciò non consente di far emergere delle “classi”
e quindi non giustifica l’idea che, per quanto fatte
dalla gente, si tratta comunque di tassononomie


                                                       60
Ad esempio: tags assegnati a libri
 sulla “information technology”




                                     61
2. Scarsa precisione semantica
il rifiuto di utilizzare “vocabolari controllati”
(soggettari, thesauri) impedisce:
    di riconoscere i collegamenti fra i termini
    di “disambiguare” i concetti a seconda del
    contesto tematico di riferimento
    di eliminare i problemi di sinonimia, omofonia,
    omografia e omonimia che sono assai frequenti
    nel linguaggio naturale

                                                      62
2. Scarsa precisione semantica
insomma il rifiuto di qualsiasi strumento di
controllo terminologico
non permette di individuare le voci più appropriate
per descrivere un determinato concetto
e quindi di avere un set di termini “accettati” da
usare per l’indicizzazione e per la ricerca
questo dimimuisce notevolmente l’efficacia della
ricerca
e quindi la soddisfazione dell’utente (eccesso di
“rumore” o eccesso di “silenzio”)                     63
3. Mancanza di un ordine di citazione
impossibilità di collegare i termini in modo idoneo
e dar vita a una “stringa coestesa”, ossia capace di
definire in modo unitario i diversi concetti presenti
nel documento
“quando etichetto una foto, posso usare dei tags per
descrivere un gatto nero e un cane bianco. Ma una
volta che i diversi tags, (“gatto”, “nero”, “cane”,
“bianco”) sono inclusi nella base di dati, il loro
significato si perde: gli utenti che fanno una ricerca
non sanno più quale animale è bianco e quale è nero”
(Guy -Tonkin)
                                                    64
Le folksonomies oggi
oggi si cerca di raggiungere un maggior equilibrio
tra i vantaggi di un tagging diffuso e “dal basso”
e quelli che vengono dalla tradizione
biblioteconomica, legati all’indicizzazione per
soggetto e alla classificazione; in particolare:
   si creano “mini-stringhe” in grado di esprimere
   con più precisione i soggetti complessi
   si evidenziano i legami gerarchici fra i tags
   particolari tipi di folksonomies cominciano ad
   essere integrati in banche dati, opac, etc.       65
66
67
Suggerimenti bibliografici




                             68
Suggerimenti bibliografici




                             69
Michele Santoro


Indicizzare nel mondo digitale

  Grazie per l’attenzione!

                             70

Más contenido relacionado

La actualidad más candente

Suggestioni su Biblioteca 2.0
Suggestioni su Biblioteca 2.0Suggestioni su Biblioteca 2.0
Suggestioni su Biblioteca 2.0Bonaria Biancu
 
La ricerca bibliografica umanistica
La ricerca bibliografica umanisticaLa ricerca bibliografica umanistica
La ricerca bibliografica umanisticabianca_gai
 
Dm portali
Dm portaliDm portali
Dm portaliBiblioTu
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei datiMau-Messenger
 
Il sistema bibliotecario UC Milano
Il sistema bibliotecario UC MilanoIl sistema bibliotecario UC Milano
Il sistema bibliotecario UC MilanoTellima
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitalenq,e nnnn
 
Introduzione Alla Ricerca Bibliografica
Introduzione Alla Ricerca BibliograficaIntroduzione Alla Ricerca Bibliografica
Introduzione Alla Ricerca Bibliograficapaoladuc
 
Il Web sta cambiando. E i nostri cataloghi?
Il Web sta cambiando. E i nostri cataloghi?Il Web sta cambiando. E i nostri cataloghi?
Il Web sta cambiando. E i nostri cataloghi?Andrea Marchitelli
 

La actualidad más candente (10)

3. La biblioteca digitale
3. La biblioteca digitale3. La biblioteca digitale
3. La biblioteca digitale
 
Suggestioni su Biblioteca 2.0
Suggestioni su Biblioteca 2.0Suggestioni su Biblioteca 2.0
Suggestioni su Biblioteca 2.0
 
La ricerca bibliografica umanistica
La ricerca bibliografica umanisticaLa ricerca bibliografica umanistica
La ricerca bibliografica umanistica
 
Dm portali
Dm portaliDm portali
Dm portali
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
 
Il sistema bibliotecario UC Milano
Il sistema bibliotecario UC MilanoIl sistema bibliotecario UC Milano
Il sistema bibliotecario UC Milano
 
La Biblioteca Digitale
La Biblioteca DigitaleLa Biblioteca Digitale
La Biblioteca Digitale
 
Introduzione Alla Ricerca Bibliografica
Introduzione Alla Ricerca BibliograficaIntroduzione Alla Ricerca Bibliografica
Introduzione Alla Ricerca Bibliografica
 
Il Web sta cambiando. E i nostri cataloghi?
Il Web sta cambiando. E i nostri cataloghi?Il Web sta cambiando. E i nostri cataloghi?
Il Web sta cambiando. E i nostri cataloghi?
 
metadatacopyright
metadatacopyrightmetadatacopyright
metadatacopyright
 

Similar a Indicizzare nel mondo digitale

Accesso remoto, interfaccia ed architettura dell'informazione
Accesso remoto, interfaccia ed architettura dell'informazioneAccesso remoto, interfaccia ed architettura dell'informazione
Accesso remoto, interfaccia ed architettura dell'informazioneaccessoinformazione
 
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologiaAndrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologiaOpenPompei
 
Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...
Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...
Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...Giulia Palazzo
 
Quattro trends per le biblioteche nel web 2000
Quattro trends per le biblioteche nel web 2000Quattro trends per le biblioteche nel web 2000
Quattro trends per le biblioteche nel web 2000Michele Santoro
 
2d. lezione ss bd e standard
2d. lezione ss bd e standard2d. lezione ss bd e standard
2d. lezione ss bd e standardMau-Messenger
 
Corso Chieti Pescara2
Corso Chieti Pescara2Corso Chieti Pescara2
Corso Chieti Pescara2tittiono
 
Architetturadellinformazione.ppt
Architetturadellinformazione.pptArchitetturadellinformazione.ppt
Architetturadellinformazione.pptAnna Maria Tammaro
 
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008Maurizio Messina
 
Rumore Silenzio
Rumore SilenzioRumore Silenzio
Rumore Silenziosimonardi
 
Biblioteche 2.0
Biblioteche 2.0Biblioteche 2.0
Biblioteche 2.0nomenick
 
Introduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella IaconoIntroduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella Iaconolibriedocumenti
 
I cataloghi delle biblioteche e il nuovo web (2)
I cataloghi delle biblioteche e il nuovo web (2)I cataloghi delle biblioteche e il nuovo web (2)
I cataloghi delle biblioteche e il nuovo web (2)Andrea Marchitelli
 
Per una ecologia dell'informazione: dalla codificazione alla condivisione
Per una ecologia dell'informazione: dalla codificazione alla condivisionePer una ecologia dell'informazione: dalla codificazione alla condivisione
Per una ecologia dell'informazione: dalla codificazione alla condivisioneSerenaS
 
Biblioteconomia web 201010
Biblioteconomia web 201010Biblioteconomia web 201010
Biblioteconomia web 201010Lucia Bertini
 
Il futuro del catalogo bibliografico nel web semantico
Il futuro del catalogo bibliografico nel web semanticoIl futuro del catalogo bibliografico nel web semantico
Il futuro del catalogo bibliografico nel web semanticokcoylenet
 
2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale org2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale orgMau-Messenger
 

Similar a Indicizzare nel mondo digitale (20)

Accesso remoto, interfaccia ed architettura dell'informazione
Accesso remoto, interfaccia ed architettura dell'informazioneAccesso remoto, interfaccia ed architettura dell'informazione
Accesso remoto, interfaccia ed architettura dell'informazione
 
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologiaAndrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
Andrea D'Andrea - Data, Metadata, Linked Open Data in archeologia
 
Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...
Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...
Infografica: i sistemi di visualizzazione delle informazioni bibliografiche i...
 
Quattro trends per le biblioteche nel web 2000
Quattro trends per le biblioteche nel web 2000Quattro trends per le biblioteche nel web 2000
Quattro trends per le biblioteche nel web 2000
 
9. Il Web semantico
9. Il Web semantico9. Il Web semantico
9. Il Web semantico
 
2d. lezione ss bd e standard
2d. lezione ss bd e standard2d. lezione ss bd e standard
2d. lezione ss bd e standard
 
Corso Chieti Pescara2
Corso Chieti Pescara2Corso Chieti Pescara2
Corso Chieti Pescara2
 
Architetturadellinformazione.ppt
Architetturadellinformazione.pptArchitetturadellinformazione.ppt
Architetturadellinformazione.ppt
 
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
La digitalizzazione dei fondi antichi / Maurizio Messina. - 2008
 
Rumore Silenzio
Rumore SilenzioRumore Silenzio
Rumore Silenzio
 
Rumore Silenzio
Rumore SilenzioRumore Silenzio
Rumore Silenzio
 
Biblioteche 2.0
Biblioteche 2.0Biblioteche 2.0
Biblioteche 2.0
 
Urbino reference 2011_slide
Urbino reference 2011_slideUrbino reference 2011_slide
Urbino reference 2011_slide
 
Introduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella IaconoIntroduzione a Linked Open data e Web semantico / Antonella Iacono
Introduzione a Linked Open data e Web semantico / Antonella Iacono
 
I cataloghi delle biblioteche e il nuovo web (2)
I cataloghi delle biblioteche e il nuovo web (2)I cataloghi delle biblioteche e il nuovo web (2)
I cataloghi delle biblioteche e il nuovo web (2)
 
Per una ecologia dell'informazione: dalla codificazione alla condivisione
Per una ecologia dell'informazione: dalla codificazione alla condivisionePer una ecologia dell'informazione: dalla codificazione alla condivisione
Per una ecologia dell'informazione: dalla codificazione alla condivisione
 
Biblioteconomia web 201010
Biblioteconomia web 201010Biblioteconomia web 201010
Biblioteconomia web 201010
 
Il futuro del catalogo bibliografico nel web semantico
Il futuro del catalogo bibliografico nel web semanticoIl futuro del catalogo bibliografico nel web semantico
Il futuro del catalogo bibliografico nel web semantico
 
2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale org2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale org
 
Accesso
AccessoAccesso
Accesso
 

Último

Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiorevaleriodinoia35
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaRafael Figueredo
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativovaleriodinoia35
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldivaleriodinoia35
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxOrianaOcchino
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 

Último (9)

Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiore
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativo
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldi
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptx
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 

Indicizzare nel mondo digitale

  • 1. Bologna, 18 maggio 2009 Michele Santoro Indicizzare nel mondo digitale Michele Santoro Coordinamento dell’Area Scientifico-tecnica Sistema Bibliotecario di Ateneo Università di Bologna e-mail: <michele.santoro@unibo.it> 1
  • 2. Di cosa parleremo i documenti digitali i criteri di indicizzazione del web i virtual reference desk i motori di ricerca i metadati il web semantico i criteri di ricerca di Google le folksonomies 2
  • 3. I documenti digitali aumento esponenziale dell’informazione: si stima che negli ultimi 30 anni siano stati prodotti più documenti che nei precedenti 5000 anni documenti esistenti non solo nella tradizionale forma cartacea, ma anche e soprattutto in formato digitale considerando solo i contenuti del World Wide Web, è stato calcolato che sono presenti oltre 175 milioni di siti web e 3 milioni di nuovi siti vanno online ogni mese 3
  • 4. Documenti digitali/vantaggi i documenti digitali, rispetto ai tradizionali documenti “analogici”, presentano numerosi vantaggi: flessibilità, maneggevolezza, ipertestualità trasmissibilità, da qualsiasi luogo e anche senza intervento umano qualità, di norma assai elevata e in costante aumento riproducibilità, in maniera assolutamente “fedele” 4
  • 5. Documenti digitali/vantaggi capacità di ricerca sul testo pieno miglioramento continuo delle interfacce possibilità di utilizzare in maniera più amichevole grandi quantità di dati ciò spinge a cercare nuovi criteri con cui questi materiali possono essere fruiti dagli utenti e quindi a individuare nuove forme di indicizzazione 5
  • 6. La realtà di Internet abbiamo visto che Internet è uno sterminato contenitore di informazioni, da cui è assolutamente impossibile prescindere ma… occorre “districarsi” tra la quantità di fonti utili e quelle futili, inutili o persino dannose: è proprio questa immensa mole di informazioni che provoca i problemi maggiori rendendo Internet un contenitore di risorse tanto enorme quanto caotico 6
  • 7. Criteri di indicizzazione del web per questo è apparso subito necessario mettere ordine nel caos tipico della rete attraverso criteri di vera e propria “catalogazione” delle sue risorse: tali criteri, anche se il più delle volte sono stati elaborati da informatici sono apparsi molto simili a quelli tipicamente usati dai bibliotecari perché basati sui principi della classificazione, dell’indicizzazione per soggetto e della descrizione bibliografica 7
  • 8. Criterio classificato diretto a organizzare le risorse di Internet secondo determinate categorie utilizzando a volte classificazioni “empiriche”, altre volte schemi tipicamente bibliotecari (CDD, CDU) e dando vita a insiemi chiamati anche Virtual Reference Desk ben presto però questo criterio è entrato in crisi a causa dell’impossibilità di individuare e censire l’immensa quantità di risorse disponibili in rete anche se viene ancora usato per insiemi limitati su cui è possibile esercitare un controllo rigoroso 8
  • 10. 10
  • 11. Ricerca per parola significativa l’avvento dei primi motori di ricerca (Altavista, Yahoo!, etc.) ha imposto un criterio di ricerca delle risorse di Internet basato su parole “significative” ma poiché la ricerca avviene sul testo pieno del documento ogni parola individuata dall’utente diventa “significativa” e ciò dà vita a un enorme “rumore” da questo punto di vista infatti il web presenta una serie di problemi: 11
  • 12. Problemi del web problemi legati al linguaggio naturale: polisemia (termini con più significati) sinonimia (diversi termini con lo stesso significato) integrazione di informazioni provenienti da più fonti assenza di “macchine intelligenti” cioè in grado di comprendere le informazioni strutturate in maniera differente e di “ragionarci sopra” 12
  • 13. Il web profondo oltre al web “di superficie”, ossia quello visibile e ricercabile attraverso i motori di ricerca, esiste un “web profondo”, che risulterebbe essere molto più grande (da 400 a 550 volte) rispetto a quello di superficie deep web: parte del web che non è accessibile ai motori di ricerca per due motivi principali: 13
  • 14. Il web profondo 1. il sito è protetto da password (ad esempio un periodico elettronico non disponibile gratuitamente) 2. il contenuto informativo del sito è raggiungibile solo attraverso una ricerca interattiva in una base di dati (ad es. i cataloghi online delle biblioteche) studi recenti affermano che il web profondo è il più consultato (ha il 50% del traffico in più) cresce più velocemente ed è di qualità più elevata 14
  • 15. Possibili soluzioni trovare dei criteri per “forzare” il web profondo perfezionare la tecnologia e rendere le macchine più intelligenti migliorare gli algoritmi di ricerca dei motori accrescere la “significatività” delle parole utilizzate per le ricerche 15
  • 16. Possibili soluzioni tutte queste possibilità sono state sviluppate negli anni recenti in particolare, l’ultima opzione (migliorare i criteri di recupero per termini significativi) ha trovato una sua specifica realizzazione attraverso l’impiego di un criterio assai simile a quello, tipicamente bibliotecario, della descrizione bibliografica e ciò è stato possibile grazie a una serie di strumenti che hanno preso il nome di metadati 16
  • 17. I metadati difatti, analogamente a quanto avviene con le tradizionali regole di catalogazione bibliografica i metadati permettono di descrivere le risorse elettroniche, i testi e i documenti multimediali rendendo meno caotico l’ambiente digitale e consentendo un più efficace recupero dell’informazione ricercata 17
  • 18. I metadati ma diversamente dalla catalogazione tradizionale che dà vita a prodotti “esterni” ai documenti descritti (e cioè schede catalografiche o record bibliografici a se stanti) i metadati sono inclusi nella stessa risorsa che descrivono per cui “non c’è più bisogno di trascrivere i metadati in un «contenitore» esterno (catalogo cartaceo, opac...), perché i motori li rintracciano dove già si trovano, e cioè nel «paratesto» del documento primario” (Metitieri-Ridi) 18
  • 19. Un esempio di metadati 19
  • 20. Definizioni di metadati a) informazioni comprensibili dalla macchina relative a risorse web o altri oggetti (T. Berners Lee) b) strumenti che aiutano a identificare, descrivere, localizzare e gestire una risorsa c) «dati sui dati», cioè informazioni, generalmente strutturate e scandite in campi, relative a documenti primari «a testo pieno» (full text), che ne permettono una più efficiente organizzazione e recupero (Metitieri-Ridi) 20
  • 21. Funzione dei metadati 1. ricerca, che consiste nell’individuare l’esistenza di un documento 2. localizzazione, ovvero rintracciare una particolare occorrenza del documento 3. selezione, realizzabile analizzando, valutando e filtrando una serie di documenti 21
  • 22. Funzione dei metadati 4. interoperabilità semantica, che consiste nel permettere la ricerca in ambiti disciplinari diversi grazie a una serie di equivalenze fra descrittori 5. gestione delle risorse, ossia capacità di gestire le raccolte di documenti grazie all’intermediazione di banche dati e cataloghi 6. disponibilità, ovvero ottenere informazioni sull’effettiva disponibilità del documento 22
  • 23. Tipi di metadati di norma, vengono individuate tre grandi categorie: 1. metadati descrittivi: hanno il compito di facilitare l’identificazione e l’accesso alla risorsa 2. metadati amministrativi: volti a supportare la gestione della risorsa attraverso la presenza di informazioni appropriate, ad es. la definizione del formato dei file, il riconoscimento dei diritti, etc. 3. metadati strutturali: diretti a fornire specifiche informazioni sulla composizione e l’organizzazione delle risorse digitali con più precisione, i diversi tipi di metadati e le loro rispettive funzioni sono: 23
  • 24. Tipi di metadati e loro funzioni Amministrativi Usati nella gestione e nell’amministrazione delle risorse informative Descrittivi Usati per descrivere o identificare le risorse informative Strutturali Relativi alla gestione della conservazione delle risorse informative Tecnici Relativi a come funziona un sistema e a quali metadati comporta Di uso Relativi al livello e al tipo di uso delle risorse informative 24
  • 25. Metadati descrittivi fra i molti set di metadati predisposti per la descrizione delle risorse di Internet si è imposto (in particolare nel mondo bibliotecario) il modello Dublin Core sviluppato a partire dal Metadata Workshop del marzo 1995 tenutosi presso la sede dell’OCLC a Dublin (Ohio) e sponsorizzato da Online Computer Library Center (OCLC) e dal National Center for Supercomputing Applications (NCSA) 25
  • 26. Caratteri essenziali di Dublin Core semplicità: Dublin Core si rivolge a catalogatori esperti ma anche (e soprattutto) ai non esperti di catalogazione interoperabilità semantica: per consentire a Dublin Core di diventare una “lingua franca” per la ricerca di risorse in rete flessibilità: volta a codificare descrizioni di risorse anche in modo più formale consenso internazionale: Dublin Core è stato preparato da esperti di varie nazioni e sono in corso numerosi progetti di utilizzo dello standard 26
  • 27. Dublin Core Dublin Core Metadata si presenta come uno standard di descrizione delle risorse in formato elettronico è costitutito da 15 elementi descrittivi è concepito allo scopo di consentire agli autori di effettuare direttamente in modo standardizzato la descrizione di risorse rese disponibili sulla rete senza le mediazione di un’agenzia catalografica 27
  • 28. I quindici elementi del Dublin Core simple 1. Title Titolo della risorsa 2. Subject Parole chiave o termini tratti da un vocabolario controllato 3. Description Descrizione o abstract 4. Creator Persona o organizzazione primariamente responsabile del contenuto intellettuale della risorsa 5. Publisher Editore 6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa 7. Date Data associata con la creazione o la disponibilità della risorsa 8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.) 9. Format Normalmente di tipo MIME (ad es. text/html) 10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore 11. Source Risorsa da cui deriva la risorsa descritta 12. Language Lingua della risorsa 13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta 14. Coverage Caratteristiche spazio-temporali della risorsa 15. Rights Condizioni di copyright della risorsa 28
  • 30. Una pagina HTML Pagina HTML 30
  • 31. 31
  • 32. Una pagina HTML con metadati 32
  • 33. Una pagina XML con metadati ._ 33
  • 34. Web semantico il termine “Semantic Web” è stato proposto per la prima volta nel 2001 da Tim Berners Lee da allora il termine è stato associato all’idea di un web nel quale agiscano “agenti intelligenti” ossia applicazioni in grado di comprendere il significato dei documenti presenti sulla rete quindi guidare l’utente direttamente verso l’informazione ricercata o sostituirsi a lui nello svolgimento di alcune operazioni 34
  • 35. Definizione di web semantico “con il termine web semantico si intende la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) siano associati ad informazioni e dati (metadati) che ne specifichino il contesto semantico in un formato adatto all’interrogazione, all’interpretazione e, più in generale, all’elaborazione automatica” (Wikipedia) 35
  • 36. Web semantico il web semantico è oggetto di continua elaborazione al fine di rendere possibile non solo ricerche molto più evolute delle attuali ma anche operazioni altamente specialistiche, come la costruzione di reti di relazioni e connessioni tra documenti secondo logiche decisamente più raffinate rispetto a quella basata sul semplice link ipertestuale 36
  • 37. Web semantico in altre parole, il web semantico permette di dotarsi di strutture e collegamenti più espressivi di quelli attuali oggi infatti in un documento web (ad es. una pagina HTML) è possibile parlare di un Signor Rossi ed esprimere semanticamente ciò con opportune etichette ma è difficile capire se due documenti che parlano di un Signor Rossi si riferiscono alla stessa persona con conseguente scarsa qualità dei risultati restituiti dai motori di ricerca 37
  • 38. Web semantico è vero che il web è un insieme di testi collegati tra loro ma questi collegamenti sono “deboli”, nel senso che sono troppo generici e vaghi difatti un collegamento, oltre a portare in un determinato luogo, dovrebbe descrivere il luogo verso cui porta questa funzione viene definita capacità semantica un meccanismo semantico è quello che sa predire il valore della sua azione per arrivare a ciò, è necessario attivare una serie di collegamenti semantici 38
  • 39. Web semantico è quanto consente il web semantico, con cui è possibile recuperare documenti esprimendo query complesse: ad esempio, partendo da concetti semplici, si può raffinare la ricerca esprimendo vere e proprie asserzioni composte da un soggetto, un predicato e un oggetto si può quindi fare una richiesta del tipo: aziende (soggetto) che hanno come servizio (predicato) la fornitura di scarpe (oggetto) 39
  • 40. Web semantico tale possibilità è radicalmente diversa dall’interrogazione effettuata con un motore di ricerca attraverso il quale si possono indicare i tre concetti di azienda, di servizio e di scarpe ma non si può esprimere in nessun modo il tipo di legame esistente fra essi e da ciò derivano tutte le imprecisioni tipiche dei motori di ricerca 40
  • 41. Problemi del web semantico quanto tempo e quanto denaro occorrono per mappare in questo modo tutto il web? “purtroppo molte delle persone coinvolte in questo progetto tendono a sottovalutare l’estrema difficoltà insita nella creazione e manutenzione degli opportuni metadati, sia che essa venga effettuata da umani sia che venga realizzata da computer” (Metitieri-Ridi) 41
  • 42. Problemi del web semantico “l’estrazione delle descrizioni potrebbe infatti essere parzialmente automatizzata, partendo comunque dalle informazioni inserite dagli autori stessi nelle pagine scritte in XML, ma risulterebbe poco accurata, oppure potrebbe essere completamente manuale, da parte di catalogatori esperti, ma con costi (fino a 50 euro per record) e tempi che rendono impossibile pensare a qualcosa di più di progetti limitati e riguardanti biblioteche e musei o enti accademici e di ricerca” (Metitieri-Ridi)._ 42
  • 43. Google 43
  • 44. Criteri di ricerca di Google il criterio adottato da Google per definirne la posizione di una pagina web in seguito a una ricerca è basato sul grado di “popolarità” della pagina stessa ossia sul numero di legami (links) che essa riceve da parte di altre pagine più una pagina è linkata, più è conosciuta e quindi (si suppone), più è importante e utile 44
  • 45. Criteri di ricerca di Google tuttavia ben presto si è capito che questo non poteva essere l’unico criterio messo in atto da Google per indicizzare l’enorme quantità di pagine web disponibili in rete e offrirle all’utente in un preciso ordine di importanza di recente sono stati individuati gli elementi che compongono il famoso (anche se tuttora segreto) algoritmo di ricerca di Google 45
  • 46. Algoritmo di ricerca di Google algoritmo: sequenza logica di istruzioni elementari (univocamente interpretabili) che, eseguite in un ordine stabilito, permettono la soluzione di un problema in un numero finito di passi punteggio Google = (Utilizzo delle parole chiave * 0.3) + (Importanza del dominio * 0.25) + (Link in ingresso * 0.25) + (Dati degli utenti * 0.1) + (Qualità del contenuto * 0.1) + (Spinte manuali) - (Penalizzazioni automatiche e manuali) 46
  • 47. 1. Utilizzo delle parole chiave parole chiave nel tag del titolo parole chiave nei tag degli header parole chiave nel testo del documento parole chiave nei link interni che puntano alla pagina parole chiave nel nome di dominio e/o nell’indirizzo della pagina (URL) 47
  • 48. 2. Importanza del dominio storia della registrazione età del dominio importanza dei link che puntano al dominio rilevanza del dominio sull’argomento basata sui link in entrata ed in uscita utilizzo storico e reattività dei link verso il dominio 48
  • 49. 3. Punteggio dei link in entrata età dei link qualità dei domini che mandano il link qualità delle pagine che mandano il link testo dei link valutazione della quantità e del peso dei link rilevanza sull’argomento delle pagine e dei siti che mandano i link 49
  • 50. 4. Dati degli utenti storia della percentuale dei click effettuati sulla pagina nei risultati dei motori di ricerca tempo speso dagli utenti sulla pagina numero di ricerche per URL o per nome del dominio storia delle visite e degli utilizzi dell’URL o del nome del dominio, da parte degli utenti, che Google può monitorare (toolbar, wifi, analytics, etc.) 50
  • 51. 5. Qualità del contenuto dati rilevati per le ricerche e le pagine più popolari dati forniti da valutatori interni di Google algoritmi automatizzati per valutare il testo (qualità, leggibilità, etc.) ._ 51
  • 52. Folksonomies “indicizzazione personalizzata” possibilità, concessa agli utenti del web, di attribuire parole chiave (“tags”) a un gran numero di pagine web, risorse e oggetti fra cui libri, fotografie, blog, etc. una vera e propria indicizzazione per soggetto fatta dalla gente 52
  • 53. Definizione di folksonomy “la parola folksonomy è un neologismo composto da ‘folks’ (gente) e ‘taxonomy’ (tassonomia). Il termine è stato ideato da Thomas Vander Wal, architetto dell’informazione, che lo ha coniato durante una discussione online. Si tratta quindi di una classificazione ‘dal basso’, creata dagli utilizzatori che attribuiscono una parola chiave, cioè il tag, ad una risorsa messa sul web al fine di condividerla. Le risorse non vengono quindi classificate a priori, ma aggregate dai navigatori/utenti (De Maurissens) 53
  • 54. Le folksonomies e il “Web 2.0” le folksonomies (insieme ai blog, ai wiki e ai diversi social networks), costituiscono la nuova frontiera della rete: il cosiddetto “Web 2.0” ogni utente può trasformarsi “da consumatore a partecipante, da utilizzatore passivo ad autore attivo di contenuti, messi a disposizione di chiunque si affacci su Internet” (Montalto) oggi questo discorso viene esteso anche alla realtà bibliotecaria (“Library 2.0”) folksonomies social tagging 54
  • 55. 55
  • 56. 56
  • 57. Vantaggi delle folksonomies sono prive di condizionamenti culturali o ideologici non devono fare i conti con pesanti sovrastrutture enumerative o gerarchiche possono essere create e utilizzate da tutti, e non solo da una ristretta cerchia di professionisti sono in grado di intercettare i gusti e le opinioni di una vasta platea di persone e dar vita a una nuova forma di ricerca delle informazioni ad esse correlate 57
  • 58. Vantaggi delle folksonomies consentono la partecipazione di un numero vasto di persone all’attività di tagging utilizzano termini che siano il più possibile “parlanti” e quindi in grado di essere condivisi da una comunità assai ampia di utenti 58
  • 59. Problemi delle folksonomies rifiutano qualsiasi struttura semantica predefinita (classificazioni, soggettari, thesauri...) ciò porta ad una eccessiva semplificazione semantica che non solo non rispecchia la realtà conoscitiva odierna, molto complessa e articolata ma riduce le possibilità di un’efficace ricerca e un idoneo recupero dell’informazione in particolare: 59
  • 60. 1. Assenza di gerarchia i tags vengono assegnati in maniera piatta, “orizzontale” senza tener conto delle relazioni gerarchiche che intercorrono fra i concetti ciò non consente di far emergere delle “classi” e quindi non giustifica l’idea che, per quanto fatte dalla gente, si tratta comunque di tassononomie 60
  • 61. Ad esempio: tags assegnati a libri sulla “information technology” 61
  • 62. 2. Scarsa precisione semantica il rifiuto di utilizzare “vocabolari controllati” (soggettari, thesauri) impedisce: di riconoscere i collegamenti fra i termini di “disambiguare” i concetti a seconda del contesto tematico di riferimento di eliminare i problemi di sinonimia, omofonia, omografia e omonimia che sono assai frequenti nel linguaggio naturale 62
  • 63. 2. Scarsa precisione semantica insomma il rifiuto di qualsiasi strumento di controllo terminologico non permette di individuare le voci più appropriate per descrivere un determinato concetto e quindi di avere un set di termini “accettati” da usare per l’indicizzazione e per la ricerca questo dimimuisce notevolmente l’efficacia della ricerca e quindi la soddisfazione dell’utente (eccesso di “rumore” o eccesso di “silenzio”) 63
  • 64. 3. Mancanza di un ordine di citazione impossibilità di collegare i termini in modo idoneo e dar vita a una “stringa coestesa”, ossia capace di definire in modo unitario i diversi concetti presenti nel documento “quando etichetto una foto, posso usare dei tags per descrivere un gatto nero e un cane bianco. Ma una volta che i diversi tags, (“gatto”, “nero”, “cane”, “bianco”) sono inclusi nella base di dati, il loro significato si perde: gli utenti che fanno una ricerca non sanno più quale animale è bianco e quale è nero” (Guy -Tonkin) 64
  • 65. Le folksonomies oggi oggi si cerca di raggiungere un maggior equilibrio tra i vantaggi di un tagging diffuso e “dal basso” e quelli che vengono dalla tradizione biblioteconomica, legati all’indicizzazione per soggetto e alla classificazione; in particolare: si creano “mini-stringhe” in grado di esprimere con più precisione i soggetti complessi si evidenziano i legami gerarchici fra i tags particolari tipi di folksonomies cominciano ad essere integrati in banche dati, opac, etc. 65
  • 66. 66
  • 67. 67
  • 70. Michele Santoro Indicizzare nel mondo digitale Grazie per l’attenzione! 70