Evoluzione dei Motori di Ricerca

Evoluzione dei Motori di Ricerca
Dal Web 1.0 al Web 3.0

Contenuti

Semantic Search Engine
(web 3.0)

Social Search Engine
(web 2.0)

Search Engine (3° generazione )
(web 1.0 – 1.5)

(1° e 2° generazione )

Starting Point
• Tim Berners-Lee (CERN – Ginevra) mette in linea il
1991 primo sito web.

• Il CERN rende pubblica la tecnologia alla base del
1993 WWW.

1993 • Nascono i crawler
1994

1994 • Si sviluppa la tecnologia di ricerca full-text
2000

1997 • Larry Page e Sergey Brin introducono il PageRank
2000

Web 2.0
• Si affermano le tecnologie alla base del Web 2.0 (termine coniato
2000 nel 2004 da Tim O'Reilly e Dale Dougherty)

 Gli utenti del web assumono un ruolo attivo (da semplici
fruitori ad editori/collaboratori).
 La tecnologia rende disponibile strumenti semplici ed
usabili per l’editing dei contenuti.
- Wiki
- Blog
- Syndication (RSS, Atom)
- Folksonomia (Social Tagging)
- Bookmarking (del.icio.us)
- Social Networking (facebook, myspace)
- Mash-up

Social Search
2004 • I motori di ricerca integrano i concetti del Web 2.0
2005

I Social Search Engine determinano la rilevanza dei risultati
considerando l’interazione o il contributo degli utenti.
1
Indicizzazione di fonti Web 2.0 (wiki, video, delicious)

CONNETTORI

INDEX

Social Search
2005

2
Rilevazione di contributi utente

feedback di
gradimento Inserimento di
(promozione o commenti
pubblici
retrocessione
(indicizzati)
dei link)

http://www.baagz.com/

Social Search
2005

3
Social Ranking

Social Ranking (ranking stabilito
in base alla rete sociale cui
l’utente appartiene).

Potenzialità

 Riduzione dell’effetto dei link spam.
 Miglior qualità del ranking in funzione degli
input utente.
 Giudizio espresso dall’uomo.
 Rilevanza della pagina dal punto di vista dei
lettori e non degli autori.
 Risultati aggiornati continuamente ed
influenzati dal contesto sociale contingente.

Rischi

 Aumento dello spam:
- Necessario definire criteri di trust tra utenti.
 Scarsa inclinazione a contribuire:
- Necessità di rilevare automaticamente il
gradimento delle pagine.
 Completezza:
- I web-robot indicizzano l’intero web.

A.V.I.C.

 E’ un progetto cofinanziato dalla U.E., P.O.R. Sardegna 2000-
2006.
 Agente software di re-ranking;
 Indipendente dal motore di ricerca e dalla rete sociale;
 Implementa algoritmi di feedback impliciti ed espliciti;
 Implementa algoritmi di trusting tra utenti;
 Incorpora concetti semantici (FOAF).
 Ottimo comportamento nelle reti sociali aziendali.

Rete Sociale

WWW ENTERPRISE PMI

Social Network Organigramma aziendale Assenza di struttura
tradizionale (Facebook, (LDAP, Active Directory). (registrata).
linkedin). Appartenenti alla stessa Rete determinata dai
Molte connessioni area hanno un link contatti della propria
richiedono vincoli diretto. rubrica.
computazionali.

Web 3.0

• Word Wide Database
(DataWeb - database
distribuito).
• Intelligenza artificiale a
supporto dell’utente.
• Semantic web.
• Web 3D (2° life).

Semantic Web
• Tim Berners-Lee pubblica “The Semantic Web”
2001 (Scientific American)

 Semantico = elaborabile dalla macchina.
 Propone un web con strutture e
collegamenti più espressivi.
 Ipotizza un web con agenti intelligenti
che vi operano.
 Oggi i risultati migliori si hanno
nell’ambito dell’information retrieval.

Ontologie

 Metadati sono informazioni aggiuntive che
qulificano una risorsa/documento.
ONTOLOGIE
 Trattati dall’elaboratore.
 Necessitano di una TESAURI

interpretazione univoca e TASSONOMIE
condivisa.
VOCABOLARI
 Esistono differenti modi per
fornirla (differente complessità).

Cosa serve

1. Definizione di una ontologia:
– Individuare i concetti chiave;
– Identificare le caratteristiche e le
proprietà necessarie a descriverli;
– Definire i legami non immediati.
2. Annotare le pagine:
– Identificare le infomrazioni;
– Collegarle ai concetti dell’ontologia;
– Mettere in risalto i concetti rilevanti;

Esempio

Dissertazione sull’evoluzione dei motori di ricerca
in occasione dell’incontro presso il cliente INAIL.
Programma

Comunicazione is_a Persona Giuridica
is_a Motore di ricerca is_a

Com. Orale Ente Pubblico

type_of type_of type_of type_of

Dissertazione Discorso INAIL Istituto Nazionale
per l'Assicurazione
contro gli Infortuni
same_as alt_label sul Lavoro

Esigenze

1. nomi non ambigui per le risorse
2. un modello comune dei dati per scambiare,
collegare e descrivere le risorse
3. accedere ai dati situati nei diversi angoli del
Web, conservati in molteplici forme e in
differenti archivi
4. definire dei vocabolari comuni
5. impostare delle logiche di ragionamento

Architettura

 URI: per l’identificazione non ambigua delle
risorse;
 RDF: modello comune di codifica, ed
interscambio dei fatti;
 SPARQL: linguaggio di SIAMO QUI

interrogazione del
modello;
 OWL: per la definizione
dei vocabolari.

RDF

• Fornisce un modello per descrivere proprietà
ed attributi di una risorsa.
• Progettato con l’obiettivo di aggiungere meta-
informazioni (semantica) ai documenti web
(ovvero le risorse che vogliamo descrivere).
• Mentre l’XML supporta l’interoperabilità
sintattica, RDF mira all’interoperabilità
semantica.

RDF

 Elemento base è l’RDF-statement:
Resource – Property – Value
Resource Identifica la risorsa che deve essere descritta nello
statement.
Property Identifica la proprietà della risorsa che si sta descrivendo.
Serve per rappresentare attributi, caratteristiche o
relazioni di una risorsa.
Value Identifica il valore della proprietà (Risorsa o Literal).

Esempio
Titolo
The Picture of ISBN:
Dorian Gray 9780140xx

Oscar
Wilde Autore

“Orcar Wilde” è l'autore di “The picture of Dorian Gray”
– Resource: http://www.w3c.it/ISBN9780140xx
– Property: autore
– Value: Oscar Wilde
<rdf:Description rdf:about=quot;http://www.w3c.it/ISBN9780140xxquot;>
<f:autore>Dorian Gray</f:autore>
<f:titolo>The Picture of Dorian Gray</f:title>
</rdf:Description>

OWL

 Sebbene RDF sia molto diffuso ed utile presenta
limiti di espressività:
– solo predicati binari.
– nessun concetto di equivalenza (risorse distribuite).
– nessuna possibilità di inversione delle relazioni.
– nessuna possibilità di crerare nuove classi/proprietà.
– non adatto ad applicazioni complesse.
“if «Person» resources «A» and «B» have the same «foaf:email» property,
then «A» and «B» are identical”
– etc.

OWL

 OWL è una estensione di RDF Schema (extra-
layer sopra RDF).
 Ha una sintassi ed una semantica ben definite.
 Ha sufficiente potere espressivo.
 E’ processabile automaticamente da un
calcolatore per fare inferenza.
 Consente di scrivere ontologie che descrivono
la conoscenza che abbiamo di un certo
dominio.

Esempio
Titolo²
The Picture of
Dorian Gray ISBN:
9780140xx

Autore¹ ISBN:
9780140xx
Oscar
Wilde Originale

Autore¹
Oscar ISBN:
Wilde 823740xx
Titolo²
Traduttore

Il ritratto di Mario Rossi
Dorian Gray

Esempio: equivalenza

• Per le classi:
owl:equivalentClass: due classi con stessi individui
owl:disjointWith: nessun individuo in comune
• Per le proprietà:
owl:equivalentProperty
Esempio - a:author vs. f:autore?
• For individuals:
owl:sameAs: due URI di riferiscono allo stesso concetto
owl:differentFrom: negazione di owl:sameAs

Semantic Search

• Utilizzo delle ontologie per migliorare la
rilevanza dei risultati.
– Document indexer/retriever
Individuano i documenti caratterizzati da una specifica
combinazione di concetti.
– Information extractor
Individuano una determinata informazione in una serie di
documenti utilizzando anche la semantica.
– Question answerers
Individuano la risposta ad una domanda.

Anatomia di un Search Engine
“Scova” i documenti di Estrae le informazioni Implementa un metodo di
interesse per l’utente. rilevanti dai contenuti ordinamento dei risultati

Crawler Indexer Ranker

Metadata Searcher Index
Struttura le Consente la ricerca dei Organizza le informazioni
informazioni rilevanti risultati e la loro ispezione ottimizzando i tempi di ricerca

Comportamento
Contenuto Crawler Indexer Ranker Metadata Searcher
I link sono Sfrutta Popolarità Analisi Chi cerca
semplici da interamente funzione dei lessicale in esprime la
seguire. il contenuto link. base alla richiesta
testuale grammatica come testo.
delle pagine. della lingua.

Sono Estremamen Non esistono Lessico per Non banale.
contenuti di te difficile e riferimenti contenuti
altre risorse. costoso. espliciti (solo multimediali
impliciti). ?

Fonte CEFRIEL

Esempio
Ricerca Sintattica
disabili discorso deficit discorso
motori discorso ... discorsosensitivi ediscorso... discorso
... ... ricerca ... motori ... ricerca ...
problemi ricerca ... ricerca ricerca ... ricerca
di ricerca ... motori ... ... motori ...
motori motori motori motori
Discorso sui
motori di
ricerca

Ricerca Semantica

Dissertazione Discorso

same_as discorso
Programma

is_a
programma
Motore di ricerca

Document indexer/retriever

 Fase “Indexing”:

Annotazione
Documento Indexing
semantica

Ontologia

Document indexer/retriever

 Fase “Retrieval”:

Ontologia

Annotazione semantica
della Query

Indice di
Retrieval somiglianza

Annotazione semantica
del documento

CLAS.SE.

 Classificatore Semantico
– A partire da una ontologia è in grado di
costruire indici di classificazione della base
dati informativa.
Indexing
– attribuire metadati di classificazione in
modo automatico (ad es. riempiendo il
campo “parole chiave” di un sistema
documentale).
– classificare su più lingue simultaneamente,
grazie all’impiego dello standard europeo
SKOS per ontologie e tesauri. Ontologia

Approccio Exalead

 Natural language processing.
 Language identification
 Segmentation
 Grammatical Parsing
 Named entity extraction
(people, location, event, date, addr
ess, money, etc.).
 Categorizzation.
 Sentiment Analysis.
 RDF Support.
 Navigazione tra classi.

Conclusioni

 Punti di forza:
– Documenti più pertinenti con la richiesta
– Indipendenza dallo stile della richiesta
– Indipendenza dalla lingua
– Navigazione tra documenti simili
– Aggregazione tra documenti simili
– Ricerca per esempi

Conclusioni

 Limitazioni:
– Creare una ontologia è un lavoro impegnativo:
• Richiede un’approfondita conoscenza dell’area che si
intede descrivere;
• Alcune comunità hanno sviluppato nel tempo una
buona ontologia (bibliotecario);
– Ontologie molto grandi richiedono spesso un
lavoro comunitario.
– Devono poter essere condivise e riutilizzate.

Evoluzione dei Motori di Ricerca

Recomendados

Recomendados

Más contenido relacionado

Similar a Evoluzione dei Motori di Ricerca

Similar a Evoluzione dei Motori di Ricerca (20)

Evoluzione dei Motori di Ricerca

Notas del editor