SlideShare a Scribd company logo
1 of 29
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
9. Ricercare nel Web (Parte I)
Roberto Polillo
Edizione 2014-15
2
Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Il
sito del corso, con il materiale completo, si trova in
www.corsow.wordpress.com . Data la rapida evoluzione della rete, il corso
viene aggiornato ogni anno.
Il presente materiale è pubblicato con licenza Creative Commons
“Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0”
(http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e
alle screen shots, i cui diritti restano in capo ai rispettivi proprietari,
che, ove possibile, sono stati indicati. L'autore si scusa per eventuali
omissioni, e resta a disposizione per correggerle.
R.Polillo - Marzo 2015
Queste slides
Una visualizzazione [di una parte] del web
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
R.Polillo - Marzo 2015
3
4
R.Polillo - Marzo 2015
Una visualizzazione [di una parte] del web
R.Polillo - Marzo 2015
5
Una visualizzazione [di una parte] del web
Come trovare l'informazione in rete
 Directories
Indici strutturati di argomenti (gestiti da una redazione)
 Wikipedia
Enciclopedia collaborativa
 Motori di ricerca
Query  Risultati
 Motori semantici
www.wolframalpha.com, …
 Sistemi di Q&A sociale
Yahoo! Answer, …
 Esplorazione
Browsing, serendipity
R.Polillo - Marzo 2015
6
Web directories
7
 Storicamente, il primo strumento di ausilio alle ricerche
nel Web
 Classificazione gerarchica dei siti (e non delle pagine) in
categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
 Directories “generaliste” e directories verticali o di nicchia,
anche prodotte in modo collaborativo
 http://en.wikipedia.org/wiki/Web_directory
R.Polillo - Marzo 2015
Tassonomia
8
Emporio celeste dei riconoscimenti benevoli
(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g) Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k) Disegnati con un pennello finissimo di peli di
cammello
l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
R.Polillo - Marzo 2015
 Raggruppamento di
oggetti in classi,
secondo qualche
criterio
 taxis=ordine
nomos=regola
 Ogni tassonomia è
arbitraria, e dipende
dagli obiettivi
Yahoo! (http://dir.yahoo.com)
9
R.Polillo - Marzo 2015
- Nasce come “La guida al
WWW di Jerry e David”, nel
1994
- Qui la home del 1996, da
www.archive.org
http://en.wikipedia.org/wiki/Int
ernet_Archive
The Open Directory Project (ODP)
10
 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/
 Directory gratuita, aperta e multilingua
 Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e
manutenuta da una comunità di editor volontari
 http://en.wikipedia.org/wiki/Open_Directory_Project
R.Polillo - Marzo 2015
Domoz vs Yahoo!
R.Polillo - Marzo 2015
11
Dmoz Yahoo!
NB La directory di Yahoo non viene più aggiornata
http://en.wikipedia.org/wiki/Yahoo!_Directory
Wikipedia come strumento di ricerca
12
 Wikipedia è un formidabile strumento di ricerca e accesso
al web
 Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di raggiungere i
siti più significativi correlati all’argomento esaminato
 Inoltre Wikipedia contiene numerosi indici e directories,
fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:Contents/Portals)
R.Polillo - Marzo 2015
Serendipità
13
 Cerco una cosa e ne trovo un'altra
 Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di
Serendip” (Serendip è l'antico nome di Sri Lanka)
 Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere
l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e
riconoscere il valore di esperienze che non corrispondono alle
originarie aspettative
 http://en.wikipedia.org/wiki/Serendipity
 http://serendip.brynmawr.edu/serendip/about.html
R.Polillo - Marzo 2015
14 R.Polillo - Marzo 2015
www.stumbleupon.com
16
 to stumble: inciampare, scoprire per caso
 È una discovery engine di pagine web, fondato in Canada nel 2001
 Premendo il bottone STUMBLE! installato sul browser, viene
proposto un sito, un’immagine o un video scelti sulla base delle
preferenze dell’utente, o delle raccomandazioni dei suoi amici o da
altri utenti che hanno interessi simili
 Il processo di selezione si affina sulla base del gradimento espresso
(opzionalmente) dall’utente:
R.Polillo - Marzo 2015
Motori di ricerca per il Web
 Componente software (utilizzabile come servizio
online) progettato per ricercare informazioni sul
World Wide Web
 Le informazioni (di solito nella forma di link) sono
presentate in una serie di Search Engine Results
Page (SERP)
 La qualità di un motore si valuta sulla base della
pertinenza e rilevanza dei risultati
R.Polillo - Marzo 2015
17
Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i
primi:
Google
- Dal 1998
Baidu
- dal 2000, cinese
Yahoo!
- Con motori esterni (dal 2009 "Powered by Bing")
Bing
- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)
R.Polillo - Marzo 2015
18
Search engine market share
R.Polillo - Marzo 2015
19
Fonte: http://www.netmarketshare.com
Feb 2015, desktop
Search engine market share
R.Polillo - Marzo 2015
20
Fonte: http://www.netmarketshare.com
Feb 2015, mobile + tablet
Motori di ricerca: struttura
R.Polillo - Marzo 2015
21
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici +
cached pages
Crawler
Crawler
IndicizzatoreCrawler
Richieste
Pagine
web
Pagine
web
WWW
Back-end process
Motori di ricerca: struttura
22
Ogni motore di ricerca è composto da cinque componenti fondamentali:
crawler, indice, interfaccia, query processor e il sistema di ranking
 Il crawler è un software specializzato che naviga la rete e porta le
pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa
per raggiungere via via nuove pagine con nuovi link ...
 L'indice è un enorme database dove le pagine vengono memorizzate
con tutti i metadati e dove tutte le parole vengono “invertite” creando
indici/chiavi per ognuna di esse
 L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e
passa la richiesta al query processor che agisce sull'indice
 Il sistema di ranking ordina i risultati della query in funzione della loro
"rilevanza" (eventualmente filtrando risultati non pertinenti)
R.Polillo - Marzo 2015
Web crawling
 I crawler (robot, spider, bot) sono programmi che
navigano il Web, esaminando le diverse pagine e
seguendo i link in esse presenti
 Seguono opportune politiche di navigazione (per
es. per decidere quando riesaminare una pagina già
vista)
 L'interazione con i Web server segue specifici
protocolli (per es. robot exclusion protocol, o
robot.txt)
 Non tutto il Web è accessibile ai crawler
R.Polillo - Marzo 2015
23
robots.txt: esempio
www.domain.com
R.Polillo - Marzo 2015
24
/
robots.txt
utenti
foto
about
User-agent: Google
Disallow /utenti/foto
Allow: *
Crawl-delay: 20 sec
Deep vs surface Web
 Non tutto il Web è accessibile ai motori di ricerca
 Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface
Web")
 Deep Web, esempi:
 Pagine "vietate" dai Web server (robots.txt)
 Pagine generate dinamicamente a fronte di query o di input
forniti attraverso form
 Pagine senza link entranti
 Pagine accessibili tramite registrazione e login
 Ecc.
R.Polillo - Marzo 2015
25
Struttura del web: uno studio
(vecchio ma interessante)
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,
WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
26
R.Polillo - Marzo 2015
Strongly Connected
Component: per
ogni coppia di nodi
c’è un cammino da
uno all’altro
One can pass from any node
of IN through SCC to any node of OUT.
Hanging off IN and OUT are TENDRILS
containing nodes that are reachable
from portions of IN, or that can reach
portions of OUT, without passage
through SCC. It is possible for a
TENDRIL hanging off from IN to
be hooked into a TENDRIL leading
into OUT, forming a TUBE -- a
passage from a portion of IN to
a portion of OUT without touching SCC.
Tipi di query
 Informativa
Obiettivo: trovare un'informazione
 Navigazionale
Obiettivo: trovare una pagina web, che conosco già
 Risorsa
Obiettivo: trovare una risorsa (non informativa)
disponibile sul web
 Il risultato è di solito (ma non sempre!) una lista di link a
pagine web
 Evoluzione: dal contenitore (anche) al contenuto
R.Polillo - Marzo 2015
27
Search forms (Google)
R.Polillo - Marzo 2015
28
Semplice: Avanzata:
Posso usare una sintassi
complessa
Esempi:
query AND query
query OR query
-query
term site:url
link: x
…. Cfr. http://www.google.com/insidesearch/
http://bit.ly/13dakJx
Google: evoluzione della home page
Video sulla evoluzione di www.google.com dal 1998 al 2007
http://www.youtube.com/watch?v=1vgprty39og
R.Polillo - Marzo 2015
29
SERP: struttura tipica
R.Polillo - Marzo 2015
30
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati
"organici"
(non influenzati
dalle
sponsorizzazioni)
Google:
AdWords

More Related Content

What's hot

What's hot (20)

9. Ricercare nel web (Parte I)
9. Ricercare nel web (Parte I)9. Ricercare nel web (Parte I)
9. Ricercare nel web (Parte I)
 
Editoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitaleEditoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitale
 
17. Web feed e aggregatori
17. Web feed e aggregatori17. Web feed e aggregatori
17. Web feed e aggregatori
 
14. I blog
14. I blog14. I blog
14. I blog
 
6. Il browser
6. Il browser6. Il browser
6. Il browser
 
Conclusioni del corso
Conclusioni del corsoConclusioni del corso
Conclusioni del corso
 
Wikipedia
WikipediaWikipedia
Wikipedia
 
7. Applicazioni Web e CMS
7. Applicazioni Web e CMS7. Applicazioni Web e CMS
7. Applicazioni Web e CMS
 
1. Introduzione al corso
1. Introduzione al corso1. Introduzione al corso
1. Introduzione al corso
 
3. Introduzione a internet (ii)
3. Introduzione a internet (ii)3. Introduzione a internet (ii)
3. Introduzione a internet (ii)
 
8. Il vostro blog
8. Il vostro blog8. Il vostro blog
8. Il vostro blog
 
12. Mobile web
12. Mobile web12. Mobile web
12. Mobile web
 
11. Evoluzione del Web (I)
11. Evoluzione del Web (I)11. Evoluzione del Web (I)
11. Evoluzione del Web (I)
 
17. Web feed e aggregatori
17. Web feed e aggregatori17. Web feed e aggregatori
17. Web feed e aggregatori
 
Open internet
Open internetOpen internet
Open internet
 
Collaborative Editing
Collaborative EditingCollaborative Editing
Collaborative Editing
 
20. Le organizzazioni sul web
20. Le organizzazioni sul web20. Le organizzazioni sul web
20. Le organizzazioni sul web
 
13. Content sharing sites (i)
13. Content sharing sites (i)13. Content sharing sites (i)
13. Content sharing sites (i)
 
13. I blog
13. I blog13. I blog
13. I blog
 
7. Applicazioni web e CMS
7. Applicazioni web e CMS7. Applicazioni web e CMS
7. Applicazioni web e CMS
 

Viewers also liked

2. Introduzione a internet (I)
2. Introduzione a internet (I)2. Introduzione a internet (I)
2. Introduzione a internet (I)Roberto Polillo
 
Politiche di moderazione nei social network
Politiche di moderazione nei social networkPolitiche di moderazione nei social network
Politiche di moderazione nei social networkSimone Carnevali
 
18. Content sharing sites
18. Content sharing sites18. Content sharing sites
18. Content sharing sitesRoberto Polillo
 
TV over the Internet: il video on-demand, Netflix e la concorrenza in Italia
TV over the Internet: il video on-demand, Netflix e la concorrenza in ItaliaTV over the Internet: il video on-demand, Netflix e la concorrenza in Italia
TV over the Internet: il video on-demand, Netflix e la concorrenza in ItaliaOscar Domenico Parisi
 
Storytelling 2.0: definizione, tools, casi studio
Storytelling 2.0: definizione, tools, casi studioStorytelling 2.0: definizione, tools, casi studio
Storytelling 2.0: definizione, tools, casi studioLaura Trapani
 
13. Internet business models
13. Internet business models13. Internet business models
13. Internet business modelsRoberto Polillo
 
4. Introduzione al web (I)
4. Introduzione al web (I)4. Introduzione al web (I)
4. Introduzione al web (I)Roberto Polillo
 

Viewers also liked (11)

Realtà Aumentata
Realtà AumentataRealtà Aumentata
Realtà Aumentata
 
2. Introduzione a internet (I)
2. Introduzione a internet (I)2. Introduzione a internet (I)
2. Introduzione a internet (I)
 
Politiche di moderazione nei social network
Politiche di moderazione nei social networkPolitiche di moderazione nei social network
Politiche di moderazione nei social network
 
Web fakes
Web fakesWeb fakes
Web fakes
 
Crowdfunding
CrowdfundingCrowdfunding
Crowdfunding
 
18. Content sharing sites
18. Content sharing sites18. Content sharing sites
18. Content sharing sites
 
Web reputation
Web reputation Web reputation
Web reputation
 
TV over the Internet: il video on-demand, Netflix e la concorrenza in Italia
TV over the Internet: il video on-demand, Netflix e la concorrenza in ItaliaTV over the Internet: il video on-demand, Netflix e la concorrenza in Italia
TV over the Internet: il video on-demand, Netflix e la concorrenza in Italia
 
Storytelling 2.0: definizione, tools, casi studio
Storytelling 2.0: definizione, tools, casi studioStorytelling 2.0: definizione, tools, casi studio
Storytelling 2.0: definizione, tools, casi studio
 
13. Internet business models
13. Internet business models13. Internet business models
13. Internet business models
 
4. Introduzione al web (I)
4. Introduzione al web (I)4. Introduzione al web (I)
4. Introduzione al web (I)
 

Similar to 9. Come trovare l'informazione (I)

7 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/177 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/17Giuseppe Vizzari
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18Giuseppe Vizzari
 
16. Creazione collettiva
16. Creazione collettiva16. Creazione collettiva
16. Creazione collettivaRoberto Polillo
 
Il web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionaleIl web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionaleAldo Torrebruno
 
Usare il web in modo consapevole
Usare il web in modo consapevoleUsare il web in modo consapevole
Usare il web in modo consapevolebanlu
 
17.Web feed e aggregatori
17.Web feed e aggregatori17.Web feed e aggregatori
17.Web feed e aggregatoriRoberto Polillo
 
Corso Web 2.0: Evoluzione del web
Corso Web 2.0: Evoluzione del webCorso Web 2.0: Evoluzione del web
Corso Web 2.0: Evoluzione del webRoberto Polillo
 
Motori di ricerca - non c'è solo Google
Motori di ricerca - non c'è solo GoogleMotori di ricerca - non c'è solo Google
Motori di ricerca - non c'è solo GoogleMediaCLA
 
13 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/17
13 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/1713 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/17
13 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/17Giuseppe Vizzari
 
La navigazione di profondità - V2
La navigazione di profondità - V2La navigazione di profondità - V2
La navigazione di profondità - V2guam7
 

Similar to 9. Come trovare l'informazione (I) (20)

09 - Ricercare nel Web I
09 - Ricercare nel Web I09 - Ricercare nel Web I
09 - Ricercare nel Web I
 
6. Ricercare nel Web
6. Ricercare nel Web6. Ricercare nel Web
6. Ricercare nel Web
 
7 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/177 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/17
 
9 - Ricercare nel Web
9 - Ricercare nel Web9 - Ricercare nel Web
9 - Ricercare nel Web
 
Ricercare nel web
Ricercare nel webRicercare nel web
Ricercare nel web
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 
16. Creazione collettiva
16. Creazione collettiva16. Creazione collettiva
16. Creazione collettiva
 
Il web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionaleIl web 2.0: dal web informativo al web emozionale
Il web 2.0: dal web informativo al web emozionale
 
R&D retis
R&D retisR&D retis
R&D retis
 
Web 2.0 2009 Istat
Web 2.0 2009 IstatWeb 2.0 2009 Istat
Web 2.0 2009 Istat
 
Usare il web in modo consapevole
Usare il web in modo consapevoleUsare il web in modo consapevole
Usare il web in modo consapevole
 
Unique file 2
Unique file 2Unique file 2
Unique file 2
 
17.Web feed e aggregatori
17.Web feed e aggregatori17.Web feed e aggregatori
17.Web feed e aggregatori
 
Corso Web 2.0: Mashup
Corso Web 2.0: MashupCorso Web 2.0: Mashup
Corso Web 2.0: Mashup
 
Corso Web 2.0: Evoluzione del web
Corso Web 2.0: Evoluzione del webCorso Web 2.0: Evoluzione del web
Corso Web 2.0: Evoluzione del web
 
Motori di ricerca - non c'è solo Google
Motori di ricerca - non c'è solo GoogleMotori di ricerca - non c'è solo Google
Motori di ricerca - non c'è solo Google
 
5.1 web 2.0, blog
5.1 web 2.0, blog5.1 web 2.0, blog
5.1 web 2.0, blog
 
13 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/17
13 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/1713 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/17
13 - Web feed, aggregatori, e altri modi di diffondere informazioni - 16/17
 
Il browser
Il browserIl browser
Il browser
 
La navigazione di profondità - V2
La navigazione di profondità - V2La navigazione di profondità - V2
La navigazione di profondità - V2
 

More from Roberto Polillo

Future City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroFuture City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroRoberto Polillo
 
Teaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsTeaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsRoberto Polillo
 
22. Conclusioni del corso
22. Conclusioni del corso22. Conclusioni del corso
22. Conclusioni del corsoRoberto Polillo
 
ICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniRoberto Polillo
 
21. Progettare per l'errore
21. Progettare per l'errore21. Progettare per l'errore
21. Progettare per l'erroreRoberto Polillo
 
20. Principi e linee guida (II)
20. Principi e linee guida (II)20. Principi e linee guida (II)
20. Principi e linee guida (II)Roberto Polillo
 
20. Principi e linee guida (I)
20. Principi e linee guida (I)20. Principi e linee guida (I)
20. Principi e linee guida (I)Roberto Polillo
 
18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)Roberto Polillo
 
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)Roberto Polillo
 
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)Roberto Polillo
 
15. Ancora sulla grafica
15. Ancora sulla grafica15. Ancora sulla grafica
15. Ancora sulla graficaRoberto Polillo
 
13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorioRoberto Polillo
 
Internet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionInternet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionRoberto Polillo
 
12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)Roberto Polillo
 
11. Conoscere l'utente (II)
11. Conoscere l'utente (II)11. Conoscere l'utente (II)
11. Conoscere l'utente (II)Roberto Polillo
 

More from Roberto Polillo (16)

Future City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroFuture City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuro
 
Teaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsTeaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerations
 
22. Conclusioni del corso
22. Conclusioni del corso22. Conclusioni del corso
22. Conclusioni del corso
 
ICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioni
 
21. Progettare per l'errore
21. Progettare per l'errore21. Progettare per l'errore
21. Progettare per l'errore
 
20. Principi e linee guida (II)
20. Principi e linee guida (II)20. Principi e linee guida (II)
20. Principi e linee guida (II)
 
20. Principi e linee guida (I)
20. Principi e linee guida (I)20. Principi e linee guida (I)
20. Principi e linee guida (I)
 
18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)
 
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
 
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
 
15. Ancora sulla grafica
15. Ancora sulla grafica15. Ancora sulla grafica
15. Ancora sulla grafica
 
14. Progettare il testo
14. Progettare il testo14. Progettare il testo
14. Progettare il testo
 
13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio
 
Internet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionInternet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introduction
 
12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)
 
11. Conoscere l'utente (II)
11. Conoscere l'utente (II)11. Conoscere l'utente (II)
11. Conoscere l'utente (II)
 

Recently uploaded

Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024biblioverifica ijf24 Festival Internazionale del Giornalismo 2024
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024Damiano Orru
 
La produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataLa produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataGianluigi Cogo
 
Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?
Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?
Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?Nicola Rabbi
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 
Terza cultura w la scienza Italo Calvino.pdf
Terza cultura w la scienza Italo Calvino.pdfTerza cultura w la scienza Italo Calvino.pdf
Terza cultura w la scienza Italo Calvino.pdfPierLuigi Albini
 
Esame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptxEsame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptxfedericodellacosta2
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxOrianaOcchino
 

Recently uploaded (8)

Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024biblioverifica ijf24 Festival Internazionale del Giornalismo 2024
biblioverifica ijf24 Festival Internazionale del Giornalismo 2024
 
La produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataLa produzione e la gestione degli Open Data
La produzione e la gestione degli Open Data
 
Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?
Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?
Parole inclusive: le parole cambiano il mondo o il mondo cambia le parole?
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 
Terza cultura w la scienza Italo Calvino.pdf
Terza cultura w la scienza Italo Calvino.pdfTerza cultura w la scienza Italo Calvino.pdf
Terza cultura w la scienza Italo Calvino.pdf
 
Esame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptxEsame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptx
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptx
 

9. Come trovare l'informazione (I)

  • 1. Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Roberto Polillo Edizione 2014-15
  • 2. 2 Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in www.corsow.wordpress.com . Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ): La licenza non si estende alle immagini provenienti da altre fonti e alle screen shots, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle. R.Polillo - Marzo 2015 Queste slides
  • 3. Una visualizzazione [di una parte] del web La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/ R.Polillo - Marzo 2015 3
  • 4. 4 R.Polillo - Marzo 2015 Una visualizzazione [di una parte] del web
  • 5. R.Polillo - Marzo 2015 5 Una visualizzazione [di una parte] del web
  • 6. Come trovare l'informazione in rete  Directories Indici strutturati di argomenti (gestiti da una redazione)  Wikipedia Enciclopedia collaborativa  Motori di ricerca Query  Risultati  Motori semantici www.wolframalpha.com, …  Sistemi di Q&A sociale Yahoo! Answer, …  Esplorazione Browsing, serendipity R.Polillo - Marzo 2015 6
  • 7. Web directories 7  Storicamente, il primo strumento di ausilio alle ricerche nel Web  Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"  Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo  http://en.wikipedia.org/wiki/Web_directory R.Polillo - Marzo 2015
  • 8. Tassonomia 8 Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a) Appartenenti all’imperatore b) Imbalsamati c) Ammaestrati d) Lattonzoli e) Sirene f) Favolosi g) Cani randagi h) Inclusi in questa classificazione i) Che si agitano come pazzi j) Innumerevoli k) Disegnati con un pennello finissimo di peli di cammello l) Eccetera m) Che hanno ritto il vaso n) Che da lontano sembrano mosche. R.Polillo - Marzo 2015  Raggruppamento di oggetti in classi, secondo qualche criterio  taxis=ordine nomos=regola  Ogni tassonomia è arbitraria, e dipende dagli obiettivi
  • 9. Yahoo! (http://dir.yahoo.com) 9 R.Polillo - Marzo 2015 - Nasce come “La guida al WWW di Jerry e David”, nel 1994 - Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive
  • 10. The Open Directory Project (ODP) 10  Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/  Directory gratuita, aperta e multilingua  Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari  http://en.wikipedia.org/wiki/Open_Directory_Project R.Polillo - Marzo 2015
  • 11. Domoz vs Yahoo! R.Polillo - Marzo 2015 11 Dmoz Yahoo! NB La directory di Yahoo non viene più aggiornata http://en.wikipedia.org/wiki/Yahoo!_Directory
  • 12. Wikipedia come strumento di ricerca 12  Wikipedia è un formidabile strumento di ricerca e accesso al web  Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato  Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals) R.Polillo - Marzo 2015
  • 13. Serendipità 13  Cerco una cosa e ne trovo un'altra  Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)  Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative  http://en.wikipedia.org/wiki/Serendipity  http://serendip.brynmawr.edu/serendip/about.html R.Polillo - Marzo 2015
  • 14. 14 R.Polillo - Marzo 2015
  • 15. www.stumbleupon.com 16  to stumble: inciampare, scoprire per caso  È una discovery engine di pagine web, fondato in Canada nel 2001  Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili  Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente: R.Polillo - Marzo 2015
  • 16. Motori di ricerca per il Web  Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web  Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)  La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati R.Polillo - Marzo 2015 17
  • 17. Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo! - Con motori esterni (dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) R.Polillo - Marzo 2015 18
  • 18. Search engine market share R.Polillo - Marzo 2015 19 Fonte: http://www.netmarketshare.com Feb 2015, desktop
  • 19. Search engine market share R.Polillo - Marzo 2015 20 Fonte: http://www.netmarketshare.com Feb 2015, mobile + tablet
  • 20. Motori di ricerca: struttura R.Polillo - Marzo 2015 21 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler Crawler IndicizzatoreCrawler Richieste Pagine web Pagine web WWW Back-end process
  • 21. Motori di ricerca: struttura 22 Ogni motore di ricerca è composto da cinque componenti fondamentali: crawler, indice, interfaccia, query processor e il sistema di ranking  Il crawler è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link ...  L'indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse  L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice  Il sistema di ranking ordina i risultati della query in funzione della loro "rilevanza" (eventualmente filtrando risultati non pertinenti) R.Polillo - Marzo 2015
  • 22. Web crawling  I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti  Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)  L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)  Non tutto il Web è accessibile ai crawler R.Polillo - Marzo 2015 23
  • 23. robots.txt: esempio www.domain.com R.Polillo - Marzo 2015 24 / robots.txt utenti foto about User-agent: Google Disallow /utenti/foto Allow: * Crawl-delay: 20 sec
  • 24. Deep vs surface Web  Non tutto il Web è accessibile ai motori di ricerca  Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web")  Deep Web, esempi:  Pagine "vietate" dai Web server (robots.txt)  Pagine generate dinamicamente a fronte di query o di input forniti attraverso form  Pagine senza link entranti  Pagine accessibili tramite registrazione e login  Ecc. R.Polillo - Marzo 2015 25
  • 25. Struttura del web: uno studio (vecchio ma interessante) Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html 17 million nodes 26 R.Polillo - Marzo 2015 Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC.
  • 26. Tipi di query  Informativa Obiettivo: trovare un'informazione  Navigazionale Obiettivo: trovare una pagina web, che conosco già  Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web  Il risultato è di solito (ma non sempre!) una lista di link a pagine web  Evoluzione: dal contenitore (anche) al contenuto R.Polillo - Marzo 2015 27
  • 27. Search forms (Google) R.Polillo - Marzo 2015 28 Semplice: Avanzata: Posso usare una sintassi complessa Esempi: query AND query query OR query -query term site:url link: x …. Cfr. http://www.google.com/insidesearch/ http://bit.ly/13dakJx
  • 28. Google: evoluzione della home page Video sulla evoluzione di www.google.com dal 1998 al 2007 http://www.youtube.com/watch?v=1vgprty39og R.Polillo - Marzo 2015 29
  • 29. SERP: struttura tipica R.Polillo - Marzo 2015 30 Search box Risultati sponsorizzati Opzioni per la ricerca Risultati "organici" (non influenzati dalle sponsorizzazioni) Google: AdWords