SlideShare una empresa de Scribd logo
1 de 23
Edizione 2013-14
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
9. Ricercare nel Web (Parte I)
Roberto Polillo
Una visualizzazione [di una parte] del web
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
R.Polillo - Marzo 2014
3
4
R.Polillo - Marzo 2014
Una visualizzazione [di una parte] del web
R.Polillo - Marzo 2014
5
Una visualizzazione [di una parte] del web
Come trovare l'informazione in rete
 Directories
Indici strutturati di argomenti (gestiti da una redazione)
 Wikipedia
Enciclopedia collaborativa
 Motori di ricerca
Query Risultati
 Motori semantici
www.wolframalpha.com, …
 Sistemi di Q&A sociale
Yahoo! Answer, …
 Esplorazione
Browsing, serendipity
R.Polillo - Marzo 2014
6
Web directories
7
 Storicamente, il primo strumento di ausilio alle ricerche
nel Web
 Classificazione gerarchica dei siti (e non delle pagine) in
categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
 Directories “generaliste” e directories verticali o di nicchia,
anche prodotte in modo collaborativo
 http://en.wikipedia.org/wiki/Web_directory
R.Polillo - Marzo 2014
Tassonomia
8
Emporio celeste dei riconoscimenti benevoli
(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g) Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k) Disegnati con un pennello finissimo di peli di
cammello
l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
R.Polillo - Marzo 2014
 Raggruppamento di
oggetti in classi,
secondo qualche
criterio
 taxis=ordine
nomos=regola
 Ogni tassonomia è
arbitraria, e dipende
dagli obiettivi
Yahoo! (http://dir.yahoo.com)
9
R.Polillo - Marzo 2014
- Nasce come “La guida al
WWW di Jerry e David”, nel
1994
- Qui la home del 1996, da
www.archive.org
http://en.wikipedia.org/wiki/Int
ernet_Archive
The Open Directory Project (ODP)
10
 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/
 Directory gratuita, aperta e multilingua
 Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e
manutenuta da una comunità di editor volontari
 http://en.wikipedia.org/wiki/Open_Directory_Project
R.Polillo - Marzo 2014
Domoz vs Yahoo!
R.Polillo - Marzo 2014
11
Dmoz Yahoo!
Wikipedia come strumento di ricerca
12
 Wikipedia è un formidabile strumento di ricerca e accesso
al web
 Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di raggiungere i
siti più significativi correlati all’argomento esaminato
 Inoltre Wikipedia contiene numerosi indici e directories,
fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:Contents/Portals)
R.Polillo - Marzo 2014
Serendipità
13
 Cerco una cosa e ne trovo un'altra
 Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di
Serendip” (Serendip è l'antico nome di Sri Lanka)
 Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere
l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e
riconoscere il valore di esperienze che non corrispondono alle
originarie aspettative
 http://en.wikipedia.org/wiki/Serendipity
 http://serendip.brynmawr.edu/serendip/about.html
R.Polillo - Marzo 2014
14 R.Polillo - Marzo 2014
www.stumbleupon.com
16
 to stumble: inciampare, scoprire per caso
 È una discovery engine di pagine web, fondato in Canada nel 2001
 Premendo il bottone STUMBLE! installato sul browser, viene
proposto un sito, un’immagine o un video scelti sulla base delle
preferenze dell’utente, o delle raccomandazioni dei suoi amici o da
altri utenti che hanno interessi simili
 Il processo di selezione si affina sulla base del gradimento espresso
(opzionalmente) dall’utente:
R.Polillo - Marzo 2014
Motori di ricerca per il Web
 Componente software (utilizzabile come servizio
online) progettato per ricercare informazioni sul
World Wide Web
 Le informazioni (di solito nella forma di link) sono
presentate in una serie di Search Engine Results
Page (SERP)
 La qualità di un motore si valuta sulla base della
pertinenza e rilevanza dei risultati
R.Polillo - Marzo 2014
17
Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i
primi:
Google
- Dal 1998
Baidu
- dal 2000, cinese
Yahoo!
- Con motori esterni (dal 2009 "Powered by Bing")
Bing
- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)
R.Polillo - Marzo 2014
18
Search engine market share
R.Polillo - Marzo 2014
19
Fonte: http://www.netmarketshare.com
Dic 2013, solo desktop
Motori di ricerca: struttura
R.Polillo - Marzo 2014
20
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici +
cached pages
Crawler
Crawler
IndicizzatoreCrawler
Richieste
Pagine
web
Pagine
web
WWW
Back-end process
Web crawling
 I crawler (robot, spider, bot) sono programmi che
navigano il Web, esaminando le diverse pagine e
seguendo i link in esse presenti
 Seguono opportune politiche di navigazione (per
es. per decidere quando riesaminare una pagina già
vista)
 L'interazione con i Web server segue specifici
protocolli (per es. robot exclusion protocol, o
robot.txt)
 Non tutto il Web è accessibile ai crawler
R.Polillo - Marzo 2014
22
robots.txt: esempio
www.domain.com
R.Polillo - Marzo 2014
23
/
robots.txt
utenti
foto
about
User-agent: Google
Disallow /utenti/foto
Allow: *
Crawl-delay: 20 sec
Deep vs surface Web
 Non tutto il Web è accessibile ai motori di ricerca
 Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface
Web")
 Deep Web, esempi:
 Pagine "vietate" dai Web server (robots.txt)
 Pagine generate dinamicamente a fronte di query o di input
forniti attraverso form
 Pagine senza link entranti
 Pagine accessibili tramite registrazione e login
 Ecc.
R.Polillo - Marzo 2014
24
Struttura del web: uno studio
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,
WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
25
R.Polillo - Marzo 2014
Strongly Connected
Component: per
ogni coppia di nodi
c’è un cammino da
uno all’altro
One can pass from any node
of IN through SCC to any node of OUT.
Hanging off IN and OUT are TENDRILS
containing nodes that are reachable
from portions of IN, or that can reach
portions of OUT, without passage
through SCC. It is possible for a
TENDRIL hanging off from IN to
be hooked into a TENDRIL leading
into OUT, forming a TUBE -- a
passage from a portion of IN to
a portion of OUT without touching SCC.
Tipi di query
 Informativa
Obiettivo: trovare un'informazione
 Navigazionale
Obiettivo: trovare una pagina web, che conosco già
 Risorsa
Obiettivo: trovare una risorsa (non informativa)
disponibile sul web
 Il risultato è di solito (ma non sempre!) una lista di link a
pagine web
 Evoluzione: dal contenitore (anche) al contenuto
R.Polillo - Marzo 2014
26

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

24. Conclusioni del corso (e alcune osservazioni globali)
24. Conclusioni del corso (e alcune osservazioni globali)24. Conclusioni del corso (e alcune osservazioni globali)
24. Conclusioni del corso (e alcune osservazioni globali)
 
18. Siti di condivisione dei contenuti
18. Siti di condivisione dei contenuti18. Siti di condivisione dei contenuti
18. Siti di condivisione dei contenuti
 
17. Web feed e aggregatori
17. Web feed e aggregatori17. Web feed e aggregatori
17. Web feed e aggregatori
 
15. La forma breve e il microblogging
15. La forma  breve e il microblogging15. La forma  breve e il microblogging
15. La forma breve e il microblogging
 
7. Applicazioni web e CMS
7. Applicazioni web e CMS7. Applicazioni web e CMS
7. Applicazioni web e CMS
 
Collaborative Editing
Collaborative EditingCollaborative Editing
Collaborative Editing
 
5. Introduzione al web (ii)
5. Introduzione al web (ii)5. Introduzione al web (ii)
5. Introduzione al web (ii)
 
Wikipedia
WikipediaWikipedia
Wikipedia
 
16. Social media
16. Social media16. Social media
16. Social media
 
14. I blog
14. I blog14. I blog
14. I blog
 
12. Mobile web
12. Mobile web12. Mobile web
12. Mobile web
 
17.Web feed e aggregatori
17.Web feed e aggregatori17.Web feed e aggregatori
17.Web feed e aggregatori
 
19. La presenza delle organizzazioni sul Web delle aziende (II)
19. La presenza delle organizzazioni sul Web delle aziende (II)19. La presenza delle organizzazioni sul Web delle aziende (II)
19. La presenza delle organizzazioni sul Web delle aziende (II)
 
Editoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitaleEditoria e industria dei media di fronte alla rivoluzione digitale
Editoria e industria dei media di fronte alla rivoluzione digitale
 
8. Il vostro blog
8. Il vostro blog8. Il vostro blog
8. Il vostro blog
 
6. Ricercare nel Web
6. Ricercare nel Web6. Ricercare nel Web
6. Ricercare nel Web
 
7. Applicazioni Web e CMS
7. Applicazioni Web e CMS7. Applicazioni Web e CMS
7. Applicazioni Web e CMS
 
3. Introduzione a internet (ii)
3. Introduzione a internet (ii)3. Introduzione a internet (ii)
3. Introduzione a internet (ii)
 
18. Content sharing sites
18. Content sharing sites18. Content sharing sites
18. Content sharing sites
 
19. Le organnizzazioni sul web e segg
19. Le organnizzazioni sul web e segg19. Le organnizzazioni sul web e segg
19. Le organnizzazioni sul web e segg
 

Destacado

Destacado (20)

5. Introduzione al web (Parte II)
5. Introduzione al web (Parte II)5. Introduzione al web (Parte II)
5. Introduzione al web (Parte II)
 
6. Il browser
6. Il browser6. Il browser
6. Il browser
 
4. Introduzione al web (Parte I)
4. Introduzione al web (Parte I)4. Introduzione al web (Parte I)
4. Introduzione al web (Parte I)
 
3. L' ecosistema di Internet e la neutralità della rete
3. L' ecosistema di Internet e la neutralità della rete3. L' ecosistema di Internet e la neutralità della rete
3. L' ecosistema di Internet e la neutralità della rete
 
8. Il vostro blog: come farlo e come farlo bene
8. Il vostro blog: come farlo e come farlo bene  8. Il vostro blog: come farlo e come farlo bene
8. Il vostro blog: come farlo e come farlo bene
 
12. Mobile internet
12. Mobile internet 12. Mobile internet
12. Mobile internet
 
1. Introduzione al corso
1. Introduzione al corso1. Introduzione al corso
1. Introduzione al corso
 
11. Evoluzione del web: dal Web 1.0 al Web 2.0
11. Evoluzione del web: dal Web 1.0 al Web 2.011. Evoluzione del web: dal Web 1.0 al Web 2.0
11. Evoluzione del web: dal Web 1.0 al Web 2.0
 
Crowdfunding
CrowdfundingCrowdfunding
Crowdfunding
 
14. La forma breve e il microblogging
14. La forma breve e il microblogging14. La forma breve e il microblogging
14. La forma breve e il microblogging
 
Il marketing virale
Il marketing virale Il marketing virale
Il marketing virale
 
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome..."Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
"Il potere delle immagini nei social media" di G. Barison, L. Luciani, S. Ome...
 
12. Introduzione ai social media
12. Introduzione ai social media12. Introduzione ai social media
12. Introduzione ai social media
 
21. Evoluzione dei paradigmi di interazione (III)
21. Evoluzione dei paradigmi di interazione (III) 21. Evoluzione dei paradigmi di interazione (III)
21. Evoluzione dei paradigmi di interazione (III)
 
iPhone Apps Marketing
iPhone Apps MarketingiPhone Apps Marketing
iPhone Apps Marketing
 
5. Pprogettare per l'utente (i)
5. Pprogettare per l'utente (i)5. Pprogettare per l'utente (i)
5. Pprogettare per l'utente (i)
 
16. Principi e linee guida (i)
16. Principi e linee guida (i)16. Principi e linee guida (i)
16. Principi e linee guida (i)
 
Article Marketig
Article MarketigArticle Marketig
Article Marketig
 
13. Conoscere l'utente (III): Il sistema motorio
13. Conoscere l'utente (III): Il sistema motorio13. Conoscere l'utente (III): Il sistema motorio
13. Conoscere l'utente (III): Il sistema motorio
 
3. Il progetto di esame
3. Il progetto di esame3. Il progetto di esame
3. Il progetto di esame
 

Similar a 9. Ricercare nel web (Parte I)

WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNETWEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
CommVill
 

Similar a 9. Ricercare nel web (Parte I) (20)

7 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/177 - Ricercare nel web - 16/17
7 - Ricercare nel web - 16/17
 
Ricercare nel web
Ricercare nel webRicercare nel web
Ricercare nel web
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 
9 - Ricercare nel Web
9 - Ricercare nel Web9 - Ricercare nel Web
9 - Ricercare nel Web
 
7. Il browser
7. Il browser7. Il browser
7. Il browser
 
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 MaggioWeb 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
Web 2.0 e condivisione del sapere: Marco Marcellini Milano 24 Maggio
 
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNETWEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
WEB 2.0, COMUNICAZIONE, MARKETING, ENTERPRISE 2.0 NEL NUOVO INTERNET
 
Cercare sul web
Cercare sul webCercare sul web
Cercare sul web
 
2. Evoluzione del Web: dal Web 1.0 al Web 2.0
2. Evoluzione del Web: dal Web 1.0 al Web 2.02. Evoluzione del Web: dal Web 1.0 al Web 2.0
2. Evoluzione del Web: dal Web 1.0 al Web 2.0
 
Web 2.0, comunicazione e marketing
Web 2.0, comunicazione e marketingWeb 2.0, comunicazione e marketing
Web 2.0, comunicazione e marketing
 
3. Site builders 2.0
3. Site builders 2.03. Site builders 2.0
3. Site builders 2.0
 
Web 2.0 e Library 2.0
Web 2.0 e Library 2.0Web 2.0 e Library 2.0
Web 2.0 e Library 2.0
 
6 - Il browser - 17/18
6 - Il browser - 17/186 - Il browser - 17/18
6 - Il browser - 17/18
 
Web2.0 e nuovi media
Web2.0 e nuovi mediaWeb2.0 e nuovi media
Web2.0 e nuovi media
 
10. Ricercare nel web (Parte II)
10. Ricercare nel web (Parte II)10. Ricercare nel web (Parte II)
10. Ricercare nel web (Parte II)
 
10. Evoluzione del web: dal Web 1.0 al Web 2.0
10. Evoluzione del web: dal Web 1.0 al Web 2.010. Evoluzione del web: dal Web 1.0 al Web 2.0
10. Evoluzione del web: dal Web 1.0 al Web 2.0
 
6 - Il browser - 16/17
6 - Il browser - 16/176 - Il browser - 16/17
6 - Il browser - 16/17
 
5.1 web 2.0, blog
5.1 web 2.0, blog5.1 web 2.0, blog
5.1 web 2.0, blog
 
Il browser
Il browserIl browser
Il browser
 
Aggregare Le Informazioni Sul Web
Aggregare Le Informazioni Sul WebAggregare Le Informazioni Sul Web
Aggregare Le Informazioni Sul Web
 

Más de Roberto Polillo

Más de Roberto Polillo (20)

Future City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuroFuture City, Ipotesi sulla città del futuro
Future City, Ipotesi sulla città del futuro
 
Teaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerationsTeaching HCI to computing students: some considerations
Teaching HCI to computing students: some considerations
 
Conclusioni del corso
Conclusioni del corsoConclusioni del corso
Conclusioni del corso
 
22. Conclusioni del corso
22. Conclusioni del corso22. Conclusioni del corso
22. Conclusioni del corso
 
ICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioniICT e sviluppo sociale: alcune riflessioni
ICT e sviluppo sociale: alcune riflessioni
 
21. Progettare per l'errore
21. Progettare per l'errore21. Progettare per l'errore
21. Progettare per l'errore
 
20. Principi e linee guida (II)
20. Principi e linee guida (II)20. Principi e linee guida (II)
20. Principi e linee guida (II)
 
20. Principi e linee guida (I)
20. Principi e linee guida (I)20. Principi e linee guida (I)
20. Principi e linee guida (I)
 
18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)18. Paradigmi di interazione uomo macchina (III)
18. Paradigmi di interazione uomo macchina (III)
 
Open internet
Open internetOpen internet
Open internet
 
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)17. Evoluzione dei paradigmi di interazione uomo macchina (I)
17. Evoluzione dei paradigmi di interazione uomo macchina (I)
 
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)16. Evoluzione dei paradigmi di interazione uomo macchina (I)
16. Evoluzione dei paradigmi di interazione uomo macchina (I)
 
15. Ancora sulla grafica
15. Ancora sulla grafica15. Ancora sulla grafica
15. Ancora sulla grafica
 
14. Progettare il testo
14. Progettare il testo14. Progettare il testo
14. Progettare il testo
 
13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio13. Conoscere l'utente: il sistema motorio
13. Conoscere l'utente: il sistema motorio
 
13. Internet business models
13. Internet business models13. Internet business models
13. Internet business models
 
Internet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introductionInternet and sustainable telemedicine: an introduction
Internet and sustainable telemedicine: an introduction
 
12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)12.Visione e progettazione grafica (I)
12.Visione e progettazione grafica (I)
 
11. Evoluzione del Web (I)
11. Evoluzione del Web (I)11. Evoluzione del Web (I)
11. Evoluzione del Web (I)
 
11. Conoscere l'utente (II)
11. Conoscere l'utente (II)11. Conoscere l'utente (II)
11. Conoscere l'utente (II)
 

Último

Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
nico07fusco
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 

Último (20)

CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Storia-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptxStoria-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptx
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 

9. Ricercare nel web (Parte I)

  • 1. Edizione 2013-14 Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Roberto Polillo
  • 2. Una visualizzazione [di una parte] del web La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/ R.Polillo - Marzo 2014 3
  • 3. 4 R.Polillo - Marzo 2014 Una visualizzazione [di una parte] del web
  • 4. R.Polillo - Marzo 2014 5 Una visualizzazione [di una parte] del web
  • 5. Come trovare l'informazione in rete  Directories Indici strutturati di argomenti (gestiti da una redazione)  Wikipedia Enciclopedia collaborativa  Motori di ricerca Query Risultati  Motori semantici www.wolframalpha.com, …  Sistemi di Q&A sociale Yahoo! Answer, …  Esplorazione Browsing, serendipity R.Polillo - Marzo 2014 6
  • 6. Web directories 7  Storicamente, il primo strumento di ausilio alle ricerche nel Web  Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"  Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo  http://en.wikipedia.org/wiki/Web_directory R.Polillo - Marzo 2014
  • 7. Tassonomia 8 Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a) Appartenenti all’imperatore b) Imbalsamati c) Ammaestrati d) Lattonzoli e) Sirene f) Favolosi g) Cani randagi h) Inclusi in questa classificazione i) Che si agitano come pazzi j) Innumerevoli k) Disegnati con un pennello finissimo di peli di cammello l) Eccetera m) Che hanno ritto il vaso n) Che da lontano sembrano mosche. R.Polillo - Marzo 2014  Raggruppamento di oggetti in classi, secondo qualche criterio  taxis=ordine nomos=regola  Ogni tassonomia è arbitraria, e dipende dagli obiettivi
  • 8. Yahoo! (http://dir.yahoo.com) 9 R.Polillo - Marzo 2014 - Nasce come “La guida al WWW di Jerry e David”, nel 1994 - Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive
  • 9. The Open Directory Project (ODP) 10  Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/  Directory gratuita, aperta e multilingua  Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari  http://en.wikipedia.org/wiki/Open_Directory_Project R.Polillo - Marzo 2014
  • 10. Domoz vs Yahoo! R.Polillo - Marzo 2014 11 Dmoz Yahoo!
  • 11. Wikipedia come strumento di ricerca 12  Wikipedia è un formidabile strumento di ricerca e accesso al web  Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato  Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals) R.Polillo - Marzo 2014
  • 12. Serendipità 13  Cerco una cosa e ne trovo un'altra  Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)  Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative  http://en.wikipedia.org/wiki/Serendipity  http://serendip.brynmawr.edu/serendip/about.html R.Polillo - Marzo 2014
  • 13. 14 R.Polillo - Marzo 2014
  • 14. www.stumbleupon.com 16  to stumble: inciampare, scoprire per caso  È una discovery engine di pagine web, fondato in Canada nel 2001  Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili  Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente: R.Polillo - Marzo 2014
  • 15. Motori di ricerca per il Web  Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web  Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)  La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati R.Polillo - Marzo 2014 17
  • 16. Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo! - Con motori esterni (dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) R.Polillo - Marzo 2014 18
  • 17. Search engine market share R.Polillo - Marzo 2014 19 Fonte: http://www.netmarketshare.com Dic 2013, solo desktop
  • 18. Motori di ricerca: struttura R.Polillo - Marzo 2014 20 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler Crawler IndicizzatoreCrawler Richieste Pagine web Pagine web WWW Back-end process
  • 19. Web crawling  I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti  Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)  L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)  Non tutto il Web è accessibile ai crawler R.Polillo - Marzo 2014 22
  • 20. robots.txt: esempio www.domain.com R.Polillo - Marzo 2014 23 / robots.txt utenti foto about User-agent: Google Disallow /utenti/foto Allow: * Crawl-delay: 20 sec
  • 21. Deep vs surface Web  Non tutto il Web è accessibile ai motori di ricerca  Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web")  Deep Web, esempi:  Pagine "vietate" dai Web server (robots.txt)  Pagine generate dinamicamente a fronte di query o di input forniti attraverso form  Pagine senza link entranti  Pagine accessibili tramite registrazione e login  Ecc. R.Polillo - Marzo 2014 24
  • 22. Struttura del web: uno studio Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html 17 million nodes 25 R.Polillo - Marzo 2014 Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC.
  • 23. Tipi di query  Informativa Obiettivo: trovare un'informazione  Navigazionale Obiettivo: trovare una pagina web, che conosco già  Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web  Il risultato è di solito (ma non sempre!) una lista di link a pagine web  Evoluzione: dal contenitore (anche) al contenuto R.Polillo - Marzo 2014 26