SlideShare una empresa de Scribd logo
1 de 28
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
9. Ricercare nel Web (Parte I)
Giuseppe Vizzari
Edizione 2015-16
Queste slide
Queste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del
corso, con il materiale completo, si trova in
strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il
corso viene aggiornato ogni anno.
Il presente materiale è pubblicato con licenza Creative Commons
“Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0”
(http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e alle
screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove
possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta
a disposizione per correggerle.
Una visualizzazione [di una parte] del web
R.Polillo - Marzo 2015 3
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
The Internet Map (http://internet-map.net/)
Come trovare l'informazione in
rete
• Sistemi di directory
Indici strutturati di argomenti (gestiti da una redazione)
• Wikipedia
Enciclopedia collaborativa
• Motori di ricerca
Query  Risultati
• Motori semantici
www.wolframalpha.com, …
• Sistemi di Q&A sociale
Yahoo! Answer, …
• Esplorazione
Browsing, serendipity
5
Web directory
• Storicamente, il primo strumento di ausilio alle
ricerche nel Web
• Una nota: nel 1995 molte persone avevano una sorta di
sistema di bookmark “server side” nella loro pagina
personale (pagina dei “link utili”)
• Classificazione gerarchica dei siti (e non delle pagine)
in categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
• Directories “generaliste” e directories verticali o di
nicchia, anche prodotte in modo collaborativo
• http://en.wikipedia.org/wiki/Web_directory
6
Tassonomia
Emporio celeste dei riconoscimenti benevoli
(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c)Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g)Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k)Disegnati con un pennello finissimo di peli di
cammello
l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
7
 Raggruppamento di
oggetti in classi,
secondo qualche
criterio
 taxis=ordine
nomos=regola
 Ogni tassonomia è
arbitraria, e dipende
dagli obiettivi
Yahoo! (http://dir.yahoo.com)
8
- Nasce come “La guida al
WWW di Jerry e David”, nel
1994
- Qui la home del 1996, da
www.archive.org
http://en.wikipedia.org/wiki/Int
ernet_Archive
The Open Directory Project (ODP)
• Nota anche come DMOZ (Directory Mozilla
http://www.dmoz.org/
• Directory gratuita, aperta e multilingua
• Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e
manutenuta da una comunità di editor volontari
• http://en.wikipedia.org/wiki/Open_Directory_Project
9
Domoz vs Yahoo!
10
Dmoz Yahoo!
NB La directory di Yahoo non viene più aggiornata
http://en.wikipedia.org/wiki/Yahoo!_Directory
Wikipedia come strumento di ricerca
• Wikipedia è un formidabile strumento di ricerca e
accesso al web
• Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di
raggiungere i siti più significativi correlati
all’argomento esaminato
• Inoltre Wikipedia contiene numerosi indici e
directory, fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:Contents/Portals)
11
Serendipità
• Cerco una cosa e ne trovo un'altra
• Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi
di Serendip” (Serendip è l'antico nome di Sri Lanka)
• Serve fortuna (“il caso”) e un atteggiamento di apertura: per
cogliere l'indizio che porterà alla scoperta occorre essere aperti
alla ricerca e riconoscere il valore di esperienze che non
corrispondono alle originarie aspettative
• http://en.wikipedia.org/wiki/Serendipity
• http://serendip.brynmawr.edu/serendip/about.html
12
13
www.stumbleupon.com
• to stumble: inciampare, scoprire per caso
• È una discovery engine di pagine web, fondato in Canada nel 2001
• Premendo il bottone STUMBLE! installato sul browser, viene proposto un
sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o
delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi
simili
• Il processo di selezione si affina sulla base del gradimento espresso
(opzionalmente) dall’utente:
14
Motori di ricerca per il Web
• Componente software (utilizzabile come servizio online)
progettato per ricercare informazioni sul World Wide Web
• Le informazioni (di solito nella forma di link) sono presentate in
una serie di Search Engine Results Page (SERP)
• La qualità di un motore si valuta sulla base della pertinenza e
rilevanza dei risultati
15
Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i primi:
Google
- Dal 1998
Baidu
- dal 2000, cinese
Yahoo!
- Con motori esterni (dal 2009 "Powered by Bing")
Bing
- Dal 2009 (prima: MSN Search, Windows Live Search, Live
Search)
16
Search engine market share
17
Fonte: http://www.netmarketshare.com
Feb 2015, desktop
Search engine market share
18
Fonte: http://www.netmarketshare.com
Feb 2015, mobile + tablet
Motori di ricerca: struttura
19
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici + cached
pages
Crawler
Crawler Indicizzator
e
Crawler
Richieste
Pagine
web
Pagine
webWW
W
Back-end process
Motori di ricerca: struttura
Ogni motore di ricerca è composto da cinque componenti
fondamentali: crawler, indice, interfaccia, query processor e il sistema
di ranking
• Il crawler è un software specializzato che naviga la rete e porta le
pagine nell'indice. Il crawler tiene anche nota dei link che trova e li
usa per raggiungere via via nuove pagine con nuovi link ...
• L'indice è un enorme database dove le pagine vengono
memorizzate con tutti i metadati e dove tutte le parole vengono
“invertite” creando indici/chiavi per ognuna di esse
• L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla
e passa la richiesta al query processor che agisce sull'indice
• Il sistema di ranking ordina i risultati della query in funzione della
loro "rilevanza" (eventualmente filtrando risultati non pertinenti)
20
Web crawling
• I crawler (robot, spider, bot) sono programmi che navigano il Web,
esaminando le diverse pagine e seguendo i link in esse presenti
• Seguono opportune politiche di navigazione (per es. per decidere
quando riesaminare una pagina già vista)
• L'interazione con i Web server segue specifici protocolli (per es.
robot exclusion protocol, o robot.txt)
• Non tutto il Web è accessibile ai crawler
21
robots.txt: esempio
www.domain.com
22
/
robots.txt
utenti
foto
about
User-agent: Google
Disallow /utenti/foto
Allow: *
Crawl-delay: 20 sec
Deep vs surface Web
• Non tutto il Web è accessibile ai motori di ricerca
• Il Web invisibile ("deep Web") è parecchi ordini di grandezza più
vasto del Web visibile ("surface Web")
• Deep Web, esempi:
• Pagine "vietate" dai Web server (robots.txt)
• Pagine generate dinamicamente a fronte di query o di
input forniti attraverso form
• Pagine senza link entranti
• Pagine accessibili tramite registrazione e login
• Ecc.
23
Struttura del web: uno studio
(vecchio ma interessante)
24
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,
WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
Strongly Connected
Component: per
ogni coppia di nodi
c’è un cammino da
uno all’altro
One can pass from any node
of IN through SCC to any node of OUT.
Hanging off IN and OUT are TENDRILS
containing nodes that are reachable
from portions of IN, or that can reach
portions of OUT, without passage
through SCC. It is possible for a
TENDRIL hanging off from IN to
be hooked into a TENDRIL leading
into OUT, forming a TUBE -- a
passage from a portion of IN to
a portion of OUT without touching SCC.
Tipi di query
• Informativa
Obiettivo: trovare un'informazione
• Navigazionale
Obiettivo: trovare una pagina web, che conosco già
• Risorsa
Obiettivo: trovare una risorsa (non informativa) disponibile sul web
(schema non del tutto esaustivo, ad es. query “esplorative”)
• Il risultato è di solito (ma non sempre!) una lista di link a pagine
web
• Evoluzione: dal contenitore (anche) al contenuto
25
Search forms (Google)
26
Semplice: Avanzata:
Posso usare una sintassi
complessa
Esempi:
query AND query
query OR query
-query
term site:url
link: x
…. Cfr. http://www.google.com/insidesearch/
http://bit.ly/13dakJx
Google: evoluzione della home
page
Video sulla evoluzione di www.google.com dal 1998
al 2007
http://www.youtube.com/watch?v=1vgprty39og
27
SERP: struttura tipica
28
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati "organici"
(non influenzati
dalle
sponsorizzazioni)
Google:
AdWords

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

6 - Il browser - 16/17
6 - Il browser - 16/176 - Il browser - 16/17
6 - Il browser - 16/17
 
WordPress e il vostro blog - 18/19
WordPress e il vostro blog - 18/19WordPress e il vostro blog - 18/19
WordPress e il vostro blog - 18/19
 
14 - I blog
14 - I blog14 - I blog
14 - I blog
 
12 - I Social Media - 16/17
12 - I Social Media - 16/1712 - I Social Media - 16/17
12 - I Social Media - 16/17
 
9 - Wordpress e il vostro blog
9 - Wordpress e il vostro blog9 - Wordpress e il vostro blog
9 - Wordpress e il vostro blog
 
Introduzione al web (1/2) - 18/19
Introduzione al web (1/2) - 18/19Introduzione al web (1/2) - 18/19
Introduzione al web (1/2) - 18/19
 
15 - Web designer vs Web developer
15 - Web designer vs Web developer15 - Web designer vs Web developer
15 - Web designer vs Web developer
 
14 - Wikipedia e Open Internet
14 - Wikipedia e Open Internet14 - Wikipedia e Open Internet
14 - Wikipedia e Open Internet
 
Web feed e aggregatori
Web feed e aggregatoriWeb feed e aggregatori
Web feed e aggregatori
 
10 - Ricercare nel web II
10 - Ricercare nel web II10 - Ricercare nel web II
10 - Ricercare nel web II
 
14 - I Wiki, Wikipedia e “open internet”
14 - I Wiki, Wikipedia e “open internet”14 - I Wiki, Wikipedia e “open internet”
14 - I Wiki, Wikipedia e “open internet”
 
13 - Web feed e aggregatori
13 - Web feed e aggregatori13 - Web feed e aggregatori
13 - Web feed e aggregatori
 
Wiki e open internet
Wiki e open internetWiki e open internet
Wiki e open internet
 
I social media
I social mediaI social media
I social media
 
8 - Web App e CMS - 16/17
8 - Web App e CMS - 16/178 - Web App e CMS - 16/17
8 - Web App e CMS - 16/17
 
1 - Introduzione al corso 18/19
1 - Introduzione al corso 18/191 - Introduzione al corso 18/19
1 - Introduzione al corso 18/19
 
12 - Social media (19/20)
12 - Social media (19/20)12 - Social media (19/20)
12 - Social media (19/20)
 
1 - Introduzione al corso 17/18
1 - Introduzione al corso 17/181 - Introduzione al corso 17/18
1 - Introduzione al corso 17/18
 
3 - Introduzione a Internet (2/2)
3 - Introduzione a Internet (2/2)3 - Introduzione a Internet (2/2)
3 - Introduzione a Internet (2/2)
 
6 - Wordpress e vostro blog
6 - Wordpress e vostro blog6 - Wordpress e vostro blog
6 - Wordpress e vostro blog
 

Destacado

Motori Di Ricerca
Motori Di RicercaMotori Di Ricerca
Motori Di Ricerca
holden62
 

Destacado (19)

Ricerche Internet - Guido Di Fraia
Ricerche Internet - Guido Di FraiaRicerche Internet - Guido Di Fraia
Ricerche Internet - Guido Di Fraia
 
Come navigare in internet alla ricerca di informazioni di qualità
Come navigare in internet alla ricerca di informazioni di qualitàCome navigare in internet alla ricerca di informazioni di qualità
Come navigare in internet alla ricerca di informazioni di qualità
 
Guida pratica all'ottimizzazione per motori di ricerca
Guida pratica all'ottimizzazione per motori di ricercaGuida pratica all'ottimizzazione per motori di ricerca
Guida pratica all'ottimizzazione per motori di ricerca
 
Cercare, valutare e utilizzare le informazioni: si impara in biblioteca
Cercare, valutare  e utilizzare le informazioni: si impara in bibliotecaCercare, valutare  e utilizzare le informazioni: si impara in biblioteca
Cercare, valutare e utilizzare le informazioni: si impara in biblioteca
 
11 - L'evoluzione del web
11 - L'evoluzione del web11 - L'evoluzione del web
11 - L'evoluzione del web
 
Piano di Marketing Strategico - Dolomia S.p.A.
Piano di Marketing Strategico - Dolomia S.p.A.Piano di Marketing Strategico - Dolomia S.p.A.
Piano di Marketing Strategico - Dolomia S.p.A.
 
12 - Mobile web
12 - Mobile web12 - Mobile web
12 - Mobile web
 
Motori Di Ricerca
Motori Di RicercaMotori Di Ricerca
Motori Di Ricerca
 
13 - Modelli di business nel Web
13 - Modelli di business nel Web13 - Modelli di business nel Web
13 - Modelli di business nel Web
 
3 - Introduzione a Internet (2/2) - 16/17
3 - Introduzione a Internet (2/2) - 16/173 - Introduzione a Internet (2/2) - 16/17
3 - Introduzione a Internet (2/2) - 16/17
 
1 - Introduzione al corso 16/17
1 - Introduzione al corso 16/17 1 - Introduzione al corso 16/17
1 - Introduzione al corso 16/17
 
Visibilità su Google: cos’è la SEO e quali sono i compiti di un SEO Specialist
Visibilità su Google: cos’è la SEO e quali sono i compiti di un SEO SpecialistVisibilità su Google: cos’è la SEO e quali sono i compiti di un SEO Specialist
Visibilità su Google: cos’è la SEO e quali sono i compiti di un SEO Specialist
 
5 - Introduzione al Web (2/2) - 16/17
5 - Introduzione al Web (2/2) - 16/175 - Introduzione al Web (2/2) - 16/17
5 - Introduzione al Web (2/2) - 16/17
 
2 - Introduzione a Internet (1/2) - 16/17
2 - Introduzione a Internet (1/2) - 16/172 - Introduzione a Internet (1/2) - 16/17
2 - Introduzione a Internet (1/2) - 16/17
 
17 - Web feed e aggregatori
17 - Web feed e aggregatori17 - Web feed e aggregatori
17 - Web feed e aggregatori
 
15 - La forma breve e il microblogging
15 - La forma breve e il microblogging15 - La forma breve e il microblogging
15 - La forma breve e il microblogging
 
01 - Introduzione al Corso Strumenti e Applicazioni del Web - CdLM in TTC - 2...
01 - Introduzione al Corso Strumenti e Applicazioni del Web - CdLM in TTC - 2...01 - Introduzione al Corso Strumenti e Applicazioni del Web - CdLM in TTC - 2...
01 - Introduzione al Corso Strumenti e Applicazioni del Web - CdLM in TTC - 2...
 
4 - Introduzione al Web (1/2) - 16/17
4 - Introduzione al Web (1/2) - 16/174 - Introduzione al Web (1/2) - 16/17
4 - Introduzione al Web (1/2) - 16/17
 
11 - Modelli di business nel Web - 16/17
11 - Modelli di business nel Web - 16/1711 - Modelli di business nel Web - 16/17
11 - Modelli di business nel Web - 16/17
 

Similar a 09 - Ricercare nel Web I

Usare il web in modo consapevole
Usare il web in modo consapevoleUsare il web in modo consapevole
Usare il web in modo consapevole
banlu
 
Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...
Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...
Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...
Federico Villa
 

Similar a 09 - Ricercare nel Web I (20)

9. Come trovare l'informazione (I)
9. Come trovare l'informazione (I)9. Come trovare l'informazione (I)
9. Come trovare l'informazione (I)
 
9 - Ricercare nel Web
9 - Ricercare nel Web9 - Ricercare nel Web
9 - Ricercare nel Web
 
Ricercare nel web
Ricercare nel webRicercare nel web
Ricercare nel web
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 
6. Ricercare nel Web
6. Ricercare nel Web6. Ricercare nel Web
6. Ricercare nel Web
 
6 - Il browser - 17/18
6 - Il browser - 17/186 - Il browser - 17/18
6 - Il browser - 17/18
 
BibliotecaAccessibile
BibliotecaAccessibileBibliotecaAccessibile
BibliotecaAccessibile
 
8 - Web app e CMS - 17/18
8 - Web app e CMS - 17/188 - Web app e CMS - 17/18
8 - Web app e CMS - 17/18
 
Il browser
Il browserIl browser
Il browser
 
8 - Il browser
8 - Il browser8 - Il browser
8 - Il browser
 
Le applicazioni web e i CMS (18/19)
Le applicazioni web e i CMS (18/19)Le applicazioni web e i CMS (18/19)
Le applicazioni web e i CMS (18/19)
 
7 - Web application e CMS
7 - Web application e CMS7 - Web application e CMS
7 - Web application e CMS
 
Usare il web in modo consapevole
Usare il web in modo consapevoleUsare il web in modo consapevole
Usare il web in modo consapevole
 
8a. Il web 2.0
8a. Il web 2.08a. Il web 2.0
8a. Il web 2.0
 
Criteri di valutazione dei siti web.
Criteri di valutazione dei siti web. Criteri di valutazione dei siti web.
Criteri di valutazione dei siti web.
 
Il web intelligente
Il web intelligenteIl web intelligente
Il web intelligente
 
La navigazione di profondità - V2
La navigazione di profondità - V2La navigazione di profondità - V2
La navigazione di profondità - V2
 
Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...
Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...
Tesi Triennale: Navigazione automatica e rilevazione di errori in applicazion...
 
Seo e Web Marketing - 1 | WebMaster & WebDesigner
Seo e Web Marketing - 1 | WebMaster & WebDesignerSeo e Web Marketing - 1 | WebMaster & WebDesigner
Seo e Web Marketing - 1 | WebMaster & WebDesigner
 
04 - Introduzione al Web I
04 - Introduzione al Web I04 - Introduzione al Web I
04 - Introduzione al Web I
 

Más de Giuseppe Vizzari

Más de Giuseppe Vizzari (15)

Presentazione CdLM in Teoria e Tecnologia della Comunicazione A.A. 2020/21
Presentazione CdLM in Teoria e Tecnologia della Comunicazione A.A. 2020/21Presentazione CdLM in Teoria e Tecnologia della Comunicazione A.A. 2020/21
Presentazione CdLM in Teoria e Tecnologia della Comunicazione A.A. 2020/21
 
14 - Web designer vs Web developer ...
14 - Web designer vs Web developer ... 14 - Web designer vs Web developer ...
14 - Web designer vs Web developer ...
 
11 - Evoluzione del Web (19/20)
11 - Evoluzione del Web (19/20)11 - Evoluzione del Web (19/20)
11 - Evoluzione del Web (19/20)
 
10 - Modelli di business nel Web (19/20)
10 - Modelli di business nel Web (19/20)10 - Modelli di business nel Web (19/20)
10 - Modelli di business nel Web (19/20)
 
HTML (+ DOM) + CSS
HTML (+ DOM) + CSSHTML (+ DOM) + CSS
HTML (+ DOM) + CSS
 
5 - Introduzione al Web (2/2)
5 - Introduzione al Web (2/2)5 - Introduzione al Web (2/2)
5 - Introduzione al Web (2/2)
 
4 - Introduzione al Web (1/2)
4 - Introduzione al Web (1/2)4 - Introduzione al Web (1/2)
4 - Introduzione al Web (1/2)
 
2 - Introduzione ad Internet (1/2)
2 - Introduzione ad Internet (1/2)2 - Introduzione ad Internet (1/2)
2 - Introduzione ad Internet (1/2)
 
1 - Introduzione al corso 19/20
1 - Introduzione al corso 19/201 - Introduzione al corso 19/20
1 - Introduzione al corso 19/20
 
Intelligenza Artificiale e Realtà Virtuale
Intelligenza Artificiale e Realtà VirtualeIntelligenza Artificiale e Realtà Virtuale
Intelligenza Artificiale e Realtà Virtuale
 
Web designer vs Web developer
Web designer vs Web developerWeb designer vs Web developer
Web designer vs Web developer
 
Evoluzione del web
Evoluzione del webEvoluzione del web
Evoluzione del web
 
Modelli di business nel web
Modelli di business nel webModelli di business nel web
Modelli di business nel web
 
Introduzione al web (2/2) - 18/19
Introduzione al web (2/2) - 18/19Introduzione al web (2/2) - 18/19
Introduzione al web (2/2) - 18/19
 
Introduzione a Internet (2/2) - 18/19
Introduzione a Internet (2/2) - 18/19Introduzione a Internet (2/2) - 18/19
Introduzione a Internet (2/2) - 18/19
 

Último

Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 

Último (19)

Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 

09 - Ricercare nel Web I

  • 1. Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Giuseppe Vizzari Edizione 2015-16
  • 2. Queste slide Queste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ): La licenza non si estende alle immagini provenienti da altre fonti e alle screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.
  • 3. Una visualizzazione [di una parte] del web R.Polillo - Marzo 2015 3 La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
  • 4. The Internet Map (http://internet-map.net/)
  • 5. Come trovare l'informazione in rete • Sistemi di directory Indici strutturati di argomenti (gestiti da una redazione) • Wikipedia Enciclopedia collaborativa • Motori di ricerca Query  Risultati • Motori semantici www.wolframalpha.com, … • Sistemi di Q&A sociale Yahoo! Answer, … • Esplorazione Browsing, serendipity 5
  • 6. Web directory • Storicamente, il primo strumento di ausilio alle ricerche nel Web • Una nota: nel 1995 molte persone avevano una sorta di sistema di bookmark “server side” nella loro pagina personale (pagina dei “link utili”) • Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie" • Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo • http://en.wikipedia.org/wiki/Web_directory 6
  • 7. Tassonomia Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a) Appartenenti all’imperatore b) Imbalsamati c)Ammaestrati d) Lattonzoli e) Sirene f) Favolosi g)Cani randagi h) Inclusi in questa classificazione i) Che si agitano come pazzi j) Innumerevoli k)Disegnati con un pennello finissimo di peli di cammello l) Eccetera m) Che hanno ritto il vaso n) Che da lontano sembrano mosche. 7  Raggruppamento di oggetti in classi, secondo qualche criterio  taxis=ordine nomos=regola  Ogni tassonomia è arbitraria, e dipende dagli obiettivi
  • 8. Yahoo! (http://dir.yahoo.com) 8 - Nasce come “La guida al WWW di Jerry e David”, nel 1994 - Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive
  • 9. The Open Directory Project (ODP) • Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/ • Directory gratuita, aperta e multilingua • Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari • http://en.wikipedia.org/wiki/Open_Directory_Project 9
  • 10. Domoz vs Yahoo! 10 Dmoz Yahoo! NB La directory di Yahoo non viene più aggiornata http://en.wikipedia.org/wiki/Yahoo!_Directory
  • 11. Wikipedia come strumento di ricerca • Wikipedia è un formidabile strumento di ricerca e accesso al web • Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato • Inoltre Wikipedia contiene numerosi indici e directory, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals) 11
  • 12. Serendipità • Cerco una cosa e ne trovo un'altra • Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka) • Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative • http://en.wikipedia.org/wiki/Serendipity • http://serendip.brynmawr.edu/serendip/about.html 12
  • 13. 13
  • 14. www.stumbleupon.com • to stumble: inciampare, scoprire per caso • È una discovery engine di pagine web, fondato in Canada nel 2001 • Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili • Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente: 14
  • 15. Motori di ricerca per il Web • Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web • Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP) • La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati 15
  • 16. Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo! - Con motori esterni (dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) 16
  • 17. Search engine market share 17 Fonte: http://www.netmarketshare.com Feb 2015, desktop
  • 18. Search engine market share 18 Fonte: http://www.netmarketshare.com Feb 2015, mobile + tablet
  • 19. Motori di ricerca: struttura 19 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler Crawler Indicizzator e Crawler Richieste Pagine web Pagine webWW W Back-end process
  • 20. Motori di ricerca: struttura Ogni motore di ricerca è composto da cinque componenti fondamentali: crawler, indice, interfaccia, query processor e il sistema di ranking • Il crawler è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link ... • L'indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse • L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice • Il sistema di ranking ordina i risultati della query in funzione della loro "rilevanza" (eventualmente filtrando risultati non pertinenti) 20
  • 21. Web crawling • I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti • Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista) • L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt) • Non tutto il Web è accessibile ai crawler 21
  • 23. Deep vs surface Web • Non tutto il Web è accessibile ai motori di ricerca • Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web") • Deep Web, esempi: • Pagine "vietate" dai Web server (robots.txt) • Pagine generate dinamicamente a fronte di query o di input forniti attraverso form • Pagine senza link entranti • Pagine accessibili tramite registrazione e login • Ecc. 23
  • 24. Struttura del web: uno studio (vecchio ma interessante) 24 Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html 17 million nodes Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC.
  • 25. Tipi di query • Informativa Obiettivo: trovare un'informazione • Navigazionale Obiettivo: trovare una pagina web, che conosco già • Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web (schema non del tutto esaustivo, ad es. query “esplorative”) • Il risultato è di solito (ma non sempre!) una lista di link a pagine web • Evoluzione: dal contenitore (anche) al contenuto 25
  • 26. Search forms (Google) 26 Semplice: Avanzata: Posso usare una sintassi complessa Esempi: query AND query query OR query -query term site:url link: x …. Cfr. http://www.google.com/insidesearch/ http://bit.ly/13dakJx
  • 27. Google: evoluzione della home page Video sulla evoluzione di www.google.com dal 1998 al 2007 http://www.youtube.com/watch?v=1vgprty39og 27
  • 28. SERP: struttura tipica 28 Search box Risultati sponsorizzati Opzioni per la ricerca Risultati "organici" (non influenzati dalle sponsorizzazioni) Google: AdWords