Slides delle lezioni del corso di Strumenti e applicazioni del Web per il corso di laurea magistrale in Teoria e tecnologia della comunicazione - Università di Milano Bicocca (prof.R.Polillo) - Lezione del 27 marzo 2014
1. Edizione 2013-14
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
10. Ricercare nel Web (Parte II)
Roberto Polillo
2. Motori di ricerca: struttura
R.Polillo - Marzo 2014
3
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici +
cached pages
Crawler
Crawler
IndicizzatoreCrawler
Richieste
Pagine
web
Pagine
web
WWW
Back-end process
3. Motori di ricerca: tipi di query
Informativa
Obiettivo: trovare un'informazione
Navigazionale
Obiettivo: trovare una pagina web, che conosco già
Risorsa
Obiettivo: trovare una risorsa (non informativa)
disponibile sul web
Il risultato è di solito (ma non sempre!) una lista di link a
pagine web
Evoluzione: dal contenitore (anche) al contenuto
R.Polillo - Marzo 2014
4
4. Search forms (Google)
R.Polillo - Marzo 2014
5
Semplice: Avanzata:
Posso usare una sintassi
complessa
Esempi:
query AND query
query OR query
-query
term site:url
link: x
…. Cfr. http://www.google.com/insidesearch/
http://bit.ly/13dakJx
5. Google: evoluzione della home page
Video sulla evoluzione di www.google.com dal 1998 al 2007
http://www.youtube.com/watch?v=1vgprty39og
R.Polillo - Marzo 2014
6
6. SERP: struttura tipica
R.Polillo - Marzo 2014
7
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati
"organici"
(non influenzati
dalle
sponsorizzazioni)
Google:
AdWords
7. La coda lunga delle ricerche
R.Polillo - Marzo 2014
8
Search terms
Frequenza
Alto costo, alta
frequenza, bassa probabilità di
conversione
Basso costo, bassa frequenza,
alta probabilità di conversione
“negozi scarpe uomo centro milano”
9. Cached pages (Google)
R.Polillo - Marzo 2014
10
http://www.digitaltrends.com/computing/directly-access-google-cached-pages/#!BqSUt
10. Ranking
I risultati della ricerca dovrebbero essere
presentati sulla SERP in ordine di rilevanza (gli
utenti considerano di solito solo i risultati nella
prima pagina)
Il successo di un motore di ricerca è fortemente
legato al suo algoritmo di ranking
R.Polillo - Marzo 2014
11
11. Google PageRank
Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi
di PhD a Stanford (progetto BackRub, 1995-96), brevettato
a nome della Stanford University
L'idea: la "importanza" di una pagina Web è tanto
maggiore quante più sono le pagine Web (a loro volta
"importanti") che la linkano
In sostanza, è il meccanismo con cui vengono valutati i
paper accademici
S.Brin, L.Page, “The anatomy of a large-scale hypertextual
Web search engine”
1998: Brin e Page fondano Google Inc
R.Polillo - Marzo 2014
12
14. L’algoritmo: altri criteri
Google utilizza oltre 200 criteri per il ranking delle pagine
I criteri sono segreti e in continua evoluzione
Esempi:
Parole chiave nella pagina (titolo, header, testo …)
Età del sito
Qualità dei contenuti
Ranking fra i siti di analogo argomento
Numero di accessi via URL della pagina
Numero di accessi da parte di chi cerca
Tempo speso sulla pagina dagli utenti
….
R.Polillo - Marzo 2014
15
15. Search history
La search history di ciascuno viene salvata nella
"cronologia Web" (Google, Bing)
È possibile cancellare singoli elementi, o tutti
Cronologia in Google:
entrare nel proprio account, ed entrare nella
"dashboard”
R.Polillo - Marzo 2014
16
16. SEO / SEM
SEO: Search Engine Optimization
Metodi e tecniche per migliorare il ranking di un
sito Web, per i vari motori di ricerca
http://http://en.wikipedia.org/wiki/Search_engine_optimization
SEM: Search Engine Marketing
Attività di promozione di un sito Web per
migliorarne il ranking dei motori di ricerca
http://en.wikipedia.org/wiki/Search_engine_marketing
Page rank checker: esempio:
http://www.whatsmypr.net
R.Polillo - Marzo 2014
17
17. SEM/SEO
18
La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è
estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre
la prima pagina)
Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente
acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine
Optimization)
Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti
solo da link per far “salire” i siti che pagano
Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che
considera spamming da parte degli specialisti SEM/SEO
http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it
R.Polillo - Marzo 2014
18. Risultati della ricerca: non solo link
Provate a cercare (su Google e Bing):
- weather Milano
- time San Francisco
- sunrise New York
- 5*9+(sqrt 10)^3=
- Ernest Hemingway
- Population Milan
- define philosophy
- ristoranti 20143
- movies 20143
- mappa 20143
- mappa corso italia 6 milano
- concessionari Fiat
- ….
R.Polillo - Marzo 2014
19
Search engine
→ Answer engine
23. Google search: per saperne di più
Help di Google:
http://support.google.com/websearch
Wikipedia:
http://en.wikipedia.org/wiki/Google_Search
R.Polillo - Marzo 2014
24
24. Lavoro individuale
Esplorare accuratamente le funzioni del motore di ricerca di Google,
e confrontarle con quelle di Bing
Esplorare la propria dashboard (nel proprio account Google), e
verificare quali informazioni sulla vostra storia sono memorizzate
(importantissimo!)
Esplorate www.wolframalpha.com
Guardate che cosa Wolfram alpha vi dice della VOSTRA attività su
Facebook cercare su Google: wolfram personal analytics
R.Polillo - Marzo 2014
25