1. Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
10. Ricercare nel Web (Parte II)
Giuseppe Vizzari
Edizione 2015-16
2. Queste slide
Queste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del
corso, con il materiale completo, si trova in
strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il
corso viene aggiornato ogni anno.
Il presente materiale è pubblicato con licenza Creative Commons
“Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0”
(http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e alle
screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove
possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta
a disposizione per correggerle.
3. Motori di ricerca: struttura
3
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici + cached
pages
Crawler
Crawler Indicizzator
e
Crawler
Richieste
Pagine
web
Pagine
webWW
W
Back-end process
5. Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza
il successo di un motore di ricerca è fortemente legato al suo
algoritmo di ranking
5
6. Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza
il successo di un motore di ricerca è fortemente legato al suo
algoritmo di ranking
6
7. TF-IDF di base…
• TF-IDF sta per term frequency –
inverse document frequency
• Si tratta di una statistica che dà
conto di quanto un termine sia
significativo per scegliere un
documento all’interno di un
certo insieme di documenti
(corpus)
• Matematicamente è il prodotto di
una funzione legata alla
frequenza del termine nel
documento e di un’altra funzione
che decresce quanto più il
termine è frequente nei
documenti del corpus
• In pratica, un termine per essere
importante deve essere presente
nel documento ma anche non
essere troppo frequente nel
corpus
Corpus
Document
Searched term
8. Ricerche con più termini?
• Una query con più termini
può essere vista come un
vettore di termini…
• Per ogni termine si può
calcolare il valore TF-IDF di
ogni documento nel corpus…
• Si possono aggregare questi
valori per ricavare un valore
di rilevanza del documento
per la query specificata
• … una presentazione più
dettagliata richede l’uso di
alcune formule matematiche
che preferisco evitare di
mostrarvi
Corpus
Document
Searched terms
9. Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza
il successo di un motore di ricerca è fortemente legato al
suo algoritmo di ranking
9
10. Google PageRank
• Algoritmo sviluppato da S.Brin e Larry Page nella
loro tesi di PhD a Stanford (progetto BackRub,
1995-96), brevettato a nome della Stanford
University
• L'idea: la "importanza" di una pagina Web è tanto
maggiore quante più sono numerose e importanti le
pagine Web che la linkano
• S.Brin, L.Page, “The anatomy of a large-scale
hypertextual Web search engine”
• In sostanza, è il meccanismo con cui vengono
valutati i paper accademici
• 1998: Brin e Page fondano Google Inc
10
14. L’algoritmo: altri criteri
• Google utilizza oltre 200 criteri per il ranking delle
pagine
• I criteri sono segreti e in continua evoluzione
• Esempi:
• Parole chiave in parti specifiche della pagina (titolo,
header, testo …)
• Età del sito
• Qualità dei contenuti
• Ranking fra i siti di analogo argomento
• Numero di accessi via URL della pagina
• Numero di accessi da parte di chi cerca
• Tempo speso sulla pagina dagli utenti
• ….
14
15. SEO / SEM
• SEO: Search Engine Optimization
Metodi e tecniche per migliorare il ranking di un sito Web, per i
vari motori di ricerca
http://http://en.wikipedia.org/wiki/Search_engine_optimization
• SEM: Search Engine Marketing
Attività di promozione di un sito Web per migliorarne il ranking
dei motori di ricerca
http://en.wikipedia.org/wiki/Search_engine_marketing
• Page rank checker: esempio:
http://www.whatsmypr.net
15
16. SEM/SEO
• La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è
estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda
oltre la prima pagina)
• Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente
acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search
Engine Optimization)
• Le tecniche usate non sono sempre corrette: per es. vengono creati siti
composti solo da link per far “salire” i siti che pagano
• Periodicamente Google aggiorna gli algoritmi del motore per penalizzare
quello che considera spamming da parte degli specialisti SEM/SEO
• http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it
16
17. Risultati della ricerca: non solo
link
Provate a cercare (su Google e Bing):
- weather Milano
- time San Francisco
- sunrise New York
- 5*9+(sqrt 10)^3=
- Ernest Hemingway
- Population Milan
- define philosophy
- ristoranti 20143
- movies 20143
- mappa 20143
- mappa corso italia 6 milano
- concessionari Fiat
- ….
17
Search engine
→ Answer engine
18. Vedere le pagine cashed (Google search)
18
http://www.digitaltrends.com/computing/directly-access-google-cached-pages/#!BqSUt
19. Risultati della ricerca: semantica
19
Search engine
→ Answer engine
• Google Knowledge Graph - https://youtu.be/mmQl6VGvX-c
24. Search history
• La search history di ciascuno viene salvata nella ”search history"
(Google, Bing)
• (Non confonderla con la cronologia Web, che è raccolta dal
browser)
• È possibile cancellare singoli elementi, o tutti
24
Search history in Google:
entrare nel proprio account, ed entrare nella
"dashboard”, e…. guardate quello che Google
sa di voi
25. La coda lunga delle ricerche
25
Search terms
Frequenza
Alta frequenza, bassa
probabilità di trovare
l’informazione desiderata
Bassa frequenza, alta probabilità di
trovare l’informazione… in linea di
massima!
“negozi scarpe uomo centro milano”
28. SERP: struttura tipica
28
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati
"organici"
(non influenzati
dalle
sponsorizzazion
i)
Google:
AdWords
29. Google search: per saperne di più
• Help di Google: http://support.google.com/websearch
• Wikipedia:
http://en.wikipedia.org/wiki/Google_Search
29
30. Lavoro individuale
• Esplorare accuratamente le funzioni del motore di ricerca di
Google, [e confrontarle con quelle di Bing]
• Esplorare la propria dashboard (nel proprio account Google),
e verificare quali informazioni sulla vostra storia sono
memorizzate (importantissimo!)
• Esplorate www.wolframalpha.com
Guardate che cosa Wolfram alpha vi dice della VOSTRA
attività su Facebook cercare su Google: wolfram personal
analytics
30