Non tutti i siti devono preoccuparsi della CBO, ma come capire se invece è il caso nostro? In cosa consiste esattamente il Crawl Budget? Come stimarlo? E soprattutto: come intervenire per ottimizzarlo? Lo speech si propone di fornire con esempi chiari le competenze per ottimizzare il Crawl Budget di siti di dimensioni medio-grandi.
Web Marketing Festival 2016, Rimini 8-9 Luglio 2016
2. #wmf16
Federico Sasso @vseostudio
Mi presento
Federico Sasso
● Sviluppatore Software
● SEO
● Moderatore Forum GT
● Neo Imprenditore
● ...
● Autore di
Visual SEO Studio
6. #wmf16
Federico Sasso @vseostudio
Cos’è il Crawl Budget?
La quantità di risorse che il motore
di ricerca alloca in un periodo di
tempo per visitare il tuo sito
8. #wmf16
Federico Sasso @vseostudio
Cos’è il Crawl Budget?
“It's more like what's the limit or what's a threshold where there
or after which the server becomes slower for example or stuff
like that.”
Gary Illyes, 5 Maggio 2016
12. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
Il Motore di Ricerca reperisce elenchi di URL da
visitare da diverse fonti:
● Domini registrati
● Record DNS
● Link estratti da pagine (interni)
● Link estratti da pagine (esterni)
● Sitemap XML
● Testi che sembrano URL
● Tag/attributi con URL
● ...
13. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
Scheduler Lista
URL
HTTP
Parser
(estrazione link)
Normalizzazione / CanonicalizzazionePrioritizzazione
Altre fonti
14. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
La prima volta che Googlebot visita un sito, di cui
non sa nulla, richiede solo la prima pagina.
Ovvio: è l’unico URL che conosce.
Non è compito del crawler estrarre i link e decidere
quali altre pagine esplorare!
==> Crawl Budget = 1 pagina
15. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
Scheduler Lista
URL
HTTP
Parser
(estrazione link)
Prioritizzazione
Altre fonti
Normalizzazione / Canonicalizzazione
16. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
Il Parser estrae i link e alimenta la lista URL
● HTTP X-Robots-Tag
● robots meta tag
● Canonical link header
● Canonical link tag
● Normalizzazione
● rel=“nofollow”
● robots.txt
● Numero di link
● Dimensione pagina
● Errori HTML
● ...
17. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
Scheduler Lista
URL
HTTP
Parser
(estrazione link)
Prioritizzazione
Altre fonti
Normalizzazione / Canonicalizzazione
18. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
Non tutti gli URL sono prioritizzati allo stesso modo
● PageRank
● Importanza
● Profondità di link
● Storia/Frequenza aggiornamento
● Presenza in Sitemap
● Storico prestazioni
● Linking interno
● Tipo di contenuto
● Posizione link in HTML
● Lunghezza URL?
● ...
19. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
● Alcuni URL ritenuti “importanti” saranno visitati
prima / più frequentemente
● Altri saranno visitati dopo, e meno
frequentemente
● Altri ancora… rassegnatevi!
20. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
L’esplorazione Breadth-First (“in ampiezza”), in
assenza di segnali esterni, è dimostrato essere il
metodo più efficiente per il MdR per trovare prima
pagine importanti.
Eppure è solo una vaga approssimazione
dell’ordine di crawl.
21. #wmf16
Federico Sasso @vseostudio
Come funziona il Crawling
L’ordine di Crawling non è prevedibile con certezza.
● Breadth-first tarato da PageRank
● Pipeline asincrona
(crawling, link extraction, …)
● Chiamate HTTP asincrone
● Code asincrone
● Il sistema gestisce URL da molti siti
● Posizione link in HTML
● Lunghezza URL?
● ...
24. #wmf16
Federico Sasso @vseostudio
Chi ha bisogno della CBO?
L’ 89.73% dei siti non si deve preoccupare
di Crawl Budget Optimization
OK,
Questo me lo
sono inventato
per fare colpo
:)
25. #wmf16
Federico Sasso @vseostudio
Chi ha bisogno della CBO?
La CBO è un
problema più
sentito per i
siti grandi.
Siti piccoli e
che cambiano
poco possono
ignorarla.
26. #wmf16
Federico Sasso @vseostudio
Chi ha bisogno della CBO?
Quando serve ottimizzare il “crawl budget”:
Poniamo di avere un piccolo
e-commerce
● 50.000 pagine
● Googlebot:
max 1 richiesta ogni 30”
==>
occorrono almeno 17 giorni perché il motore di
ricerca possa rivisitarne tutte le pagine.
27. #wmf16
Federico Sasso @vseostudio
È sufficiente?
Un’idea del crawl budget la si può avere dalle
statistiche di scansione di Google Search Console
Va considerata tenendo conto conto del numero di
pagine e dei tassi di crescita e aggiornamento.
28. #wmf16
Federico Sasso @vseostudio
Chi ha bisogno della CBO?
● Quante pagine ha il sito?
(più di quanto pensa il cliente)
● Che crawl-path seguono gli spider?
dov’è il crawl-waste?
● I contenuti importanti sono
(ri)visitati nei tempi
desiderati?
● Che velocità di scansione
massima imposta il MdR?
29. #wmf16
Federico Sasso @vseostudio
Il numero totale di pagine
Per sapere quante pagine ha il sito, il modo
migliore è contarle con uno “SEO spider”.
Occhio alle opzioni di esplorazione!
30. #wmf16
Federico Sasso @vseostudio
La velocità Crawling
Nel caso di Google, potete scoprire da soli qual è la velocità di
scansione massima del vostro sito:
In Search Console
Impostazioni >
Velocità di scansione
● Selezionate “Limita la velocità massima di scansione di
Google”
● Leggete il valore attuale
● E poi scegliete “Annulla!”
31. #wmf16
Federico Sasso @vseostudio
Individuare crawl-waste
Tramite uso di Log Analyzer
Pro: dati reali
Contro:
● File di log non sempre disponibili
● Elaborazione complessa, tempi molto lunghi prima di
poter analizzare dopo modifiche
● Impossibile lavorare su sistema di pre-produzione
32. #wmf16
Federico Sasso @vseostudio
Individuare crawl-waste
Tramite uso di un SEO Crawler
Pro:
●
Anche su sito pre-produzione
●
Visualizzazione crawl-path
(Visual SEO Studio, altri?)
● Lavoro iterativo
●
Tempi più ridotto per testare modifiche
Contro:
● Emulazione
34. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
Si interviene tramite:
● robots.txt
● rel=”nofollow”
● Struttura di link
● Meta robots
● Fix errori 404, 30x, etc...
● Impostazione Parametri URL
● Eliminazione contenuti inutili
● Eliminazione contenuti inutili
● Migliorare prestazione web server
35. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
Intervenire sui robots.txt
Poco elegante, ma tampona un problema e costa
nulla. Occhio, i robots.txt tendono a “fumarsi”...
User-agent: *
Disallow: /spammy-forum/
37. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
La “faceted navigation” degli e-commerce può creare
migliaia di crawl-path indesiderati.
Un bel
rel=“nofollow”
e non ci
pensiamo più.
38. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
La “faceted navigation” degli e-commerce può creare
migliaia di crawl-path indesiderati.
A volte
possiamo
riuscire a
risolvere con
wild-cards nel
robots.txt
39. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
La “faceted navigation” degli e-commerce può creare
migliaia di crawl-path indesiderati.
Altre volte
riusciamo invece
a risolvere
impostando (sul
singolo motore di
ricerca) i
Parametri URL
da ignorare
40. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
La “faceted navigation” degli e-commerce può creare
migliaia di crawl-path indesiderati.
Occhio:
un crawl-path
canonico
dobbiamo
sempre
lasciarlo!
41. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
Controllare i percorsi di esplorazione è un po’
come cercare di controllare l’acqua
Portate pazienza!
42. #wmf16
Federico Sasso @vseostudio
Avvertimento!
Se devo intervenire pesantemente con
espressioni complesse nel robots.txt e con regole
nei Parametri URL...
è segno che
la struttura
degli URL
ha seri
problemi!
43. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
Intervenire sulla struttura di link
Evitare i
menu
esaustivi
(usabilità a
parte)
permette
miglior
controllo sui
crawl-path
44. #wmf16
Federico Sasso @vseostudio
Come ottimizzare il crawl-budget?
Una struttura di link gerarchica rende più facile ai
MdR attribuire importanza e priorità alle pagine, e
definisce percorsi di esplorazione chiari
Home Page
Prodotti Servizi Blog
Prod. A Prod. A Serv. A Serv. B Post A Post 2
49. #wmf16
Federico Sasso @vseostudio
La velocità Crawling
Migliorare il tempo di
risposta del sito
aumenta il crawl
budget.
...spesso in modo
anche più marcato
che in questo
esempio!
52. #wmf16
Federico Sasso @vseostudio
Riferimenti
● Scheduler for Search Engine Crawler
http://www.google.com/patents/US8707313
● Enrico Altavilla – SEO serendipità
http://www.lowlevel.it/seo-serendipita-cosa-si-scopre-su-googlebot-quando-me
no-te-laspetti/
● Google crawl order
https://www.onetomarket.nl/blog/seo/google-crawler-bewegingen/
● Google patent granted on polite web crawling
http://www.seobythesea.com/2010/08/google-patent-granted-on-polite-web-cr
awling/
● Crawling the web: Discovery and Maintenance of large-scale web data
http://oak.cs.ucla.edu/~cho/papers/cho-thesis.pdf
● Google.com is your friend :)