5. Perché dobbiamo creare un robots.txt file?
Lo spider è molto goloso…ma non tutte le pagine sono utili ed
informative
Definizioni
6. Perché dobbiamo creare un robots.txt file?
Lo spider dedica risorse limitate per ogni sito (crawl budget), meglio
concentrare gli sforzi verso pagine utili
Definizioni
7. Accedendo ad un sito lo spider si fa delle domande
?
1. Quali risorse posso leggere?
2. Cosa posso farci?
3. Quali link posso seguire?
4. Cosa posso mostrare nelle SERP?
Definizioni
8. Cos’è il robots.txt file
Definizione
Il file robots.txt contiene delle regole
utilizzate dai crawler per applicare
restrizioni di analisi e indicizzazione
sulle pagine di un sito internet.
Robots.txt
9. Come impostare il robots.txt file
Il robots.txt file risiede sempre nel
root folder del tuo sito:
http://domain.com/robots.txt
Crea un text file semplice usando il
Blocco note o Textedit Apple OS
Appena salvato lo puoi caricare al
‘root folder’ del tuo sito tramite il
cPanel o FTP client
Robots.txt
12. Wildcard matching robots.txt file
1.* carattere jolly indica 0 o più istanze di un valore valido
2.$ indica la fine dell'URL
Esempio:
User-agent: *
Disallow: /*?
Disallow: /*.php$
Robots.txt
16. Robots.txt tester
• Se vuoi controllare che la
sintassi che hai scritto nel
robots.txt sia fatto
correttamente ci sono
diversi tester a disposizione
ma la migliore e da usare e
sempre quello di Google
Robots.txt
18. Altre cose da considerare
• Bloccare il crawling di una URL non significa
che non sarà indicizzata
• Comportamento 4xx (errori client) e 5xx (errore del
server)
• Sempre sul root domain ma anche sul dominio di terzo
livello:
- http://root.com/robots.txt (primo livello)
- http://subdomain.root.com/robots.txt (terzo livello)
• Bloccare parametri tramite parametri URL del Google
Search Console
• Spazi nella URL non saranno rispettati /category/
/product page
• User-agent: msnbot
Crawl-delay: 5
Robots.txt
19. Il REP prevede anche istruzioni che danno una
maggiore granularità alle direttive
Possono essere espresse nel doc HTML
<meta name="robots content="noindex">
Oppure con un header HTTP
X-Robots-Tag: noindex
Meta
robots
X-robots
20. Meta robots
• Meta robots inseriti in pagina nel <head> del documento HTML
• Danno istruzioni ai robots per come comportarsi quando arrivano
alla pagina dove il codice meta robots e presente
• Funzionano bene per il noindex
Meta
robots
21. Tabella Valori Meta Robots
Valori Azione
noindex rimuove/non inserisce nell’indice
nofollow non segue i link
index Si richiede di indicizzare la pagina
follow seguire tutti i link
noodp non mostra la descrizione di DMOZ
noydir non mostra la descrizione di ydir (non esiste più la Yahoo
directory)
Meta
robots
22. Tabella Altri Valori Meta Robots
Valori Azione
noarchive non mostrare un link "Copia cache" nei risultati di ricerca
(meglio usare l'intestazione HTTP)
nosnippet non mostrare uno snippet (meta description) nei risultati di
ricerca per questa pagina
notranslate non proporre la traduzione della pagina nei risultati di
ricerca
noimageindex non proporre la traduzione della pagina nei risultati di
ricerca
unavailable_after: [RFC-850
date/time]
rimuove dall’indice dopo [data]
Meta
robots
23. Meta robots espressioni
<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta name="googlebot-news" content="noindex">
<meta name="googlebot-image,bingbot" content="nosnippet">
NB: i meta robots non sono ‘case sensitive’
Specificato regola
per ‘tutti’ robots
Separando con una virgola puoi inserire
più di un valore
Specificato regola
per robots specifico
Meta
robots
24. X-robots
• Funziona simile ai meta robots ma viene letto tramite l’intestazione
HTTP
• Usano valori uguali ai meta robots
• Sì possono inserire usando php o tramite .htaccess e httpd.conf
• Vantaggio è che si possono usare per bloccare tipi di file che non
puoi con i meta robots (file non HTML) a livello globale
X-robots
25. X-robots tramite php
Esempi:
Se vuoi bloccare il motore di ricerca da un file creato in php, inserisci
questo tag nel header file:
1. header("X-Robots-Tag: noindex", true);
O forse vuoi prevenire che i robots seguono i link anche:
2. header("X-Robots-Tag: noindex, nofollow", true);
X-robots
26. X-robots tramite .htaccess
Esempi:
Se vuoi bloccare il motore di ricerca da tutti i file .pdf, inserisci questo
tag nel header file:
<FilesMatch ".pdf$">
Header set X-Robots-Tag “noindex, nofollow"
</FilesMatch>
X-robots