SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol

15/09/2016
Robots Exclusion
Protocol

Di cosa parleremo
Definizioni Robots.txt
Meta
robots
X-robots Errori Altro Domande

Crawling
Accedere alle URL per scaricarne il contenuto senza
processarlo
Definizioni

Indicizzazione
Processare il contenuto recuperato dal crawler e salvarlo in
un archivio creando un indice
Definizioni

Perché dobbiamo creare un robots.txt file?
Lo spider è molto goloso…ma non tutte le pagine sono utili ed
informative
Definizioni

Perché dobbiamo creare un robots.txt file?
Lo spider dedica risorse limitate per ogni sito (crawl budget), meglio
concentrare gli sforzi verso pagine utili
Definizioni

Accedendo ad un sito lo spider si fa delle domande
?
1. Quali risorse posso leggere?
2. Cosa posso farci?
3. Quali link posso seguire?
4. Cosa posso mostrare nelle SERP?
Definizioni

Cos’è il robots.txt file
Definizione
Il file robots.txt contiene delle regole
utilizzate dai crawler per applicare
restrizioni di analisi e indicizzazione
sulle pagine di un sito internet.
Robots.txt

Come impostare il robots.txt file
 Il robots.txt file risiede sempre nel
root folder del tuo sito:
http://domain.com/robots.txt
 Crea un text file semplice usando il
Blocco note o Textedit Apple OS
 Appena salvato lo puoi caricare al
‘root folder’ del tuo sito tramite il
cPanel o FTP client
Robots.txt

Comandi robots.txt file
User-agent: *
Disallow: /random/
Allow: /
Robots.txt

Bloccare robots specifici robots.txt file
user-agent: *
Disallow: /
user-agent: googlebot-news
Disallow: /
user-agent: googlebot
Disallow: /
user-agent: bingbot
Disallow: /
User-agent: ia_archiver
Disallow: /
Robots.txt

Wildcard matching robots.txt file
1.* carattere jolly indica 0 o più istanze di un valore valido
2.$ indica la fine dell'URL
Esempio:
User-agent: *
Disallow: /*?
Disallow: /*.php$
Robots.txt

Sitemap: [URL Sitemap XML]
Sitemap: http://example.com/sitemap.xml
Robots.txt

Ordine di precedenza
Robots.txt

Robots.txt tester
• Se vuoi controllare che la
sintassi che hai scritto nel
robots.txt sia fatto
correttamente ci sono
diversi tester a disposizione
ma la migliore e da usare e
sempre quello di Google
Robots.txt

Robots.txt tester
Risorsa
Link esterni
User-agent: *
Disallow: /risorsa/
Link interni
Ricordati che se
blocchi una pagina
in robots.txt non
può passare
autorità al resto
del sito.
Robots.txt

Altre cose da considerare
• Bloccare il crawling di una URL non significa
che non sarà indicizzata
• Comportamento 4xx (errori client) e 5xx (errore del
server)
• Sempre sul root domain ma anche sul dominio di terzo
livello:
- http://root.com/robots.txt (primo livello)
- http://subdomain.root.com/robots.txt (terzo livello)
• Bloccare parametri tramite parametri URL del Google
Search Console
• Spazi nella URL non saranno rispettati /category/
/product page
• User-agent: msnbot
Crawl-delay: 5
Robots.txt

Il REP prevede anche istruzioni che danno una
maggiore granularità alle direttive
Possono essere espresse nel doc HTML
<meta name="robots content="noindex">
Oppure con un header HTTP
X-Robots-Tag: noindex
Meta
robots
X-robots

Meta robots
• Meta robots inseriti in pagina nel <head> del documento HTML
• Danno istruzioni ai robots per come comportarsi quando arrivano
alla pagina dove il codice meta robots e presente
• Funzionano bene per il noindex
Meta
robots

Tabella Valori Meta Robots
Valori Azione
noindex rimuove/non inserisce nell’indice
nofollow non segue i link
index Si richiede di indicizzare la pagina
follow seguire tutti i link
noodp non mostra la descrizione di DMOZ
noydir non mostra la descrizione di ydir (non esiste più la Yahoo
directory)
Meta
robots

Tabella Altri Valori Meta Robots
Valori Azione
noarchive non mostrare un link "Copia cache" nei risultati di ricerca
(meglio usare l'intestazione HTTP)
nosnippet non mostrare uno snippet (meta description) nei risultati di
ricerca per questa pagina
notranslate non proporre la traduzione della pagina nei risultati di
ricerca
noimageindex non proporre la traduzione della pagina nei risultati di
ricerca
unavailable_after: [RFC-850
date/time]
rimuove dall’indice dopo [data]
Meta
robots

Meta robots espressioni
<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta name="googlebot-news" content="noindex">
<meta name="googlebot-image,bingbot" content="nosnippet">
NB: i meta robots non sono ‘case sensitive’
Specificato regola
per ‘tutti’ robots
Separando con una virgola puoi inserire
più di un valore
Specificato regola
per robots specifico
Meta
robots

X-robots
• Funziona simile ai meta robots ma viene letto tramite l’intestazione
HTTP
• Usano valori uguali ai meta robots
• Sì possono inserire usando php o tramite .htaccess e httpd.conf
• Vantaggio è che si possono usare per bloccare tipi di file che non
puoi con i meta robots (file non HTML) a livello globale
X-robots

X-robots tramite php
Esempi:
Se vuoi bloccare il motore di ricerca da un file creato in php, inserisci
questo tag nel header file:
1. header("X-Robots-Tag: noindex", true);
O forse vuoi prevenire che i robots seguono i link anche:
2. header("X-Robots-Tag: noindex, nofollow", true);
X-robots

X-robots tramite .htaccess
Esempi:
Se vuoi bloccare il motore di ricerca da tutti i file .pdf, inserisci questo
tag nel header file:
<FilesMatch ".pdf$">
Header set X-Robots-Tag “noindex, nofollow"
</FilesMatch>
X-robots

Errori comuni
User-agent: *
Disallow: /
Errori

Errori comuni
<meta="robots" content="index, follow">
Errori

Errori comuni
User-agent: *
Disallow: /images/
Errori

Errori comuni
User-agent: *
Disallow: /passwords.txt
Errori

Risorse
• https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=it
• https://yoast.com/ultimate-guide-robots-txt/
• https://moz.com/learn/seo/robotstxt
• https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
• https://yoast.com/x-robots-tag-play/
Altro

Robin Armit
SEO Consultant Reprise Media
LinkedIn - https://www.linkedin.com/in/robin-armit-56663462
Twitter - @armit_robin
Domande

SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (19)

Similar to SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol

Similar to SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol (20)

SEMrush WebStudy Marathon - SEO Tecnico - Robots Exclusion Protocol