Avant même de commencer le travail SEO, notre attention d’experts SEO va se tourner vers une mesure fondamentale : le taux d’indexation de votre site, soit le volume de pages indexées dans Google pour ne citer que lui. Cette première étape est très révélatrice de la santé d’un site et la simple lecture des chiffres peut donner lieu à de premières conclusions.
Pour contrôler stratégiquement l’indexation de son site dans les moteurs de recherches, il faut également maîtriser son contraire : la désindexation de contenus. Cet équilibre entre indexation/désindexation permettra de prioriser les pages et catégories que l’on souhaite mettre en avant dans les résultats de recherche (SERPs).
Afin de valider les directives de désindexation qui fonctionnent, le site de test ananas-seo.com a été mis en œuvre chez Synodiance depuis mai 2014. L'objectif de ce site test a été pour nous de confronter et renforcer notre connaissance empirique acquise au quotidien sur plus d'une centaine de clients grâce à un test sur un environnement relativement bien maîtrisé.
Retrouvez dans ce document les conclusions de ce test.
2. Etude désindexation de contenus
Objectifs de l ’étude
› Identifier et tester les directives de désindexation et de blocage d’indexation,
› Optimiser l’exploration des bots – notion de « crawl utile »,
› Prioriser l’indexation des contenus stratégiques – pages objectifs.
Environnement de test
› Site dédié : ananas-seo.com
› Période analysée : de septembre à novembre 2014
› Moteur étudié : Googlebot
3. Site Test : ananas-seo.com
Informations à prendre en compte avant lecture des résultats
› ananas-seo.com a été créé spécialement pour un environnement de test,
› Le domaine et les contenus ont peu d’autorité côté moteur de recherche,
› Des sites à gros volume et forte popularité peuvent générer des résultats
sensiblement différents,
› Les directives testées ont donné lieu à des conclusions applicatives fiables et
non strictes.
4. Exploration VS Indexation
Directives d’exploration :
Par défaut, si aucune restriction n’est implémentée les
bots pourront accéder à l’ensemble des fichiers présents
sur le serveur web.
5. Exploration VS Indexation
Directives d’exploration :
Par défaut, si aucune restriction n’est implémentée les
bots pourront accéder à l’ensemble des fichiers présents
sur le serveur web.
Exemple d’une directive d’exploration dans le fichier robots.txt
Disallow: /voyages/
6. Exploration VS Indexation
Directives d’indexation :
Par défaut, si aucun paramètre oriente les bots lors de
l’exploration, tout contenu est potentiellement
indexable.
7. Exploration VS Indexation
Directives d’indexation :
Par défaut, si aucun paramètre oriente les bots lors de
l’exploration, tout contenu est potentiellement
indexable.
Exemple d’une directive d’indexation dans le <header> html d’un document.
<Meta name=«robots» content=«noindex» />
8. Test SEO : liste des directives testées
Objectifs du test : bloquer l’indexation et désindexer des contenus
Liste des directives testées sur ananas-seo.com
• Déclaration d’une URL en HTTP 404 liée dans la structure
• Déclaration d’une URL en HTTP 404 non-liée dans la structure
• Déclaration d’une URL en HTTP 410 liée dans la structure
• Déclaration d’une URL en HTTP 410 non-liée dans la structure
• Balise Meta Noindex en Header Document post indexation
• Balise Meta Noindex en Header Document post indexation + liens externes vers la cible url
• Balise Meta Noindex en Header Document à la mise en production
• Bloquer l’indexation via robots.txt à la mise en production : commande Disallow
• Désindexation via directive x-robots tags implémentée dans le fichier .htaccess
• Désindexation URL via noindex dans robots.txt
• Désindexation répertoire via noindex dans robots.txt
9. Désindexation « naturelle » :
En soit ce n’est pas vraiment une méthode. Sur une
période relativement longue et après plusieurs
explorations, une page qui reçoit un code réponse HTTP
404 se désindexe.
Attention : un document en 404 qui reçoit des liens
externes a tendance à être maintenu dans l’index,
surtout si les pages envoyant ces liens ont de l’autorité.
Déclaration d’une URL en 404 liée dans la
structure
URL désindexée : OUI
Délai constaté : 45 jours
10. Désindexation « naturelle » :
Similaire à une page 404 liée dans la structure, la
désindexation est effective dans un délai constaté un
peu plus long.
Attention : un document en 404 qui reçoit des liens
externes a tendance à être maintenu dans l’index,
surtout si les pages envoyant ces liens ont de l’autorité.
Déclaration d’une URL en 404 non-liée
dans la structure
URL désindexée : OUI
Délai constaté : 60 jours
11. Désindexation « naturelle » :
On constate le même comportement de désindexation
qu’une URL en HTTP 404.
A noter : initialement orientée désindexation, Google
communique sur la non distinction entre 404 et 410.
Déclaration d’une URL en 410 liée dans la
structure
URL désindexée : OUI
Délai constaté : 55 jours
https://support.google.com/webmasters/answer/2409439?hl=fr
12. Désindexation « naturelle » :
On constate le même comportement de désindexation
qu’une URL en HTTP 404.
A noter : initialement orienté désindexation, Google
communique sur la non distinction entre 404 et 410.
Déclaration d’une URL en 410 non-liée
dans la structure
URL désindexée : OUI
Délai constaté : 45 jours
https://support.google.com/webmasters/answer/2409439?hl=fr
13. Désindexation rapide :
Assez efficace cette directive permet une désindexation
rapide de contenus.
<Meta name=«robots» content=«noindex» />
Important : attention de ne pas bloquer dans le
robots.txt l’exploration des pages en Noindex. Cela
aurait pour effet la non prise en compte de la directive
de désindexation.
Implémenter le balisage Meta Noindex
après indexation
URL désindexée : OUI
Délai constaté : 15 jours
14. Désindexation rapide :
Assez efficace cette directive permet une désindexation
rapide de contenus.
<Meta name=«robots» content=«noindex» />
Important : sur un site d’autorité à forte popularité, un
contenu en noindex peut être plus difficile à désindexer
en raison du nombre de liens qu’il reçoit.
Implémenter le balisage Meta Noindex après
indexation sur une page qui reçoit du liens.
URL désindexée : OUI
Délai constaté : 20 jours
15. Pas d’indexation :
Intégrée dès la mise en production d’un document, la
directive empêche l’indexation.
<Meta name=«robots» content=«noindex» />
Implémenter le balisage Meta Noindex à
la mise en prod
URL non indexée : OUI
Délai constaté : none
16. Fonctionne dès la mise en production :
La directive d’exploration « Disallow » empêche
l’indexation d’un document uniquement si cette
dernière est intégrée à la mise en production.
Disallow: /ananas-poulet-riz-coco.php
Important : n’a aucune fonction de désindexation. Un
« disallow » est une directive d’exploration.
Bloquer l’indexation d’un contenu via le
fichier robots.txt
URL non indexée : OUI
Délai constaté : none
17. Le robot d’exploration analyse l’entête HTTP:
Directive très efficace et également intéressante quand
on souhaite gérer la désindexation sans modifier le
code source d’un contenu.
X-Robots-Tag: googlebot: noindex
A noter : le mode d’implémentation dépend du site
(volume de pages, architecture,…)
Désindexation via commande x-robots tag
URL désindexée : OUI
Délai constaté : 15 jours
18. Directive non officielle :
Google ne l’a jamais officialisée mais il sait l’interpréter.
Noindex: /ananas-roti-vanille.php
A noter : un site qui réalise 120 000 visites par mois a
un fichier robots.txt exploré en moyenne 40 fois par
jour. La directive, dans certains cas, peut être
intéressante.
Désindexation d’un document via noindex
dans le robots.txt
URL désindexée : OUI
Délai constaté : 15 jours
19. Directive non officielle :
Google ne l’a jamais officialisé mais il sait l’interpréter.
Noindex: /fruit/
A noter : un site qui réalise 120 000 visites par mois a
un fichier robots.txt exploré en moyenne 40 fois par
jour! La directive, dans certains cas, peut être
intéressante.
Désindexation d’un répertoire via noindex
dans le robots.txt
URL désindexée : OUI
Délai constaté : 25 jours
20. Synthèse
Désindexer « naturellement » un contenu via HTTP 404/410
› Fonctionne si les contenus ne reçoivent pas trop de maillage interne/externe
Bloquer l’indexation ou désindexer un contenu avec une Meta Noindex
› Fonctionne si les contenus sont accessibles par les robots d’exploration
Bloquer l’indexation ou désindexer un contenu X-robots tag Noindex
› Très efficace, plus technique, la directive est dans l’entête HTTP du document.
Désindexer un contenu avec directive Noindex dans le robots.txt
› Non officielle mais reconnue par les principaux robots d’exploration, peut être
utile selon les cas.