Synodiance > SEO - Etude désindexation de contenus - 21/01/2015

Désindexation de contenus
Janvier 2015
Etude

Etude désindexation de contenus
Objectifs de l ’étude
› Identifier et tester les directives de désindexation et de blocage d’indexation,
› Optimiser l’exploration des bots – notion de « crawl utile »,
› Prioriser l’indexation des contenus stratégiques – pages objectifs.
Environnement de test
› Site dédié : ananas-seo.com
› Période analysée : de septembre à novembre 2014
› Moteur étudié : Googlebot

Site Test : ananas-seo.com
Informations à prendre en compte avant lecture des résultats
› ananas-seo.com a été créé spécialement pour un environnement de test,
› Le domaine et les contenus ont peu d’autorité côté moteur de recherche,
› Des sites à gros volume et forte popularité peuvent générer des résultats
sensiblement différents,
› Les directives testées ont donné lieu à des conclusions applicatives fiables et
non strictes.

Exploration VS Indexation
Directives d’exploration :
Par défaut, si aucune restriction n’est implémentée les
bots pourront accéder à l’ensemble des fichiers présents
sur le serveur web.

Directives d’exploration :
Par défaut, si aucune restriction n’est implémentée les
bots pourront accéder à l’ensemble des fichiers présents
sur le serveur web.
Exemple d’une directive d’exploration dans le fichier robots.txt
Disallow: /voyages/

Directives d’indexation :
Par défaut, si aucun paramètre oriente les bots lors de
l’exploration, tout contenu est potentiellement
indexable.

Directives d’indexation :
Par défaut, si aucun paramètre oriente les bots lors de
l’exploration, tout contenu est potentiellement
indexable.
Exemple d’une directive d’indexation dans le <header> html d’un document.
<Meta name=«robots» content=«noindex» />

Test SEO : liste des directives testées
Objectifs du test : bloquer l’indexation et désindexer des contenus
Liste des directives testées sur ananas-seo.com
• Déclaration d’une URL en HTTP 404 liée dans la structure
• Déclaration d’une URL en HTTP 404 non-liée dans la structure
• Déclaration d’une URL en HTTP 410 liée dans la structure
• Déclaration d’une URL en HTTP 410 non-liée dans la structure
• Balise Meta Noindex en Header Document post indexation
• Balise Meta Noindex en Header Document post indexation + liens externes vers la cible url
• Balise Meta Noindex en Header Document à la mise en production
• Bloquer l’indexation via robots.txt à la mise en production : commande Disallow
• Désindexation via directive x-robots tags implémentée dans le fichier .htaccess
• Désindexation URL via noindex dans robots.txt
• Désindexation répertoire via noindex dans robots.txt

Désindexation « naturelle » :
En soit ce n’est pas vraiment une méthode. Sur une
période relativement longue et après plusieurs
explorations, une page qui reçoit un code réponse HTTP
404 se désindexe.
Attention : un document en 404 qui reçoit des liens
externes a tendance à être maintenu dans l’index,
surtout si les pages envoyant ces liens ont de l’autorité.
Déclaration d’une URL en 404 liée dans la
structure
URL désindexée : OUI
Délai constaté : 45 jours

Similaire à une page 404 liée dans la structure, la
désindexation est effective dans un délai constaté un
peu plus long.
Attention : un document en 404 qui reçoit des liens
externes a tendance à être maintenu dans l’index,
surtout si les pages envoyant ces liens ont de l’autorité.
Déclaration d’une URL en 404 non-liée
dans la structure

On constate le même comportement de désindexation
qu’une URL en HTTP 404.
A noter : initialement orientée désindexation, Google
communique sur la non distinction entre 404 et 410.
Déclaration d’une URL en 410 liée dans la
structure
https://support.google.com/webmasters/answer/2409439?hl=fr

On constate le même comportement de désindexation
qu’une URL en HTTP 404.
A noter : initialement orienté désindexation, Google
communique sur la non distinction entre 404 et 410.
Déclaration d’une URL en 410 non-liée
dans la structure
https://support.google.com/webmasters/answer/2409439?hl=fr

Désindexation rapide :
Assez efficace cette directive permet une désindexation
rapide de contenus.
Important : attention de ne pas bloquer dans le
robots.txt l’exploration des pages en Noindex. Cela
aurait pour effet la non prise en compte de la directive
de désindexation.
Implémenter le balisage Meta Noindex
après indexation

Désindexation rapide :
Assez efficace cette directive permet une désindexation
rapide de contenus.
Important : sur un site d’autorité à forte popularité, un
contenu en noindex peut être plus difficile à désindexer
en raison du nombre de liens qu’il reçoit.
Implémenter le balisage Meta Noindex après
indexation sur une page qui reçoit du liens.

Pas d’indexation :
Intégrée dès la mise en production d’un document, la
directive empêche l’indexation.
Implémenter le balisage Meta Noindex à
la mise en prod
URL non indexée : OUI
Délai constaté : none

Fonctionne dès la mise en production :
La directive d’exploration « Disallow » empêche
l’indexation d’un document uniquement si cette
dernière est intégrée à la mise en production.
Disallow: /ananas-poulet-riz-coco.php
Important : n’a aucune fonction de désindexation. Un
« disallow » est une directive d’exploration.
Bloquer l’indexation d’un contenu via le
fichier robots.txt
URL non indexée : OUI
Délai constaté : none

Le robot d’exploration analyse l’entête HTTP:
Directive très efficace et également intéressante quand
on souhaite gérer la désindexation sans modifier le
code source d’un contenu.
X-Robots-Tag: googlebot: noindex
A noter : le mode d’implémentation dépend du site
(volume de pages, architecture,…)
Désindexation via commande x-robots tag

Directive non officielle :
Google ne l’a jamais officialisée mais il sait l’interpréter.
Noindex: /ananas-roti-vanille.php
A noter : un site qui réalise 120 000 visites par mois a
un fichier robots.txt exploré en moyenne 40 fois par
jour. La directive, dans certains cas, peut être
intéressante.
Désindexation d’un document via noindex
dans le robots.txt

Directive non officielle :
Google ne l’a jamais officialisé mais il sait l’interpréter.
Noindex: /fruit/
A noter : un site qui réalise 120 000 visites par mois a
un fichier robots.txt exploré en moyenne 40 fois par
jour! La directive, dans certains cas, peut être
intéressante.
Désindexation d’un répertoire via noindex
dans le robots.txt

Synthèse
Désindexer « naturellement » un contenu via HTTP 404/410
› Fonctionne si les contenus ne reçoivent pas trop de maillage interne/externe
Bloquer l’indexation ou désindexer un contenu avec une Meta Noindex
› Fonctionne si les contenus sont accessibles par les robots d’exploration
Bloquer l’indexation ou désindexer un contenu X-robots tag Noindex
› Très efficace, plus technique, la directive est dans l’entête HTTP du document.
Désindexer un contenu avec directive Noindex dans le robots.txt
› Non officielle mais reconnue par les principaux robots d’exploration, peut être
utile selon les cas.

Synodiance > SEO - Etude désindexation de contenus - 21/01/2015

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (19)

Más de Search Foresight

Más de Search Foresight (20)

Synodiance > SEO - Etude désindexation de contenus - 21/01/2015