oct 23

Quelques précisions utiles sur le fichier robots.txt, ainsi que des erreurs et croyances très répandues.


On nous pose souvent ce genre de questions, et visiblement certaines erreurs sont classiques, vu les discussions circulant sur les forums.
La dernière vidéo de Matts Cutts sur le robots.txt, avant que ses collaborateurs ne lui mettent la boule à zéro - c’est dur de s’assumer comme leader chez Google ! - rappellent certains points importants, que je cite ci-dessous parmi d’autres que j’ai ajoutés :

  • Un seul fichier robots.txt à la racine du site/domaine (différent du htaccess qui peut aussi être ajouté dans un répertoire)
  • Disallow n’est pas synonyme de noindex
  • Ajouter Sitemap: http://www.example.com/sitemap.xml, bonne pratique, reconnue par les principaux moteurs pour que votre sitemap.xml soit facilement détecté
  • Attention au Disallow: / , couplé au User-agent: * cela peut créer un facteur bloquant majeur :) , ou pour parler plus directement entrainer une cata.!

Maintenant LA QUESTION :
Pourquoi une page interdite dans le fichier robots (ex. Disallow : page.php) peut quand même se retrouver dans l’index de Google? … et même en ayant ajouté dans le header ou la balise meta robots un joli noindex !?!

Tout simplement parce que Google et son bot (d’après Matt) sont d’une logique implacable. L’accès au bot étant bloqué par le disallow, il ne parcourra pas cette page et ne verra donc pas le noindex. Par contre il suffit qu’un autre site ou encore qu’une page de votre propre site fasse un lien vers cette page, et Google pourra l’inclure dans son index; en fonction bien sûr de la notoriété de la page effectuant ce lien. Dans ce cas vous ne verrez rien dans la description du snippet * sur les SERP (*) (équivalent à une instruction nosnippet) ou alors la description ODP si votre site figure dans Dmoz.org. (l’ajout de l’instruction noodp n’y changeant rien puisque l’accès au bot étant refusé, celui-ci n’a pas crawlé votre page !)
Si cela vous arrive, aucune raison de paniquer, car les outils pour webmasters de Google permettent la demande automatique de suppression d’urls.

Ceci semble bien logique, mais certains vous diront que les robots ne suivent pas toujours les instructions qui leurs sont données! Je viens notamment d’observer l’indexation par Bing d’une page taggée “noindex” (sans disallow dans le robots.txt :) ) et des collègues rapportent des problèmes avec Google sur l’instruction noarchive (i.e. pas de cache).

* voir lexique sur le référencement


Si vous venez de découvrir ce blog, lire en priorité l’article : Les principes de bases du référencement


 

Paradi-SEO logo

« Cliquer sur ce logo pour s’abonner au flux des nouveaux articles du Blog Paradi’SEO

 


promotion et referencement

Diffuser ce billet :

referencement twitter        referencement facebook       


Commentaires fermés.