Qu’est-ce qu’un fichier robots.txt et quel est son rôle ?

Fichier d’indexation situé sur le serveur, à la racine d’un site web, robots.txt est un fichier au format texte destiné exclusivement aux crawlers (robots d’indexation des moteurs de recherche). Il leur indique quelles informations peuvent être indexées, en leur interdisant ou en leur autorisant l’accès à certaines pages et à certains répertoires.

On parle de protocole d’exclusion des robots, car le fichier est surtout utilisé pour ne pas permettre aux crawlers d’explorer un site ou une partie de site. L’idée est soit d’empêcher l’indexation d’une page qui n’a pas encore été indexée, soit d’empêcher que les robots d’indexation parcourent une page déjà indexée. Le fichier robots.txt n’a pas pour but de désindexer des pages. Son rôle est plutôt celui d’un management du temps de crawl des robots : certaines pages, comme le panier d’achat, sont en effet essentielles au parcours utilisateur, mais à faible valeur ajoutée pour le référencement d’un site.

Sur un site, les robots de recherche comme Googlebot explorent en premier lieu le fichier robots.txt. Lorsqu’il n’existe pas, ils continuent d’explorer et d’indexer l’ensemble du site, sans restriction (y compris les pages au contenu dupliqué, les pages d’erreur, les moteurs de recherche internes à un site, etc.).

L’importance du robots.txt pour le référencement

C’est l’exploration des contenus par les robots des moteurs de recherche qui permet le référencement d’un site web. L’optimisation du fichier robots.txt est essentielle puisqu’à travers lui, vous indiquez aux crawlers de Google, Bing ou Yahoo les contenus qu’il n’ont pas besoin d’explorer, car ils n’apporteront aucune valeur ajoutée aux résultats de recherche.

Dans une démarche SEO, l’utilisation du fichier robots.txt entre dans le cadre des optimisations techniques, par opposition aux optimisations sémantiques, par exemple. En rendant inaccessibles aux robots certaines pages, le fichier permet un crawl plus efficace et plus rapide du site. Le robot d’indexation va ainsi consacrer son exploration aux contenus qui ont un intérêt SEO plus grand. Dans le cas du Googlebot, on sait par ailleurs qu’un site peut être pénalisé par la présence de pages d’erreurs, de liens cassés ou encore de contenu dupliqué. En lui interdisant provisoirement ou durablement l’accès à ces contenus, il est ainsi possible de conserver un référencement optimal.

Comment s’utilise le fichier robots.txt ?

Robots.txt étant un fichier texte, il peut être créé facilement avec un simple éditeur de texte. Il doit être placé à la racine du site, en le glissant à l’emplacement prévu sur le serveur FTP (File Transfer Protocol). La visualisation du fichier peut se faire depuis un navigateur, en entrant l’URL du site suivie de /robots.txt, par exemple : https://www.nomdudomaine.fr/robots.txt. Des tests et mises à jour du fichier robots.txt peuvent être réalisés depuis la Google Search Console. Des règles de format et d’emplacement s’appliquent, ainsi qu’une syntaxe spécifique.

Règles de format du robots.txt

Quelques règles de bases sont à retenir concernant le format et l’emplacement du fichier robots.txt :

  • Le fichier ne doit pas être placé dans un sous-répertoire
  • Il peut en revanche s’appliquer à un sous-domaine
  • Le nom du fichier doit toujours être écrit en lettres minuscules
  • Il ne faut pas oublier le « s » à « robots » et l’extension « txt » ne prend pas de « e »
  • Il ne peut y avoir qu’un seul fichier robots.txt par site

Syntaxe robots.txt à destination des crawlers

Le fichier txt créé à destination des robots d’indexation comprend généralement des directives sitemap, c’est-à-dire un plan de site qui répertorie les URLs disponibles pour l’indexation automatique et qui fournit des informations sur la fréquence et les dates de leurs dernières mises à jour, ainsi que sur la hiérarchie des adresses.

Le fichier robots.txt comprend ensuite des blocs d’instructions, respectivement composés de deux parties :

  • L’user-agent auquel les commandes s’adressent

Par exemple, chez Google, il peut s’agir de du robot d’exploration Googlebot, de Googlebot-Image ou de Googlebot-Video. Pour cibler le crawler de Microsoft, il faudra spécifier Bingbot.

  • Les contraintes que le crawler doit respecter : allow ou disallow

Allow autorise l’accès aux robots, disallow le leur interdit. Pour chaque commande, est spécifiée l’URL ou le répertoire concerné, par exemple : disallow: /répertoire/*

Quels contenus interdire aux bots pour optimiser son référencement ?

Il est préférable de ne pas laisser les robots explorer les pages en construction ou les pages dont vous êtes en train d’actualiser le contenu. De même pour les pages dupliquées, parfois nombreuses sur WordPress : la page originale pourrait perdre des positions dans les SERPs.

Toutes les pages qui sont considérées comme non importantes d’un point de vue SEO peuvent faire l’objet d’un protocole d’exclusion des robots explorateurs, dans le but d’optimiser le budget de crawl de votre site, c’est-à-dire le niveau d’attention que le moteur de recherche accorde à votre site. À défaut d’optimiser ce paramètre, l’exploration est moins efficace et le référencement naturel du site en pâtit. Il faut savoir que le budget de crawl est accordé par le moteur de recherche à un site en fonction de deux critères principaux : le taux limite de crawl, c’est-à-dire le nombre limite de pages à explorer simultanément ; et la demande de crawl qui inclut la popularité du site et la fréquence de mise à jour de ses pages.

Les erreurs à éviter avec le fichier robots.txt

Des erreurs commises dans la création ou la mise à jour du fichier robots.txt peuvent influer sur les performances SEO de votre site. Parmi les plus courantes figurent :

  • Le changement d’URL du fichier txt, qui ne se situerait donc plus à la racine du site
  • Le renvoi à une page d’erreur (500 ou 404) de l’URL du robots.txt
  • L’écrasement du robots.txt par une directive disallow qui bloquerait l’ensemble du site (erreur qui peut arriver en préproduction)
  • L’insertion d’une ligne blanche dans un bloc d’instructions
  • Une erreur dans l’ordre des blocs de commandes
  • Une non-conformité d’encodage : robots.txt doit être enregistré sous l’encodage UTF-8
  • La perte du profit de backlinks du fait de l’interdiction d’accès du crawler à certaines pages

Outil puissant, le fichier robots.txt peut avoir un impact sur les performances SEO d’un site et doit donc être manipulé avec précaution. Il faut par ailleurs distinguer l’interdiction d’exploration de l’interdiction d’indexation : pour protéger du contenu sensible notamment, il faut parfois privilégier le meta tag noindex afin de bloquer l’indexation de la page. Même si des outils comme ceux la Search Console de Google offrent des fonctionnalités de test et de recommandations pour mettre à jour son robots.txt, faire appel à des professionnels du référencement permet d’éviter des erreurs à l’impact regrettable sur le SEO et de faire les bons choix en matière de balisage meta, de canonicalisation ou encore d’authentification http : autant d’outils qui permettent aussi d’éloigner certaines pages des moteurs de recherche.