Qu’est-ce que le fichier robots.txt ?
Robots.txt est un fichier au format texte situé à la racine d’un site web, hébergé sur le serveur web. Il apparaît la plupart du temps à l’adresse www.nomdusite.com/robots.txt. Il est créé par le webmaster et donne des indications aux robots des moteurs de recherche sur les zones du site à explorer ou ne pas explorer, qu’il s’agisse des URL, dossiers ou fichiers contenus dans le site internet. Cela permet de garder le contrôle sur le trafic d’exploration du site et de ne pas saturer le serveur d’hébergement. Le fichier robots.txt indique aussi aux crawlers l’adresse du sitemap du site internet en question. Il ne peut en revanche pas forcer les robots à appliquer les instructions et peut être ignoré par un mauvais robot d’exploration. Il est important de noter que chaque sous-domaine d’un site internet doit contenir un fichier robots.txt.
Comment fonctionne le fichier robots.txt ?
Pour donner des consignes aux crawlers, le fichier robots.txt contient trois types d’informations : les user-agent (les robots ciblés), les adresses et dossiers concernés et les consignes, sous forme de commande (essentiellement Allow et Disallow). Il utilise 2 types de protocoles : le protocole d’exclusion des robots et le protocole Sitemaps. La commande « User-agent: * » indique par exemple que tous les robots sont concernés par les consignes. « User-agent: Googlebot » ne concerne que les crawlers de Google alors que « User-agent: Bingbot » donne des indications aux robots du moteur de recherche Bing. Il est possible d’avoir une série d’indications par type de robots suivant les consignes principales sous la forme « Allow: /dossier/fichier » ou « Disallow: /dossier ». La commande « Disallow » est la plus couramment utilisée. Pour indiquer que tout est explorable, il suffit d’écrire « Disallow: ». Et pour cacher tout un site internet, on indique « Disallow: / ».La commande « Crawl-delay » permet d’éviter de surcharger le serveur en indiquant le temps en millisecondes que les crawlers doivent attendre entre chaque requête. Google ne reconnaît pas cette commande, mais d’autres robots la suivent. « Sitemap : /adresse » indique l’emplacement du sitemap. Il existe d’autres consignes, comme noindex et nofollow, mais elles ne sont plus standards et ignorées par Google depuis 2019. Elles permettaient notamment d’empêcher les robots d’indexer certains dossiers ou de suivre certains liens. Le fichier robots.txt est le premier fichier téléchargé par les crawlers, ce qui leur permet de prendre note des consignes.
Comment créer le fichier robots.txt ?
Le fichier robots.txt peut être créer manuellement ou générer automatiquement.
Création manuelle du fichier robots.txt
Pour créer soi-même le fichier robots.txt de son site, il faut commencer par choisir un éditeur de texte de type bloc-notes utilisé pour taper du code. Quelques exemples de logiciels recommandés sont Sublime Text, Brackets, Atom et TextMate. La création du fichier doit respecter une syntaxe simple avec les indications suivantes :
- User-agent spécifie les crawlers ciblés ;
- Sitemap donne l’adresse du fichier sitemap ;
- Disallow indique quels fichiers et dossiers ne pas explorer ;
- Allow permet d’indiquer quels fichiers et dossiers peuvent être explorés à l’intérieur de la consigne Disallow.
Il ne faut indiquer qu’une seule directive par ligne et ne pas avoir de ligne vide. Le fichier ne doit pas dépasser 500 kio (1 kibioctet contient 1024 octets). Il doit être encodé en UTF-8. Les lignes doivent être séparées par saut de ligne (Line Feed) ou par retour chariot (Carriage Return en anglais).
Génération automatique du fichier robots.txt
La plupart des CMS, comme WordPress, Wix ou Drupal, peuvent générer automatiquement robots.txt, grâce à un plugin dédié au SEO. Les utilisateurs de WordPress peuvent par exemple générer le fichier avec le plugin Yoast SEO.
Tester son fichier robots.txt
Une fois le fichier créé, il faut être sûr qu’il fonctionne et qu’il ne contient aucune erreur. Pour cela un simple test suffit. La Search Console de Google en propose un. Il suffit d’aller dans Exploration » puis « Outil de test du fichier robots.txt » et « Tester ». Les potentielles erreurs contenues dans le fichier seront indiquées.