Qu’est-ce que la balise meta robots ?
La balise meta robots est une balise HTML située dans l’en-tête du code source d’une page internet (la partie « head »). Elle contient du code fournissant des informations aux robots des moteurs de recherche spécifiquement pour cette page. Elle se distingue donc du fichier robots.txt dont les directives concernent l’intégralité d’un site internet et peuvent ne pas être suivies. Cette balise est présente sur toutes les pages web.
Elle s’écrit simplement – meta name= »robots » content=« instruction » -.
À quoi sert la balise meta robots ?
L’utilité de la balise meta robots est double : indiquer aux crawlers des moteurs de recherche comme Googlebot quel contenu ne pas indexer et quels liens ils doivent pas suivre. Elle permet ainsi de contrôler l’activité des crawlers sur son site page par page.
La balise meta robots est utilisée en SEO pour optimiser le budget d’exploration (appelé budget crawl en anglais). Ce budget correspond au maximum de pages d’un site web qu’un robot d’indexation peut visiter en un certain temps. Ce budget étant limité, la balise meta robots indique aux moteurs de recherche ce qui n’a pas lieu d’être indexé pour que les pages les plus importantes soient vues.
Dans quels cas utiliser la balise meta robots ?
Les crawlers d’un moteur de recherche, appelés aussi robots d’indexation, se déplacent de site en site via les liens pour explorer et indexer les sites web et pour les proposer ensuite dans les résultats des SERP suite à une requête. Leur rôle est donc primordial pour la visibilité d’un site. Toutefois, certains types de contenu n’ont pas nécessairement besoin d’être indexés.
Les données confidentielles
Chaque site contient plus en moins d’informations confidentielles concernant le propriétaire du site ou ses visiteurs : adresses, numéros de téléphones, informations bancaires… Toutes ces données ne sont pas censées être indexées par Google, Bing ou tout autre moteur de recherche. La balise meta robots permet d’empêcher ces données de se retrouver à portée de tous.
Les pages en cours de création
Certaines pages d’un site peuvent être en cours de création pendant un moment. Ces pages non finalisées et incomplètes ne devraient pas être indexées par les crawlers, car cela pourrait leur nuire. Seules les pages dont le contenu a été parfaitement optimisé pour le SEO doivent être visitées par les crawlers.
Le contenu dupliqué
Le contenu dupliqué est à éviter à tout prix pour conserver un bon référencement sur les moteurs de recherche. Non seulement le contenu dupliqué est sanctionné par Google, il gaspille aussi du budget d’exploration. Si vous avez du contenu dupliqué sur votre site, il est vivement recommandé d’en empêcher l’exploration via la balise meta robots, à défaut de le supprimer définitivement.
Les pages spammées
Certaines pages peuvent avoir été visitées par des robots de spam. Ces derniers introduisent des liens, vers des logiciels malveillants par exemple, via les commentaires. Ils explorent le web de la même manière que les crawlers. On les retrouve souvent dans les forums, cibles privilégiées des spambots. Dans le cas où une page semblerait avoir été spammée, il est recommandé d’en empêcher l’indexation via la balise meta robots, le temps de résoudre le problème.
Les différentes directives de la balise meta robots
On trouve toute une série d’instructions ou valeurs, à insérer dans la balise meta robots, dont voici les principales :
- noindex demande aux robots des moteurs de recherche de ne pas indexer la page (elle peut toutefois être explorée) ;
- nofollow indique aux crawlers de ne pas suivre les liens présents sur une page ;
- all correspond à l’ensemble des instructions index et follow ;
- none correspond à l’ensemble des instructions noindex et nofollow ;
- nosnippet empêche Google d’afficher les snippets (titre, URL, méta-description) et les rich snippets d’une page dans les résultats de recherche ;
- max-snippet limite la longueur d’un snippet, comme une méta-description, exprimée en nombre de caractères.
- noarchive bloque l’accès aux versions caches d’une page pour qu’elles ne soient pas affichées par les moteurs de recherche ;
- notranslate empêche la traduction automatique du contenu d’une page par Google ;
- unavailable_after permet d’arrêter l’activité des crawlers après une date et heure choisies.
Les erreurs à ne pas commettre
Si l’utilisation de la balise meta robots est plutôt simple, il faut faire attention à ne pas commettre d’erreur pouvant nuire au référencement naturel d’un site. L’erreur la plus commune est de confondre l’instruction noindex avec la commande disallow du fichier robots.txt. Noindex empêche seulement l’indexation d’une page, pas son exploration. En utilisant noindex, on consomme du budget d’exploration. Une autre erreur que l’on retrouve parfois est de mal positionner la balise. Elle doit être dans le head d’une page, pas dans le body, même si elle peut potentiellement y être lue. Enfin, il faut bien faire attention aux erreurs de frappe, car chaque virgule compte.
Existe-t-il une alternative à la balise meta robots ?
Il existe toutefois une alternative à la balise meta robots : la directive X-robots-tag. Celle-ci peut être incluse dans l’en-tête HTTP d’un site web, via les fichiers htaccess et httpd.conf. Elle permet de contrôler l’indexation de ses pages avec plus de flexibilité que la balise meta robots. On peut l’utiliser pour empêcher l’indexation de fichiers non HTML, comme les vidéos, les photos, l’audio et les PDF. Les valeurs possibles pour X-robots-tag sont les mêmes que celles utilisées dans la balise meta robots.