Qu’est-ce que le Noindex ?
Noindex est une instruction utilisée en SEO qui bloque l’indexation d’un site internet ou d’une page spécifique sur les moteurs de recherche par les robots d’exploration. Elle peut être présente dans la balise meta Robots, un en-tête HTTP sur un serveur ou le fichier robots.txt. Le fonctionnement d’un crawler est simple : lorsqu’il arrive sur une page, il suit les différents liens et ajoute les URL à son index. Noindex permet d’empêcher l’indexation de certaines pages qui pourraient nuire au référencement naturel d’un site internet. Tous les composants de la page, tels que les métadonnées et le contenu, ne sont pas pris en compte par les robots. La page est entièrement ignorée.
Quelle est l’utilité du Noindex ?
L’instruction Noindex peut être utilisée pour plusieurs raisons telles que :
- garantir la discrétion du contenu d’une page ou d’un document ;
- ne pas indexer une page qui n’a pas d’intérêt à l’être ;
- optimiser le budget d’exploration.
Quelles pages peuvent être concernées par l’instruction Noindex ?
Il peut être nécessaire d’utiliser Noindex sur certaines pages de votre site internet n’ayant pas d’intérêt à être visibles sur les SERP d’un moteur de recherche.
Les pages peu utiles à faire apparaître dans les SERP
Certaines pages, comme celles concernant les conditions générales d’utilisation ou de vente ou les pages de type « mon compte », n’ont pas d’intérêt particulier à être indexé.
Les pages manquant de contenu
Certaines pages sont peut-être en cours de construction, d’autres présentes des informations obsolètes. Si ces pages sont indexées, elles peuvent nuire au référencement naturel de votre site internet et entraîner une perte de trafic. Le manque de contenu peut en effet être pénalisé par Google ou d’autres moteurs de recherche.
Les pages possédant du duplicate content
Le contenu dupliqué est particulièrement néfaste pour le référencement de votre site. Non seulement il peut être pénalisé, mais du budget d’exploration est gaspillé.
Les documents PDF
Il peut être judicieux d’utiliser Noindex sur les pages en PDF. Déjà parce que les documents peuvent avoir du contenu déjà présent sur le site (duplicate content). Ensuite parce que cliquer directement sur l’URL d’un PDF sans ouvrir de page réduit le trafic du site et peut affecter le classement dans les moteurs de recherche.
Différences entre Noindex et Nofollow
Noindex et Nofollow sont deux attributs bloquant les crawlers de deux manières différentes. Si Noindex bloque l’indexation d’une page sur les moteurs de recherche, Nofollow empêche les robots d’indexation de voyager à travers un lien. L’URL du lien en question peut par contre toujours être indexé. Il est possible de désindexer une page, mais de laisser les robots suivre les liens présents avec – meta name= « robots » content= « noindex, follow » – ou de ne pas les suivre avec – meta name= « robots » content= « noindex, nofollow » -.
Comment utiliser Noindex ?
Il existe deux moyens de désindexer une page de votre site internet :
- via la balise meta Robots ;
- dans l’en-tête HTTP X-Robots-tag.
Les deux méthodes donnent le même résultat. Il suffit de choisir celle qui vous convient le mieux.
Via la balise meta Robots
La balise meta Robots est présente dans le -head- de votre site. La balise à utiliser est la suivante : – meta name= »robots » content= »noindex » -. Il est possible de cibler un moteur de recherche particulier en changeant la valeur « name » selon vos besoins. Pour bloquer les robots de Google, il suffit d’écrire – meta name= »googlebot » content= »noindex » -.
Dans l’en-tête HTTP X-Robots-tag
Un en-tête HTTP se crée dans les fichiers de configuration de votre serveur. On ajoute alors la commande suivante : X-Robots-Tag: noindex.
Même si certains webmasters utilisent encore Noindex dans le fichier robots.txt, cette pratique ne fait pas partie des standards de Google. Depuis 2019, le moteur de recherche ignore la commande lorsqu’elle est présente sur ce fichier.