Qu’est-ce que la désindexation ?
La désindexation consiste à désindexer certaines pages web d’un site internet, c’est-à-dire retirer ces pages des index des moteurs de recherche. Le but est de ne plus les voir apparaître dans les résultats de recherche, par exemple parce que le contenu est de mauvaise qualité, inutile ou à revoir. Il s’agit d’une technique SEO connue de tous les webmasters et appréciée des moteurs de recherche. Elle oblige le webmaster à faire le tri dans son site internet, revoir quel contenu mérite d’apparaître sur les SERPs et quel contenu peut être désindexé, sans toutefois le supprimer. Ainsi, les résultats des recherches effectuées par les internautes n’en sont que plus pertinentes et de meilleure qualité. Jusqu’à l’arrivée de la mise à jour Panda de Google en 2011, désindexer une page web n’était pas une pratique courante. Mais Panda a changé la manière de percevoir le SEO et les pratiques qui allaient avec. En effet, l’algorithme de Google Panda sanctionne les contenus de mauvaise qualité, les pages dupliquées et les textes sans valeur ajoutée bourrés de mots-clés créés dans le seul but d’augmenter le trafic, dont les textes générés automatiquement.
À quoi sert la désindexation ?
Le but de la désindexation est d’améliorer le référencement d’un site internet en n’en faisant indexer que le contenu le plus utile. Ainsi, le budget d’exploration (budget crawl) est optimisé et les crawlers se concentrent directement sur le meilleur contenu. La désindexation permet aussi d’éviter des sanctions sur Google. Google Panda fonctionne constamment et sanctionne les contenus considérés de mauvaise qualité. Ces sanctions peuvent aller d’un déclassement sur certaines requêtes et mots-clés au blacklistage de tout un site internet. En faisant en sorte de désindexer certaines pages susceptibles d’être sanctionnées soi-même, on sécurise le site internet.
Quelles pages désindexer sur votre site internet ?
Vous vous demandez peut-être quelles pages désindexer sur votre site internet. En effet, la plupart des webmasters font aujourd’hui attention à la qualité du contenu publié. Pourtant, il sera utile pour améliorer le référencement de votre site internet d’en désindexer certaines pages n’ayant pas besoin d’apparaître sur les SERPs des moteurs de recherche.
Les pages de résultats
Sur un site de grande taille ou un blog, on propose généralement un outil pour faire une recherche en interne, comme une barre de recherche à côté du menu. Lancer une recherche envoie alors sur une page présentant les différents résultats obtenus. Mais ces pages ne présentent aucune utilité pour un moteur de recherche et ne doivent pas apparaître sur les SERPs. Il faut donc les désindexer.
Les formulaires
Les pages contenant des formulaires n’apportent traditionnellement aucune valeur d’un point de vue SEO, surtout si elles ne possèdent rien d’autre qu’un formulaire à remplir. Il vaut mieux les désindexer, cela permettra d’améliorer votre budget d’exploration.
Les PDFs
Les fichiers PDFs présents sur votre site peuvent être désindexés, notamment si leur contenu est déjà présent sur une autre page en HTML.
Les pages éphémères ou obsolètes
Certaines pages peuvent présenter du contenu qui n’a plus lieu d’être montré ou qui n’auront qu’un intérêt temporaire. Si vous souhaitez garder, vous devriez tout de même les désindexer.
Les pages avec du contenu spinné
La rotation de contenu, appelé en anglais content spinning, consiste à créer une certaine quantité de textes uniques à partir d’un texte original en utilisant un logiciel. Le but est de faire croire aux moteurs de recherche qu’il s’agit de contenu original. Toutefois, la qualité des textes créés n’est pas toujours bonne. À moins d’être passé par une agence professionnelle, il vaut mieux les désindexer. Car si le taux de similarité est trop élevé, Google Panda risque de s’en apercevoir et de sanctionner les pages.
Les pages avec du contenu dupliqué
Le contenu dupliqué nuit grandement au référencement d’un site internet. Il peut s’agir de contenu dupliqué en interne, comme 2 pages d’un même site présentant le même contenu, ou du contenu copié d’un autre site internet. Si vous possédez du contenu dupliqué, il est fortement recommandé de le désindexer au plus vite pour ne pas vous faire sanctionner.
Comment désindexer une page web ?
Pour désindexer une page internet, la directive Noindex est le choix le plus judicieux. Elle indique aux crawlers quelles pages ne pas indexer. On l’utilisait dans le fichier robots.txt mais depuis 2019, Google ne prend plus en charge Noindex dans ce fichier. On préfèrera aujourd’hui de placer une balise meta Robots dans l’en-tête des pages à désindexer. La balise est la suivante : – meta name= »robots » content= »noindex » -. On peut choisir de cibler un seul moteur de recherche en changeant la valeur « name » selon vos besoins. Il existe aussi une directive à placer dans un en-tête HTTP, à configurer sur son serveur. La commande est « Robots-Tag: noindex ». Cette directive est utilisée pour les contenus qui ne sont pas en HTML, les PDFs par exemple.