Que veut dire Disallow ?
Disallow signifie refuser en français. En référencement SEO, il s’agit d’une directive utilisée dans le fichier robots.txt pour indiquer aux crawlers des moteurs de recherche, comme Google et Bing, que certaines pages d’un site internet ne sont pas à explorer. Le fichier robots.txt permet en effet de donner des directives aux robots d’exploration. C’est un outil essentiel dans le domaine du SEO. Lorsque les robots des moteurs de recherche arrivent sur un site, ils tiennent en général compte du fichier robots.txt et des directives données par les développeurs web à l’intérieur. Disallow permet alors d’interdire à ces moteurs de recherche d’explorer une partie du contenu présent sur le site internet, qu’il s’agisse d’une seule page ou d’un dossier, voire de tout un répertoire ou site internet. La directive Allow est quant à elle utilisée à l’intérieur de la directive Disallow pour permettre aux robots des moteurs de recherche d’explorer une partie du contenu non autorisé, comme une URL unique, mais seuls les crawlers de Google comprennent cette directive. À noter que comme toutes les commandes du fichier robots.txt, Disallow n’est qu’une requête. Elle ne peut empêcher les crawlers malveillants d’explorer un site.
À quoi sert Disallow ?
Utiliser la commande Disallow permet d’interdire l’exploration de certaines pages n’ayant aucun intérêt de l’être dans le cadre d’une stratégie de référencement SEO, en complément d’autres directives comme Nofollow et Noindex. Le but est d’économiser du budget d’exploration pour le contenu nécessitant d’être exploré. On interdira par exemple l’exploration pour des pages comme :
- les pages d’administration d’un CMS comme WordPress ;
- les différents dossiers propres au fonctionnement d’un CMS ;
- les pages de type compte ou ouverture de session ;
- certaines pages ne recevant aucun lien entrant.
Différences entre Disallow et Noindex
Toutefois, la commande Disallow n’interdit pas l’indexation. Elle ne sert qu’à empêcher l’exploration. C’est-à-dire que les robots d’exploration ne pourront ni lire le contenu des pages citées ni suivre les liens présents sur ces pages. Mais ils pourront les indexer sans les avoir visitées. Les pages en Disallow peuvent donc apparaître sur une SERP. Sur Google, on y trouvera alors la mention « Aucune information n’est disponible pour cette page » sous l’URL. Pour interdire certaines pages d’être indexées, il faut utiliser la commande Noindex. Il est préférable de l’utiliser directement dans l’entête des pages à interdire, car Google ignore la commande lorsqu’elle est dans le fichier robots.txt depuis 2019. Quant à la commande Nofollow, elle est utilisée pour empêcher les liens d’une page d’être suivis. Là aussi, il est recommandé d’utiliser Nofollow directement dans les liens concernés et non dans le fichier robots.txt depuis 2019.
Comment utiliser la directive Disallow ?
Pour utiliser la directive Disallow, il suffit de la faire suivre par le chemin du contenu à interdire dans le fichier robots.txt. Plusieurs signes et règles permettent d’en affiner l’utilisation. Voici les principales formes utilisées pour Disallow.
Disallow :
Ne rien mettre derrière la commande signifie qu’il n’y a aucune restriction. Elle n’a donc aucune utilité.
Disallow : /
Ici, tout le contenu du site est interdit aux robots d’exploration. Les crawlers ignoreront complètement le site. Elle est généralement utiliser avec la commande Allow. Exemple :
Disallow : /
Allow : /site/Ici, le contenu du dossier appelé « site » pourra être exploré par Googlebot.
Disallow : catégorie
En mettant un mot derrière la directive Disallow, on interdit aux crawlers toutes les pages dont l’URL contient ce mot. Avec le mot « catégorie », on empêche l’exploration des pages comme https://www.monsite.com/catégorie/page.html.
Disallow : /personnel*/
En utilisant une astérisque, on empêche les sous-répertoires du dossier nommé « personnel » d’être exploré.
Disallow:/*.pdf
Cette directive empêche tous les documents et pages contenant l’extension « .pdf » d’être explorés. Exemple : https://www.monsite.com/blog/document.pdf mais aussi https://www.monsite.com/pdf/document.html.
Disallow : /*.gif$
Ici, le signe $ empêche l’exploration de tous les fichiers finissant par « .gif » et non tous les fichiers contenant la chaîne de caractères « gif ».