logo premiere page
Temps de lecture : 5 min

Disallow

En bref

  • Disallow est une directive du fichier robots.txt qui empêche les moteurs de recherche d’explorer certaines pages ou dossiers d’un site.
  • Elle sert surtout à préserver le budget crawl en bloquant des pages sans intérêt SEO.
  • Attention : Disallow bloque le crawl, pas l’indexation → une page peut encore apparaître dans Google sans contenu.
  • Pour empêcher l’indexation, il faut utiliser noindex (via une balise meta ou un header HTTP).
  • Disallow est une recommandation, pas une protection : les crawlers malveillants peuvent l’ignorer !

Que veut dire Disallow ?

Disallow signifie refuser en français. En référencement SEO, il s’agit d’une directive utilisée dans le fichier robots.txt pour indiquer aux crawlers des moteurs de recherche, comme Google et Bing, que certaines pages d’un site internet ne sont pas à explorer. Le fichier robots.txt permet en effet de donner des directives aux robots d’exploration. C’est un outil essentiel dans le domaine du SEO. Lorsque les robots des moteurs de recherche arrivent sur un site, ils tiennent en général compte du fichier robots.txt et des directives données par les développeurs web à l’intérieur.

Disallow permet alors d’interdire à ces moteurs de recherche d’explorer une partie du contenu présent sur le site internet, qu’il s’agisse d’une seule page ou d’un dossier, voire de tout un répertoire ou site internet. La directive Allow est quant à elle utilisée à l’intérieur de la directive Disallow pour permettre aux robots des moteurs de recherche d’explorer une partie du contenu non autorisé, comme une URL unique, mais seuls les crawlers de Google comprennent cette directive.

À noter que comme toutes les commandes du fichier robots.txt, Disallow n’est qu’une requête. Elle ne peut empêcher les crawlers malveillants d’explorer un site.

À quoi sert Disallow ?

Utiliser la commande Disallow permet d’interdire l’exploration de certaines pages n’ayant aucun intérêt de l’être dans le cadre d’une stratégie de référencement SEO, en complément d’autres directives comme Nofollow et Noindex. Le but est d’économiser du budget d’exploration pour le contenu nécessitant d’être exploré. On interdira par exemple l’exploration pour des pages comme :

  • les pages d’administration d’un CMS comme WordPress ;
  • les différents dossiers propres au fonctionnement d’un CMS ;
  • les pages de type compte ou ouverture de session ;
  • certaines pages ne recevant aucun lien entrant.

Différences entre Disallow et Noindex

Toutefois, la commande Disallow n’interdit pas l’indexation. Elle ne sert qu’à empêcher l’exploration. C’est-à-dire que les robots d’exploration ne pourront ni lire le contenu des pages citées ni suivre les liens présents sur ces pages. Mais ils pourront les indexer sans les avoir visitées. Les pages en Disallow peuvent donc apparaître sur une SERP. Sur Google, on y trouvera alors la mention « Aucune information n’est disponible pour cette page » sous l’URL.

Pour interdire certaines pages d’être indexées, il faut utiliser la commande Noindex. Il est préférable de l’utiliser directement dans l’entête des pages à interdire, car Google ignore la commande lorsqu’elle est dans le fichier robots.txt depuis 2019. Quant à la commande Nofollow, elle est utilisée pour empêcher les liens d’une page d’être suivis. Là aussi, il est recommandé d’utiliser Nofollow directement dans les liens concernés et non dans le fichier robots.txt depuis 2019.

Comment utiliser la directive Disallow ?

Pour utiliser la directive Disallow, il suffit de la faire suivre par le chemin du contenu à interdire dans le fichier robots.txt. Plusieurs signes et règles permettent d’en affiner l’utilisation. Voici les principales formes utilisées pour Disallow.

Disallow :

Ne rien mettre derrière la commande signifie qu’il n’y a aucune restriction. Elle n’a donc aucune utilité.

Disallow : /

Ici, tout le contenu du site est interdit aux robots d’exploration. Les crawlers ignoreront complètement le site. Elle est généralement utiliser avec la commande Allow. Exemple :

Disallow : /

Allow : /site/Ici, le contenu du dossier appelé « site » pourra être exploré par Googlebot.

Disallow : catégorie

En mettant un mot derrière la directive Disallow, on interdit aux crawlers toutes les pages dont l’URL contient ce mot. Avec le mot « catégorie », on empêche l’exploration des pages comme https://www.monsite.com/catégorie/page.html.

Disallow : /personnel*/

En utilisant une astérisque, on empêche les sous-répertoires du dossier nommé « personnel » d’être exploré.

Disallow:/*.pdf

Cette directive empêche tous les documents et pages contenant l’extension « .pdf » d’être explorés. Exemple : https://www.monsite.com/blog/document.pdf mais aussi https://www.monsite.com/pdf/document.html.

Disallow : /*.gif$

Ici, le signe $ empêche l’exploration de tous les fichiers finissant par « .gif » et non tous les fichiers contenant la chaîne de caractères « gif ».

Et si notre histoire commençait par la Premiere.Page ?

Faisons le point

Vous souhaitez en savoir plus sur la mise en place d’une stratégie SEO ?

Jerome Tellechea
06 67 82 72 74
jerome ceo
cookies
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.