Googlebot est le robot d’exploration du moteur de recherche de Google. C’est lui qui explore, lors d’un crawl, les pages web d’un site et indexe les documents (contenu de texte, images, vidéos et audio) qui correspondent à ses critères de pertinence. Le robot se déplace plus facilement grâce aux liens, maillage interne et externe du site. Quels sont les critères principaux pris en compte par Googlebot ? Quel est son principe de fonctionnement ? Et comment optimiser techniquement votre site pour faciliter son passage ?
Fonctionnement de Googlebot
Chaque moteur de recherche a un nom. Googlebot est le robot de Google, Bingbot est le robot de Bing et Slurp, celui de Yahoo. Pour chaque canal de Google, il existe un Googlebot qui se décline ainsi : robot de crawl pour Google news, robot pour Google Images, robot pour Google YouTube ou robot pour mobile. On parle également de spider. Un robot ne sait faire que deux choses :
- cliquer sur des liens internes et externes
- récupérer le code HTML des pages qu’il visite.
Le robot arrive sur votre page d’accueil et envoie le code HTML à Google qui les « digère » et les mets dans son index en fonction de leur pertinence. Il clique ensuite sur tous les liens de votre page d’où l’importance du maillage interne et de la nécessité de ne pas avoir de page 404 ! Le robot est une machine à clic et sauvegarde le code HTML des sources d’information. Googlebot crawle plus de 10 milliards de sites par jour. Un point important : Googlebot repère la mise à jour de vos pages. Plus vous les actualisez, plus il vient vous voir. Il décide de lui-même de sa fréquence de crawl. On ne peut pas vraiment lui dire à quelle fréquence il doit revenir visiter vos pages ! Il est en revanche possible d’accéder à toutes les informations et rapport de crawl du passage de Googlebot en utilisant la Search Console de Google. De plus, à chaque nouvelle URL et sitemaps XML créés, une demande d’indexation par Googlebot est fortement conseillée. En effet, le robot de Google n’est pas à même de savoir si vous avez mis à jour vos pages web. La Google Search Console est un outil indispensable pour obtenir un positionnement rapide de vos nouveaux contenus. Il suffit de demander une exploration en soumettant la nouvelle URL.
Les critères de pertinence dont raffole Googlebot
Les critères de pertinence dont raffole Googlebot sont multiples. Google interprète le web et analyse URL par URL. C’est d’ailleurs ce qui fait toute la richesse du référencement SEO.
Pour visiter et classer vos pages internet dans son index, Google accorde un budget crawl en fonction de chaque site. Il s’agit du nombre de pages(donc d’URL) que le robot peut parcourir en tenant compte de certains critères comme :
- la taille du site ;
- le maillage interne ;
- la vitesse et la performance générale du site (Core Web Vitals) ;
- la qualité et la mise à jour des contenus.
Blocage de Googlebot, est-ce possible ?
Oui, des facteurs négatifs peuvent bloquer ou rendre impossible le passage des robots sur votre site. Voici les plus importants :
- absence de fichier robots.txt ;
- balise no index ;
- contenu dupliqué ;
- structure des URL ;
- page d’erreur 404, 500 ;
- pages piratées ;
- absence de redirections 301 ;
- pages zombies et pages orphelines ;
- liens brisés ;
- backlinks de mauvaise qualité ou toxiques.
Optimiser l’exploration de votre site par Googlebot
Pour plaire à Googlebot et mettre toutes les chances de votre côté, il faut prioriser le contenu de qualité et exhaustif (metamots et entités nommées), éviter le contenu dupliqué et bourrage de mots-clés, réaliser des audits SEO de votre site pour vérifier que le site est techniquement crawlable par Googlebot. Pensez également à vérifier si votre sitemap est à jour. Contrôlez par ailleurs votre référencement vidéo et SEO local. Pour finir, l’optimisation mobile et l’UX experience (SXO) doivent être prises en considération, car elles sont de plus en plus mises en avant par les algorithmes de Google.
Tout cela vous semble compliqué ?