Rapide étude des fichiers robots.txt des moteurs de recherches internationaux

Un moyen pour lire et comprendre la gestion par un site internet, qu’il soit un navigateur ou un réseau social, des informations auxquelles ont accès les robots d’indexation de type Google chez nous, Baidu en Chine pu Yandex en Russie, c’est-à-dire à quelles informations ils nous donnent accès ou celles qu’ils nous refusent, est de lire le fichier robots.txt de chacun d’eux. Les fichiers robots.txt sont indexés, et accessibles, sinon je n’aurait pas trouvé tous ceux décrits ici.

Pour faire simple, afin qu’une information publiée sur un site internet soit accessible, il faut qu’elle soit connue par son robot d’indexation, et ensuite indexée. Que ce moteur de recherche s’appelle Bing, Google, Baidu ou autrement. La spécificité de Baidu étant qu’il est utilisé principalement en Chine. Afin de porter à la connaissance d’un moteur de recherche les pages d’un site, on lui envoie des consignes et ces consignes sont transmises grâce au fichier robots.txt. Un peu comme pour explorer un château fort, il faut que le gardien ait les clés, sinon personne ne rentre et personne ne sait ce qui se passe à l’intérieur.

Le premier sujet est que, à première vue, Baidu provoque des hits sur nos sites internet qui simulent de fausses visites et faussent les résultats d’analyse de trafic que nous fournit Google via Google Analytics. Pour peu que Google s’appuie sur ces données à grande échelle pour classer ses résultats de recherche, ce qui vraisemblablement est le cas (une visite de 0 seconde est une visite de faible qualité qui fait redescendre l’indice de qualité d’une page aussi appelé Pagerank). Il s’agit tout simplement d’un moyen de manipuler les résultats Google depuis l’étranger si mon analyse est juste, il faudrait pour le vérifier faire une étude à grande échelle. Plutôt que de hurler contre Google Analytics, posons leur la question.

Je ne suis pas la seule à être agacée par ces visites fantômes qui faussent mes statistiques, que j’ai donc décidé de bloquer en modifiant mon propre robots.txt.

Mon fichier robots.txt annonce dorénavant les lignes suivantes :

#Baiduspider

User-agent: Baiduspider

Disallow: /

Ce qui signifie que je refuse l’accès à Baiduspider, le robot Baidu, à tout mon répertoire, et que mon site ne trouvera plus sa place chez les personnes qui utilisent moteur de recherche Baidu.

J’ai en revanche supprimé par la suite de mon fichier le disallow qui concernait Yandex car des pages vues commençaient à arriver de Russie. La vue ressemble à un ping du genre de ce que faisait Baidu avant que je l’interdise, cependant le timing correspond à l’interdiction de Yandex de mon fichier robots.txt. Pour moi Baidu et Yandex travaillent de la même façon, mais séparément.

C’est en réalisant cette opération que je me suis mise à ouvrir par curiosité les fichiers robots.txt suivants :

https://www.baidu.com/robots.txt (moteur de recherche chinois)

https://www.tiktok.com/robots.txt (Réseau social tiktok)

https://yandex.com/robots.txt (moteur de recherche russe)

Ces fichiers sont une mine d’informations sur ce que ces sites internet souhaitent nous montrer mais aussi nous cacher en tant qu’utilisateurs, et à qui ils cachent quelle information. Les fichiers sont détaillés et mériteraient d’être étudiés en détail, mais une première analyse à la volée montre que :

Yandex a beaucoup de choses à cacher, ou alors ne sait pas faire simple.

Baidu ne sait pas rédiger un robots.txt, car toute une page de consignes se termine par les lignes

User-agent: *

Disallow: /

Qui ont la fonction de désindexer tout le site (/) de tous les moteurs de recherche (*). Soit la consigne ne fonctionne pas car j’ai accès à ce fichier dans les résultats Google, et surtout qui à mon sens rend inutile toute la page de robots.txt rédigée avant. C’est à vérifier dans le détail car l’ordre de priorité des consignes ou lignes du fichier n’est pas claire dans mon esprit et peut amener à une interprétation différente, qui serait de désindexer le site de tous les robots d’indexation non prévu au programme par les lignes précédentes.

Quant à Tiktok.com, lui, il refuse l’accès à ses pages à tous les robots d’indexation chinois :

User-agent: Baiduspider

User-agent: 360Spider

User-agent: Sogouspider

User-agent: Yisouspider

Disallow: /

Cela signifie à mes yeux que Tikok est interdit en Chine, au moins dans sa version « .com » que nous connaissons, je ne vois pas d’autre explication. Le Covid aussi était interdit en Chine d’ailleurs à ce qu’il me semble. D’ailleurs le site baidu.com est inaccessible depuis plusieurs jours, il faudrait vérifier que toute information n’est pas coupée là-bas, sauf s’il n’est inaccessible que depuis des IP chez nous, je ne sais pas.

Quant à celui de Google : https://www.google.fr/robots.txt

Il exclut beaucoup d’informations, mais cache les mêmes choses à tout le monde (User-agent: *) et ajoute des commentaires (signalés par # ) afin d’expliquer ses choix. C’est bien le seul à se donner cette peine.

La dernière chose qui m’inquiète, car je ne dispose que de deux sites et je n’ai pas pu tester suffisamment pour vérifier par la donnée ce que j’avance, c’est que celui de mes sites qui est ignoré par Google l’est aussi par Baidu dont je n’ai pas eu à le protéger. J’ai en horreur le copié collé, c’est mauvais signe.

Il reste probablement une mine d’informations à débusquer dans ces fichiers, une analyse qui demandera du temps et de compléter cette étude quand elle sera faite.

Mise à jour du 29/11/2023

Là où je suis vraiment furieuse, c’est contre les pitres qui ont modifié les extensions WordPress et rendu impossible la maitrise des accès de certains bots au contenu d’un site.

Le fichier Robots.txt malgré ma modification dans mon add-on Rank Math SEO, est écrasé et remis à zéro en autorisant tous les bots de crawl et d’indexation, alors que j’avais interdit Yandex et Baidu, et que @jambonbuzz nous explique avec brio comment interdire le Bot de ChatGPT de crawler son site pour ne pas se faire voler son contenu durement travaillé.

Il y a des bugs WordPress dont on se passerait, il y en a qu’il faut corriger d’urgence.

Et pour ce qui est de mon avis, Google Analytics est moins un problème que celui mentionné ici, parce que j’estime avoir le droit de savoir qui accède à mon contenu, tant que ces données sont anonymisées au maximum, et que ceux à qui j’interdis l’accès restent dehors.