Dans un effort pour faire pression en faveur d’une norme officielle pour les robots d’exploration (crawlers) Web, Google a rendu open source sa bibliothèque robots.txt d’analyse et de rapprochement avec l’espoir que les développeurs Web seront bientôt en mesure de s’entendre sur une norme pour la façon dont les crawlers Web fonctionnent en ligne.

La bibliothèque C++ est responsable de l’alimentation du propre moteur de recherche Googlebot de l’entreprise qui est utilisé pour l’indexation des sites Web en conformité avec le protocole d’exclusion des robots (REP). Grâce à REP, les propriétaires de sites Web peuvent dicter le comportement des robots d’indexation qui visitent leurs sites pour les indexer. À l’aide d’un fichier texte appelé robots.txt, les robots d’exploration Web tels que Googlebot savent quelles ressources du site Web peuvent être visitées et lesquelles peuvent être indexées.

Les règles REP ont été rédigées par le créateur du premier moteur de recherche, Martijn Koster, il y a 25 ans et depuis lors, REP a été largement adopté par les éditeurs Web, mais n’est jamais devenu une norme officielle sur Internet. Google cherche à changer cela et espère le faire en rendant l’analyseur utilisé pour décoder son fichier robots.txt open source.

Dans un billet de blog, Henner Zeller, Lizzi Harvey et Gary Illyes ont expliqué comment le fait que REP qui n’est pas une norme officielle de l’Internet a conduit à la confusion sur la façon de l’appliquer parmi les développeurs Web, en mentionnant : « Le REP n’a jamais été transformé en une norme Internet officielle, ce qui signifie que les développeurs ont interprété le protocole quelque peu différemment au fil des ans. Et depuis sa création, le REP n’a pas été mis à jour pour couvrir les cas d’utilisation d’aujourd’hui. C’est un problème difficile à résoudre pour les propriétaires de sites Web parce que la norme ambiguë de facto rendait difficile la rédaction correcte des règles ».

Faire du REP une norme

Pour aider à rendre les implémentations REP plus cohérentes à travers le Web, Google fait maintenant pression pour faire du REP une norme de l’Internet Engineering Task Force, et le géant de la recherche a même publié un projet de proposition pour aider ses efforts.

Le brouillon du projet propose d’étendre le fichier robots.txt de HTTP à n’importe quel protocole de transfert basé sur l’URI (comme le FTP et le CoAP), exigeant que les développeurs analysent au moins 500 ko d’un fichier robots.txt et un nouveau temps maximum de mise en cache de 24 heures.

« RFC signifie Request for Comments, et nous le pensons vraiment : nous avons téléchargé le projet vers l’IETF pour obtenir les réactions des développeurs qui se soucient des éléments de base de l’Internet. Alors que nous nous efforçons de donner aux créateurs Web les contrôles dont ils ont besoin pour nous dire combien d’informations ils veulent mettre à la disposition de Googlebot, et par extension, éligible pour apparaître dans Recherche, nous devons nous assurer que nous faisons bien cela », ont ajouté Zeller, Harvey et Illyes.

Google Find Hub : Ne perdez plus rien (ni personne) avec la nouvelle super-app !

Opera Android : Dites adieu au chaos des onglets avec Tab Islands !

Enfin ! Le formatage de texte enrichi arrive sur la version Web de Google Keep

Nouveau logo Google : Le « G » change de couleur (subtilement) !

Test de la Canon Selphy QX20 : L’imprimante photo ultime pour votre smartphone

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

WhatsApp : L’IA pour résumer vos conversations sans lire ! Magique ou intrusif ?

Gemini au poignet ! L’IA de Google débarque sur votre montre Wear OS

Un milliard de RCS par jour aux États-Unis ! Le SMS est-il mort ?

Galaxy Z Flip 7 : Le pliable de rêve arrive en juillet ! Écran géant, IA…

DJI Mavic 4 Pro : Le drone ultime pour les pros arrive en Europe !

500 Hz ! Le premier écran OLED gaming Odyssey OLED G6 de Samsung va vous bluffer

OpenAI en bourse ? La délicate équation avec Microsoft

Votre Spotify boosté ! Nouvelle file d’attente, Snooze, IA… Le rêve des mélomanes ?

Figma devient surpuissant ! Sites Web, code IA, marketing : l’écosystème ultime ?

Le futur du code, c’est l’IA ? La vision choc de Mark Zuckerberg

Apple & Anthropic : L’IA Claude arrive dans Xcode pour coder à votre place ?

Cursor : Une erreur d’IA provoque une fuite massive d’utilisateurs

Découvrez l’appli Meta AI : Le concurrent discret de ChatGPT se dévoile

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

Google veut rendre open source les robots d’indexation Web

Faire du REP une norme

La Fossil Sport 2 pourrait être la prochaine smartwatch Wear OS de la marque

La Galaxy Watch 2 lancée avec le Galaxy Note 10 ? L’invitation le suggère

The author Yohann Poiron

Google veut rendre open source les robots d’indexation Web

Faire du REP une norme

The author Yohann Poiron

vous pourriez aussi aimer