fermer
Développement

Google peut maintenant indexer le contenu interactif d’une page Web

Google se nourrit de l’indexation de son moteur de recherche avec les données du site recueillies à partir d’une armée virtuelle de « bots », nommés GoogleBot, donc utilisés par le moteur de recherche Google afin de recenser et indexer les pages Web, qui écument ainsi chaque jour des milliards de pages Web. Mais, par le passé les robots d’indexation de Google se heurtaient à un mur dès qu’ils devaient parcourir du contenu interactif qui étaient chargé en JavaScript, surtout dès lors que ​​les pages usaient et abusaient de la technologie AJAX, Asynchronous JavaScript and XML, et ce dans le but de permettre aux utilisateurs d’accéder à du contenu supplémentaire sans avoir à recharger les pages.

Mais, maintenant si l’on en croit le développeur Alex Pankratov, il semble que les robots de Google soient capables d’agir plus comme des êtres humains à tel point qu’ils pourraient d’exploiter le contenu interactif d’un site Web, exécutant ainsi le JavaScript sur ​​les pages lors de l’indexation permettant ainsi de voir ce qui se cache derrière les différentes pages !

Google a par le passé offert des propositions visant à rendre le contenu AJAX plus consultable, mais ce travail était à la charge des développeurs plutôt que les GoogleBots, mais celles-ci n’ont pas convaincus autant que Google l’avait espéré.
Au cours du dernier trimestre 2011, Google a finalement commencé à comprendre comment résoudre efficacement le problème, et a commencé à déployer les robots d’indexation qui pourrait explorer le contenu dynamique des pages en mode limité. En effet, cette version permettait simplement de récupérer à travers le code JavaScript d’une page, de trouver les URL et les ajouter à l’analyse.
Il a fallu que Google puisse permettre, dans certains cas, à ses robots d’envoyer des requêtes dîtes POST vers des sites Web, selon comment le code JavaScript était écrit, plutôt que de simplement effectuer une requête traditionnelle GET pour en extraire le contenu.
Par conséquent, par exemple Google a pu commencer à l’indexation des commentaires sur Facebook, ainsi que d’autres des systèmes de commentaires « dynamiques ».

Maintenant, sur la base des logs de Pankratov, il semble que plutôt que de simplement exploiter de façon mineure les URL dans les scripts, les robots se promènent encore plus profondément que les commentaires, en traitement des fonctions JavaScript de telle manière qu’ils imitent l’action utilisateur lorsqu’il clique sur les objets qu’ils activent.

Cette nouvelle va fournir à Google d’avoir un meilleur accès au « Web profond », en permettant ainsi d’accéder à du contenu caché dans des bases de données, ou encore d’autres sources qui ne sont généralement pas indexables.

Que pensez-vous de cette nouvelle ? Y voyez-vous comme quelque-chose de dangereux pour le Web ?

Tags : AJAXcrawlexplorationGoogleGoogleBotindexation
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.