Depuis le lancement par Anthropic de la fonctionnalité « Computer Use » pour Claude en octobre, l’idée d’agents d’intelligence artificielle capables d’interagir directement avec des interfaces graphiques (GUI) a suscité beaucoup d’enthousiasme. Une récente étude menée par le Show Lab de l’Université Nationale de Singapour analyse les performances de cette technologie et met en lumière ses promesses et ses limites.
Claude se distingue comme un modèle capable d’interagir avec un appareil via des interfaces utilisateur graphiques, exactement comme le ferait un humain. Il accède uniquement à des captures d’écran de bureau et utilise des actions simulées de clavier et de souris pour interagir.
Cette approche permet aux utilisateurs de décrire des tâches en langage naturel pour les automatiser, sans nécessiter d’accès API aux applications concernées. Ce mode de fonctionnement ouvre des perspectives pour simplifier des tâches complexes sans développement personnalisé.
Une évaluation basée sur divers scénarios
Les chercheurs ont testé Claude sur quatre catégories principales :
- Recherche sur le web : naviguer sur des sites, acheter des produits, ou s’abonner à des services.
- Workflows multi-applications: extraire des données d’un site et les insérer dans une feuille de calcul.
- Productivité bureautique : envoyer des e-mails, formater des documents ou créer des présentations.
- Jeux vidéo : accomplir des tâches nécessitant logique et planification.
Chaque tâche a été évaluée selon trois dimensions :
- Planification : définir un plan clair pour atteindre l’objectif.
- Action : exécuter les étapes nécessaires (ouvrir un navigateur, cliquer, taper).
- Critique : évaluer le progrès, détecter les erreurs et ajuster si besoin.
Des résultats impressionnants, mais inégaux
Les points forts de Claude
Claude s’est montré particulièrement performant dans des tâches complexes nécessitant plusieurs étapes :
- Planification avancée : le modèle peut prévoir toutes les étapes d’un processus, même celles impliquant plusieurs applications.
- Coordination multi-applications : il est capable de copier des informations d’une page Web pour les coller dans un tableau, en s’assurant que les données sont bien alignées avec l’objectif final.
- Révision finale : dans certains cas, Claude revoit les résultats obtenus pour vérifier leur cohérence.
Ces performances indiquent que Claude possède une compréhension générale des outils et sait les utiliser de manière coordonnée.
Les limites de Claude
Cependant, l’IA a également montré des failles surprenantes :
- Erreurs triviales : par exemple, elle n’a pas scrollé pour trouver un bouton d’abonnement ou n’a pas réussi à remplacer un texte simple.
- Manque d’auto-évaluation : lorsque Claude échoue, il a du mal à comprendre ses erreurs et propose parfois des explications incorrectes.
Ces lacunes soulignent un problème dans ses mécanismes d’auto-évaluation, ce qui peut limiter sa fiabilité dans des contextes sensibles.
Implications pour les entreprises
L’idée de simplifier l’automatisation des tâches grâce à des descriptions textuelles est séduisante. Mais pour l’instant, la technologie n’est pas prête pour une adoption massive.
- Instabilité des modèles : les comportements imprévisibles de l’IA peuvent entraîner des erreurs coûteuses, notamment dans des secteurs sensibles comme la finance ou la santé.
- Sécurité : donner à des modèles d’IA le contrôle du clavier et de la souris expose à des risques, comme des attaques adverses que les humains éviteraient facilement.
- Efficacité limitée : interagir avec des interfaces conçues pour les humains n’est pas aussi rapide ou fiable que l’utilisation d’API dédiées.
Un outil pour l’exploration
Malgré ces défis, des fonctionnalités comme Claude Computer Use offrent un potentiel pour les équipes produit :
- Prototypage rapide : tester des idées sans investissement immédiat dans le développement.
- Itérations rapides : explorer différentes solutions avant de créer les infrastructures nécessaires à une mise en œuvre robuste.
Claude et d’autres agents GUI représentent une avancée significative dans le domaine de l’automatisation basée sur l’IA. Cependant, leurs limites actuelles les rendent mieux adaptés à l’expérimentation qu’à une adoption à grande échelle.
Pour l’instant, des solutions traditionnelles basées sur des API sécurisées et des microservices restent indispensables pour automatiser les tâches de manière fiable et à grande échelle. Mais à mesure que les agents GUI gagnent en maturité, ils pourraient devenir un outil clé dans la boîte à outils des entreprises, ouvrant la voie à une nouvelle ère d’automatisation intelligente.