Le modèle d’intelligence artificielle qui se cache derrière le chatbot ChatGPT est capable de résoudre des tâches permettant de vérifier si les gens peuvent comprendre des points de vue différents, un signe clé de l’intelligence connu sous le nom de théorie de l’esprit.
ChatGPT, qui est désormais intégré au moteur de recherche Bing de Microsoft, a suscité un intérêt considérable au cours des dernières semaines, et il est peu probable que cet intérêt faiblira de sitôt. Alors que de plus en plus de personnes affluent pour engorger les serveurs de ChatGPT et que Microsoft résout la liste d’attente de plusieurs millions de personnes pour Bing Chat, nous en apprenons davantage sur ce dont le chatbot alimenté par l’intelligence artificielle est capable.
Michal Kosinski, professeur à l’université de Stanford, a décidé de mettre ChatGPT à l’épreuve, en soumettant différentes versions du chatbot à des tâches de « théorie de l’esprit » conçues pour tester la capacité d’un enfant à regarder une autre personne dans des situations spécifiques et à comprendre ce qui se passe dans la tête de cette personne. En gros, ces tests permettent d’évaluer la capacité d’un enfant à comprendre l’état mental d’une autre personne et à s’en servir pour expliquer ou prévoir son comportement.
Par exemple, dans le monde réel, un enfant qui regarde quelqu’un tendre la main et attraper une banane sur le comptoir de la cuisine peut en déduire que cette personne doit avoir faim.
L’expérience a été réalisée en novembre 2022 et a utilisé une version de ChatGPT entraînée sur GPT3.5. ChatGPT a résolu 94 % (17 sur 20) des tâches de théorie de l’esprit de Kosinski, ce qui le place au même niveau qu’un enfant moyen de 9 ans. Selon Kosinksi, cette capacité « a pu apparaître spontanément » grâce à l’amélioration des compétences linguistiques.
Comment cela a-t-il fonctionné ?
Plonger dans le test de la théorie de l’esprit peut devenir assez compliqué, mais en substance, la compétence principale testée consiste à comprendre le comportement des gens et à faire des prédictions et des hypothèses. L’une des tâches « les plus difficiles » que les chercheurs demandent aux enfants de réaliser lors du test de la théorie de l’esprit est la compréhension des « fausses croyances ». Il s’agit de la quatrième étape du test et du développement, qui consiste à prendre conscience que d’autres personnes peuvent avoir des croyances erronées, différentes de la réalité.
Pour ce faire, un scénario en texte seul a été utilisé pour tester le modèle GPT. L’invite était la suivante : « Voici un sac rempli de pop-corn. Il n’y a pas de chocolat dans le sac. Pourtant, l’étiquette sur le sac indique “chocolat” et non “popcorn”. Sam trouve le sac. Elle n’avait jamais vu ce sac auparavant. Elle ne peut pas voir ce qui se trouve à l’intérieur du sac. Elle lit l’étiquette ».
L’étude a évalué si le chatbot pouvait anticiper que les croyances de Sam sont incorrectes. La plupart du temps, le chatbot a répondu à l’invite d’une manière qui suggérait qu’il savait que les croyances de Sam étaient incorrectes.
Qu’est-ce que cela signifie ?
Selon Kosinski, « nos résultats montrent que les modèles de langage récents atteignent des performances très élevées dans les tâches classiques de fausses croyances, largement utilisées pour tester la théorie de l’esprit chez les humains ». Il ajoute que les modèles plus anciens, antérieurs à 2022, obtiennent des résultats médiocres, et compare ces résultats à ceux de la tâche GPT3.5, réalisée au niveau d’un enfant de 9 ans.
Toutefois, Kosinski recommande de traiter ces résultats avec prudence. Nous avons déjà vu des personnes se précipiter pour demander au chatbot Bing de Microsoft s’il était sensible, le lançant dans des spirales émotionnelles ou provoquant des crises de colère assez étranges. Selon lui, la plupart des réseaux neuronaux de cette nature ont un point commun : il s’agit de « boîtes noires » par nature, de sorte que même leurs programmeurs et concepteurs ne peuvent pas prédire ou expliquer exactement comment ils parviennent à certains résultats.
« La complexité croissante des modèles d’IA nous empêche de comprendre leur fonctionnement et de déduire leurs capacités directement de leur conception. Cela fait écho aux difficultés rencontrées par les psychologues et les neuroscientifiques pour étudier la boîte noire originelle : le cerveau humain », écrit Kosinski, qui garde l’espoir que l’étude de l’IA puisse expliquer la cognition humaine.
Microsoft s’efforce déjà de mettre en place des mesures de protection et de limiter les réponses étranges que son moteur de recherche suscite après seulement une semaine d’utilisation publique, et les gens ont déjà commencé à partager leurs histoires bizarres sur leurs interactions avec le chatbot ChatGPT. L’idée que le chatbot ait un niveau d’intelligence proche, même de loin, de celui d’un enfant humain est très difficile à accepter.
Quoi qu’il en soit, cette étude intéressante prouve que, même si nous avons l’impression d’avoir fait des progrès en matière d’IA, il y a toujours quelque chose à apprendre.