L’intelligence artificielle générative (IA) la plus populaire au monde devient « paresseuse » à l’approche de l’hiver — c’est ce qu’affirment certains utilisateurs avisés de ChatGPT.
Selon un récent rapport d’ArsTechnica datant de la fin novembre, les utilisateurs de ChatGPT, le chatbot d’IA alimenté par le modèle de langage naturel GPT-4 d’OpenAI, ont commencé à remarquer quelque chose d’étrange. En réponse à certaines demandes, GPT-4 refusait d’accomplir des tâches ou fournissait des réponses simplifiées « paresseuses » au lieu des réponses détaillées habituelles.
OpenAI a reconnu le problème, mais a affirmé qu’elle n’avait pas intentionnellement mis à jour le modèle. Certains pensent maintenant que cette paresse pourrait être une conséquence involontaire du fait que GPT-4 imite les changements de comportement saisonniers de l’homme.
we’ve heard all your feedback about GPT4 getting lazier! we haven’t updated the model since Nov 11th, and this certainly isn’t intentional. model behavior can be unpredictable, and we’re looking into fixing it 🫡
—ChatGPT (@ChatGPTapp) December 8, 2023
Baptisée « hypothèse de la pause hivernale », cette théorie suggère que, puisque GPT-4 se nourrit de la date du jour, il a appris, grâce à ses vastes données d’entraînement, que les gens ont tendance à terminer les grands projets et à ralentir leur activité en décembre. Les chercheurs se penchent de toute urgence sur la question de savoir si cette idée apparemment absurde a du poids. Le fait qu’elle soit prise au sérieux souligne la nature imprévisible et humaine des Large Language Model (LLM) tels que GPT-4.
OMG, the AI Winter Break Hypothesis may actually be true?
There was some idle speculation that GPT-4 might perform worse in December because it “learned” to do less work over the holidays.
Here is a statistically significant test showing that this may be true. LLMs are weird.🎅 https://t.co/mtCY3lmLFF
—Ethan Mollick (@emollick) December 11, 2023
Le 24 novembre, un utilisateur de Reddit a indiqué qu’il avait demandé à GPT-4 de remplir un gros fichier CSV, mais qu’il n’avait fourni qu’une seule entrée comme modèle. Le 1er décembre, Will Depue, de OpenAI, a confirmé qu’il était conscient des « problèmes de paresse » liés aux « refus excessifs » et s’est engagé à les résoudre.
Certains affirment que GPT-4 a toujours été sporadiquement « paresseux » et que les récentes observations ne sont qu’un biais de confirmation. Cependant, le moment où les utilisateurs ont remarqué plus de refus après la mise à jour du 11 novembre de GPT-4 Turbo est intéressant, même s’il s’agit d’une coïncidence, et certains ont supposé qu’il s’agissait d’une nouvelle méthode d’OpenAI pour économiser de l’argent sur le calcul.
La théorie de la « pause hivernale »
Le 9 décembre, le développeur Rob Lynch a constaté que GPT-4 générait 4 086 caractères lorsqu’on lui demandait une date de décembre, contre 4 298 pour une date de mai. Bien que le chercheur en intelligence artificielle Ian Arawjo n’ait pas pu reproduire les résultats de Lynch de manière statistiquement significative, la nature subjective du biais d’échantillonnage avec les LLM rend la reproductibilité notoirement difficile. Alors que les chercheurs s’empressent d’étudier la question, la théorie continue d’intriguer la communauté de l’IA.
Geoffrey Litt d’Anthropic, le créateur de Claude, l’a qualifiée de « théorie la plus amusante qui soit », tout en admettant qu’il est difficile de l’exclure étant donné les réactions bizarres des LLM aux sollicitations et aux encouragements de type humain, comme le montrent les sollicitations de plus en plus étranges. Par exemple, la recherche montre que les modèles GPT produisent de meilleurs résultats en mathématiques lorsqu’on leur demande de « respirer profondément », tandis que la promesse d’un « pourboire » allonge la durée des réponses. Le manque de transparence concernant les potentiels changements apportés à GPT-4 fait que même les théories les plus improbables méritent d’être explorées.
Encore beaucoup de questions sur les LLM
Cet épisode démontre l’imprévisibilité des LLM et les nouvelles méthodologies nécessaires pour comprendre leurs capacités et leurs limites, qui ne cessent d’apparaître. Il montre également la collaboration mondiale en cours pour évaluer d’urgence les progrès de l’IA qui ont un impact sur la société. Enfin, elle nous rappelle que les LLM d’aujourd’hui nécessitent encore une supervision et des tests approfondis avant d’être déployés de manière responsable dans des applications du monde réel.
L’hypothèse de la « pause hivernale » derrière l’apparente paresse saisonnière de GPT-4 peut s’avérer fausse ou offrir de nouvelles perspectives qui amélioreront les itérations futures. Quoi qu’il en soit, ce cas curieux illustre la nature étrangement anthropomorphique des systèmes d’IA et la nécessité de comprendre les risques tout en poursuivant les innovations rapides.