Le modèle de langage phare d’OpenAI, GPT-4o, fait face à des critiques après qu’un rapport de Artificial Analysis a révélé une régression significative de ses performances.
Selon cette analyse, la nouvelle version du modèle serait désormais au même niveau que GPT-4o-mini, une version beaucoup plus petite et moins puissante, remettant en question l’efficacité des dernières améliorations annoncées.
La veille de la publication du rapport, OpenAI avait annoncé une mise à jour de GPT-4o avec des promesses d’amélioration en matière d’écriture créative, de gestion des fichiers téléchargés et de réponses plus approfondies et pertinentes. L’entreprise avait affirmé que ces changements visaient à rendre le modèle « plus naturel, engageant et adapté ».
Cependant, les résultats publiés par Artificial Analysis contredisent ces affirmations, soulevant des doutes sur l’efficacité réelle de cette mise à jour dans des contextes d’utilisation concrets.
Wait – is the new GPT-4o a smaller and less intelligent model?
We have completed running our independent evals on OpenAI’s GPT-4o release yesterday and are consistently measuring materially lower eval scores than the August release of GPT-4o.
GPT-4o (Nov) vs GPT-4o (Aug):
➤… pic.twitter.com/gjY2pBFuUv— Artificial Analysis (@ArtificialAnlys) November 21, 2024
GPT-4, des résultats de performance en baisse
D’après le rapport, plusieurs métriques essentielles montrent une nette régression de GPT-4o :
- Indice de Qualité d’Artificial Analysis (AAQI) : Une baisse de 77 (version d’août) à 71, plaçant le modèle au niveau de GPT-4o-mini.
- Benchmark GPQA Diamond: Une chute de 51 % à 39 %, signalant une diminution de la capacité à répondre à des questions complexes.
- Benchmark MATH: Une baisse de 78 % à 69 %, indiquant une performance réduite dans les tâches de raisonnement mathématique.
Ces baisses soulèvent des préoccupations chez les développeurs et les utilisateurs qui comptent sur ce modèle pour des applications avancées.
Vitesse accélérée, mais à quel prix ?
Un aspect notable de la mise à jour de novembre est l’augmentation significative de la vitesse de réponse du modèle, qui a plus que doublé, passant de 80 tokens par seconde à 180 tokens par seconde.
Cependant, cette accélération semble s’être faite au détriment de la qualité. Artificial Analysis émet l’hypothèse que la version de novembre est basée sur un modèle plus petit, ce qui explique les réponses plus rapides mais moins précises.
Une préoccupation commerciale
Malgré cette régression perçue, OpenAI n’a pas réduit les tarifs pour cette nouvelle version, ce qui a poussé Artificial Analysis à conseiller aux développeurs de tester minutieusement le modèle avant de migrer leurs charges de travail vers la version de novembre.
Lancé en mai 2024, GPT-4o avait été conçu pour surpasser les modèles précédents, GPT-3.5 et GPT-4, avec des capacités de pointe dans les domaines de la voix, des langues multilingues et des tâches visuelles. Ces avancées ont fait de GPT-4o un outil essentiel pour des applications comme la traduction en temps réel et l’intelligence artificielle conversationnelle.
Cependant, les résultats de cette mise à jour risquent de nuire à sa réputation et de limiter son adoption.
Pour les développeurs et les utilisateurs
Les résultats mitigés de la mise à jour de novembre soulignent un défi clé pour le développement de l’IA : trouver un équilibre entre amélioration des performances, rapidité et efficacité. Les développeurs qui utilisent GPT-4o dans des applications critiques sont fortement encouragés à évaluer rigoureusement le modèle mis à jour avant de s’y engager pleinement.
Bien que la mise à jour de novembre ait suscité des critiques, elle met également en lumière la complexité croissante de la gestion des modèles d’IA de pointe. Pour OpenAI, cette situation souligne l’importance de la transparence et de la constance dans la qualité des futures mises à jour.
Alors que le paysage de l’IA continue d’évoluer rapidement, les développeurs et les utilisateurs suivront avec attention les actions d’OpenAI pour résoudre ces problèmes et garantir que GPT-4o réponde aux attentes initiales.