Le modèle de langage phare d’OpenAI, GPT-4o, fait face à des critiques après qu’un rapport de Artificial Analysis a révélé une régression significative de ses performances.

Selon cette analyse, la nouvelle version du modèle serait désormais au même niveau que GPT-4o-mini, une version beaucoup plus petite et moins puissante, remettant en question l’efficacité des dernières améliorations annoncées.

La veille de la publication du rapport, OpenAI avait annoncé une mise à jour de GPT-4o avec des promesses d’amélioration en matière d’écriture créative, de gestion des fichiers téléchargés et de réponses plus approfondies et pertinentes. L’entreprise avait affirmé que ces changements visaient à rendre le modèle « plus naturel, engageant et adapté ».

Cependant, les résultats publiés par Artificial Analysis contredisent ces affirmations, soulevant des doutes sur l’efficacité réelle de cette mise à jour dans des contextes d’utilisation concrets.

Wait – is the new GPT-4o a smaller and less intelligent model?

We have completed running our independent evals on OpenAI’s GPT-4o release yesterday and are consistently measuring materially lower eval scores than the August release of GPT-4o.

GPT-4o (Nov) vs GPT-4o (Aug):
➤… pic.twitter.com/gjY2pBFuUv

— Artificial Analysis (@ArtificialAnlys) November 21, 2024

GPT-4, des résultats de performance en baisse

D’après le rapport, plusieurs métriques essentielles montrent une nette régression de GPT-4o :

Indice de Qualité d’Artificial Analysis (AAQI) : Une baisse de 77 (version d’août) à 71, plaçant le modèle au niveau de GPT-4o-mini.
Benchmark GPQA Diamond: Une chute de 51 % à 39 %, signalant une diminution de la capacité à répondre à des questions complexes.
Benchmark MATH: Une baisse de 78 % à 69 %, indiquant une performance réduite dans les tâches de raisonnement mathématique.

Ces baisses soulèvent des préoccupations chez les développeurs et les utilisateurs qui comptent sur ce modèle pour des applications avancées.

Vitesse accélérée, mais à quel prix ?

Un aspect notable de la mise à jour de novembre est l’augmentation significative de la vitesse de réponse du modèle, qui a plus que doublé, passant de 80 tokens par seconde à 180 tokens par seconde.

Cependant, cette accélération semble s’être faite au détriment de la qualité. Artificial Analysis émet l’hypothèse que la version de novembre est basée sur un modèle plus petit, ce qui explique les réponses plus rapides mais moins précises.

Une préoccupation commerciale

Malgré cette régression perçue, OpenAI n’a pas réduit les tarifs pour cette nouvelle version, ce qui a poussé Artificial Analysis à conseiller aux développeurs de tester minutieusement le modèle avant de migrer leurs charges de travail vers la version de novembre.

Lancé en mai 2024, GPT-4o avait été conçu pour surpasser les modèles précédents, GPT-3.5 et GPT-4, avec des capacités de pointe dans les domaines de la voix, des langues multilingues et des tâches visuelles. Ces avancées ont fait de GPT-4o un outil essentiel pour des applications comme la traduction en temps réel et l’intelligence artificielle conversationnelle.

Cependant, les résultats de cette mise à jour risquent de nuire à sa réputation et de limiter son adoption.

Pour les développeurs et les utilisateurs

Les résultats mitigés de la mise à jour de novembre soulignent un défi clé pour le développement de l’IA : trouver un équilibre entre amélioration des performances, rapidité et efficacité. Les développeurs qui utilisent GPT-4o dans des applications critiques sont fortement encouragés à évaluer rigoureusement le modèle mis à jour avant de s’y engager pleinement.

Bien que la mise à jour de novembre ait suscité des critiques, elle met également en lumière la complexité croissante de la gestion des modèles d’IA de pointe. Pour OpenAI, cette situation souligne l’importance de la transparence et de la constance dans la qualité des futures mises à jour.

Alors que le paysage de l’IA continue d’évoluer rapidement, les développeurs et les utilisateurs suivront avec attention les actions d’OpenAI pour résoudre ces problèmes et garantir que GPT-4o réponde aux attentes initiales.

WhatsApp : La musique débarque dans vos statuts !

Amis Facebook : Meta retrouve ses origines avec le retour de l’onglet Amis

YouTube Premium : Partagez des vidéos sans pub avec vos proches, la nouvelle option qui pourrait séduire

Nintendo Switch 2 : Des jeux exclusifs et des « Switch 2 Edition » en approche

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Test du Xiaomi 14T Pro, le flagship killer qui n’a pas peur des grands

OnePlus 13T : un compact de 6,3 pouces avec une batterie de 6 200 mAh ? Détails et rumeurs

Qualcomm lancerait le Snapdragon 8s Gen 4 et non le Snapdragon 8s Elite

Galaxy S26 Ultra : Double téléobjectif, zoom x8 et ouverture variable, des prototypes prometteurs

Les spécifications du MediaTek Dimensity 9500 font surface

OneNote sur Windows 10 : fin de support en 2025, ralentissement volontaire dès juin

Otter Meeting Agent : un assistant IA transforme les réunions, les détails

Huawei : Un ordinateur hybride PC/tablette/smartphone en développement, le futur de l’informatique ?

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l’expert IA

Qu’est-ce que le Vibe Coding et pourquoi il est risqué ?

Vibe Coding : L’IA peut-elle vraiment remplacer les développeurs ? Les dangers du « code à l’aveugle »

Discord Social SDK : l’intégration gratuite des fonctionnalités sociales Discord dans les jeux vidéo

Claude Code : Des bugs critiques dès le lancement, les développeurs en colère

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

Connecter Android et Windows : toutes les solutions pour utiliser vos applis sur PC !

Time Machine : Le guide complet pour sauvegarder votre Mac

Que faire avec un Raspberry Pi ? 6 idées originales pour le réutiliser

GPT-4o : La mise à jour de novembre déçoit et soulève des inquiétudes

GPT-4, des résultats de performance en baisse

Vitesse accélérée, mais à quel prix ?

Une préoccupation commerciale

Pour les développeurs et les utilisateurs

Apple TV: Vers un véritable téléviseur « Made in Apple » ?

OPPO Find X8 Ultra : Le smartphone photo ultime avec Snapdragon 8 Elite et quadruple caméra

The author Yohann Poiron

GPT-4o : La mise à jour de novembre déçoit et soulève des inquiétudes

GPT-4, des résultats de performance en baisse

Vitesse accélérée, mais à quel prix ?

Une préoccupation commerciale

Pour les développeurs et les utilisateurs

The author Yohann Poiron

vous pourriez aussi aimer