Meta fait face à des accusations selon lesquelles la société aurait manipulé les résultats de benchmarks pour son modèle d’intelligence artificielle Llama 4 Maverick. Ce modèle a atteint un score ELO impressionnant de 1 417 sur Chatbot Arena, surpassant des modèles concurrents tels que GPT-4o et Gemini 2.0 Pro.

Un utilisateur se présentant comme un ancien employé de Meta a affirmé que la direction de l’entreprise aurait intégré des ensembles de tests de divers benchmarks dans le processus de post-entraînement pour gonfler les scores et atteindre des objectifs internes. Cet individu aurait démissionné en raison de ces pratiques, jugeant cette approche inacceptable.

Ahmad Al-Dahle, vice-président de la division Générative AI chez Meta, a fermement nié ces allégations, déclarant que l’entreprise n’a pas entraîné ses modèles sur des ensembles de tests et ne le ferait jamais.

Il a suggéré que les variations de qualité observées pourraient être dues à la nécessité de stabiliser les implémentations.

LMSYS, l’organisation derrière le classement Chatbot Arena, a précisé que le modèle soumis par Meta, nommé « Llama-4-Maverick-03-26-Experimental », était une variante personnalisée optimisée pour les préférences humaines. LMSYS a reconnu que cette information n’avait pas été suffisamment clarifiée par l’équipe de Meta et a annoncé une mise à jour de ses politiques pour renforcer la transparence des évaluations.

Pas simplement Llama 4 : Précédents incidents chez Meta

Ce n’est pas la première fois que Meta est accusée de manipuler des benchmarks. En février, une étude a révélé que plus de 50 % des échantillons de tests de certains benchmarks clés étaient présents dans les données d’entraînement de Llama 1, soulevant des préoccupations quant à la fiabilité des évaluations de performance.

Ces événements soulignent l’importance d’une transparence accrue dans les processus d’évaluation des modèles d’intelligence artificielle pour maintenir la confiance de la communauté scientifique et des utilisateurs.

Bluesky redéfinit la vérification : Qui aura le droit à la coche bleue ?

Le Pape François est décédé à l’âge de 88 ans

Google Ironwood : La puce IA qui va pulvériser les supercalculateurs !

Microsoft Copilot : Des jeux 3D interactifs bientôt disponibles ?

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Razr 60 Ultra : Le smartphone pliable qui va définir 2025 (écrans 165 Hz, Snapdragon 8 Elite)

Motorola Edge 60 : Le smartphone premium abordable arrive !

Moto G86 : Motorola prépare un milieu de gamme qui ressemble à un Edge

Huawei : Le retour triomphal dans la 5G sans l’aide de l’Occident

Hallucinations : OpenAI reconnaît un problème avec o3 et o4-mini

OpenAI contre-attaque : Elon Musk accusé de harcèlement et de désinformation !

Marché PC : Reprise en 2025, mais les tarifs douaniers menacent la croissance

Gemini 2.5 Flash : L’IA hybride qui s’adapte à vos besoins

Firebase Studio : Google dévoile l’outil IA qui va révolutionner le développement d’applications !

Créez sans coder : Le Vibe Coding pour tous avec l’IA

Qu’est-ce que le Vibe Coding et pourquoi il est risqué ?

Vibe Coding : L’IA peut-elle vraiment remplacer les développeurs ? Les dangers du « code à l’aveugle »

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

Meta accusé de tricherie : Llama 4 Maverick, un benchmark gonflé ?

Pas simplement Llama 4 : Précédents incidents chez Meta

Raspberry Pi lance son bloc d’alimentation USB-C 45W : Puissant et polyvalent !

Google AI Mode : La recherche multimodale débarque et change tout !

The author Yohann Poiron

Meta accusé de tricherie : Llama 4 Maverick, un benchmark gonflé ?

Pas simplement Llama 4 : Précédents incidents chez Meta

The author Yohann Poiron

vous pourriez aussi aimer