Google a publié un modèle d’IA révolutionnaire appelé Gemini 2.5 Pro qui a obtenu un score de 18,8 % au dernier examen de l’humanité (HLE) sans utiliser de recherche sur le Web ou d’autres outils. Le HLE est un test rigoureux, conçu par des experts en la matière et des universitaires de haut niveau du monde entier pour tester les connaissances approfondies sur divers sujets.

Auparavant, o3-mini-high d’OpenAI avait obtenu 14 % sur le même test sans utiliser d’outils.

Gemini 2.5 Pro est un modèle de réflexion, c’est-à-dire un modèle de raisonnement construit sur un LLM de base plus large, utilisant l’apprentissage par renforcement et l’incitation à la chaîne de pensée. Avant le modèle Gemini 2.5 Pro, Google avait publié le modèle Gemini 2.0 Flash Thinking, plus petit.

Google affirme que le modèle Gemini 2.5 Pro peut « analyser des informations, tirer des conclusions logiques, intégrer le contexte et les nuances, et prendre des décisions éclairées ».

Gemini 2.5 Pro était testé sur LMArena sous le nom de code « nebula ». Aujourd’hui, Gemini 2.5 Pro a pris la première place du classement LMArena avec le score le plus élevé de 1 443 points, devançant Grok 3 et GPT-4.5. En ce qui concerne les autres tests, Google indique que Gemini 2.5 Pro obtient des résultats exceptionnels en codage, en mathématiques et en sciences.

Gemini 2.5 Pro : codage et raisonnement avancés

Dans GPQA Diamond, Gemini 2.5 Pro a obtenu un score de 84 % ; dans AIME 2025, le modèle a atteint 86,7 %. Même dans le benchmark vérifié SWE-bench qui teste la capacité à résoudre des problèmes logiciels réels, Gemini 2.5 Pro a obtenu 63,8 %, juste derrière Claude 3.7 Sonnet Extended Thinking, qui a obtenu 70,3 %.

Google affirme que le nouveau modèle Gemini 2.5 Pro est capable de codage et de raisonnement avancés. Il est mis à la disposition des utilisateurs de Gemini Advanced. Ceux qui souhaitent tester gratuitement le modèle Gemini 2.5 Pro peuvent se rendre sur Google AI Studio et sélectionner le modèle « Gemini 2.5 Pro Experimental 03–25 » dans le menu déroulant.

Windows 11 : L’IA débarque dans Bloc-notes, Paint et Outil capture !

Mozilla ferme Pocket et Fakespot : Sauvegardez vos données avant juillet 2025 !

Build 2025 : Traduisez vos PDF en un clic ! Edge révolutionne la lecture multilingue

Windows 11 : Reprenez vos apps de votre mobile sur votre PC (enfin !)

Test de la Canon Selphy QX20 : L’imprimante photo ultime pour votre smartphone

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Galaxy Watch 8 Classic : Le retour du design « squircle » fait déjà débat !

XRING T1 : Xiaomi équipe sa Xiaomi Watch S4 d’un processeur maison révolutionnaire !

Honor 400 & Honor 400 Pro : Le photophone IA à 200 mégapixels qui va enflammer le marché !

Xiaomi 15S Pro : La puce 3 nm maison, XRING O1, arrive et défie les géants !

Xiaomi YU7 : Le SUV électrique de 835 km d’autonomie qui défie Tesla !

Claude Opus 4 et Sonnet 4 : Anthropic frappe fort avec ses IA dédiés au code et au raisonnement avancé

Apple lancera ses lunettes connectées en 2026 : Siri à bord, pas d’AR (pour l’instant) !

Google I/O 2025 : Google SynthID Detector, l’outil pour démasquer les contenus IA (enfin) !

Google I/O 2025 : Google Stitch, créez des apps (et leur code !) avec une IA. Magique ?

Google I/O 2025 : Jules et Firebase vont révolutionner le codage IA et le vibe coding !

Build 2025 : Développeurs, préparez-vous ! GitHub Copilot devient votre nouveau collègue IA

Figma devient surpuissant ! Sites Web, code IA, marketing : l’écosystème ultime ?

Découvrez l’appli Meta AI : Le concurrent discret de ChatGPT se dévoile

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

Gemini 2.5 Pro : Google dévoile un modèle IA record, tous les détails sur LMArena et GPQA Diamond

Gemini 2.5 Pro : codage et raisonnement avancés

Apple WWDC 2025 : keynote du 9 juin, iOS 19, Apple Intelligence et refonte visuelle attendus

OpenAI GPT-4o : ChatGPT génère images et vidéos avec une qualité inédite

The author Yohann Poiron

Gemini 2.5 Pro : Google dévoile un modèle IA record, tous les détails sur LMArena et GPQA Diamond

Gemini 2.5 Pro : codage et raisonnement avancés

The author Yohann Poiron

vous pourriez aussi aimer