OpenAI a récemment lancé son modèle o3-mini, marquant une nouvelle étape dans la compétition avec DeepSeek R1, le modèle de raisonnement chinois qui a secoué l’industrie de l’IA. Avec cette annonce, OpenAI ne perd pas de temps et propose également une version améliorée, o3-mini-high, destinée aux abonnés de ChatGPT Plus et Pro.

J’ai testé ses performances dans différents domaines clés, tels que la programmation, les mathématiques et la science. Voici ce que nous avons découvert.

1. Une performance exceptionnelle en programmation

OpenAI affirme que o3-mini excelle en programmation tout en maintenant des coûts réduits et une rapidité accrue. Avant son lancement, le modèle Claude 3.5 Sonnet d’Anthropic était considéré comme la référence pour les tâches de codage.

Toutefois, o3-mini-high semble désormais surpasser cette concurrence.

Lors de mes tests, j’ai demandé à o3-mini-high de créer un jeu en Python où plusieurs serpents autonomes s’affrontent. En 1 minute et 24 secondes, il a généré un code parfaitement fonctionnel, sans erreur.

Son efficacité est confirmée par un score Elo de 2 130 sur la plateforme Codeforces, le plaçant parmi les 2 500 meilleurs programmeurs au monde. De plus, sur le benchmark SWE-bench Verified, qui évalue la capacité des IA à résoudre des problèmes logiciels réels, o3-mini-high a obtenu 49,3 % d’exactitude, dépassant même o1 (48,9 %).

Ainsi, si vous recherchez une assistance en programmation, o3-mini-high semble être l’option idéale avant même l’arrivée du modèle complet o3, annoncé par Sam Altman dans les prochaines semaines.

2. Une capacité avancée en mathématiques

Outre la programmation, les mathématiques sont un autre domaine où o3-mini excelle. Lors de l’épreuve AIME 2024 (American Invitational Mathematics Examination), un test couvrant l’algèbre, la géométrie et la théorie des nombres, o3-mini-high a atteint un impressionnant 87,3 %, dépassant même o1.

Sur le benchmark FrontierMath, qui rassemble des problèmes posés par des mathématiciens de renom comme Terence Tao, o3-mini-high a obtenu 20 % après 8 tentatives, ce qui est significatif étant donné le niveau de difficulté. En comparaison, d’autres modèles d’IA n’atteignent en général que 2 % sur ce même test.

3. Un expert en sciences au niveau PhD

Le o3-mini-high brille également en sciences, notamment dans des disciplines avancées, comme la biologie, la physique et la chimie. Dans le benchmark GPQA Diamond, qui teste la compréhension des modèles en sciences spécialisées, o3-mini-high a obtenu un score de 79,7 %, surpassant le modèle o1 (78,0 %) et même Gemini 2.0 Flash Thinking de Google (73,3 %).

Ainsi, o3-mini-high est capable de répondre avec précision à des questions scientifiques complexes, souvent comparables à celles d’un doctorant.

4. De solides compétences en culture générale

Même si o3-mini est principalement optimisé pour le raisonnement en programmation, mathématiques et sciences, il reste très performant en culture générale. Sur le benchmark MMLU, qui évalue les connaissances générales d’un modèle d’IA sur divers sujets, o3-mini-high a obtenu 86,9 %, se rapprochant du GPT-4o d’OpenAI (88,7 %).

Le modèle complet o3, qui arrivera bientôt, devrait logiquement dépasser tous les modèles actuels sur ce type de test. En effet, o1 a déjà atteint un score de 92,3 % sur MMLU, ce qui laisse présager une performance encore meilleure pour o3.

5. Un accès à la recherche Web en temps réel

L’une des principales limitations des modèles d’IA est leur base de connaissances figée. À ce jour, o3-mini dispose d’une date limite de connaissance en octobre 2023, ce qui peut poser problème pour les informations les plus récentes.

Cependant, OpenAI a intégré une fonctionnalité de recherche sur le Web pour o3-mini, permettant ainsi au modèle de compléter ses réponses en temps réel. Seul DeepSeek R1 propose une fonctionnalité similaire parmi les modèles de raisonnement, mais aucun autre concurrent majeur n’a encore intégré cette capacité.

o3-mini, un modèle à fort potentiel

Le modèle o3-mini d’OpenAI représente une avancée majeure dans l’IA, en particulier pour la programmation, les mathématiques et la science. Bien que la version gratuite de ChatGPT permette d’accéder à o3-mini avec un niveau de raisonnement moyen, la version o3-mini-high offre des performances nettement supérieures, justifiant l’abonnement ChatGPT Plus à 20 dollars/mois.

Pour les développeurs, chercheurs et étudiants en sciences, o3-mini-high est un outil puissant et compétitif. Nous attendons maintenant avec impatience la sortie du modèle complet o3, qui promet de dépasser tous les modèles existants.

Backbone Pro : Le contrôleur mobile ultime… et bien plus encore !

Gemini veille sur vous : Google renforce la sécurité en ligne grâce à l’IA

Huawei lance HarmonyOS sur PC : Le début de la fin pour Windows ?

Threads envahi par les pubs ? Meta passe à la monétisation vidéo !

Test de la Canon Selphy QX20 : L’imprimante photo ultime pour votre smartphone

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Samsung Galaxy Watch 8 : Adieu le rond parfait ? Place au « squircle » !

One UI 8 en bêta dès mai ? Samsung surprend après le fiasco One UI 7 !

Google Messages rattrape son retard : Suppression pour tous et icônes fun !

Honor 400 et Honor 400 Pro : Le photophone IA ultime arrive le 22 mai !

Des lunettes qui vous reconnaissent ? Meta prépare sa « super vision » IA !

Lenovo Legion 9i : Le PC portable 3D sans lunettes qui va vous épater !

Apple Intelligence boostée : Les puces M6, M7 et IA serveur arrivent !

Jouez partout, sans compromis ! Razer Basilisk Mobile et Joro à la rescousse

Figma devient surpuissant ! Sites Web, code IA, marketing : l’écosystème ultime ?

Le futur du code, c’est l’IA ? La vision choc de Mark Zuckerberg

Apple & Anthropic : L’IA Claude arrive dans Xcode pour coder à votre place ?

Cursor : Une erreur d’IA provoque une fuite massive d’utilisateurs

Découvrez l’appli Meta AI : Le concurrent discret de ChatGPT se dévoile

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

OpenAI o3-mini : Performances exceptionnelles en programmation, maths et sciences !

1. Une performance exceptionnelle en programmation

2. Une capacité avancée en mathématiques

3. Un expert en sciences au niveau PhD

4. De solides compétences en culture générale

5. Un accès à la recherche Web en temps réel

o3-mini, un modèle à fort potentiel

Débuter en programmation : 5 erreurs à éviter pour progresser rapidement

WhatsApp : bientôt des stickers photo pour vos statuts, comme sur Instagram !

The author Yohann Poiron

OpenAI o3-mini : Performances exceptionnelles en programmation, maths et sciences !

1. Une performance exceptionnelle en programmation

2. Une capacité avancée en mathématiques

3. Un expert en sciences au niveau PhD

4. De solides compétences en culture générale

5. Un accès à la recherche Web en temps réel

o3-mini, un modèle à fort potentiel

The author Yohann Poiron

vous pourriez aussi aimer