OpenAI a récemment lancé son modèle o3-mini, marquant une nouvelle étape dans la compétition avec DeepSeek R1, le modèle de raisonnement chinois qui a secoué l’industrie de l’IA. Avec cette annonce, OpenAI ne perd pas de temps et propose également une version améliorée, o3-mini-high, destinée aux abonnés de ChatGPT Plus et Pro.
J’ai testé ses performances dans différents domaines clés, tels que la programmation, les mathématiques et la science. Voici ce que nous avons découvert.
1. Une performance exceptionnelle en programmation
OpenAI affirme que o3-mini excelle en programmation tout en maintenant des coûts réduits et une rapidité accrue. Avant son lancement, le modèle Claude 3.5 Sonnet d’Anthropic était considéré comme la référence pour les tâches de codage.
Toutefois, o3-mini-high semble désormais surpasser cette concurrence.
Lors de mes tests, j’ai demandé à o3-mini-high de créer un jeu en Python où plusieurs serpents autonomes s’affrontent. En 1 minute et 24 secondes, il a généré un code parfaitement fonctionnel, sans erreur.
Son efficacité est confirmée par un score Elo de 2 130 sur la plateforme Codeforces, le plaçant parmi les 2 500 meilleurs programmeurs au monde. De plus, sur le benchmark SWE-bench Verified, qui évalue la capacité des IA à résoudre des problèmes logiciels réels, o3-mini-high a obtenu 49,3 % d’exactitude, dépassant même o1 (48,9 %).
Ainsi, si vous recherchez une assistance en programmation, o3-mini-high semble être l’option idéale avant même l’arrivée du modèle complet o3, annoncé par Sam Altman dans les prochaines semaines.
2. Une capacité avancée en mathématiques
Outre la programmation, les mathématiques sont un autre domaine où o3-mini excelle. Lors de l’épreuve AIME 2024 (American Invitational Mathematics Examination), un test couvrant l’algèbre, la géométrie et la théorie des nombres, o3-mini-high a atteint un impressionnant 87,3 %, dépassant même o1.
Sur le benchmark FrontierMath, qui rassemble des problèmes posés par des mathématiciens de renom comme Terence Tao, o3-mini-high a obtenu 20 % après 8 tentatives, ce qui est significatif étant donné le niveau de difficulté. En comparaison, d’autres modèles d’IA n’atteignent en général que 2 % sur ce même test.
3. Un expert en sciences au niveau PhD
Le o3-mini-high brille également en sciences, notamment dans des disciplines avancées, comme la biologie, la physique et la chimie. Dans le benchmark GPQA Diamond, qui teste la compréhension des modèles en sciences spécialisées, o3-mini-high a obtenu un score de 79,7 %, surpassant le modèle o1 (78,0 %) et même Gemini 2.0 Flash Thinking de Google (73,3 %).
Ainsi, o3-mini-high est capable de répondre avec précision à des questions scientifiques complexes, souvent comparables à celles d’un doctorant.
4. De solides compétences en culture générale
Même si o3-mini est principalement optimisé pour le raisonnement en programmation, mathématiques et sciences, il reste très performant en culture générale. Sur le benchmark MMLU, qui évalue les connaissances générales d’un modèle d’IA sur divers sujets, o3-mini-high a obtenu 86,9 %, se rapprochant du GPT-4o d’OpenAI (88,7 %).
Le modèle complet o3, qui arrivera bientôt, devrait logiquement dépasser tous les modèles actuels sur ce type de test. En effet, o1 a déjà atteint un score de 92,3 % sur MMLU, ce qui laisse présager une performance encore meilleure pour o3.
5. Un accès à la recherche Web en temps réel
L’une des principales limitations des modèles d’IA est leur base de connaissances figée. À ce jour, o3-mini dispose d’une date limite de connaissance en octobre 2023, ce qui peut poser problème pour les informations les plus récentes.
Cependant, OpenAI a intégré une fonctionnalité de recherche sur le Web pour o3-mini, permettant ainsi au modèle de compléter ses réponses en temps réel. Seul DeepSeek R1 propose une fonctionnalité similaire parmi les modèles de raisonnement, mais aucun autre concurrent majeur n’a encore intégré cette capacité.
o3-mini, un modèle à fort potentiel
Le modèle o3-mini d’OpenAI représente une avancée majeure dans l’IA, en particulier pour la programmation, les mathématiques et la science. Bien que la version gratuite de ChatGPT permette d’accéder à o3-mini avec un niveau de raisonnement moyen, la version o3-mini-high offre des performances nettement supérieures, justifiant l’abonnement ChatGPT Plus à 20 dollars/mois.
Pour les développeurs, chercheurs et étudiants en sciences, o3-mini-high est un outil puissant et compétitif. Nous attendons maintenant avec impatience la sortie du modèle complet o3, qui promet de dépasser tous les modèles existants.