OpenAI continue de repousser les limites de l’intelligence artificielle en intégrant un raisonnement visuel avancé dans ChatGPT. Avec l’arrivée de ses nouveaux modèles o3 et o4-mini, la plateforme ne se contente plus d’analyser les textes : elle est désormais capable de véritablement « penser avec les images ». Une avancée majeure qui transforme l’usage de l’IA dans la génération de contenu, le codage, les analyses visuelles et bien plus encore.
Décrit comme le modèle de raisonnement le plus puissant d’OpenAI, o3 est une évolution significative, surpassant les modèles GPT-4.1 et GPT-4.5. Il excelle dans les domaines du codage, des mathématiques, des sciences, et surtout de la perception visuelle. En parallèle, o4-mini, plus léger, vise un équilibre entre performance et rapidité, parfait pour les usages à faible coût.
ChatGPT peut désormais « raisonner avec des images »
Ce qui rend ces modèles révolutionnaires, c’est leur capacité à intégrer les images dans leur processus de réflexion. OpenAI explique que o3 et o4-mini peuvent désormais analyser, manipuler et exploiter les éléments visuels au même titre que le texte.
Cela inclut :
- le recadrage, le zoom, ou la rotation d’images,
- l’analyse de diagrammes complexes, de notes manuscrites ou de schémas techniques,
- la compréhension contextuelle de scènes réelles capturées en photo.
Il ne s’agit plus seulement de générer des images sur demande : ces modèles peuvent extraire du sens à partir de visuels, enrichir leur interprétation, et générer des réponses plus pertinentes et nuancées.
Une IA multimodale plus proche de la réalité
Cette avancée rapproche ChatGPT de Gemini de Google, qui impressionne par sa capacité à interpréter des flux vidéo en direct. OpenAI semble vouloir poser les fondations d’agents IA capables de raisonner en combinant texte, image, données et code.
Ces nouvelles capacités permettent des cas d’usage concrets, comme :
- décrypter une capture d’écran d’interface utilisateur,
- analyser une photo de tableau blanc prise en réunion,
- expliquer une œuvre d’art simplement via l’appareil photo,
- proposer des solutions à partir d’un croquis ou d’un graphique.
Un accès réservé aux abonnés… pour le moment
Pour éviter une surcharge de ses ressources, OpenAI limite l’accès aux modèles o3, o4-mini et o4-mini-high aux utilisateurs ChatGPT Plus, Pro et Team. Les clients Enterprise et Education y auront accès dans une semaine. Quant aux utilisateurs gratuits, ils peuvent accéder à o4-mini via l’option « Think » dans la barre de saisie, mais avec des fonctionnalités limitées.
Avec o3 et o4-mini, ChatGPT entre dans une nouvelle ère de raisonnement multimodal, où les images sont traitées comme une source d’information à part entière. Cette évolution ouvre la voie à des assistants IA toujours plus intelligents, capables de comprendre, analyser et réagir à notre monde visuel avec une précision inégalée.