fermer
Intelligence Artificielle

OpenAI : ChatGPT peut désormais raisonner avec les images

o3 o4 mini raisonnement visuel c
OpenAI : ChatGPT peut désormais raisonner avec les images

OpenAI continue de repousser les limites de l’intelligence artificielle en intégrant un raisonnement visuel avancé dans ChatGPT. Avec l’arrivée de ses nouveaux modèles o3 et o4-mini, la plateforme ne se contente plus d’analyser les textes : elle est désormais capable de véritablement « penser avec les images ». Une avancée majeure qui transforme l’usage de l’IA dans la génération de contenu, le codage, les analyses visuelles et bien plus encore.

Décrit comme le modèle de raisonnement le plus puissant d’OpenAI, o3 est une évolution significative, surpassant les modèles GPT-4.1 et GPT-4.5. Il excelle dans les domaines du codage, des mathématiques, des sciences, et surtout de la perception visuelle. En parallèle, o4-mini, plus léger, vise un équilibre entre performance et rapidité, parfait pour les usages à faible coût.

ChatGPT peut désormais « raisonner avec des images »

Ce qui rend ces modèles révolutionnaires, c’est leur capacité à intégrer les images dans leur processus de réflexion. OpenAI explique que o3 et o4-mini peuvent désormais analyser, manipuler et exploiter les éléments visuels au même titre que le texte.

Cela inclut :

  • le recadrage, le zoom, ou la rotation d’images,
  • l’analyse de diagrammes complexes, de notes manuscrites ou de schémas techniques,
  • la compréhension contextuelle de scènes réelles capturées en photo.

Il ne s’agit plus seulement de générer des images sur demande : ces modèles peuvent extraire du sens à partir de visuels, enrichir leur interprétation, et générer des réponses plus pertinentes et nuancées.

Une IA multimodale plus proche de la réalité

Cette avancée rapproche ChatGPT de Gemini de Google, qui impressionne par sa capacité à interpréter des flux vidéo en direct. OpenAI semble vouloir poser les fondations d’agents IA capables de raisonner en combinant texte, image, données et code.

Ces nouvelles capacités permettent des cas d’usage concrets, comme :

  • décrypter une capture d’écran d’interface utilisateur,
  • analyser une photo de tableau blanc prise en réunion,
  • expliquer une œuvre d’art simplement via l’appareil photo,
  • proposer des solutions à partir d’un croquis ou d’un graphique.

Un accès réservé aux abonnés… pour le moment

Pour éviter une surcharge de ses ressources, OpenAI limite l’accès aux modèles o3, o4-mini et o4-mini-high aux utilisateurs ChatGPT Plus, Pro et Team. Les clients Enterprise et Education y auront accès dans une semaine. Quant aux utilisateurs gratuits, ils peuvent accéder à o4-mini via l’option « Think » dans la barre de saisie, mais avec des fonctionnalités limitées.

Avec o3 et o4-mini, ChatGPT entre dans une nouvelle ère de raisonnement multimodal, où les images sont traitées comme une source d’information à part entière. Cette évolution ouvre la voie à des assistants IA toujours plus intelligents, capables de comprendre, analyser et réagir à notre monde visuel avec une précision inégalée.

Tags : ChatGPTo3o4-miniOpenAI
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.