L’industrie de la technologie assiste avec intérêt aux préparatifs d’OpenAI pour son événement de lundi, où la société pourrait dévoiler une avancée significative avec un nouveau modèle d’IA multimodal.
On assiste à des spéculations croissantes autour de OpenAI, la société derrière ChatGPT, qui pourrait révolutionner son offre avec un assistant numérique multimodal. Ce développement, contrairement aux rumeurs antérieures, ne pointerait pas vers un moteur de recherche classique, mais vers une innovation pouvant toujours remettre en question la suprématie de Google.
L’assistant multimodal envisagé serait capable de traiter divers types d’entrées, pas seulement du texte. Selon un rapport de The Information, ce modèle serait capable de reconnaître les objets et de comprendre la parole, offrant une interprétation plus rapide et plus précise des images et des sons que les modèles actuels de transcription et de synthèse vocale.
Cette capacité permettrait, par exemple, d’analyser des informations visuelles via une caméra et de fournir des réponses audibles, enrichissant l’interaction avec l’utilisateur. Imaginez pointer votre caméra vers un panneau dans une langue étrangère, demander à ChatGPT d’identifier et de traduire le texte, puis recevoir une réponse vocale.
Cette fonctionnalité ressemble à ce que proposent déjà des outils comme Google Lens et Google Assistant, et même le récent Google Gemini. Néanmoins, la promesse d’OpenAI semble intégrer ces capacités dans une interface unique, renforçant l’efficacité et l’accessibilité.
Rendez-vous ce soir à 19 heures pour les annonces OpenAI
Les sources anonymes citées par The Information soulignent que cette IA pourrait non seulement améliorer l’efficacité des agents de service client en analysant l’intonation ou le sarcasme des appelants, mais également aider les étudiants avec les mathématiques ou traduire des panneaux en temps réel. Bien que le nouveau modèle puisse surpasser GPT-4 Turbo dans certains types de réponses, il reste sujet à l’erreur, parfois avec une grande assurance.
Ce lundi, lors de l’événement prévu, il est probable que l’entreprise dévoile un modèle GPT amélioré, bien que ce ne soit pas le GPT-5 tant attendu, attendu seulement pour fin 2024.
We’ll be streaming live on https://t.co/OcO6MLUYGH at 10AM PT Monday, May 13 to demo some ChatGPT and GPT-4 updates.
— OpenAI (@OpenAI) May 10, 2024
Le timing de cet événement est stratégique, se déroulant juste avant la Google I/O, où Google devrait révéler ses propres avancées en IA. Ce rendez-vous d’OpenAI, fixé ce lundi 13 mai à 19 heures, heure de Paris, pourrait non seulement ébranler la dominance de Google mais aussi ajuster les attentes du marché sur les capacités évolutives de l’IA en interaction directe avec les utilisateurs.