fermer
Intelligence Artificielle

OpenAI ajoute la prise en charge des capacités vocales et visuelles à ChatGPT

choong deng xiang ILyeoImR8Uk unsplash 1 jpg
ChatGPT bénéficie d'une énorme mise à jour avec la reconnaissance d'image / vocale

OpenAI déploie de nouvelles fonctionnalités pour ChatGPT qui permettront d’exécuter des invites avec des images et des directives vocales en plus du texte.

La marque d’IA a annoncé lundi qu’elle mettrait ces nouvelles fonctionnalités à la disposition des utilisateurs de ChatGPT Plus et Enterprise au cours des deux prochaines semaines. La fonction vocale est disponible sur iOS et Android en opt-in, tandis que la fonction images est disponible sur toutes les plateformes ChatGPT. OpenAI indique qu’elle prévoit d’étendre la disponibilité des images et des fonctions vocales au-delà des utilisateurs payants après le déploiement échelonné.

Le chat vocal fonctionne comme une conversation auditive entre l’utilisateur et ChatGPT. Vous appuyez sur le bouton et posez votre question. Après avoir traité l’information, le chatbot vous donne une réponse sous forme de discours auditif et non de texte. Le processus est analogue à l’utilisation d’assistants virtuels tels qu’Alexa ou Google Assistant et pourrait être le préambule à une refonte complète des assistants virtuels dans leur ensemble. L’annonce d’OpenAI intervient quelques jours seulement après qu’Amazon a révélé qu’une fonction analogue allait être intégrée à Alexa.

ChatGPT Voice feature

Pour mettre en œuvre la communication vocale et audio avec ChatGPT, OpenAI utilise un nouveau modèle de synthèse vocale capable de générer « un son analogue à celui d’un humain à partir d’un simple texte et de quelques secondes d’échantillon de discours ». En outre, son modèle Whisper peut « transcrire vos paroles en texte ».

OpenAI se dit consciente des problèmes qui pourraient survenir en raison de la puissance de cette fonction, notamment « la possibilité pour des acteurs malveillants d’usurper l’identité de personnalités publiques ou de commettre des fraudes ».

C’est l’une des principales raisons pour lesquelles l’entreprise prévoit de limiter l’utilisation de ses nouvelles fonctionnalités à des « cas d’utilisation spécifiques et à des partenariats ». Même lorsque les fonctionnalités seront plus largement disponibles, elles seront accessibles principalement aux utilisateurs privilégiés, tels que les développeurs.

Une fonctionnalité très utile

La fonction d’image vous permet de capturer une image et de la saisir dans ChatGPT avec votre question ou votre message. Vous pouvez utiliser l’outil de dessin de l’application pour clarifier votre réponse et avoir une conversation avec le chatbot jusqu’à ce que votre problème soit résolu. Cette approche est analogue à la nouvelle fonction Copilot de Microsoft dans Windows, qui est construite sur le modèle d’OpenAI.

OpenAI a également reconnu les défis posés par ChatGPT, tels que le problème des hallucinations. En s’alignant sur la fonction d’image, la marque a décidé de limiter certaines fonctionnalités, telles que la « capacité du chatbot à analyser et à faire des déclarations directes sur les gens ».

ChatGPT a d’abord été présenté comme un outil de synthèse vocale à la fin de l’année dernière. Cependant, OpenAI a rapidement étendu ses prouesses. Le chatbot initial, basé sur le modèle de langage GPT-3, a depuis été mis à jour avec GPT-3.5 et maintenant GPT-4, qui est le modèle qui reçoit la nouvelle fonctionnalité. Lors du lancement de GPT-4 en mars, OpenAI a annoncé plusieurs collaborations avec des entreprises, telles que Duolingo, qui a utilisé le modèle d’IA pour améliorer la précision de l’écoute et des leçons basées sur la parole sur l’application d’apprentissage des langues. OpenAI a collaboré avec Spotify pour traduire des podcasts dans d’autres langues tout en préservant le son de la voix du podcasteur. L’entreprise a également évoqué son travail avec l’application mobile Be My Eyes, qui aide les personnes aveugles et malvoyantes. Nombre de ces applications et services étaient déjà disponibles avant la mise à jour des images et de la voix.

Tags : ChatGPT
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.