Lors de son grand événement de son grand événement Spring Update en mai 2024, OpenAI avait dévoilé son nouveau Mode Vocal pour ChatGPT, prévu pour une expérience conversationnelle plus naturelle et « humaine », avec des inflexions émotionnelles et la capacité de gérer les interruptions. Cependant, ce lancement très attendu est repoussé d’au moins un mois par rapport à la date initialement prévue de fin juin.
Le Mode Vocal ne sera disponible qu’à la fin juillet ou début août, et seulement pour un petit groupe d’utilisateurs. OpenAI a justifié ce retard en expliquant qu’il était nécessaire de peaufiner la capacité du mode à « détecter et refuser certains contenus ».
Dans une publication sur son compte X, l’entreprise a précisé :
Nous avions prévu de lancer ce mode en alpha pour un petit groupe d’utilisateurs de ChatGPT Plus fin juin, mais nous avons besoin d’un mois supplémentaire pour atteindre notre niveau de qualité. Par exemple, nous améliorons la capacité du modèle à détecter et refuser certains contenus. Nous travaillons également à améliorer l’expérience utilisateur et à préparer notre infrastructure pour une mise à l’échelle.
Un utilisateur de X s’est dit contrarié par le fait qu’OpenAI ait incité les gens à souscrire à l’abonnement payant ChatGPT Plus, alors qu’il a fallu des mois pour mettre en place la fonctionnalité. Malgré tout, une reconnaissance officielle est toujours appréciée par ceux qui attendent désespérément.
Le mode vocal avancé a fait forte impression lorsqu’il a été dévoilé en mai, présentant un temps de réponse sans latence, analogue à celui d’un être humain, avec des émotions telles que le rire. La démonstration a même permis à l’utilisateur de couper l’IA au milieu d’une phrase, tout en conservant la continuité de la conversation.
Stratégie de déploiement progressif du Mode Vocal pour ChatGPT Plus
OpenAI prévoit un déploiement progressif en commençant par un groupe restreint d’utilisateurs pour recueillir des retours et ajuster en conséquence. L’objectif est que tous les utilisateurs de ChatGPT Plus aient accès au Mode Vocal d’ici l’automne, sous réserve que les critères de sécurité et de fiabilité soient atteints.
Parallèlement, OpenAI travaille sur le lancement de nouvelles capacités de partage vidéo et d’écran, et communiquera sur leur calendrier ultérieurement.
Ce retard survient alors qu’OpenAI fait face à une concurrence accrue, notamment de la part d’Anthropic, fondée par d’anciens membres de l’équipe OpenAI. Bien que Anthropic n’ait pas encore de mode vocal, elle a récemment sorti un nouveau modèle fondamental, Claude 3.5 Sonnet, qui rivalise avec le modèle GPT-4o d’OpenAI sur plusieurs benchmarks tiers.
OpenAI doit également gérer des critiques croissantes concernant ses mesures de sécurité et ses objectifs de développement de l’intelligence artificielle générale (AGI). De plus, l’entreprise a été critiquée pour ses accords de séparation et de participation au capital, critiques auxquelles elle a en partie répondu en annulant les restrictions.
Controverse et soutien
L’actrice Scarlett Johansson a publiquement critiqué OpenAI après la démonstration d’une voix d’IA nommée « Sky » qu’elle jugeait similaire à la sienne, bien qu’elle ait refusé de prêter sa voix à l’entreprise. OpenAI a réfuté ces allégations en montrant des preuves de la sélection d’une autre actrice pour la voix de Sky, mais a néanmoins désactivé cette voix d’IA.
Malgré ces critiques, OpenAI continue de séduire de nouveaux utilisateurs et partenaires, notamment dans la production de vidéos musicales et publicitaires avec son modèle vidéo Sora non publié, et dans le domaine de la santé avec Color, une startup qui intègre GPT-4o dans une application de dépistage du cancer.