Meta a dévoilé Voicebox, une IA polyvalente pour la génération de discours qui offre une large gamme de capacités. Ce modèle d’IA avancé peut effectuer des tâches telles que l’édition, l’échantillonnage et la stylisation de la parole grâce à l’apprentissage en contexte.

En annonçant les mises à jour, Meta a publié un message :

Nous sommes satisfaits de Voicebox, notre nouveau projet qui produit des sons avec l’IA. Nous voulons continuer à en apprendre davantage sur les sons et l’IA, et nous espérons que d’autres personnes utiliseront notre travail pour créer de nouvelles choses.

Voicebox excelle dans la production de clips audio de haute qualité et dans l’édition d’audio préenregistré, par exemple en supprimant les bruits de fond indésirables, tout en conservant le contenu et le style d’origine.

En outre, elle prend en charge plusieurs langues, ce qui lui permet de produire des discours dans 6 langues différentes. En septembre 2022, Meta avait dévoilé « Make-A-Video », un nouveau système d’intelligence artificielle qui transforme le texte en clips vidéo de haute qualité.

La Voicebox fait partie d’une nouvelle vague de modèles d’IA générative aux applications potentielles variées. Par exemple, elle pourrait améliorer les assistants virtuels et les personnages non joueurs dans le métaverse en fournissant des voix naturelles.

De vastes possibilités

Elle peut également aider les personnes malvoyantes en permettant à l’IA de lire des messages écrits avec la voix de leurs amis. En outre, les créateurs peuvent tirer parti de la Voicebox pour créer et éditer facilement des pistes audio pour les vidéos, entre autres possibilités.

La polyvalence de Voicebox englobe plusieurs tâches, notamment :

Synthèse texte-parole en contexte : Voicebox peut générer une synthèse vocale à partir d’un échantillon audio d’à peine deux secondes, en s’adaptant au style de l’audio fourni
L’édition de la parole et la réduction du bruit : Elle peut reconstruire des segments de discours interrompus ou remplacer des mots mal prononcés sans avoir à réenregistrer. Par exemple, les utilisateurs peuvent supprimer les aboiements d’un chien d’un segment de discours et demander à la Voicebox de les régénérer de manière transparente, un peu comme une gomme d’édition audio
Transfert de style multilingue : Avec un échantillon de parole et un passage de texte dans différentes langues, la Voicebox peut produire une lecture du texte dans n’importe laquelle des langues prises en charge (anglais, français, allemand, espagnol, polonais et portugais). Cette fonction permet aux personnes parlant des langues différentes de dialoguer facilement.
Échantillonnage vocal diversifié : La Voicebox a appris à partir de différents types de données, de sorte qu’elle peut produire un discours qui ressemble à la façon dont les gens parlent dans le monde réel, dans les 6 langues qu’elle connaît

Reddit en panne : Impossible d’accéder aux subreddits !

YouTube Music Recap 2024 : Découvrez vos artistes et chansons préférés de l’année

Windows 11 sur Meta Quest 3 : Travaillez en VR avec votre PC !

Bose acquiert McIntosh Group : L’audio de luxe et l’automobile révolutionnés ?

Test du Lenovo Yoga 9i (2024) : Le 2-en-1 premium se perfectionne avec la puce Intel Core Ultra

Test du Honor Magic V3 : Le smartphone pliable le plus fin du monde est arrivé !

Test du FlexiSpot E7 Pro : Le bureau debout qui allie robustesse, stabilité et design élégant

Test du Google Pixel 9 Pro XL, l’IA et l’autonomie révolutionnent le smartphone

OPPO Reno 13 et 13 Pro : Performances boostées avec le Dimensity 8350 et design élégant

Oura s’associe à Dexcom pour intégrer le suivi du glucose à sa bague connectée

Android 16 : Vos dossiers médicaux disponibles dans Health Connect au format FHIR !

OnePlus Pad Pro de 13 pouces : Plus grand pour encore plus de possibilités ?

Snapdragon X Elite Gen 2 : Le PC Windows du futur avec Oryon v3 ?

ChatGPT-5 : OpenAI face à des défis majeurs dans sa quête de l’IA avancée

ChatGPT: Le mode vocal avancé de OpenAI s’étend au Web !

Google Pixel Laptop : Un retour en force sur le marché des ordinateurs portables ?

Octoverse 2024 : Python détrône JavaScript sur GitHub !

GitHub Copilot : Multi-modèles, Xcode et nouvelles fonctionnalités pour les développeurs

Copilot Chat : GitHub intègre les modèles d’IA d’Anthropic et Google !

Samsung Health SDK : la boîte à outils ultime pour les développeurs d’applications santé

Bluesky : Le guide complet pour débuter et maîtriser l’alternative à X

Notion : Formulaires, e-mails et IA pour une productivité maximale !

Sky Follower Bridge : Retrouvez vos contacts X sur Bluesky !

ChatGPT Search : Découvrez les fonctionnalités qui révolutionnent la recherche en ligne

Meta présente la « Voicebox », un modèle d’IA pour la parole de nouvelle génération

De vastes possibilités

Tout ce qui a été annoncé lors de l’événement Tudum 2023 de Netflix

Google Domains ferme ses portes et ses actifs sont vendus à Squarespace

The author Yohann Poiron

Meta présente la « Voicebox », un modèle d’IA pour la parole de nouvelle génération

De vastes possibilités

The author Yohann Poiron

vous pourriez aussi aimer