L’art généré par l’IA apparaît partout, mais ce n’est qu’un début. Microsoft a récemment publié un nouvel outil d’intelligence artificielle appelé VALL-E, qui est analogue à DALL-E mais pour les voix. Après avoir écouté seulement trois secondes d’audio, VALL-E peut reproduire n’importe quelle voix.

Si cela semble terrifiant, c’est parce que ça l’est. Ce n’est pas tout non plus. Selon AITopics, le nouvel outil de Microsoft reproduit facilement les émotions et le ton, ce qui n’est pas le cas de tous les outils d’IA vocale. L’équipe a entraîné VALL-E à partir d’environ 60 000 heures de données vocales en anglais, et il a fait preuve de capacités d’apprentissage en contexte, pouvant même reproduire des mots qu’il n’avait jamais entendus.

Selon ses créateurs, VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l’édition de la parole, où l’enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle (en lui faisant dire quelque chose qu’elle ne disait pas à l’origine), et pour la création de contenu audio lorsqu’il est combiné à d’autres modèles d’IA générative comme GPT-3.

Le rapport indique que VALL-E est capable d’effectuer un TTS basé sur des invites, qu’il suit le contexte et qu’il n’a pas besoin d’une acoustique préconçue ou d’une ingénierie structurelle pour fournir un échantillon audio de haute qualité. En fait, ce nouvel outil d’IA est assez impressionnant. Tout ce dont VALL-E a besoin, c’est d’entendre environ trois secondes de n’importe quelle voix, et il sera capable d’imiter (ou de répliquer) rapidement et facilement cette voix.

Microsoft appelle VALL-E un « modèle de langage de codec neuronal », et il s’appuie sur une technologie appelée EnCodec, que Meta a annoncée en octobre 2022. Contrairement à d’autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir de textes et d’invites acoustiques. Il analyse la façon dont une personne parle, décompose cette information en composants discrets (appelés « tokens ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » de la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l’échantillon de trois secondes.

VALL-E n’est pas disponible pour le public

Il y a plusieurs exemples audio de l’outil sur GitHub, et si certains sont très bons, d’autres ne sont pas si impressionnants et ont un ton robotique. Mais quand ça marche, ça marche très bien. Cela dit, nous n’en sommes qu’aux premiers jours de VALL-E, et les choses s’amélioreront avec le temps. De plus, si l’équipe utilisait de plus grands échantillons, elle serait probablement plus précise.

Il est important de noter que VALL-E n’est pas disponible pour le public, du moins pas encore, donc nous pouvons tous pousser un soupir de soulagement. Si cela se produit, le moins que l’on puisse dire, c’est qu’il y aura une foule de problèmes de sécurité, sociaux et éthiques. Bien que cette technologie semble impressionnante, elle est également assez sauvage.

GTA 6 : le PlayStation Store tease un gros titre pour l’automne 2025, est-ce enfin le bon ?

Voyage d’été : Google dévoile de nouvelles fonctionnalités IA pour faciliter la planification et l’exploration

Microsoft modernise l’écran de connexion : Fluent 2, sans mot de passe et mode sombre Xbox

Vivaldi et Proton VPN : la nouvelle référence pour une navigation web privée et sécurisée

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Test du Xiaomi 14T Pro, le flagship killer qui n’a pas peur des grands

Galaxy Tab S10 FE/FE+ : un nouveau design et un modèle plus grand que jamais

POCO F7 Pro et F7 Ultra : smartphones OLED 2K, Snapdragon 8 Elite et charge ultra-rapide pour 2025

MediaTek Dimensity 9500 : le SoC le plus puissant en approche, le Dimensity 9400+ arrive dès le 11 avril

Des rendus officiels du Galaxy S25 Edge émergent avant son lancement en avril

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l’expert IA

ChatGPT suspend la génération d’images après une popularité inattendue de GPT-4o et du style Ghibli

Microsoft 365 Copilot : Researcher et Analyst, deux agents IA pour une automatisation avancée

OpenAI GPT-4o : ChatGPT génère images et vidéos avec une qualité inédite

Vibe Coding : L’IA peut-elle vraiment remplacer les développeurs ? Les dangers du « code à l’aveugle »

Discord Social SDK : l’intégration gratuite des fonctionnalités sociales Discord dans les jeux vidéo

Claude Code : Des bugs critiques dès le lancement, les développeurs en colère

Gemini Code Assist : l’IA de Google pour coder devient gratuite et défie la concurrence !

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

Connecter Android et Windows : toutes les solutions pour utiliser vos applis sur PC !

Time Machine : Le guide complet pour sauvegarder votre Mac

Que faire avec un Raspberry Pi ? 6 idées originales pour le réutiliser

Microsoft lance VALL-E, une IA capable de reproduire votre voix

VALL-E n’est pas disponible pour le public

Raspberry Pi lance un module caméra à plus haute résolution, désormais avec autofocus

Le C++ est le langage de programmation de l’année selon TIOBE

The author Yohann Poiron

Microsoft lance VALL-E, une IA capable de reproduire votre voix

VALL-E n’est pas disponible pour le public

The author Yohann Poiron

vous pourriez aussi aimer