L’art généré par l’IA apparaît partout, mais ce n’est qu’un début. Microsoft a récemment publié un nouvel outil d’intelligence artificielle appelé VALL-E, qui est analogue à DALL-E mais pour les voix. Après avoir écouté seulement trois secondes d’audio, VALL-E peut reproduire n’importe quelle voix.
Si cela semble terrifiant, c’est parce que ça l’est. Ce n’est pas tout non plus. Selon AITopics, le nouvel outil de Microsoft reproduit facilement les émotions et le ton, ce qui n’est pas le cas de tous les outils d’IA vocale. L’équipe a entraîné VALL-E à partir d’environ 60 000 heures de données vocales en anglais, et il a fait preuve de capacités d’apprentissage en contexte, pouvant même reproduire des mots qu’il n’avait jamais entendus.
Selon ses créateurs, VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l’édition de la parole, où l’enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription textuelle (en lui faisant dire quelque chose qu’elle ne disait pas à l’origine), et pour la création de contenu audio lorsqu’il est combiné à d’autres modèles d’IA générative comme GPT-3.
Le rapport indique que VALL-E est capable d’effectuer un TTS basé sur des invites, qu’il suit le contexte et qu’il n’a pas besoin d’une acoustique préconçue ou d’une ingénierie structurelle pour fournir un échantillon audio de haute qualité. En fait, ce nouvel outil d’IA est assez impressionnant. Tout ce dont VALL-E a besoin, c’est d’entendre environ trois secondes de n’importe quelle voix, et il sera capable d’imiter (ou de répliquer) rapidement et facilement cette voix.
Microsoft appelle VALL-E un « modèle de langage de codec neuronal », et il s’appuie sur une technologie appelée EnCodec, que Meta a annoncée en octobre 2022. Contrairement à d’autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio discrets à partir de textes et d’invites acoustiques. Il analyse la façon dont une personne parle, décompose cette information en composants discrets (appelés « tokens ») grâce à EnCodec, et utilise des données d’entraînement pour faire correspondre ce qu’il « sait » de la façon dont cette voix sonnerait si elle prononçait d’autres phrases en dehors de l’échantillon de trois secondes.
VALL-E n’est pas disponible pour le public
Il y a plusieurs exemples audio de l’outil sur GitHub, et si certains sont très bons, d’autres ne sont pas si impressionnants et ont un ton robotique. Mais quand ça marche, ça marche très bien. Cela dit, nous n’en sommes qu’aux premiers jours de VALL-E, et les choses s’amélioreront avec le temps. De plus, si l’équipe utilisait de plus grands échantillons, elle serait probablement plus précise.
Il est important de noter que VALL-E n’est pas disponible pour le public, du moins pas encore, donc nous pouvons tous pousser un soupir de soulagement. Si cela se produit, le moins que l’on puisse dire, c’est qu’il y aura une foule de problèmes de sécurité, sociaux et éthiques. Bien que cette technologie semble impressionnante, elle est également assez sauvage.