L’entreprise à l’origine de TikTok, ByteDance, a lancé un nouvel outil d’intelligence artificielle appelé MagicVideo-V2 qui repousse les limites de la génération de vidéos à partir de texte.
MagicVideo-V2 s’appuie sur une intelligence artificielle de pointe pour produire un contenu vidéo de haute qualité à partir de textes. Lors d’évaluations humaines comparant les vidéos créées par MagicVideo-V2 et d’autres générateurs de texte-vidéo tels que Pika 1.0 et Stable Diffusion-XT, le nouvel outil de ByteDance s’est avéré nettement plus performant que ses concurrents.
Selon la page GitHub du projet, il combine un « modèle texte-image, un générateur de mouvement vidéo, un module d’intégration d’images de référence et un module d’interpolation d’images dans un pipeline de génération vidéo de bout en bout ».
ByteDance just announced MagicVideo-V2
Multi-Stage High-Aesthetic Video Generation
paper page: https://t.co/OczWLXhIrx
The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce… pic.twitter.com/kxik2HA7h5
— AK (@_akhaliq) January 10, 2024
Le modèle MagicVideo-V2 commence par créer une image 1 024 × 1 024 pixels, qui représente le texte saisi. Cette image fixe est ensuite animée, améliorée et affinée. Enfin, le module d’interpolation allonge l’animation à 94 images. Cela permet d’obtenir un résultat richement animé.
Voilà pour la science, mais en pratique, comment MagicVideo-V2 pourrait-il être utilisé ?
En théorie, il pourrait rationaliser la création de vidéos pour les influenceurs des réseaux sociaux et les spécialistes du marketing, aider à augmenter considérablement la production de vidéos pour les médias ou créer des clips animés pour l’éducation et le divertissement.
Des progrès considérables ont été réalisés dans le domaine de l’IA génératrice de vidéos
Le rythme auquel l’IA générative s’améliore est élevé et ne montre aucun signe de ralentissement. Stability AI, la société à l’origine de Stable Diffusion, a récemment commencé à expérimenter la génération de modèles 3D et a également lancé un modèle de tarification par abonnement. Runway, une startup new-yorkaise spécialisée dans la vidéo assistée par ordinateur, a publié en septembre de l’année dernière une importante mise à jour de son outil phare de réalisation de films assistée par ordinateur.
ByteDance, qui domine le marché du divertissement vidéo de courte durée grâce à TikTok et Douyin (une plateforme chinoise de partage de vidéos), est en mesure de maximiser la valeur de MagicVideo-V2.
Au milieu de l’année dernière, elle a également lancé un générateur de musique basé sur l’IA, appelé Ripple. La possibilité pour les utilisateurs de créer des vidéos incroyablement complexes et d’ajouter des sons générés à l’aide de ces outils place TikTok devant ses concurrents dans le domaine des réseaux sociaux axés sur la vidéo, et il sera difficile pour les autres de suivre si leurs innovations se poursuivent.