DeepMind, la division d’IA de Google, a officiellement lancé Veo 2, son modèle de génération vidéo basé sur l’intelligence artificielle, conçu pour rivaliser avec le modèle Sora d’OpenAI.
Alors que Sora se limite à créer des clips de 20 secondes avec une résolution maximale de 1080p, Veo 2 se distingue en produisant des vidéos de plusieurs minutes en résolution 4K époustouflante. Selon Google, Veo 2 excelle grâce à sa compréhension des « lois physiques du monde réel » et des « subtilités des mouvements et expressions humaines », ce qui améliore grandement le réalisme des vidéos générées.
Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. 🎥
We’re also releasing an improved version of our text-to-image model, Imagen 3 – available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) December 16, 2024
Veo 2, une précision sans précédent dans la génération vidéo
Dans mes quelques tests avec Sora, j’ai remarqué que le modèle d’OpenAI manque souvent de précision en matière de physique, produisant des anomalies telles que des doigts supplémentaires ou des objets inattendus. Veo 2 promet de surmonter ces défauts grâce à des résultats plus réalistes et moins de phénomènes hallucinés.
Avec Veo 2, les utilisateurs peuvent également générer des vidéos dans divers styles, en définissant des éléments comme :
- L’objectif utilisé
- Le genre cinématographique
- Les effets de mise en scène
- Des angles spécifiques comme les plans rapprochés ou les travellings en contre-plongée
Disponibilité de Veo 2
Veo 2 est en cours de déploiement progressif via plusieurs plateformes : VideoFX, YouTube et Vertex AI. Pour l’instant, les clips générés sont actuellement limités à 8 secondes et une résolution 720p, loin des capacités théoriques de 2 minutes en 4K.
Les utilisateurs intéressés peuvent rejoindre une liste d’attente pour y accéder. Google prévoit également d’intégrer Veo 2 à YouTube Shorts dès l’année prochaine, ce qui permettra de démocratiser la génération vidéo par IA sur l’une des plus grandes plateformes vidéo au monde. Pour garantir l’intégrité des vidéos générées par Veo 2, Google utilise la technologie SynthID, une marque invisible intégrée dans chaque vidéo pour signaler qu’elle a été créée par une IA.
Annonce de Imagen 3 : génération d’images IA encore plus puissante
Parallèlement à Veo 2, Google a présenté Imagen 3, son modèle de génération d’images, qui propose désormais des visuels plus lumineux, mieux composés, et d’une précision accrue. Imagen 3 prend en charge une grande variété de styles artistiques, notamment : Abstrait, Anime, Photoréalisme et Impressionnisme.
Imagen 3 est déjà largement déployé via ImageFX dans plus de 100 pays, offrant une solution polyvalente pour les créateurs.
Présentation de Whisk : un outil expérimental pour fusionner scènes, sujets et styles
En complément, Google a dévoilé Whisk, un outil innovant permettant aux utilisateurs de créer des images uniques en combinant plusieurs éléments :
- Sujets : possibilité d’ajouter une photo ou un objet principal.
- Scènes : description ou choix d’un décor précis.
- Styles : application d’un style visuel pour obtenir des rendus personnalisés.
Whisk utilise la puissance combinée d’Imagen 3 et de la compréhension visuelle de Gemini pour fusionner les entrées et générer une image totalement nouvelle. L’outil est accessible sur Google Labs pour les utilisateurs désireux d’expérimenter cette nouvelle approche créative.
Un écosystème d’outils IA en pleine expansion
Avec le lancement de Veo 2, Imagen 3, et Whisk, Google montre sa volonté de repousser les limites de la création numérique. Que ce soit pour la vidéo, l’image ou la combinaison des deux, ces nouveaux outils promettent de transformer la manière dont les créateurs travaillent et imaginent leurs projets.