L’incursion de Google dans l’intelligence artificielle génératrice d’images a rencontré plusieurs obstacles, notamment avec les problèmes du générateur d’images Gemini qui ont conduit à son retrait. L’introduction de Imagen 2 au sein de sa plateforme Vertex AI marque une autre tentative de Google de naviguer dans ce domaine complexe.
La famille de modèles de génération d’images de Google reçoit des mises à jour significatives. La société a annoncé que Imagen 2 intégrera désormais des capacités de transformation de prompts textuels en images animées, ainsi que des fonctionnalités de retouche d’images telles que l’inpainting, l’outpainting et l’identification numérique, désormais disponibles pour le grand public.
Présentée lors de la conférence Google Cloud Next, la fonctionnalité text-to-live de Imagen 2 génère l’équivalent de GIFs animés, initialement à 24 images par seconde, avec une résolution de 360 x 640 pixels et une durée de quatre secondes. Cependant, Google annonce des « améliorations continues » pour ces spécifications.
« Imaginez, au lieu d’avoir une photo statique d’un objet, comme une voiture, vous pouvez voir une image courte comme un véhicule en mouvement animé. De nombreuses organisations, notamment dans les domaines des médias et de la publicité, s’y intéressent car cela améliore l’engagement des utilisateurs », a partagé Thomas Kurian, le PDG de Google Cloud, lors d’un point presse.
Google se targue que Imagen 2 sera capable de créer des images utilisant une gamme d’angles de caméra et de mouvements « tout en maintenant la cohérence sur toute la séquence ». Il intègre également des filtres de sécurité et des filigranes numériques, répondant aux deux principales préoccupations des organisations concernant l’IA générative.
Imagen 2 dispose d’outils de retouches
Pour ce qui est des fonctionnalités de retouche d’image désormais publiques, Imagen 2 peut ajouter ou supprimer des éléments d’une photo, de manière analogue au remplissage génératif ou au contenu conscient d’Adobe Photoshop. De plus, il est possible d’élargir les bordures d’une image pour offrir une vue plus étendue.
Ces mises à jour font partie des annonces de Google concernant Vertex AI, sa plateforme cloud AI entièrement gérée.
Lancé en 2023, Imagen 2 est un produit de Google DeepMind, commercialisé comme une IA capable de générer des images photoréalistes, de haute résolution et esthétiquement agréables à partir de prompts en langage naturel. Il se positionne dans la même catégorie que DALL-E de OpenAI, Midjourney et Adobe Firefly, et est spécifiquement conçu pour aider les entreprises à créer des images qui correspondent à leurs directives de marque et aux besoins de gouvernance.
Pas encore au niveau de la concurrence
Malgré ces capacités, Imagen 2 semble être à la traîne par rapport à des concurrents tels que Runway et Stability AI en termes de polyvalence et de qualité de génération vidéo. Les images animées de Google offrent actuellement une résolution plus basse et des durées plus courtes comparées à ces alternatives.