Google a lancé un nouvel outil d’intelligence artificielle (IA) baptisé Whisk, qui permet de générer des images en combinant des prompts visuels et textuels pour créer des rendus uniques et personnalisés.
Comment fonctionne Whisk ?
Dans son dernier billet de blog, Google explique que Whisk repose sur une combinaison des technologies Gemini et Imagen 3, les modèles d’IA les plus récents de l’entreprise. Voici comment cela fonctionne :
- Soumettez une image : L’utilisateur peut télécharger une image pour définir le sujet, la scène ou le style.
- Génération de prompts : Whisk utilise Gemini pour extraire les caractéristiques essentielles de l’image afin de créer des prompts textuels détaillés.
- Remixage et création : Ces prompts sont ensuite injectés dans Imagen 3, le générateur d’images IA de Google, qui produit un remix basé sur les entrées visuelles et textuelles.
Par exemple, si vous téléchargez une image d’un personnage en peluche et que vous entrez un texte comme « autocollant émaillé », Whisk pourra générer une nouvelle version de l’image adaptée à ce style artistique.
Un outil d’exploration visuelle plutôt qu’un éditeur d’images traditionnel
Google précise que Whisk n’est pas un éditeur d’images classique. L’objectif principal de cet outil est d’offrir une exploration visuelle rapide et créative plutôt que des modifications précises au pixel près. Selon Google : « Whisk extrait uniquement quelques caractéristiques clés de votre image, il pourrait donc générer des visuels différents de vos attentes. Par exemple, le sujet généré pourrait avoir une taille, une coiffure ou une couleur de peau différentes ».
Pour affiner les résultats, les utilisateurs peuvent modifier ou compléter les prompts générés par Gemini afin d’obtenir des rendus plus proches de leurs idées.
Google souligne que des artistes et des créateurs ayant testé Whisk en avant-première le considèrent comme un outil d’idéation pour tester rapidement des variations visuelles et sélectionner les options les plus inspirantes.
Comment essayer Whisk ?
Pour l’instant, Whisk est uniquement disponible aux États-Unis via la plateforme Google Labs. Les utilisateurs basés en Amérique peuvent l’essayer gratuitement en se rendant sur le site officiel de Google Labs. Google n’a pas encore annoncé de date pour un déploiement international.
Avec Whisk, Google propose une nouvelle manière d’utiliser l’intelligence artificielle pour remixer et personnaliser des visuels, offrant aux créateurs un outil puissant pour explorer rapidement des idées. Grâce à la synergie entre Gemini et Imagen 3, Whisk permet de générer des contenus créatifs uniques tout en restant accessible et flexible pour les utilisateurs. Toutefois, pour ceux qui recherchent un éditeur d’images précis, il pourrait s’avérer limité dans sa forme actuelle.
Alors que l’IA générative continue de transformer le monde de la création visuelle, Whisk s’ajoute à l’arsenal de Google pour concurrencer d’autres outils populaires tels que MidJourney ou DALL·E.