Le créateur de la célèbre technologie d’IA texte-image Stable Diffusion, Stability AI, a dévoilé un nouveau modèle baptisé Stable Cascade. Ce modèle innovant représente un bond en avant dans la technologie de génération d’images, visant à offrir des solutions plus efficaces et plus flexibles que ses prédécesseurs.
Depuis son lancement initial en 2022, Stability AI n’a cessé d’affiner son modèle Stable Diffusion, ce qui a conduit à des mises à jour importantes avec le SDXL 1.0 en juillet 2023 et le SDXL Turbo en novembre 2023.
Stable Cascade introduit une nouvelle approche de la génération d’images, en utilisant une architecture différente inspirée de l’architecture Würstchen. Cette méthode intègre des techniques avancées pour améliorer à la fois les performances et la précision. Selon le résumé de la recherche de Würstchen, une innovation clé est le développement d’une technique de diffusion latente qui utilise une représentation sémantique de l’image hautement comprimée mais détaillée. Cette approche réduit considérablement les besoins de calcul pour obtenir des résultats de pointe, marquant ainsi une nouvelle étape dans la création d’images pilotée par l’IA.
Contrairement au grand modèle unique utilisé par Stable Diffusion, Stable Cascade utilise une architecture modulaire en trois étapes, comprenant les étapes A, B et C. Cette configuration permet d’améliorer considérablement l’efficacité et la personnalisation de la formation. Le processus commence par l’étape C, qui convertit les prompts textuels en latents compacts de 24 × 24 pixels. Ces latents sont ensuite décodés en images complètes à haute résolution par les étapes A et B. En découplant la génération du texte en image du décodage de l’image, le modèle initial de texte conditionnel peut être formé et affiné avec une plus grande efficacité. Stability AI indique que le réglage fin de l’étape C entraîne à lui seul une réduction des coûts de 16 fois par rapport au réglage fin d’un modèle unique de taille similaire à celui de Stable Diffusion.
L’optimisation directe des préférences (Direct Preference Optimization, DPO) est un autre domaine dans lequel Stable Cascade vise à améliorer la qualité de l’image. La DPO, une alternative à l’apprentissage par renforcement, ajuste les modèles pour les aligner sur les préférences humaines. Le fondateur et PDG de Stability AI, Emad Mostaque, a indiqué que la combinaison de Stable Cascade et de DPO permettrait d’obtenir des images de meilleure qualité. Bien qu’il s’agisse d’un modèle de prévisualisation de recherche, Stable Cascade excelle déjà dans la qualité de l’image et l’alignement rapide, surpassant d’autres modèles artistiques d’IA de premier plan, y compris SDXL, dans les évaluations menées par Stability AI.
Impressionnant
Une avancée notable de Stable Cascade est sa capacité à générer avec précision du texte dans les images, améliorant ainsi l’utilité du modèle pour une large gamme d’applications. Cette fonctionnalité positionne Stable Cascade comme un concurrent important dans l’espace de génération d’art par l’IA, offrant plus de variété et de cohérence dans la création d’images générées par l’IA.
Stable Cascade introduit également des fonctionnalités permettant de générer des variations d’une image donnée tout en conservant le style et la composition, ainsi que d’effectuer des traductions d’image à image. Des techniques avancées telles que l’in-painting et la super-résolution sont prises en charge par les ControlNets. Actuellement disponible pour un usage non commercial dans le cadre d’un aperçu de recherche, le code de Stable Cascade est accessible sur GitHub, invitant les développeurs et les chercheurs à explorer davantage son potentiel.