Au milieu des vives controverses suscitées par Stability AI, la société a dévoilé la dernière version de son générateur d’images IA. En effet, Stability AI a récemment dévoilé Stable Diffusion 3, une avancée majeure dans le domaine de la synthèse d’images par intelligence artificielle.
Ce modèle de nouvelle génération promet de transformer des descriptions textuelles en images détaillées avec une précision et une qualité accrues. Bien qu’il n’y ait pas eu de démo publique, Stability a lancé une liste d’attente pour ceux désireux d’expérimenter cette innovation.
Stable Diffusion 3 se décline en plusieurs versions, avec une capacité allant de 800 millions à 8 milliards de paramètres, permettant ainsi une exécution sur divers appareils, des smartphones aux serveurs. Cette diversité de modèles vise à adapter la performance en fonction des détails souhaités dans les images générées, tout en tenant compte des contraintes matérielles spécifiques à chaque dispositif.
Some notes:
—This uses a new type of diffusion transformer (similar to Sora) combined with flow matching and other improvements.
—This takes advantage of transformer improvements & can not only scale further but accept multimodal inputs..
—More technical details soon—Emad (@EMostaque) February 22, 2024
De plus, Stability AI a mis l’accent sur la sécurité dans cette version, afin d’empêcher les mauvais acteurs d’utiliser Stable Diffusion 3 à mauvais escient, en ajoutant des mesures de protection.
Depuis 2022, Stability s’est illustrée par le lancement successif de modèles de génération d’images AI, offrant une alternative ouverte face aux modèles propriétaires. Malgré les controverses, notamment sur l’utilisation de données protégées par le droit d’auteur, les biais et le potentiel d’abus, les modèles Stable Diffusion sont restés accessibles et modifiables, favorisant ainsi une approche plus transparente et personnalisable de la synthèse d’images.
Une architecture novatrice
Emad Mostaque, le PDG de Stability, souligne les innovations techniques de Stable Diffusion 3, notamment l’adoption d’une architecture de transformateur de diffusion, inspirée des transformateurs utilisés pour traiter les séquences et les motifs. Cette méthode, combinée à la technique de « flow matching », optimise la génération d’images en apprenant à passer efficacement du bruit aléatoire à une image structurée, promettant ainsi des résultats de haute qualité.
Bien que Stable Diffusion 3 ne soit pas encore accessible au grand public, les échantillons disponibles témoignent de sa capacité à rivaliser avec les modèles les plus avancés du marché. L’amélioration notable dans la génération de texte et la fidélité des prompts positionne ce modèle comme une avancée significative dans le domaine.
Stability continue d’explorer différentes architectures de synthèse d’images, comme en témoigne l’annonce récente de Stable Cascade, illustrant ainsi son engagement à repousser les limites de l’intelligence artificielle dans la création d’images.