Stability AI frappe fort avec la sortie de son nouveau modèle, Stable Diffusion 3 Medium, prouvant que le plus petit peut aussi être puissant. Stable Diffusion, le modèle phare de Stability AI, est reconnu pour ses capacités de génération d’images à partir de texte.
Après une prévisualisation le 22 février et une disponibilité publique via une API le 17 avril, Stability AI lance aujourd’hui Stable Diffusion 3 Medium, un modèle plus petit, mais tout aussi performant, conçu pour fonctionner sur des GPU grand public.
Le modèle Stable Diffusion 3 Medium accessible pour tous
Stable Diffusion Medium est conçu pour être un modèle plus compact, capable de tourner sur des GPU de consommation courante. Cette nouvelle version rend Stable Diffusion 3 encore plus attractif pour les utilisateurs et les organisations ayant des contraintes de ressources, tout en offrant une technologie de génération d’images de haute qualité. Disponible dès aujourd’hui via API et sur le service Stable Artisan via Discord, les poids du modèle seront également accessibles pour une utilisation non commerciale sur Hugging Face.
Avec cette nouvelle sortie, la version initiale de Stable Diffusion est désormais connue sous le nom de Stable Diffusion 3 (SD3) Large. Selon Christian Laforte, co-PDG de Stability AI, SD3 Large possède 8 milliards de paramètres, tandis que Stable Diffusion 3 Medium n’en compte que 2 milliards. « Contrairement à SD3 Large, SD3 Medium est plus petit et fonctionnera efficacement sur du matériel grand public », a déclaré Laforte.
Des exigences matérielles réduites
Stable Diffusion Medium révolutionne les charges de travail des IA génératives en nécessitant seulement 5 Go de VRAM GPU pour fonctionner. Cette exigence minimale permet au modèle de tourner sur une grande variété de PC grand public ainsi que sur des ordinateurs portables haut de gamme. Bien que 5 Go soit le minimum, Stability AI recommande 16 Go de VRAM GPU pour des performances optimales, un chiffre encore atteignable pour de nombreux utilisateurs.
Malgré un nombre de paramètres réduit, Stability AI affirme que Stable Diffusion 3 Medium offre une qualité exceptionnellement élevée, comparable à celle de SD3 Large. Selon Laforte, SD3 Medium se distingue par une série de capacités identiques à celles de SD3 Large, notamment le photoréalisme, l’adhérence aux prompts, la typographie, l’efficacité des ressources et le fine-tuning.
En matière d’adhérence aux prompts, Laforte a précisé que SD3 est capable de comprendre remarquablement bien les commandes en langage naturel, y compris la compréhension spatiale des éléments dans une image. Le modèle plus petit est également excellent en fine-tuning, capturant efficacement les détails des ensembles de données spécifiques.
L’une des grandes nouveautés de SD3 est l’amélioration de la typographie, une capacité qui se retrouve également dans SD3 Medium.
La caractéristique la plus marquante de SD3 Medium reste son efficacité en termes de ressources.