Avis aux graphistes et à ceux qui en dépendent : un nouvel outil est apparu, qui pourrait bien bouleverser la profession pour de bon.

Baptisé COLE, en l’honneur d’Henry Cole, reconnu comme le créateur de la première carte de Noël graphique en 1843, ce nouvel outil permet aux utilisateurs de saisir une idée de projet de conception graphique, et de demander à une IA de générer non seulement l’image, mais aussi le texte qui l’accompagne, le tout intégré.

COLE est en fait une combinaison de différents modèles d’IA, notamment des versions affinées de Llama2-13B de Meta, DeepFloyd IF, LLaVA1.5-13B (lui-même une variante de Llama) et GPT-4V, ainsi que le moteur de rendu graphique open source Skia. Il a été développé par une équipe de 12 chercheurs de Microsoft Research Asia et de l’Université de Pékin.

La combinaison de différents modèles a été choisie en raison de la complexité de la conception graphique et de la pénurie de données de formation disponibles sur l’un des principaux formats du domaine, à savoir les fichiers .SVG. Les chercheurs ont donc opté pour une approche différente : « consolider tous les éléments SVG et les embellissements supplémentaires dans une couche d’image unifiée », puis demander à l’IA d’extraire la couche d’arrière-plan et de la décrire sous forme de texte.

L’équipe COLE a formé son modélisateur d’arrière-plan à l’IA sur « 100 000 images graphiques brutes de haute qualité provenant d’Internet ».

Un framework, pas un produit… pour l’instant

Pour l’instant, COLE s’apparente davantage à un framework qu’à un produit. Mais, les résultats que l’équipe a obtenus en entraînant et en combinant ces différents produits d’IA au service de la conception graphique sont assez stupéfiants : il suffit de taper des invites textuelles, comme le font d’autres générateurs texte-image actuels tels que DALL-E 3 d’OpenAI ou Midjourney, pour que COLE soit capable de générer des conceptions graphiques nettes, organisées et combinant des images et du texte stylisé.

Ce dernier produit n’est pas une mince affaire : la plupart des générateurs d’art IA, y compris les leaders tels que Midjourney et Stable Diffusion, ont eu du mal à intégrer du texte dans l’image. DALL-E 3 peut produire du texte intégré, mais il n’est pas précis à 100 %.

Plus impressionnant encore, COLE produit des images avec des blocs éditables distincts pour les textes et les objets au sein de l’image.

Cela permet aux programmes d’IA en chaîne de produire une image à partir de zéro et, si l’utilisateur humain n’aime pas le résultat final, il n’a pas besoin de revenir en arrière et d’essayer de réviser l’ensemble de la conception, ni de l’exporter vers un autre programme tel qu’Adobe Photoshop ou InDesign pour effacer certains éléments et en introduire d’autres.

Ils peuvent le faire à l’intérieur même du framework COLE, en cliquant sur la zone de texte pour modifier le texte affiché ou la police, ainsi qu’en tapant de nouvelles invites pour différents éléments visuels, transformant un sac d’épicerie d’une image photoréaliste en un dessin animé, par exemple.

Des résultats compétitifs et prometteurs

En outre, les chercheurs ont montré que les résultats produits par COLE sont « d’une qualité très compétitive… même par rapport au dernier DALL-E 3« .

Les chercheurs ont testé COLE sur 200 projets de conception graphique différents, allant de la publicité à la promotion d’événements et au matériel de marketing, en publiant ici toutes les invites qu’ils ont utilisées dans une feuille de calcul.

En outre, COLE « atteint la meilleure qualité lors de la création de couvertures, d’en-têtes ou d’affiches » et est bien entendu plus performant que DALL-E 3 et d’autres logiciels concurrents lorsqu’il s’agit de modifier des éléments spécifiques de l’image, tels que du texte ou des objets distincts.

Cependant, COLE n’est pas une solution miracle pour la conception graphique — du moins, pas encore. Le système ne permet pas aux utilisateurs de modifier la « disposition » ou l’emplacement de ses blocs typographiques, il ne permet pas encore de placer plusieurs blocs typographiques et il n’autorise qu’une seule couleur de typographie par image. Cependant, les chercheurs écrivent « qu’aborder ces questions est une direction que nous aimerions poursuivre dans nos travaux futurs ».

Pour l’instant, COLE n’est pas accessible au public, mais les chercheurs affirment qu’une démo sera bientôt disponible sur la page Web de leur projet GitHub.

Microsoft Office : Préparez-vous à un tout nouveau look pour vos icônes !

Google Docs se transforme en studio de podcast grâce à l’IA Gemini !

Nintendo Switch 2 : Les Game-Key Cards, un nouveau format de cartouche qui divise ?

Google Cloud Next ’25 : L’IA révolutionne le cloud, de la puce aux agents intelligents !

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Huawei Mate XT : Plus de 400 000 exemplaires vendus pour le révolutionnaire pliable

OPPO Find X8 Ultra : Le photophone ultime est arrivé, et il va vous bluffer !

WhatsApp : Qui est en ligne ? Zoom en appel vidéo, et des groupes plus faciles à gérer

Vivo X200 Ultra : Le smartphone qui devient un appareil photo pro (avec un zoom 8.7x !)

Orange Livebox 7 et Livebox S : La fibre passe à la vitesse supérieure (et devient plus verte)

Framework Laptop 12 : Le PC modulaire et tactile est là (mais pas pour tout le monde) !

Gemini Code Assist : Google dévoile l’IA qui programme à votre place !

Claude Max : Anthropic lance l’abonnement ultime pour les pros de l’IA !

Créez sans coder : Le Vibe Coding pour tous avec l’IA

Qu’est-ce que le Vibe Coding et pourquoi il est risqué ?

Vibe Coding : L’IA peut-elle vraiment remplacer les développeurs ? Les dangers du « code à l’aveugle »

Discord Social SDK : l’intégration gratuite des fonctionnalités sociales Discord dans les jeux vidéo

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

Connecter Android et Windows : toutes les solutions pour utiliser vos applis sur PC !

Time Machine : Le guide complet pour sauvegarder votre Mac

Que faire avec un Raspberry Pi ? 6 idées originales pour le réutiliser

COLE combine plusieurs IA pour générer des dessins modifiables à la demande

Un framework, pas un produit… pour l’instant

Des résultats compétitifs et prometteurs

GatorTronGPT : l’IA qui écrit des notes médicales indiscernables de celles des médecins humains

Google Contacts simplifie la gestion des sonneries avec une nouvelle fonctionnalité

The author Yohann Poiron

COLE combine plusieurs IA pour générer des dessins modifiables à la demande

Un framework, pas un produit… pour l’instant

Des résultats compétitifs et prometteurs

The author Yohann Poiron

vous pourriez aussi aimer