Nvidia, le géant des processeurs graphiques, vient de dévoiler NVLM 1.0, une famille de modèles de langage multimodal open source qui surpasserait GPT-4 d’OpenAI dans certaines tâches. Le modèle phare, NVLM-D-72B, compte 72 milliards de paramètres et excelle dans les tâches combinant vision et langage, tout en maintenant, voire en améliorant, les performances textuelles par rapport aux modèles de langage existants.

« Pour y parvenir, nous avons intégré un ensemble de données textuelles de haute qualité à l’entraînement multimodal, ainsi qu’une quantité importante de données multimodales de mathématiques et de raisonnement, ce qui a permis d’améliorer les capacités en mathématiques et en codage dans toutes les modalités », expliquent les chercheurs de Nvidia.

Selon l’équipe de recherche de Nvidia, NVLM-D-72B surpasse les principaux modèles propriétaires et open source en matière de compréhension d’images et de texte. Contrairement à certains modèles propriétaires dont les performances textuelles diminuent avec le temps, NVLM-D-72B a amélioré sa précision de 4,3 points en moyenne sur des benchmarks textuels clés.

Introducing NVLM 1.0, a family of frontier-class multimodal LLMs that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., InternVL 2).
Remarkably, NVLM 1.0 shows improved text-only… pic.twitter.com/yKGyOqHnsp

— Wei Ping (@_weiping) September 18, 2024

Ce modèle d’IA est capable d’interpréter des graphiques et des tableaux, d’analyser des images, de comprendre des mèmes, de coder des logiciels et de résoudre des problèmes mathématiques. Les poids du modèle sont disponibles publiquement sur Hugging Face, et Nvidia prévoit de publier le code d’entraînement ultérieurement.

Un accueil enthousiaste de la communauté IA

Les chercheurs en IA ont salué cette sortie sur X (anciennement Twitter), qualifiant le modèle de « révolutionnaire » et louant sa capacité à comprendre les données visuelles.

NVLM by NVIDIA is wild. And Open. Check it out.https://t.co/fYpagW4Kog pic.twitter.com/r9V8uamGVf

—Alex Zhavoronkov, PhD (aka Aleksandrs Zavoronkovs) (@biogerontology) October 2, 2024

Wow nvidia just published a 72B model with is ~on par with llama 3.1 405B in math and coding evals and also has vision 🤯 pic.twitter.com/c46DeXql7s

—Phil (@phill__1) October 1, 2024

Wow. New NVIDIA 72B model rivals Llama’s 405B! 😮https://t.co/ACsvUUctml pic.twitter.com/TUZ378S4tz

—Jeremy Howard (@jeremyphoward) October 1, 2024

Nvidia a utilisé des ressources open source pour développer NVLM 1.0, s’inspirant d’autres modèles d’IA et de données d’entraînement variées. Cependant, l’utilisation de NVLM-D-72B est soumise à des restrictions de licence. Il ne peut être utilisé à des fins commerciales ni modifié pour la revente. Nvidia met donc ce modèle à disposition exclusivement pour la recherche et les amateurs souhaitant tester les limites de leurs cartes graphiques haut de gamme.

L’utilisation du terme « open-source » par les chercheurs est donc à nuancer. Bien que les résultats de Nvidia soient précieux, les restrictions d’utilisation commerciale empêchent de considérer NVLM 1.0 comme un véritable modèle open source, qui impliquerait la liberté d’utiliser, de modifier et de distribuer le modèle sans aucune limitation.

En publiant NVLM 1.0 en open source, Nvidia ne cherche pas à concurrencer directement ChatGPT-4o et Gemini 1.5 Pro, mais plutôt à fournir une base solide aux développeurs tiers pour créer leurs propres chatbots et applications d’IA.

WhatsApp : La musique débarque dans vos statuts !

Amis Facebook : Meta retrouve ses origines avec le retour de l’onglet Amis

YouTube Premium : Partagez des vidéos sans pub avec vos proches, la nouvelle option qui pourrait séduire

Nintendo Switch 2 : Des jeux exclusifs et des « Switch 2 Edition » en approche

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Test du Xiaomi 14T Pro, le flagship killer qui n’a pas peur des grands

Les spécifications du MediaTek Dimensity 9500 font surface

Motorola Razr 60 : Le passage à la TENAA dévoile les spécifications complètes, écran, processeur et batterie

CMF by Nothing : Phone (2), écouteurs, casque et montre connectée en approche

Vivo X200 Ultra : Un bouton photo révolutionnaire !

Otter Meeting Agent : un assistant IA transforme les réunions, les détails

Huawei : Un ordinateur hybride PC/tablette/smartphone en développement, le futur de l’informatique ?

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l’expert IA

ChatGPT suspend la génération d’images après une popularité inattendue de GPT-4o et du style Ghibli

Qu’est-ce que le Vibe Coding et pourquoi il est risqué ?

Vibe Coding : L’IA peut-elle vraiment remplacer les développeurs ? Les dangers du « code à l’aveugle »

Discord Social SDK : l’intégration gratuite des fonctionnalités sociales Discord dans les jeux vidéo

Claude Code : Des bugs critiques dès le lancement, les développeurs en colère

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

Connecter Android et Windows : toutes les solutions pour utiliser vos applis sur PC !

Time Machine : Le guide complet pour sauvegarder votre Mac

Que faire avec un Raspberry Pi ? 6 idées originales pour le réutiliser

NVLM 1.0 : Nvidia lance un modèle d’IA open source qui surpasse GPT-4

Un accueil enthousiaste de la communauté IA

L’UE enquête sur les algorithmes de YouTube, Snapchat et TikTok

Gemini Live parle français ! L’IA conversationnelle de Google s’ouvre au monde

The author Yohann Poiron

NVLM 1.0 : Nvidia lance un modèle d’IA open source qui surpasse GPT-4

Un accueil enthousiaste de la communauté IA

The author Yohann Poiron

vous pourriez aussi aimer