Nvidia, le géant des processeurs graphiques, vient de dévoiler NVLM 1.0, une famille de modèles de langage multimodal open source qui surpasserait GPT-4 d’OpenAI dans certaines tâches. Le modèle phare, NVLM-D-72B, compte 72 milliards de paramètres et excelle dans les tâches combinant vision et langage, tout en maintenant, voire en améliorant, les performances textuelles par rapport aux modèles de langage existants.
« Pour y parvenir, nous avons intégré un ensemble de données textuelles de haute qualité à l’entraînement multimodal, ainsi qu’une quantité importante de données multimodales de mathématiques et de raisonnement, ce qui a permis d’améliorer les capacités en mathématiques et en codage dans toutes les modalités », expliquent les chercheurs de Nvidia.
Selon l’équipe de recherche de Nvidia, NVLM-D-72B surpasse les principaux modèles propriétaires et open source en matière de compréhension d’images et de texte. Contrairement à certains modèles propriétaires dont les performances textuelles diminuent avec le temps, NVLM-D-72B a amélioré sa précision de 4,3 points en moyenne sur des benchmarks textuels clés.
Introducing NVLM 1.0, a family of frontier-class multimodal LLMs that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., InternVL 2).
Remarkably, NVLM 1.0 shows improved text-only… pic.twitter.com/yKGyOqHnsp— Wei Ping (@_weiping) September 18, 2024
Ce modèle d’IA est capable d’interpréter des graphiques et des tableaux, d’analyser des images, de comprendre des mèmes, de coder des logiciels et de résoudre des problèmes mathématiques. Les poids du modèle sont disponibles publiquement sur Hugging Face, et Nvidia prévoit de publier le code d’entraînement ultérieurement.
Un accueil enthousiaste de la communauté IA
Les chercheurs en IA ont salué cette sortie sur X (anciennement Twitter), qualifiant le modèle de « révolutionnaire » et louant sa capacité à comprendre les données visuelles.
NVLM by NVIDIA is wild. And Open. Check it out.https://t.co/fYpagW4Kog pic.twitter.com/r9V8uamGVf
—Alex Zhavoronkov, PhD (aka Aleksandrs Zavoronkovs) (@biogerontology) October 2, 2024
Wow nvidia just published a 72B model with is ~on par with llama 3.1 405B in math and coding evals and also has vision 🤯 pic.twitter.com/c46DeXql7s
—Phil (@phill__1) October 1, 2024
Wow. New NVIDIA 72B model rivals Llama’s 405B! 😮https://t.co/ACsvUUctml pic.twitter.com/TUZ378S4tz
—Jeremy Howard (@jeremyphoward) October 1, 2024
Nvidia a utilisé des ressources open source pour développer NVLM 1.0, s’inspirant d’autres modèles d’IA et de données d’entraînement variées. Cependant, l’utilisation de NVLM-D-72B est soumise à des restrictions de licence. Il ne peut être utilisé à des fins commerciales ni modifié pour la revente. Nvidia met donc ce modèle à disposition exclusivement pour la recherche et les amateurs souhaitant tester les limites de leurs cartes graphiques haut de gamme.
L’utilisation du terme « open-source » par les chercheurs est donc à nuancer. Bien que les résultats de Nvidia soient précieux, les restrictions d’utilisation commerciale empêchent de considérer NVLM 1.0 comme un véritable modèle open source, qui impliquerait la liberté d’utiliser, de modifier et de distribuer le modèle sans aucune limitation.
En publiant NVLM 1.0 en open source, Nvidia ne cherche pas à concurrencer directement ChatGPT-4o et Gemini 1.5 Pro, mais plutôt à fournir une base solide aux développeurs tiers pour créer leurs propres chatbots et applications d’IA.