La startup française d’intelligence artificielle, Mistral, vient de dévoiler son tout premier modèle multimodal, baptisé Pixtral 12B. Ce modèle, capable de traiter à la fois des images et du texte, s’inscrit dans la lignée des innovations d’OpenAI et d’Anthropic, et place Mistral sur l’échiquier des acteurs majeurs de l’IA.
Sophia Yang, responsable des relations avec les développeurs chez Mistral AI, a annoncé le nouveau modèle sur Twitter.
We dropped a new model – Pixtral 12B, our first-ever multimodal model. Enjoy! 🥰🎉 https://t.co/uvXnpJf6mQ
— Sophia Yang, Ph.D. (@sophiamyang) September 11, 2024
Pixtral 12B : un modèle puissant et accessible
Pixtral 12B, doté de 12 milliards de paramètres, repose actuellement sur le modèle textuel Nemo 12B de Mistral. Selon les annonces de l’entreprise, il sera intégré au chatbot « Le Chat » et à la plateforme API « La Platforme ».
D’une taille de 24 Go, ce modèle devrait être capable de réaliser des tâches telles que la légende d’images ou le comptage d’objets dans une photo. Mistral a publié Pixtral 12B sous licence Apache 2.0, permettant ainsi son téléchargement, son ajustement et son utilisation sans restriction. Il est disponible sur GitHub et Hugging Face.
Des performances prometteuses
Les premiers benchmarks de Pixtral 12B, partagés par un utilisateur de Reddit, sont encourageants. Le modèle semble surpasser Claude-3 Haiku et Phi-3 Vision en capacités multimodales sur le benchmark ChartQA, et dépasser les modèles concurrents en matière de connaissances et de raisonnement multimodaux sur le benchmark MMLU.
Mistral : une ascension fulgurante
Mistral s’est déjà fait connaître avec Codestral, un modèle de langage dédié aux développeurs, ainsi qu’avec Mistral Large, un modèle de génération de texte de pointe doté de capacités de raisonnement avancées.
La startup, soutenue par Amazon, a connu une croissance rapide. En décembre dernier, elle a levé 414 millions de dollars, atteignant une valorisation de 2 milliards de dollars. En mai, elle a bouclé un nouveau tour de table de 645 millions de dollars mené par General Catalyst, portant sa valorisation à 6 milliards de dollars.
Les défis à venir
Comme la plupart des modèles d’IA générative, Pixtral 12B utilise de vastes quantités de données publiques provenant du Web, souvent protégées par le droit d’auteur. Cette pratique est contestée par de nombreux détenteurs de droits d’auteur, et des entreprises comme OpenAI et Midjourney font déjà face à des poursuites judiciaires.
Malgré ces défis, le lancement de Pixtral 12B marque une étape importante pour Mistral. La startup française se positionne désormais comme un acteur clé de l’IA multimodale, et il sera intéressant de suivre ses prochaines innovations dans ce domaine en pleine effervescence.