Mistral AI, une société française qui se consacre à la recherche de modèles d’IA open source et de Large Language Model (LLM), a trouvé l’or avec sa dernière version — du moins parmi les utilisateurs précoces/les influenceurs de l’IA sur X et LinkedIn.
La semaine dernière, dans ce qui est en train de devenir sa signature, Mistral AI a levé le voile en tout discretion son nouveau modèle — Mixtral 8x7B, ainsi nommé parce qu’il emploie une technique connue sous le nom de « mélange d’experts », une combinaison de différents modèles chacun spécialisé dans une catégorie de tâches différente — en ligne sous la forme d’un lien torrent, sans aucune explication ou article de blog ou vidéo de démonstration présentant ses capacités.
Hier, Mistral AI a publié un article de blog détaillant davantage le modèle Mixtral 8x7B et montrant des benchmarks dans lesquels il égale ou surpasse le modèle GPT-3.5 d’OpenAI, ainsi que la famille Llama 2 de Meta, cette dernière étant l’ancien leader de l’IA open source. L’entreprise a reconnu avoir travaillé avec CoreWeave et Scaleway pour l’assistance technique pendant la formation. Elle a également déclaré que Mixtral 8x7B est effectivement disponible pour un usage commercial sous une licence Apache 2.0.
Les premiers utilisateurs de l’IA ont déjà téléchargé Mixtral 8x7B, ont commencé à l’utiliser et ont été époustouflés par ses performances. Grâce à son faible encombrement, il peut également fonctionner localement sur des machines dépourvues de GPU dédiés, y compris sur les Mac dotés du nouveau CPU M2 Ultra.
The speed of Mixtral 8x7b (Q5_0.gguf) on M2 is INSANE
I am still figuring out how to do creative writing with it, but it is honestly mind-blowing for a raw model with GPT 3.5 capabilities. https://t.co/BkrqsxuFHu pic.twitter.com/D1oQIaSP53
— Denis Shiryaev 💙💛 (@literallydenis) December 11, 2023
Et, comme l’a fait remarquer Ethan Mollick, professeur à la Wharton School of Business de l’université de Pennsylvanie et influenceur en matière d’IA, sur X, Mistral 8x7B n’a apparemment « aucun garde-fou », ce qui signifie que les utilisateurs qui se plaignent des politiques de contenu de plus en plus strictes de OpenAI disposent d’un modèle aux performances comparables qu’ils peuvent utiliser pour produire du matériel jugé « dangereux » ou NSFW par d’autres modèles. Toutefois, l’absence de garde-fous peut également constituer un défi pour les décideurs et les régulateurs.
For those who don’t follow AI closely:
1) An open source model (free, anyone can download or modify) beats GPT-3.5
2) It has no safety guardrails
There are good things about this release, but also regulators, IT security experts, etc. should note the genie is out of the bottle. https://t.co/nHvlNKaItw— Ethan Mollick (@emollick) December 11, 2023
Vous pouvez l’essayer vous-même depuis HuggingFace.
Mistral a également des modèles encore plus puissants dans ses cartons, comme l’a noté le PDG d’HyperWrite AI, Matt Schumer, sur X, la société sert déjà une version alpha de Mistral-medium sur son API qui a également été lancée ce weekend, ce qui suggère qu’un modèle plus grand et encore plus performant est en cours d’élaboration.