Lorsque vous utilisez ChatGPT, en particulier le modèle GPT-4, vous avez certainement remarqué la lenteur avec laquelle le modèle répond aux requêtes. Sans parler des assistants vocaux basés sur de Large Language Model, comme la fonction Voice Chat de ChatGPT ou la récente version de Gemini, qui a remplacé Google Assistant sur les smartphones Android, qui sont encore plus lents en raison de la latence élevée des LLM. Mais tout cela devrait bientôt changer, grâce au nouveau et puissant moteur d’inférence LPU (Language Processing Unit) de Groq.
Dans un secteur technologique en constante évolution, la rapidité et l’efficacité des traitements informatiques sont au cœur des préoccupations, particulièrement dans le domaine de l’intelligence artificielle (IA).
À cet égard, la société Groq, co-fondée par Jonathan Ross, ancien ingénieur de Google, fait figure de pionnière avec son tout nouveau moteur d’inférence LPU (Language Processing Unit), promettant de révolutionner la vitesse de traitement des modèles de langage.
Contrairement à l’IA conversationnelle ChatGPT d’OpenAI, qui repose sur des puces Nvidia, le LPU de Groq se distingue par sa capacité à générer jusqu’à 500 tokens par seconde pour un modèle de 7 milliards de paramètres, et 250 tokens par seconde pour un modèle de 70 milliards. Cette performance dépasse largement celle des solutions basées sur les GPU Nvidia, qui oscillent entre 30 et 60 tokens par seconde.
L’histoire de Groq commence en 2016, lorsque Jonathan Ross quitte Google pour fonder sa propre entreprise, emmenant avec lui une partie de l’équipe ayant développé le premier TPU (Tensor Processing Unit). L’approche innovante de Groq repose sur un développement logiciel préalable à la conception matérielle, permettant d’atteindre une performance dite « déterministe », essentielle pour des résultats rapides, précis et prévisibles.
Le LPU de Groq : une architecture sur mesure
L’architecture du LPU de Groq, analogue à celle d’un ASIC (circuit intégré spécifique à une application), est optimisée pour le traitement séquentiel des données dans les Large Language Modal (LLM), contrairement aux CPU et GPU traditionnels. Cette spécialisation, combinée à un compilateur sur mesure, réduit considérablement la latence, offrant une efficacité et une performance accrues.
Bien que conçu principalement pour l’inférence IA, le LPU de Groq ne se prête pas à l’entraînement de modèles en raison de l’absence de mémoire à haute bande passante (HBM). Toutefois, son efficacité énergétique et sa capacité à fonctionner avec des modèles de diffusion en font une solution attrayante pour diverses applications, y compris la génération d’images haute résolution en moins d’une seconde.
Bien que je ne l’ai pas testé, les LPU Groq fonctionnent également avec des modèles de diffusion, et pas seulement des modèles de langage. D’après la démo, il peut générer différents styles d’images à 1024 pixels en moins d’une seconde. C’est assez remarquable.
Groq vs Nvidia : que dit Groq ?
Dans son rapport, Groq affirme que ses LPU sont évolutives et peuvent être reliées entre elles par une interconnexion optique sur 264 puces. Il est possible de les faire évoluer en utilisant des commutateurs, mais cela augmentera le temps de latence. Selon Ross, l’entreprise développe des clusters qui peuvent s’étendre sur 4 128 puces qui seront commercialisées en 2025, et qui sont développées sur le nœud de processus 4 nm de Samsung.
Lors d’un benchmark réalisé par Groq à l’aide de 576 LPU sur un modèle 70B Llama 2, l’inférence AI a été réalisée en un dixième du temps pris par une grappe de GPU H100 de Nvidia.
De plus, les GPU Nvidia ont consommé de 10 à 30 joules d’énergie pour générer des jetons dans une réponse, alors que Groq n’a consommé que de 1 à 3 joules. En résumé, la société affirme que les LPU Groq offrent une vitesse 10x supérieure pour les tâches d’inférence de l’IA à un dixième du coût des GPU Nvidia.
Un futur prometteur pour l’interaction instantanée avec les systèmes IA
Avec la mise en place des LPUs de Groq, les utilisateurs peuvent s’attendre à des interactions quasi instantanées avec les systèmes d’IA, ouvrant la voie à des applications multimodales innovantes. La disponibilité de l’accès API par Groq laisse présager une amélioration significative des performances des modèles d’IA dans un avenir proche.
L’initiative de Groq dans l’espace matériel de l’IA représente une avancée significative, promettant des interactions plus rapides et plus fluides avec les technologies d’intelligence artificielle. Alors que le monde technologique continue d’évoluer, les contributions de Groq pourraient bien marquer un tournant décisif dans notre manière d’interagir avec les machines.