La société d’IA d’Elon Musk, xAi, a lancé Grok-2 et Grok-2 mini en mode bêta, les deux modèles devant être diffusés sur la plateforme de réseaux sociaux X. Pour la première fois, le nouveau modèle Grok permettra aux utilisateurs de générer des images et de les partager par le biais de leurs posts.
Grok-2 a étonnamment surpassé Claude, Gemini et même ChatGPT. L’ancien modèle Grok-1.5 n’a pas été bien accueilli, mais Grok-2 a réalisé d’excellentes performances au classement LMSYS. xAI a publié deux nouveaux modèles : Grok-2 et un modèle plus petit, Grok-2 mini.
xAI affirme que Grok-2 a été considérablement amélioré dans des domaines clés tels que le raisonnement, le suivi des instructions et la fourniture d’informations précises et factuelles. Dans les tests d’intelligence artificielle traditionnels, Grok-2 a obtenu un score impressionnant de 87,5 % en MMLU et de 88,4 % en HumanEval. Ces résultats sont d’autant plus intéressants que le score MMLU a été obtenu en utilisant le CoT à 0 coup.
Grok-2 a été testé sur LMSYS sous le nom de « sus-column-r ». Avec environ 12 000 votes, il se trouve en troisième position, juste derrière ChatGPT-4o-latest, Gemini-1.5-Pro-Experimental et GPT-40-2024-05-13. Cependant, il est plus performant que GPT-4o-mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, et Llama 3.1 405B.
Dans les tâches liées au codage et aux mathématiques, Grok-2 prend la deuxième place, et dans les invites difficiles, il prend la quatrième place.
Woah, another exciting update from Chatbot Arena❤️🔥
The results for @xAI’s sus-column-r (Grok 2 early version) are now public**!
With over 12,000 community votes, sus-column-r has secured the #3 spot on the overall leaderboard, even matching GPT-4o! It excels in Coding (#2),… https://t.co/gqSWSwYN0z pic.twitter.com/j9UYDBYNt4
— lmsys.org (@lmsysorg) August 14, 2024
Grok-2 et Grok-2 mini, deux modèles très attendus
« Grok-2 est notre modèle linguistique d’avant-garde, doté de capacités de raisonnement de pointe. Cette version comprend deux membres de la famille Grok : Grok-2 et Grok-2 mini », peut-on lire dans l’article de blog de xAI présentant le duo.
Selon toute vraisemblance, le générateur d’images a été rendu possible par la collaboration avec Black Forest Labs, car l’équipe déclare qu’elle expérimente le modèle FLUX.1 pour étendre les capacités du chatbot. Les éléments rendus possibles par FLUX.1 n’ont toutefois pas encore été confirmés. « Grok-2 est notre assistant IA de pointe avec des capacités avancées à la fois dans la compréhension du texte et de la vision, intégrant des informations en temps réel de la plateforme 𝕏, accessible via l’onglet Grok dans l’app 𝕏 ». « Grok-2 mini est notre modèle petit mais capable qui offre un équilibre entre la vitesse et la qualité des réponses. Par rapport à son prédécesseur, Grok-2 est plus intuitif, plus facile à diriger et plus polyvalent dans un large éventail de tâches, qu’il s’agisse de chercher des réponses, de collaborer à la rédaction ou de résoudre des tâches de codage ».
Grok-2 a créé des images sur des personnalités publiques, contrairement à ses concurrents
De la même manière qu’un utilisateur demanderait des informations, il lui suffit de saisir un message concernant l’image qu’il souhaite créer. L’outil renvoie alors l’image générée par l’IA.
Grok 2.0 will do political illustrations and real people, while ChatGPT refuses.
This instantly makes Grok 10x more fun…… pic.twitter.com/yDBJO0jWba
— Benjamin De Kraker 🏴☠️ (@BenjaminDEKR) August 14, 2024
Contrairement à d’autres, il ne semble pas y avoir de restrictions quant aux personnes pouvant être générées par l’IA – du moins pas encore. En revanche, ChatGPT 4o indique qu’il « ne peut pas créer d’images de personnalités publiques spécifiques d’une manière aussi directe et reconnaissable ». Mais, il peut « générer l’image d’une personne ressemblant » à la personnalité souhaitée si elle est conforme à la politique de contenu.
xAI indique que le modèle multimodal Grok-2 sera bientôt publié. L’entreprise n’a pas révélé la taille des paramètres pour les deux modèles. Vous pouvez commencer à utiliser le nouveau modèle Grok-2 sur x.com et les développeurs peuvent également commencer à utiliser l’API.