Elon Musk, célèbre pour ses nombreuses entreprises innovantes, continue de faire des vagues dans le domaine de l’intelligence artificielle avec sa société xAI.
Selon des documents de développement récemment publiés, xAI progresse dans l’intégration d’entrées multimodales pour son chatbot Grok. Concrètement, cela signifie que les utilisateurs pourront bientôt télécharger des photos sur Grok et recevoir des réponses textuelles.
Cette fonctionnalité avait été évoquée pour la première fois dans un article de blog publié par xAI le mois dernier, indiquant que Grok-1.5V offrirait des « modèles multimodaux dans plusieurs domaines ». La mise à jour récente des documents de développement montre des progrès vers la mise en œuvre de ce nouveau modèle.
Les documents de développement contiennent un exemple de script Python démontrant comment les développeurs peuvent utiliser la bibliothèque du SDK de xAI pour générer une réponse basée à la fois sur du texte et des images. Ce script lit un fichier image, configure un prompt textuel, et utilise le SDK de xAI pour générer une réponse.
Cette avancée marque une mise à jour majeure pour Grok.
L’évolution de Grok
Lancé pour la première fois en novembre 2023, Grok est disponible pour les utilisateurs abonnés à X Premium+. La dernière mise à jour, Grok 1.5, datant de mars, avait déjà apporté des capacités de raisonnement améliorées. Le modèle est entraîné sur une variété de données textuelles provenant de sources publiques sur Internet jusqu’au troisième trimestre 2023, ainsi que sur des ensembles de données examinés et sélectionnés par des réviseurs humains.
Contrairement à certaines attentes, Grok-1 n’a pas été formé sur les données de X (y compris les publications publiques sur X). Cependant, il dispose de connaissances en temps réel du monde, y compris des publications sur X.
xAI et la concurrence
Fondée par Elon Musk en mars 2023, xAI est relativement nouvelle dans le domaine de l’IA et reste en retard par rapport à des concurrents comme ChatGPT d’OpenAI. Cependant, selon un article de blog de xAI, leur modèle Grok 1.5 comble l’écart avec GPT-4 sur divers benchmarks allant des problèmes de compétition de niveau école primaire à lycée.
Il est important de noter que ces benchmarks pour les Large Language Model sont souvent critiqués, car les modèles peuvent bien performer sur ces benchmarks si ces derniers sont inclus dans leurs données d’entraînement.
Les chatbots conversationnels multimodaux semblent être la prochaine frontière pour l’IA, avec plusieurs avancées annoncées lors de la Google I/O et le lancement de GPT-4o par OpenAI. Jusqu’à présent, le manque de capacités multimodales de Grok le mettait en retard par rapport à la concurrence, mais cette mise à jour pourrait changer la donne.