Lors de l’événement Cloud Next, Google a annoncé une mise à jour significative pour son modèle d’intelligence artificielle, Gemini 1.5 Pro. Annoncé pour la première fois en février, ce modèle est désormais disponible en preview public et se distingue par sa faculté à analyser non seulement le texte et les images, mais aussi l’audio et la vidéo.
Ainsi, cette nouvelle version permet désormais au modèle d’écouter des fichiers audio et d’en extraire des informations, ce qui est particulièrement utile pour analyser des appels de résultats ou des contenus audiovisuels sans nécessiter de transcription écrite.
Gemini 1.5 Pro, décrit comme le modèle intermédiaire de la gamme Gemini, se distingue en surpassant en performances Gemini Ultra, le modèle le plus avancé jusqu’à présent. Cette version améliorée de Gemini élimine le besoin de personnalisation fine des modèles, simplifiant son utilisation.
Ce développement marque une avancée majeure pour l’IA de Google, permettant une analyse intermodale fluide. Les utilisateurs peuvent désormais obtenir des transcriptions de haute qualité et effectuer des recherches dans le contenu audio et vidéo, ce qui est particulièrement utile pour parcourir des appels de résultats ou des réunions d’investisseurs.
Google affirme que Gemini 1.5 Pro surpasse Gemini 1.0 Pro dans 87 % des benchmarks et rivalise presque avec Gemini 1.0 Ultra. Le modèle est capable de traiter 1 heure de vidéo, 11 heures d’audio, des bases de code de plus de 30 000 lignes, ou plus de 700 000 mots en un seul flux, soulignant ainsi sa puissance et sa polyvalence, ce qui est 4x plus que le modèle phare de Anthropic, Claude 3, et 8x plus que le contexte maximal de GPT-4 Turbo d’OpenAI.
Cette fenêtre de contexte élargie permet à Gemini 1.5 Pro de mieux suivre le flux narratif des données, de générer des réponses plus riches en contexte et de réduire le besoin de peaufinage et d’ancrage factuel.
Gemini 1.5 Pro exclusif Vertex AI
Cependant, l’accès à Gemini 1.5 Pro est exclusif aux utilisateurs de Vertex AI, la plateforme de développement d’applications IA de Google. La plupart des utilisateurs connaissent les modèles Gemini à travers le chatbot Gemini, avec Gemini Ultra alimentant la version avancée de ce chatbot.
Google a également révélé que Gemini 1.5 Pro commencerait à intégrer d’autres produits de son écosystème d’entreprise, notamment Code Assist, son outil d’assistance à la programmation générative. Les développeurs pourront effectuer des modifications « à grande échelle » dans les bases de code, par exemple en mettant à jour les dépendances entre fichiers et en révisant de grands blocs de code.
D’autres nouveautés annoncées
Outre Gemini, Imagen 2, le modèle de génération d’images de Google, a également été mis à jour pour inclure les fonctionnalités d’inpainting et d’outpainting, permettant aux utilisateurs de modifier les images plus librement. Google a aussi intégré la fonctionnalité de watermarking digital SynthID à toutes les images créées par les modèles Imagen, qui ajoute un filigrane invisible détectable par des outils spécifiques, garantissant l’origine des images.
En parallèle, Google explore une intégration de ses réponses d’IA avec Google Recherche pour fournir des informations actualisées, répondant à un besoin crucial d’informations à jour, notamment écartées délibérément parfois, comme pour les questions relatives aux élections américaines de 2024.