« C’est le début d’une nouvelle ère de l’IA chez Google », déclare Sundar Pichai, PDG de l’entreprise : l’ère Gemini. Gemini est le dernier Large Language Model de Google, que Pichai a présenté pour la première fois lors de la conférence des développeurs I/O en juin et qu’il lance aujourd’hui au grand public.
À entendre Pichai et Demis Hassabis, directeur général de Google DeepMind, il s’agit d’un énorme bond en avant dans un modèle d’IA qui affectera à terme la quasi-totalité des produits de Google. « L’un des grands avantages de ce moment », explique Pichai, « c’est qu’il est possible de travailler sur une technologie sous-jacente, de l’améliorer et de la répercuter immédiatement sur tous nos produits ».
Gemini est plus qu’un modèle d’IA unique. Il existe une version plus légère appelée Gemini Nano, destinée à être exécutée en mode natif et hors ligne sur les appareils Android. Il existe une version plus puissante appelée Gemini Pro qui alimentera bientôt de nombreux services d’IA de Google et qui constitue l’épine dorsale de Bard à partir d’aujourd’hui. Et il y a un modèle encore plus performant appelé Gemini Ultra qui est le LLM le plus puissant que Google ait encore créé et qui semble être principalement conçu pour les datacenters et les applications d’entreprise.
Gemini 1.0
En tant que « modèle le plus capable et le plus général » de Google, Gemini peut « comprendre, opérer à travers et combiner » du texte, du code, de l’audio, des images et de la vidéo. Le fait d’être « nativement multimodal » permet d’améliorer la compréhension, le raisonnement et les capacités de codage.
L’approche actuelle pour créer des modèles multimodaux consiste à « former des composants distincts pour différentes modalités, puis à les assembler ». Bien qu’ils soient performants pour certaines tâches, ces modèles, selon Google, « peinent à effectuer des raisonnements plus conceptuels et plus complexes ».
Pour Gemini, Google a procédé à un « pré-entraînement dès le départ sur différentes modalités » en utilisant les TPU 4 et TPU v5e. Google a également annoncé aujourd’hui que la TPU v5p était son accélérateur d’IA « le plus puissant, le plus efficace et le plus évolutif », en particulier pour les modèles avancés.
Pour démontrer ses capacités de « raisonnement sophistiqué », Google a fait une démonstration de Gemini qui digère 200 000 articles de recherche scientifique, filtre ceux qui sont pertinents et résume les données en une heure environ. Le codage est un autre point fort, Gemini étant capable de « comprendre, expliquer et générer du code de haute qualité » en Python, Java, C++ et Go.
Benchmarks Gemini
En termes de performances, Google a montré que Gemini Ultra surpassait le GPT-4 dans les benchmarks basés sur le texte qui mesurent le raisonnement, les mathématiques et le code. L’entreprise insiste particulièrement sur le fait que Gemini Ultra est le « premier modèle à surpasser les experts humains sur MMLU (compréhension massive du langage multitâche) » avec 90,0 %. Ce critère « utilise une combinaison de 57 sujets tels que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois la connaissance du monde et les capacités de résolution de problèmes », l’offre d’OpenAI ayant obtenu un score de 86,4 %.
Sur le plan multimodal, Gemini Ultra a battu GPT-4V dans les tests d’image, de vidéo et d’audio, tandis que Google DeepMind a publié un rapport technique avec plus de détails.
En termes de sécurité, Gemini est considéré comme ayant « les évaluations de sécurité les plus complètes de tous les modèles d’IA de Google à ce jour », avec de nouvelles protections en place pour prendre en compte les capacités multimodales. Google s’attaque en particulier aux biais et à la toxicité.
Bard avec Gemini Pro
La première façon d’expérimenter ce nouveau modèle fondamental est d’utiliser « Bard with Gemini Pro ». Cette « version spécialement adaptée » de Gemini Pro offre des fonctions de raisonnement, de planification et de rédaction plus avancées, ainsi que des fonctions de compréhension et de résumé du contenu. Google a spécifiquement vanté les performances supérieures à celles de GPT 3.5 (dans 6 benchmarks sur 8, y compris MMLU et GSM8K), et a déclaré qu’il s’agissait de la plus grande amélioration de la qualité de Bard depuis le lancement de l’application.
Dans les évaluations à l’aveugle avec nos évaluateurs tiers, Bard est maintenant le chatbot gratuit le plus préféré par rapport aux principales alternatives.
Bard avec Gemini Pro est déployé aujourd’hui en anglais dans 170 pays/territoires, avec une disponibilité au Royaume-Uni et en Europe « dans un futur proche ». Dans un premier temps, Gemini Pro utilisera des prompts textuels, mais d’autres modalités seront bientôt prises en charge.
Gemini Ultra sera quant à lui disponible au début de l’année prochaine. Google procède actuellement à des vérifications approfondies de la confiance et de la sécurité, ainsi qu’à l’affinement du modèle, avant de le mettre à la disposition des développeurs et des entreprises.
Il sera disponible par le biais d’une nouvelle offre « Bard Advanced », que Google présente comme offrant un accès anticipé à ses modèles et capacités les plus avancés, comme Gemini Ultra. Au cours des prochains mois, Gemini arrivera dans Google Search, Chrome, Duet AI et Ads. Les premiers tests ont montré que Gemini réduisait la latence SGE (Search Generative Experience) de 40 %.
Depuis des années, Pichai et d’autres dirigeants de Google évoquent avec poésie le potentiel de l’IA. Pichai lui-même a déclaré plus d’une fois que l’IA transformera davantage l’humanité que le feu ou l’électricité. Dans cette première génération, le modèle Gemini ne changera peut-être pas le monde. Dans le meilleur des cas, il pourrait aider Google à rattraper OpenAI dans la course à la construction d’une grande IA générative. Mais Pichai, Hassabis et tous les autres employés de Google semblent penser qu’il s’agit du début de quelque chose de vraiment énorme. Le Web a fait de Google un géant de la technologie ; Gemini pourrait être encore plus grand.