« C’est le début d’une nouvelle ère de l’IA chez Google », déclare Sundar Pichai, PDG de l’entreprise : l’ère Gemini. Gemini est le dernier Large Language Model de Google, que Pichai a présenté pour la première fois lors de la conférence des développeurs I/O en juin et qu’il lance aujourd’hui au grand public.

À entendre Pichai et Demis Hassabis, directeur général de Google DeepMind, il s’agit d’un énorme bond en avant dans un modèle d’IA qui affectera à terme la quasi-totalité des produits de Google. « L’un des grands avantages de ce moment », explique Pichai, « c’est qu’il est possible de travailler sur une technologie sous-jacente, de l’améliorer et de la répercuter immédiatement sur tous nos produits ».

Gemini est plus qu’un modèle d’IA unique. Il existe une version plus légère appelée Gemini Nano, destinée à être exécutée en mode natif et hors ligne sur les appareils Android. Il existe une version plus puissante appelée Gemini Pro qui alimentera bientôt de nombreux services d’IA de Google et qui constitue l’épine dorsale de Bard à partir d’aujourd’hui. Et il y a un modèle encore plus performant appelé Gemini Ultra qui est le LLM le plus puissant que Google ait encore créé et qui semble être principalement conçu pour les datacenters et les applications d’entreprise.

Gemini 1.0

En tant que « modèle le plus capable et le plus général » de Google, Gemini peut « comprendre, opérer à travers et combiner » du texte, du code, de l’audio, des images et de la vidéo. Le fait d’être « nativement multimodal » permet d’améliorer la compréhension, le raisonnement et les capacités de codage.

L’approche actuelle pour créer des modèles multimodaux consiste à « former des composants distincts pour différentes modalités, puis à les assembler ». Bien qu’ils soient performants pour certaines tâches, ces modèles, selon Google, « peinent à effectuer des raisonnements plus conceptuels et plus complexes ».

Pour Gemini, Google a procédé à un « pré-entraînement dès le départ sur différentes modalités » en utilisant les TPU 4 et TPU v5e. Google a également annoncé aujourd’hui que la TPU v5p était son accélérateur d’IA « le plus puissant, le plus efficace et le plus évolutif », en particulier pour les modèles avancés.

Pour démontrer ses capacités de « raisonnement sophistiqué », Google a fait une démonstration de Gemini qui digère 200 000 articles de recherche scientifique, filtre ceux qui sont pertinents et résume les données en une heure environ. Le codage est un autre point fort, Gemini étant capable de « comprendre, expliquer et générer du code de haute qualité » en Python, Java, C++ et Go.

Benchmarks Gemini

En termes de performances, Google a montré que Gemini Ultra surpassait le GPT-4 dans les benchmarks basés sur le texte qui mesurent le raisonnement, les mathématiques et le code. L’entreprise insiste particulièrement sur le fait que Gemini Ultra est le « premier modèle à surpasser les experts humains sur MMLU (compréhension massive du langage multitâche) » avec 90,0 %. Ce critère « utilise une combinaison de 57 sujets tels que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois la connaissance du monde et les capacités de résolution de problèmes », l’offre d’OpenAI ayant obtenu un score de 86,4 %.

Sur le plan multimodal, Gemini Ultra a battu GPT-4V dans les tests d’image, de vidéo et d’audio, tandis que Google DeepMind a publié un rapport technique avec plus de détails.

En termes de sécurité, Gemini est considéré comme ayant « les évaluations de sécurité les plus complètes de tous les modèles d’IA de Google à ce jour », avec de nouvelles protections en place pour prendre en compte les capacités multimodales. Google s’attaque en particulier aux biais et à la toxicité.

Bard avec Gemini Pro

La première façon d’expérimenter ce nouveau modèle fondamental est d’utiliser « Bard with Gemini Pro ». Cette « version spécialement adaptée » de Gemini Pro offre des fonctions de raisonnement, de planification et de rédaction plus avancées, ainsi que des fonctions de compréhension et de résumé du contenu. Google a spécifiquement vanté les performances supérieures à celles de GPT 3.5 (dans 6 benchmarks sur 8, y compris MMLU et GSM8K), et a déclaré qu’il s’agissait de la plus grande amélioration de la qualité de Bard depuis le lancement de l’application.

Dans les évaluations à l’aveugle avec nos évaluateurs tiers, Bard est maintenant le chatbot gratuit le plus préféré par rapport aux principales alternatives.

Bard avec Gemini Pro est déployé aujourd’hui en anglais dans 170 pays/territoires, avec une disponibilité au Royaume-Uni et en Europe « dans un futur proche ». Dans un premier temps, Gemini Pro utilisera des prompts textuels, mais d’autres modalités seront bientôt prises en charge.

Gemini Ultra sera quant à lui disponible au début de l’année prochaine. Google procède actuellement à des vérifications approfondies de la confiance et de la sécurité, ainsi qu’à l’affinement du modèle, avant de le mettre à la disposition des développeurs et des entreprises.

Il sera disponible par le biais d’une nouvelle offre « Bard Advanced », que Google présente comme offrant un accès anticipé à ses modèles et capacités les plus avancés, comme Gemini Ultra. Au cours des prochains mois, Gemini arrivera dans Google Search, Chrome, Duet AI et Ads. Les premiers tests ont montré que Gemini réduisait la latence SGE (Search Generative Experience) de 40 %.

Depuis des années, Pichai et d’autres dirigeants de Google évoquent avec poésie le potentiel de l’IA. Pichai lui-même a déclaré plus d’une fois que l’IA transformera davantage l’humanité que le feu ou l’électricité. Dans cette première génération, le modèle Gemini ne changera peut-être pas le monde. Dans le meilleur des cas, il pourrait aider Google à rattraper OpenAI dans la course à la construction d’une grande IA générative. Mais Pichai, Hassabis et tous les autres employés de Google semblent penser qu’il s’agit du début de quelque chose de vraiment énorme. Le Web a fait de Google un géant de la technologie ; Gemini pourrait être encore plus grand.

Le buzz GTA 6 continue : 55 millions de vues en un clin d’œil !

Asus ROG Ally 2 : Deux modèles, dont une version Xbox ! Le futur du gaming ?

iPhone 17 copieur de Pixel ? La réponse hilarante de Google !

Windows 11 : L’IA prend le pouvoir ! Nouveau menu Démarrer et agent intégré

Test de la Canon Selphy QX20 : L’imprimante photo ultime pour votre smartphone

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

One UI 8 : La Now Bar deviendra votre hub d’infos en temps réel !

MediaTek Dimensity 9400e : Le nouveau roi du milieu/haut de gamme annoncé bientôt ?

Netflix se TikTok-ise ! Découvrez le nouveau fil vertical pour zapper malin

Samsung DeX se métamorphose ! Un vrai bureau Android arrive avec One UI 8

Plus « intelligente », moins fiable ? Le paradoxe des nouvelles IA de OpenAI

Votre Netflix TV fait peau neuve ! Découvrez l’interface repensée

Claude boosté : Intégrez vos apps et faites des recherches révolutionnaires

Gemini voit double (et plus !) : Jusqu’à 10 images dans vos prompts IA !

Le futur du code, c’est l’IA ? La vision choc de Mark Zuckerberg

Apple & Anthropic : L’IA Claude arrive dans Xcode pour coder à votre place ?

Cursor : Une erreur d’IA provoque une fuite massive d’utilisateurs

Firebase Studio : Google dévoile l’outil IA qui va révolutionner le développement d’applications !

Découvrez l’appli Meta AI : Le concurrent discret de ChatGPT se dévoile

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

Google lance Gemini : une avancée majeure dans l’IA multimodale

Gemini 1.0

Benchmarks Gemini

Bard avec Gemini Pro

Google lance Gemini Nano pour le Pixel 8 Pro : IA locale et avancée

Nouveaux iPad Pro avec écrans OLED et MacBook Air M3 attendus au printemps

The author Yohann Poiron

Google lance Gemini : une avancée majeure dans l’IA multimodale

Gemini 1.0

Benchmarks Gemini

Bard avec Gemini Pro

The author Yohann Poiron

vous pourriez aussi aimer