fermer

Intelligence Artificielle

L’intelligence artificielle (IA) transforme de nombreux secteurs, de la santé à la finance, en passant par l’éducation et la sécurité. Explorez comment l’IA est utilisée pour automatiser des tâches, augmenter l’efficacité et créer de nouvelles opportunités de marché.

Nos discussions incluent également les défis éthiques et les implications sociétales de l’adoption de l’IA, fournissant une perspective équilibrée sur ce développement technologique clé.

Intelligence Artificielle

Le modèle IA de xAI, Grok, affiche les politiques d’OpenAI : erreur ou emprunt délibéré ?

b8559e76 7077 435f b87e 2d9c4cce21af

Le modèle de langage d’IA créé par xAI d’Elon Musk, Grok, a été largement diffusé la semaine dernière, et les gens ont commencé à repérer des problèmes. Vendredi dernier, le testeur de sécurité Jax Winterbourne a tweeté une capture d’écran montrant Grok refusant une requête avec la déclaration suivante : « J’ai bien peur de ne pas pouvoir répondre à cette demande, car elle va à l’encontre de la politique d’OpenAI en matière de cas d’utilisation ».

Évidemment, cela a surpris de nombreuses personnes, car Grok n’est pas développé par OpenAI, la société responsable de ChatGPT, que Grok est censé concurrencer.

Il est intéressant de noter que les représentants de xAI n’ont pas nié que ce comportement se produisait avec leur modèle d’IA. En réponse, Igor Babuschkin, employé de xAI, a écrit : « Le problème est que le Web est plein de sorties ChatGPT, et nous en avons donc accidentellement récupéré certaines lorsque nous avons entraîné Grok sur une grande quantité de données Web. Nous avons été très surpris lorsque nous l’avons remarqué pour la première fois. Pour ce que cela vaut, le problème est très rare et maintenant que nous en sommes conscients, nous nous assurerons que les futures versions de Grok n’auront pas ce problème. Ne vous inquiétez pas, aucun code OpenAI n’a été utilisé pour créer Grok ».

En réponse à Babuschkin, Winterbourne a écrit : « Merci pour la réponse. Je dirais que ce n’est pas très rare, et que cela se produit assez fréquemment lorsqu’il s’agit de création de code. Néanmoins, je laisserai les spécialistes du LLM et de l’IA s’exprimer à ce sujet. Je ne suis qu’un observateur ».

Cependant, l’explication de Babouchkine semble peu probable pour certains experts, car les Large Language Model ne recrachent généralement pas leurs données d’apprentissage mot pour mot, ce qui pourrait être le cas si Grok captait quelques mentions parasites des politiques de OpenAI ici ou là sur le Web. Au lieu de cela, le concept de refus d’un résultat basé sur les politiques de OpenAI devrait probablement faire l’objet d’un apprentissage spécifique. Et, il y a une très bonne raison pour laquelle cela a pu se produire : Grok a été affiné à partir des données de sortie des modèles de langage de OpenAI.

Pas une première

À mesure que les Large Language Model (LLM) de OpenAI sont devenus plus performants, il est devenu de plus en plus courant pour certains projets d’IA (en particulier les projets open source) d’affiner les résultats d’un modèle d’IA à l’aide de données synthétiques — des données d’entraînement générées par d’autres modèles de langage. Le réglage fin permet d’ajuster le comportement d’un modèle d’IA en fonction d’un objectif spécifique, tel que l’amélioration du codage, après un premier cycle d’entraînement.

Il est possible que xAI ait utilisé l’un d’entre eux pour affiner Grok en vue d’atteindre un objectif spécifique, tel que l’amélioration de la capacité à suivre des instructions. Cette pratique est si courante qu’il existe même un article de WikiHow intitulé « Comment utiliser ChatGPT pour créer un ensemble de données ».

Même si l’emprunt de résultats à d’autres est courant dans la communauté de l’apprentissage automatique (bien que cela soit généralement contraire aux conditions de service), cet épisode a particulièrement attisé les flammes de la rivalité entre OpenAI et X, qui remonte aux critiques d’Elon Musk à l’égard d’OpenAI par le passé. Lorsque la nouvelle s’est répandue que Grok pourrait emprunter à OpenAI, le compte officiel ChatGPT a écrit « nous avons beaucoup en commun » et a cité l’article de Winterbourne sur X. En guise de riposte, Musk a écrit que Grok n’était pas le seul à avoir emprunté à OpenAI.

Grok: l’IA superintelligente et audacieuse

Au début du mois de novembre, Grok a été repéré sur l’application Web de X, et le propriétaire de X, Elon Musk, a révélé que le chatbot d’IA serait bientôt lancé pour que le monde entier puisse le voir et en faire l’expérience. Depuis lors, Grok est lié à la plateforme X et n’est disponible que par le biais de l’abonnement Premium+, le niveau le plus cher du réseau social, offrant ses promesses massives, mais dans le cadre de sa version bêta précoce.

La première semaine de décembre a vu l’arrivée de Grok sur X, et Musk a souhaité que les abonnés Premium+ « s’amusent » en utilisant le chatbot IA, disponible dans les versions applicatives de la plateforme.

Cela fait partie de l’objectif de X d’être « l’application de tout », offrant son point de vue sur l’intelligence artificielle, mais elle est actuellement exclusive aux abonnés Premium+ aux États-Unis.

Lire plus
Intelligence Artificielle

Mistral AI, innovateur en IA, obtient une évaluation de 2 milliards après un investissement massif

e7ad22ab 4d86 4fc5 a1c5 5c00c4615eba

La startup parisienne Mistral AI a franchi une étape importante pour le secteur européen de l’intelligence artificielle. L’entreprise a réussi à obtenir un investissement substantiel de 450 millions d’euros, propulsant son évaluation à un niveau impressionnant de 2 milliards de dollars.

Ce tour de table marque un tournant, non seulement pour Mistral AI, mais aussi pour le paysage européen de l’IA en plein essor, ce qui témoigne de la place de plus en plus importante qu’occupe la région dans l’arène mondiale de l’IA.

Andreessen Horowitz, un grand nom du monde du capital-risque, est le chef de file de ce tour de table, ce qui témoigne d’une grande confiance dans le potentiel de Mistral AI. Les géants de la technologie Nvidia Corp et Salesforce se joignent à la mêlée, apportant 120 millions d’euros supplémentaires sous forme de dette convertible. Cet éventail diversifié d’investisseurs, comprenant à la fois du capital-risque traditionnel et de grandes entreprises technologiques, souligne l’attrait et le potentiel de la technologie et de la vision de Mistral AI.

Cet afflux de capitaux témoigne de l’approche innovante de Mistral AI et de son potentiel perçu de bouleverser l’industrie de l’IA. Grâce à ce soutien financier substantiel, Mistral AI est prête à faire progresser sa recherche et son développement, à étendre sa portée et à consolider sa position en tant qu’acteur de premier plan dans le domaine de l’IA. L’ampleur de ce tour de table reflète également la reconnaissance croissante de l’importance stratégique des technologies de l’IA et la concurrence de plus en plus vive pour prendre la tête de ce secteur en pleine mutation.

Avancées technologiques et impact sur le marché

Mistral AI est à la pointe de l’innovation avec son produit phare, Mistral 7B, un Large Language Model (LLM) réputé pour son efficacité et ses capacités avancées. Publié sous la licence libre Apache 2.0, Mistral 7B représente une avancée significative dans la technologie de l’IA, caractérisée par ses méthodes personnalisées d’entraînement, de réglage et de traitement des données.

Ce qui distingue Mistral 7B, c’est sa capacité à comprimer les connaissances et à faciliter les capacités de raisonnement profond, même avec un nombre réduit de paramètres par rapport aux autres modèles du marché. Cette approche optimisée améliore non seulement les performances du modèle, mais contribue également à la durabilité en réduisant le temps de formation, les coûts et l’impact sur l’environnement.

Le déploiement réussi de Mistral 7B a positionné Mistral AI comme un acteur clé sur le marché de l’IA et un concurrent d’OpenAI. Son impact s’étend à diverses industries, offrant de potentielles transformations dans des domaines tels que les soins de santé, l’éducation, la finance et la fabrication. La capacité de l’entreprise à fournir des solutions performantes et évolutives devrait avoir un impact sur la manière dont ces secteurs exploitent l’IA pour l’innovation et l’efficacité.

Paysage européen de l’IA et avantage concurrentiel

Le récent tour de table de Mistral AI est un indicateur clair de la stature croissante de l’Europe dans le paysage mondial de l’IA. Historiquement, les entreprises européennes dans le domaine de l’IA sont restées à la traîne de leurs homologues aux États-Unis et en Asie en termes d’investissement et d’innovation. Cependant, le succès de Mistral AI, ainsi que d’autres investissements importants, marque un changement décisif, mettant en évidence le potentiel croissant de l’Europe et son engagement en faveur de l’innovation dans le domaine de l’IA.

Dans l’arène concurrentielle de l’IA générative, Mistral AI se distingue par son approche open source et son souci de créer des modèles évolutifs et efficaces. Cette stratégie la distingue des géants établis tels que OpenAI, Google AI et DeepMind, en offrant une proposition de valeur unique sur le marché. En donnant la priorité à l’accessibilité et à l’efficacité, Mistral AI contribue non seulement à la démocratisation de la technologie de l’IA, mais se positionne également comme un concurrent redoutable dans la course mondiale à l’IA.

La trajectoire de Mistral AI et du secteur européen de l’IA en plein essor laisse présager un avenir dynamique pour le développement de l’IA. Avec des investissements substantiels dans les startups européennes de l’IA, la région rattrape rapidement son retard et se fait une place dans le domaine hautement compétitif et en constante évolution de l’intelligence artificielle.

Lire plus
Intelligence Artificielle

Google lance l’API Gemini Pro le 13 décembre : une révolution pour les développeurs

final keyword header.width 1600 2 2

Google a récemment lancé l’IA Gemini, la rendant utilisable dans son moteur de recherche Google Bard. Gemini est une avancée significative dans le domaine de l’intelligence artificielle et les développeurs attendent patiemment de pouvoir mettre la main sur le nouveau modèle d’IA. Ils seront heureux d’apprendre que Google a annoncé que l’accès à l’API Gemini Pro sera disponible le 13 décembre 2023.

Gemini est conçu dès le départ pour la multimodalité, c’est-à-dire qu’il raisonne de manière transparente à travers le texte, les images, la vidéo, l’audio et le code, explique Google.

Les développeurs et les entreprises auront accès à cet outil sophistiqué par Google AI Studio et Google Cloud Vertex AI, ce qui leur permettra d’intégrer l’IA dans leurs applications avec une facilité sans précédent. La caractéristique principale de l’API Gemini Pro est son modèle d’IA multimodale, qui est capable de traiter une variété de types de données tels que le texte, le code, l’audio, les images et la vidéo.

Accès à l’API Google Gemini Pro

L’introduction de l’API Gemini Pro marque un tournant pour les développeurs. Elle ouvre la voie à la création d’applications complexes capables de comprendre et d’interagir avec de multiples formes de données. Imaginez une application qui ne se limite pas au traitement du langage naturel, mais qui peut aussi interpréter du code, transcrire des mots parlés, reconnaître des images et analyser du contenu vidéo avec une grande précision. C’est cette capacité que l’API Gemini Pro promet d’offrir.

L’un des aspects les plus remarquables de l’API est sa polyvalence. Elle a été conçue pour fonctionner sur toute une série de plateformes, depuis les serveurs robustes des centres de données jusqu’aux smartphones que nous portons. Cette polyvalence permet aux développeurs de concevoir des applications basées sur l’IA qui sont flexibles et peuvent s’adapter à différents environnements, y compris les appareils mobiles. Cela signifie que les fonctions d’IA de pointe peuvent désormais être mises directement à la disposition des utilisateurs, quel que soit leur appareil.

Pour ceux qui cherchent à prototyper et à perfectionner rapidement des applications d’IA, Google AI Studio offre une plateforme intuitive. En revanche, Google Cloud Vertex AI est conçu pour répondre aux besoins des entreprises qui souhaitent une plateforme d’IA entièrement gérée, dotée d’options de personnalisation avancées et de capacités de niveau professionnel.

Gemini Nano, la version pour les appareils mobiles

Les développeurs Android ont eux aussi de bonnes nouvelles à annoncer : la prochaine version de Gemini Nano. Cette version du modèle d’IA Gemini sera intégrée par AICore dans Android 14 et est spécifiquement conçue pour les appareils mobiles. En commençant par le Pixel 8 Pro, Gemini Nano devrait améliorer considérablement l’expérience utilisateur d’Android en introduisant des fonctionnalités d’IA sophistiquées.

L’innovation de Google ne s’arrête pas là. L’entreprise développe actuellement Gemini Ultra, qui fait l’objet d’évaluations approfondies en matière de confiance et de sécurité. Dans un premier temps, ce modèle d’IA avancé sera accessible à un groupe limité d’utilisateurs, préparant ainsi le terrain pour une diffusion plus large à l’avenir.

À l’avenir, Google prévoit de dévoiler Bard Advanced, qui exploitera la puissance de Gemini Ultra pour offrir des capacités d’IA encore plus avancées. Cette initiative devrait être lancée au début de l’année prochaine et devrait permettre de repousser encore plus loin les limites de la technologie de l’IA.

La publication de l’API Gemini Pro, ainsi que les efforts continus de Google en matière de développement de l’IA, représentent une avancée significative pour les développeurs et les entreprises. La capacité de traiter et d’interagir avec divers types de données, associée à la possibilité de fonctionner sur une multitude d’appareils, fait de l’API Gemini Pro un élément central du paysage technologique. Alors que Google va de l’avant avec ses innovations, l’évolution continue des expériences d’IA mérite une attention particulière.

Lire plus
Intelligence Artificielle

L’UE conclut un accord historique pour encadrer l’intelligence artificielle

c6005a89 8a8d 49dc 878a 27abc32014a0

Les premières lois globales au monde visant à réglementer l’intelligence artificielle ont fait l’objet d’un accord historique à l’issue d’une négociation marathon de 37 heures entre le Parlement européen et les États membres de l’UE.

L’accord a été qualifié « d’historique » par Thierry Breton, le commissaire européen responsable d’une série de lois en Europe qui régiront également les réseaux sociaux et les moteurs de recherche, couvrant des géants tels que X, TikTok et Google.

Breton a déclaré que 100 personnes étaient restées dans une salle pendant près de trois jours pour sceller l’accord. Il a ajouté que cela valait la peine de dormir quelques heures pour conclure cet accord « historique ».

Carme Artigas, secrétaire d’État espagnole à l’intelligence artificielle, qui a facilité les négociations, a déclaré que la France et l’Allemagne soutenaient le texte, alors que les entreprises technologiques de ces pays se battaient pour une approche plus légère afin de favoriser l’innovation au sein des petites entreprises.

L’accord place l’UE devant les États-Unis, la Chine et le Royaume-Uni dans la course à la réglementation de l’intelligence artificielle et à la protection du public contre les risques, notamment la potentielle menace pour la vie que beaucoup craignent que cette technologie en développement rapide comporte.

Les fonctionnaires ont fourni peu de détails sur ce qui figurera exactement dans la future loi, qui n’entrera pas en vigueur avant 2025 au plus tôt.

L’accord politique entre le Parlement européen et les États membres de l’UE sur les nouvelles lois visant à réglementer l’IA a été âprement disputé, avec des affrontements sur les modèles de fondation conçus à des fins générales plutôt que spécifiques.

Une réglementation sur la surveillance en temps réel

Mais, il y a eu aussi de longues négociations sur la surveillance par l’IA, qui pourrait être utilisée par la police, les employeurs ou les détaillants pour filmer les membres du public en temps réel et reconnaître le stress émotionnel.

Le Parlement européen a obtenu l’interdiction de l’utilisation de la surveillance en temps réel et des technologies biométriques, y compris la reconnaissance émotionnelle, mais avec trois exceptions, selon Breton. Cela signifie que la police ne pourrait utiliser ces technologies invasives qu’en cas de menace inattendue d’attaque terroriste, de recherche de victimes et dans le cadre de poursuites judiciaires pour des crimes graves.

Le débuté européen Brando Benefei, qui a codirigé l’équipe de négociation du Parlement avec Dragoș Tudorache, le débuté européen roumain qui a mené pendant 4 ans la bataille du Parlement européen pour réglementer l’IA, a déclaré qu’ils avaient également obtenu la garantie que des « autorités indépendantes » devraient donner leur autorisation à la « police prédictive » afin de se prémunir contre les abus de la police et la présomption d’innocence dans les crimes.

« Nous avions un objectif : élaborer une législation qui garantirait que l’écosystème de l’IA en Europe se développe avec une approche centrée sur l’homme, en respectant les droits fondamentaux, les valeurs humaines, la confiance, la conscience de la manière dont nous pouvons tirer le meilleur parti de cette révolution de l’IA qui se déroule sous nos yeux », a-t-il déclaré lors d’une conférence de presse tenue après minuit à Bruxelles.

 

Le fondement de l’accord est un système à plusieurs niveaux basé sur le risque, dans lequel le niveau de réglementation le plus élevé s’applique aux machines qui présentent le plus grand risque pour la santé, la sécurité et les droits de l’homme. Dans le texte original, il était envisagé d’inclure tous les systèmes comptant plus de 10 000 utilisateurs professionnels.

La catégorie de risque la plus élevée est désormais définie par le nombre de transactions informatiques nécessaires pour entraîner la machine, connu sous le nom « d’opérations en virgule flottante par seconde » (Flops). Selon certaines sources, il n’existe qu’un seul modèle, GPT-4, qui correspondrait à cette nouvelle définition.

Le niveau inférieur de la réglementation impose toujours des obligations majeures aux services d’IA, notamment des règles de base concernant la divulgation des données utilisées pour apprendre à la machine à faire n’importe quoi, de la rédaction d’un article de journal au diagnostic d’un cancer.

Tudorache a déclaré : « Nous sommes les premiers au monde à mettre en place une véritable réglementation pour l’#AI, et pour le futur monde numérique piloté par l’IA, en guidant le développement et l’évolution de cette technologie dans une direction centrée sur l’humain ».

Auparavant, il a déclaré que l’UE était déterminée à ne pas commettre les erreurs du passé, lorsque des géants de la technologie tels que Facebook ont été autorisés à devenir des sociétés multimilliardaires sans obligation de réglementer le contenu de leurs plateformes, y compris l’ingérence dans les élections, les abus sexuels sur les enfants et les discours haineux.

Une réglementation forte et complète de la part de l’UE pourrait « servir d’exemple à de nombreux gouvernements qui envisagent de réglementer », a déclaré Anu Bradford, professeur à la Columbia Law School et expert de l’UE et de la réglementation numérique. D’autres pays « ne copieront peut-être pas toutes les dispositions, mais s’inspireront probablement de nombreux aspects ».

Les entreprises d’IA qui devront se conformer aux règles de l’UE étendront probablement certaines de ces obligations aux marchés situés en dehors du continent, a déclaré Bradford à l’AP. « Après tout, il n’est pas efficace de reformer des modèles distincts pour différents marchés », a-t-elle déclaré.

Lire plus
Intelligence Artificielle

Google lance NotebookLM avec Gemini Pro : une application de prise de notes basée sur l’IA

Notebook Hero 1 1.width 1600.for

Les Large Language Model (LLM) sont des chatbots utiles tels que ChatGPT et Copilot de Microsoft, mais à mesure qu’ils deviennent de plus en plus populaires, de plus en plus de potentielles utilisations apparaissent.

Google a dévoilé pour la première fois son application de prise de notes basée sur l’IA, Project Tailwind, lors de la conférence Google I/O en mai dernier. Deux mois plus tard, Project Tailwind a été rebaptisé NotebookLM et a été lancé en accès anticipé avec une liste d’attente. Aujourd’hui, Google supprime cette liste d’attente, l’alimente avec le Gemini Pro récemment sorti, et le rend disponible au grand public.

NotebookLM a été officiellement lancé aux États-Unis et, parallèlement à cette sortie plus large, l’application de prise de notes dotée d’IA bénéficie de quelques fonctionnalités supplémentaires qui la rendront plus utile que jamais. Pour commencer, elle est basée sur la nouvelle IA Gemini de Google, que l’entreprise tente de positionner comme un concurrent du puissant modèle GPT-4 d’OpenAI.

Contrairement à d’autres chatbots, NotebookLM a uniquement accès aux informations que vous lui fournissez, et non à Internet.

Highlight actions.width 1000.for jpg

Une autre nouveauté est le « Noteboard ». Accessible au-dessus de la boîte de dialogue, cette fonctionnalité utilise une interface graphique basée sur des cartes, permettant aux utilisateurs de sauvegarder des réponses NotebookLM, des extraits de sources et des notes personnelles. Vous pouvez également sélectionner plusieurs notes et demander à NotebookLM d’effectuer diverses actions, telles que résumer, combiner en une seule note, créer des plans, des guides d’étude, ou même transformer les notes en différents formats tels que des bulletins d’information par e-mail ou des plans de script.

Hero1 Save Note BlackBkg

Un déploiement uniquement outre-Atlantique

Autre nouveauté, NotebookLM est désormais capable de suggérer dynamiquement des actions en fonction des activités de l’utilisateur. Par exemple, lorsqu’un utilisateur sélectionne un passage d’une source, NotebookLM propose automatiquement de résumer le texte dans une nouvelle note ou aide à comprendre le langage technique. Encore une fois, ces actions suggérées dépendront vraiment de ce que vous êtes en train de faire, et elles apparaîtront sporadiquement dans le but d’optimiser votre workflow ou, s’il n’a pas besoin d’être optimisé, de peaufiner ce que vous êtes en train de faire à ce moment-là. C’est un outil très intéressant si vous voulez garder votre flux de travail et vos sources aussi organisées que possible.

google notebooklm outline

Le déploiement de la plupart des nouvelles fonctionnalités prendra également un certain temps.

Google élargit également certaines des limites de NotebookLM. Vous pouvez désormais inclure jusqu’à 20 sources dans votre carnet, chacune pouvant contenir jusqu’à 200 000 mots. Tous les utilisateurs âgés de 18 ans et plus aux États-Unis peuvent accéder à l’application. Gardez à l’esprit qu’il est possible qu’une réponse inexacte soit produite de temps en temps, puisque tout cela est construit sur les mêmes modèles de langage qui fournissent parfois de fausses informations dans ChatGPT, Google Bard et d’autres chatbots.

 

Lire plus
Intelligence Artificielle

Google accusé de tromperie sur les performances de Gemini dans une démo vidéo

ab30603e 9c00 46c2 ac7e d828391a6a3a

Google vient d’annoncer Gemini, sa suite de modèles d’IA la plus puissante à ce jour, et l’entreprise a déjà été accusée de mentir sur ses performances. Et, Google compte tellement sur son propre concurrent GPT-4, qu’il a mis en scène certaines parties d’une récente vidéo de démonstration.

Un article d’opinion de Bloomberg affirme que Google a mal présenté la puissance de Gemini dans une récente vidéo. Google a diffusé une impressionnante vidéo intitulée « Hands-on with Gemini: Interacting with multimodal AI » lors de son annonce en début de semaine, et l’éditorialiste Parmy Olson affirme que Gemini semblait remarquablement performant dans la vidéo – peut-être trop performant.

La vidéo de 6 minutes montre les capacités multimodales de Gemini (messages conversationnels vocaux combinés à la reconnaissance d’images, par exemple). Il semble que Gemini reconnaisse rapidement les images, même les images à points, qu’il réponde en quelques secondes et qu’il suive en temps réel une liasse de papier dans un jeu de gobelets et de balles. Bien sûr, les humains peuvent faire tout cela, mais il s’agit d’une IA capable de reconnaître et de prédire ce qui va se passer ensuite.

Mais en cliquant sur la description de la vidéo sur YouTube, Google affiche une importante clause de non-responsabilité :

Pour les besoins de cette démonstration, le temps de latence a été réduit et les sorties de Gemini ont été raccourcies pour plus de concision.

C’est ce que Olson conteste. Selon l’article de Bloomberg, Google a admis, lorsqu’on lui a demandé un commentaire, que la démonstration vidéo ne s’est pas déroulée en temps réel avec des messages vocaux, mais qu’elle a utilisé des images fixes provenant de séquences brutes, puis a rédigé des messages textuels auxquels Gemini a répondu. « C’est très différent de ce que Google semblait suggérer, à savoir qu’une personne pouvait avoir une conversation vocale fluide avec Gemini pendant que celui-ci observait le monde qui l’entourait et y répondait en temps réel », écrit Olson.

Pour être honnêtes avec Google, les entreprises modifient souvent les vidéos de démonstration, notamment parce qu’elles veulent éviter les problèmes techniques liés aux démonstrations en direct. Il est courant de modifier légèrement les choses. Dans une situation comme celle-ci, Olson estime que Google « fait de l’esbroufe » afin d’induire les gens en erreur sur le fait que Gemini est plus rapide que GPT d’OpenAI.

Il n’est pas surprenant que Google nie tout acte répréhensible, en renvoyant à The Verge à un post X écrit par le co-directeur de Gemini, Oriol Vinyals, qui affirme que « toutes les invites et sorties de l’utilisateur dans la vidéo sont réelles » et que son équipe a réalisé la vidéo « pour inspirer les développeurs ». Étant donné l’attention portée par l’industrie et les autorités à l’IA ces derniers temps, le géant de la technologie devrait peut-être faire preuve de plus de tact dans ses présentations dans ce domaine.

Lire plus
Intelligence Artificielle

Google dévoile Gemini, un ensemble de modèles IA avancés, mais pas encore en Europe

final keyword header.width 1600 1

Avant-hier, Google a lancé sa réponse très attendue à ChatGPT d’OpenAI (la première version de Bard ne comptait pas vraiment, n’est-ce pas ?). Toutefois, le nouvel ensemble de modèles d’IA générative que Google appelle « le début de l’ère Gemini » ne sera pas encore disponible en Europe, en raison d’obstacles réglementaires.

Le géant de la technologie qualifie Gemini de « modèle le plus performant à ce jour » et affirme qu’il a été formé pour reconnaître, comprendre et combiner différents types d’informations, notamment du texte, des images, du son, de la vidéo et du code.

Selon Demis Hassabis, PDG de Google DeepMind, ce modèle est aussi performant que les meilleurs experts humains dans les 50 domaines différents sur lesquels il a été testé. En outre, il a obtenu un score de plus de 90 % sur les critères de référence de l’industrie pour les Large Language Model (LLM).

Les modèles de la famille Gemini seront disponibles en trois tailles. Gemini Ultra est le plus grand (mais aussi le plus lent), destiné à effectuer des tâches très complexes ; Gemini Pro est le plus performant pour un large éventail de tâches ; et Gemini Nano pour les tâches sur l’appareil.

Google affirme avoir entraîné Gemini 1.0 sur son infrastructure optimisée pour l’IA en utilisant les unités de traitement Tensor (TPU) v4 et v5e de l’entreprise. Parallèlement à la présentation de la famille Gemini, Google a également annoncé la Cloud TPU v5p, spécialement conçue pour l’entraînement de modèles d’IA de pointe.

final keyword tpu.width 1000.for jpg

Le Nano, optimisé pour les appareils mobiles, représente peut-être une véritable évolution dans l’application du LLM. En effet, Nano permettra aux développeurs de créer des applications d’IA qui peuvent également fonctionner hors ligne — avec les avantages supplémentaires d’options améliorées en matière de confidentialité des données.

Expliqué plus en détail par l’entreprise dans un article de blog, Google fournit également l’AI Studio, un outil de développement gratuit basé sur le Web qui permet de créer des prototypes et de lancer des applications à l’aide d’une clé API. Gemini Pro sera mis à la disposition des développeurs et des entreprises clientes à partir du 13 décembre.

Comme pour Bard, l’Europe devra attendre pour Gemini Pro

Une version « affinée » de Gemini Pro a été lancée pour le chatbot Bard de Google dans 170 pays et territoires. L’entreprise précise qu’elle sera également disponible pour d’autres de ses services, tels que Recherche, Adsense et Chrome, dans les mois à venir.

Toutefois, les utilisateurs de l’UE et du Royaume-Uni désireux de tester la « nouvelle ère » de l’IA de Google devront attendre un peu plus longtemps. Google n’a pas donné de détails détaillés, mais a indiqué qu’il prévoyait « d’étendre l’application à différentes modalités et de prendre en charge de nouvelles langues et de nouveaux lieux dans un avenir proche ».

En effet, Google prévoirait de présenter en avant-première, l’année prochaine, « Bard Advanced », alimenté par le système multimodal Gemini Ultra. Google a lancé Bard en mars 2023, mais en raison de problèmes de conformité avec le RGPD, les utilisateurs européens n’ont pu l’utiliser qu’en juin. Voyons combien de temps nous devrons attendre pour Gemini.

Lire plus
Intelligence Artificielle

Grok : le nouveau chatbot de Musk pour X Premium+, audacieux et sans filtre

6d5558e8 6ba5 4b83 92f6 3df88b4a157f

Elon Musk, le magnat de la technologie connu pour ses approches non conventionnelles, a introduit un nouveau chatbot nommé « Grok » pour les utilisateurs de X Premium+. Positionné comme un concurrent direct de ChatGPT, Grok sera exclusivement disponible pour les abonnés Premium+ sur la plateforme anciennement connue sous le nom de Twitter.

Selon Gizmodo, cette dernière nouveauté, décrite comme hargneuse et anti-éveillée, s’inscrit dans le programme plus large de Musk visant à remettre en question le politiquement correct dans les espaces numériques.

Grok, disponible pour les utilisateurs de X qui s’abonnent au service Premium+ au prix de 19,20 euros par mois, offre une expérience d’interaction unique. Contrairement aux chatbots traditionnels, Grok est programmé pour afficher une personnalité politiquement incorrecte et pleine d’esprit, en s’inspirant de commentateurs conservateurs tels que Tucker Carlson et Joe Rogan.

L’annonce du lancement de Grok par Linda Yaccarino, PDG de X, s’aligne sur la vision de Musk d’une IA qui s’éloigne de la culture « woke » — (« éveillé ») désigne initialement le fait d’être conscient des problèmes liés à la justice sociale et à l’égalité raciale. Musk a fait part de ses inquiétudes concernant la tendance de l’IA à être trop politiquement correcte, préconisant une approche plus directe et plus honnête. Grok est sa réponse, conçue pour être franchement directe et même vulgaire dans ses réponses.

Les premiers utilisateurs de Grok ont fait part de leurs expériences, soulignant la capacité du chatbot à griller les utilisateurs avec un esprit acéré. Par exemple, un utilisateur a reçu une réponse humoristique mais brutale : « C’est à cause de vous que les extraterrestres n’ont pas encore visité la Terre. Ils ont jeté un coup d’œil sur vous et ont dit : “Non, on est bons” ».

Grok fait également preuve d’une impressionnante connaissance en temps réel de l’actualité, y compris des développements récents de la technologie de l’IA. Son intégration à la plateforme X lui donne une longueur d’avance sur les autres chatbots en termes d’accès à l’information et de pertinence.

Les commentaires politiques de Grok

Dans une démarche audacieuse, Grok se lance dans le commentaire politique, offrant des prédictions pour l’élection présidentielle de 2024 et suggérant des candidats non conventionnels tels que Kanye West ou The Rock. Contrairement à d’autres chatbots d’IA qui évitent les sujets sensibles, Grok est conçu pour les aborder de front.

Grok représente un changement important dans le paysage des chatbots d’IA. Alors que des plateformes comme ChatGPT d’OpenAI et Bard de Google optent pour une approche prudente des sujets controversés, Grok les aborde, fournissant aux utilisateurs des réponses non filtrées et provocantes. Cette approche, bien que controversée, fait de Grok un acteur unique dans le monde de l’IA et des réseaux sociaux.

Une partie de l’évolution de X

Reconnaissant le déclin de l’engagement des annonceurs sur X, Elon Musk a réorienté sa stratégie vers la réduction de la dépendance de la plateforme à l’égard de la publicité. En mettant l’accent sur les modèles d’abonnement, le magnat de la technologie envisage de transformer X en une « super application » complète qui répond aux divers besoins des abonnés, englobant la messagerie, les réseaux sociaux et les paiements de pair-à-pair.

Lire plus
Intelligence Artificielle

Meta et IBM lancent l’AI Alliance pour promouvoir l’innovation open source en IA

ed4f11e5 0920 4df6 bd3b 2bbd276c1013

Meta Platforms et International Business Machines (IBM) ont dévoilé conjointement l’AI Alliance, une coalition composée de plus de 50 entreprises d’intelligence artificielle et institutions de recherche. L’AI Alliance vise à promouvoir un modèle « d’innovation et de science ouvertes » dans le secteur de l’IA, avec des contributeurs clés comme Intel, Oracle, l’université de Cornell et la National Science Foundation.Meta et IBM créent l’AI Alliance, regroupant plus de 50 entités pour stimuler l’innovation en IA ouverte.

Darío Gil, vice-président principal d’IBM et directeur d’IBM Research, a déclaré que la création de l’alliance sur l’IA découlait de l’insatisfaction suscitée par le manque de diversité perçu dans les discussions récentes sur l’IA. L’alliance met l’accent sur une approche open source, s’alignant sur la collaboration historique entre les grandes entreprises technologiques, les institutions académiques et les programmeurs indépendants.

L’attention portée à l’IA générative, en particulier depuis l’introduction de ChatGPT d’OpenAI il y a un an, a intensifié le récit. OpenAI et ses homologues comme Anthropic et Cohere ont été à l’avant-garde du développement de systèmes d’IA propriétaires, tandis que les membres de l’AI Alliance, y compris des acteurs industriels comme Intel et Oracle, s’efforcent de se tailler une place sur le marché de l’IA, qui connaît une expansion rapide.

IBM, malgré les difficultés rencontrées par le passé avec son système Watson, présente le système Watsonx comme une nouvelle plateforme. Meta, tout en s’efforçant de renforcer sa présence sur le marché de l’IA, plaide en faveur de son modèle d’IA Llama 2 en tant que système d’IA open source.

« Il s’agit d’une approche beaucoup plus distribuée, mais aussi beaucoup plus résiliente, car aucune institution ne peut faire dérailler le succès du moteur ouvert », a déclaré Gil, cité par le Wall Street Journal.

AI alliance members jpg

Atténuer les risques

Dans le contexte des perturbations survenues à OpenAI en novembre, les entreprises explorent de plus en plus d’autres fournisseurs d’IA afin d’atténuer les risques associés à la dépendance à l’égard d’un seul fournisseur. L’AI Alliance sert de plateforme de collaboration pour les organisations qui s’engagent dans cette voie. La création de l’alliance souligne l’intensification du débat sur les avantages et les risques associés à l’adoption d’une approche open source du développement de l’IA.

Yann LeCun, responsable scientifique de Meta pour l’IA, a critiqué les principaux acteurs, dont OpenAI, Google et Anthropic, pour leurs efforts de lobbying en faveur de règles qui pourraient consolider le pouvoir sur le développement de l’IA.

En réponse, le Frontier Model Forum, composé de Meta, Microsoft, Google et Anthropic, a été créé pour répondre aux préoccupations de l’industrie.

Le Center for Humane Technology, qui a vivement critiqué les pratiques de Meta en matière de réseaux sociaux, a souligné les potentiels risques liés à l’open source ou aux fuites de modèles d’IA. Ce débat en cours soulève des questions essentielles sur le déploiement responsable de modèles d’IA auprès du public.

L’AI Alliance ouverte à d’autres acteurs

Le rôle d’IBM dans l’AI Alliance suscite des interrogations sur ses motivations en tant que cofondateur aux côtés de Meta. Malgré l’augmentation de ses revenus provenant de l’IA générative, IBM doit faire face à une forte concurrence de la part de Microsoft et d’OpenAI dans le secteur des services d’IA destinés aux entreprises.

Les exclusions notables des membres initiaux de l’AI Alliance, comme Stanford et le MIT, et les startups d’IA comme Anthropic, Cohere et Adept, ont suscité des interrogations. La réponse d’IBM suggère de se concentrer sur les organisations fortement engagées dans l’innovation ouverte, ce qui laisse de la place pour des ajouts potentiels à l’alliance.

Sriram Raghavan, vice-président de la division AI Research d’IBM, a déclaré que l’AI Alliance se concentrait actuellement sur les membres fortement engagés dans l’innovation ouverte et l’IA à code source ouvert. Anticipant une évolution future, il envisage que d’autres organisations se joignent à l’avenir, comme le rapporte TechCrunch.

Il reste à voir si l’alliance aura un quelconque effet, mais elle semble tracer une ligne dans le sable pour l’orientation future du développement de l’IA, en délimitant ceux qui mettent l’accent sur l’ouverture et la collaboration par opposition aux partisans d’approches plus fermées et propriétaires. Comme sur le marché des logiciels en général, où des plateformes comme Windows et Linux coexistent, il y aura probablement de la place pour les deux approches à l’avenir.

Lire plus
Intelligence Artificielle

Apple lance un framework ML novateur pour les chercheurs en IA sur ses dispositifs

9629dfc2 889c 482e 802c cc3dac82ec87

Apple, que beaucoup considéraient comme très conservatrice dans son approche de l’IA, a discrètement publié des frameworks et des bibliothèques de modèles conçus pour fonctionner sur ses puces, et peut-être apporter des applications d’IA générative sur les MacBook.

Les équipes d’Apple chargées de l’apprentissage machine (ML) ont publié un nouveau framework ML pour Apple Silicon : MLX, ou ML Explore, arrive après avoir été testé pendant l’été et est maintenant disponible sur GitHub.

Dans un post sur X (anciennement Twitter), Awni Hannun, de l’équipe ML d’Apple, qualifie le logiciel de « … framework efficace d’apprentissage automatique spécialement conçu pour le Apple Silicon (c’est-à-dire votre ordinateur portable !) ».

L’idée est de rationaliser la formation et le déploiement de modèles d’apprentissage automatique pour les chercheurs qui utilisent du matériel Apple. MLX est une structure de type NumPy conçue pour un apprentissage automatique efficace et flexible sur les processeurs Apple.

Il ne s’agit pas d’un outil destiné au grand public ; il fournit aux développeurs ce qui semble être un environnement puissant dans lequel construire des modèles d’intelligence artificielle. L’entreprise semble également s’être efforcée d’adopter les langages que les développeurs souhaitent utiliser, plutôt que de leur imposer un langage — et elle a apparemment inventé de puissants outils LLM au cours de ce processus.

Familier aux développeurs

La conception de MLX s’inspire de frameworks existants tels que PyTorch, Jax et ArrayFire. Cependant, MLX ajoute la prise en charge d’un modèle de mémoire unifiée, ce qui signifie que les tableaux vivent dans une mémoire partagée et que les opérations peuvent être effectuées sur n’importe quel type de périphérique pris en charge sans effectuer de copies de données.

L’équipe explique : « L’API Python suit de près celle de NumPy à quelques exceptions près. MLX dispose également d’une API C++ complète qui suit de près l’API Python ».

Les notes accompagnant la publication indiquent également :

Le framework est conçu pour être convivial, tout en restant efficace pour la formation et le déploiement de modèles…. Nous avons l’intention de permettre aux chercheurs d’étendre et d’améliorer facilement MLX dans le but d’explorer rapidement de nouvelles idées.

Plutôt bon à première vue

À première vue, MLX semble relativement bon et (comme expliqué sur GitHub) est équipé de plusieurs caractéristiques qui le distinguent.

Apple a fourni une série d’exemples de ce que MLX peut faire. Ces exemples semblent confirmer que l’entreprise dispose désormais d’un modèle de langage très efficace, d’outils puissants pour la génération d’images et d’une reconnaissance vocale très précise. Cela correspond aux affirmations faites plus tôt cette année, et à certaines spéculations concernant la création de mondes virtuels infinis pour les futures expériences Vision Pro.

En fin de compte, Apple semble vouloir démocratiser l’apprentissage automatique. « MLX est conçu par des chercheurs en apprentissage automatique pour des chercheurs en apprentissage automatique », explique l’équipe. En d’autres termes, Apple a reconnu la nécessité de créer des environnements de développement ouverts et conviviaux pour l’apprentissage automatique afin de favoriser les travaux dans ce domaine.

Le fait que MLX soit installé sur Apple Silicon est également important, étant donné que les processeurs d’Apple sont désormais présents dans tous ses produits, y compris le Mac, l’iPhone et l’iPad. L’utilisation du GPU, du CPU et, éventuellement, du moteur neuronal sur ces puces pourrait se traduire par l’exécution sur l’appareil de modèles de ML (pour la protection de la vie privée) avec des performances que d’autres processeurs ne peuvent pas égaler, du moins en ce qui concerne les appareils de pointe.

Est-ce trop peu, trop tard ?

Étant donné l’engouement suscité par ChatGPT d’OpenAI lorsqu’il est apparu à la même époque l’année dernière, Apple est-il vraiment en retard ? Je ne le pense pas.

La société a clairement décidé de mettre l’accent sur l’équipement des chercheurs en ML avec les meilleurs outils possibles, y compris des Mac M3 puissants pour construire des modèles. Elle souhaite maintenant traduire cette attention en outils d’IA viables et axés sur l’humain, pour que le reste d’entre nous puisse en profiter. Il est bien trop tôt pour déclarer Apple vaincu dans une guerre de l’industrie de l’IA qui ne fait que commencer.

Lire plus
Intelligence Artificielle

Imagine de Meta : une nouvelle ère de création d’images IA pour les amateurs créatifs

Gen AI Product Updates Header

Meta a détaillé aujourd’hui dans un article de blog une série de mises à jour de ses outils Meta AI, dont de nouvelles fonctionnalités pour ses générateurs d’images IA.

L’une d’entre elles est alléchante : un outil qui vous permettra de remixer des images générées par l’IA que vos amis partagent dans un chat Messenger ou Instagram. Les images sont créées à l’aide d’un outil que Meta appelle « imagine », et l’entreprise explique que vous pourrez désormais « réimaginer » les images créées par d’autres personnes dans le chat de groupe en appuyant sur l’image et en la maintenant enfoncée, puis en ajoutant un texte d’incitation.

01 Reimagine Carousel 01.png 2 jpg

Meta sort également l’outil Imagine des chats et permet aux utilisateurs américains d’y accéder sur le Web à l’adresse imagine.meta.com. L’entreprise précise que l’outil est conçu pour les « amateurs créatifs » et qu’il est alimenté par son modèle de fondation d’images Emu.

Dans les semaines à venir, Meta annonce qu’un « filigrane invisible » sera ajouté aux images créées à l’aide de son outil Imagine. L’entreprise souhaite ajouter des filigranes aux images réalisées avec ses autres outils d’IA à un moment donné, mais elle n’a pas donné d’engagement très détaillé : « Nous visons à apporter un filigrane invisible à beaucoup de nos produits avec des images générées par l’IA à l’avenir », indique Meta dans son article.

Meta améliore également son assistant Meta AI, qui offrira « des réponses plus détaillées sur mobile » et « des résumés plus précis des résultats de recherche ». Les informations commenceront à apparaître dans vos discussions avec Meta AI. Et, selon TechCrunch, les personnages IA de Meta (qui sont basés sur des célébrités comme Snoop Dogg et Tom Brady) sont maintenant entièrement disponibles dans WhatsApp, Messenger et Instagram aux États-Unis.

L’article de blog de Meta contient une poignée d’autres mises à jour, y compris le fait que Meta « explore » la façon d’utiliser l’IA générative pour offrir des suggestions pour des choses telles que l’écriture de vœux d’anniversaire. Mais la vague d’annonces de l’entreprise est presque certainement sa tentative de couper l’herbe sous le pied de la grande nouvelle Gemini de Google qui a également été annoncée hier.

Lire plus
Intelligence Artificielle

Google mise sur Gemini pour relancer Bard et rivaliser avec ChatGPT

google bard extensions 1

Google espère que son nouveau modèle d’IA Gemini pourra relancer son assistant conversationnel Bard, dont les performances médiocres n’ont pas été à la hauteur de l’engouement qu’il a suscité. Bard a été lancé au début de l’année en grande pompe, présenté comme la réponse de Google à ChatGPT d’OpenAI et à Claude d’Anthropic.

Mais si ChatGPT est devenu un phénomène mondial et l’un des produits de consommation à la croissance la plus rapide, Bard de Google a été quelque peu négligé.

En effet, les utilisateurs ont rapidement constaté que les réponses de Bard étaient limitées, imprécises et sujettes à des erreurs. Cela a suscité de nombreuses moqueries sur les réseaux sociaux à propos des capacités insuffisantes de Bard par rapport à ses rivaux. En outre, si le chatbot a régulièrement acquis de nouvelles fonctionnalités, notamment l’accès à vos données dans d’autres produits Google, ses réponses et ses informations ont rarement semblé rivaliser avec ce que vous obtenez de ChatGPT et d’autres bots utilisant GPT-3 et GPT-4.

Toutefois, Google intègre désormais son nouveau et puissant modèle d’IA Gemini dans Bard afin de remédier à bon nombre de ces lacunes. L’entreprise affirme que Gemini surpasse les meilleurs modèles d’IA tels que GPT-3.5 sur plusieurs critères de référence bien connus, en particulier pour la compréhension et le raisonnement.

À partir d’aujourd’hui, pour les utilisateurs anglophones de 170 pays, Bard est désormais alimenté par le nouveau modèle Gemini de Google, qui, selon l’entreprise, correspond à la technologie d’OpenAI et la surpasse même à plusieurs égards. Google précise que Gemini sera disponible dans d’autres langues et d’autres pays « dans un proche avenir » (on peut espérer que ce sera le cas en France également).

Bard utilise maintenant Gemini Pro, le niveau intermédiaire de la série Gemini. Ultra est la plus grande et la plus lente mais la plus performante, Nano est petite et rapide et destinée aux tâches sur l’appareil, et Pro se situe juste au milieu. Elle est rapide et efficace tout en étant aussi performant que possible.

Sissie Hsiao, responsable de Bard et d’Assistant chez Google, a déclaré lors d’une conférence de presse que Gemini représentait « la plus grande et la meilleure mise à jour à ce jour » pour Bard. Il devrait s’agir d’une nette amélioration pour à peu près tout ce que Bard fait déjà : résumer, faire du brainstorming, écrire, etc.

Google sous pression pour rattraper son retard en matière d’IA

Pour l’instant, Bard n’est encore qu’un chatbot : vous tapez, il tape en retour. Mais une nouvelle version de Bard, qui pourrait être beaucoup plus performante, est prévue pour bientôt. L’année prochaine, Google prévoit de lancer en avant-première « Bard Advanced », alimenté par Gemini Ultra, qui est la version la plus puissante et la plus performante du nouveau Large Language Model de Google. Gemini Ultra est également la version multimodale du modèle, ce qui signifie qu’il peut accepter et créer des images, du son et de la vidéo en plus du texte.

Demis Hassabis, directeur de Google DeepMind, explique que c’est dans les interactions non textuelles que Gemini brille vraiment en général. « Nous l’avons conçu pour qu’il soit nativement multimodal dès le départ », explique-t-il. Parmi les démonstrations de Google, le Youtubeur Mark Rober utilise Bard pour fabriquer l’avion en papier parfait — notamment en prenant des photos de ses dessins pour obtenir des commentaires de l’IA — et des parents téléchargent des photos des devoirs de leurs enfants pour obtenir de l’aide afin de déterminer où ils se sont trompés en maths.

Pour l’instant, il ne s’agit que de démonstrations et de vidéos promotionnelles. Pichai a déclaré qu’il considérait ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l’ère Gemini. Mais si l’analyse comparative de Google est correcte, le nouveau modèle pourrait déjà faire de Bard un chatbot aussi performant que ChatGPT. Et c’est déjà un exploit assez impressionnant.

En effet, si Gemini transforme Bard comme promis, Google pourrait regagner le terrain perdu face à ses rivaux en matière d’IA. Avec des avancées aussi rapides dans le domaine de l’IA générative, la course à la suprématie reste très ouverte. Pour l’instant, Google mise sur Gemini pour catapulter Bard dans la course.

Lire plus
Intelligence Artificielle

Google lance Gemini : une avancée majeure dans l’IA multimodale

« C’est le début d’une nouvelle ère de l’IA chez Google », déclare Sundar Pichai, PDG de l’entreprise : l’ère Gemini. Gemini est le dernier Large Language Model de Google, que Pichai a présenté pour la première fois lors de la conférence des développeurs I/O en juin et qu’il lance aujourd’hui au grand public.

À entendre Pichai et Demis Hassabis, directeur général de Google DeepMind, il s’agit d’un énorme bond en avant dans un modèle d’IA qui affectera à terme la quasi-totalité des produits de Google. « L’un des grands avantages de ce moment », explique Pichai, « c’est qu’il est possible de travailler sur une technologie sous-jacente, de l’améliorer et de la répercuter immédiatement sur tous nos produits ».

Gemini est plus qu’un modèle d’IA unique. Il existe une version plus légère appelée Gemini Nano, destinée à être exécutée en mode natif et hors ligne sur les appareils Android. Il existe une version plus puissante appelée Gemini Pro qui alimentera bientôt de nombreux services d’IA de Google et qui constitue l’épine dorsale de Bard à partir d’aujourd’hui. Et il y a un modèle encore plus performant appelé Gemini Ultra qui est le LLM le plus puissant que Google ait encore créé et qui semble être principalement conçu pour les datacenters et les applications d’entreprise.

Gemini 1.0

En tant que « modèle le plus capable et le plus général » de Google, Gemini peut « comprendre, opérer à travers et combiner » du texte, du code, de l’audio, des images et de la vidéo. Le fait d’être « nativement multimodal » permet d’améliorer la compréhension, le raisonnement et les capacités de codage.

L’approche actuelle pour créer des modèles multimodaux consiste à « former des composants distincts pour différentes modalités, puis à les assembler ». Bien qu’ils soient performants pour certaines tâches, ces modèles, selon Google, « peinent à effectuer des raisonnements plus conceptuels et plus complexes ».

Pour Gemini, Google a procédé à un « pré-entraînement dès le départ sur différentes modalités » en utilisant les TPU 4 et TPU v5e. Google a également annoncé aujourd’hui que la TPU v5p était son accélérateur d’IA « le plus puissant, le plus efficace et le plus évolutif », en particulier pour les modèles avancés.

Pour démontrer ses capacités de « raisonnement sophistiqué », Google a fait une démonstration de Gemini qui digère 200 000 articles de recherche scientifique, filtre ceux qui sont pertinents et résume les données en une heure environ. Le codage est un autre point fort, Gemini étant capable de « comprendre, expliquer et générer du code de haute qualité » en Python, Java, C++ et Go.

Benchmarks Gemini

En termes de performances, Google a montré que Gemini Ultra surpassait le GPT-4 dans les benchmarks basés sur le texte qui mesurent le raisonnement, les mathématiques et le code. L’entreprise insiste particulièrement sur le fait que Gemini Ultra est le « premier modèle à surpasser les experts humains sur MMLU (compréhension massive du langage multitâche) » avec 90,0 %. Ce critère « utilise une combinaison de 57 sujets tels que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois la connaissance du monde et les capacités de résolution de problèmes », l’offre d’OpenAI ayant obtenu un score de 86,4 %.

gemini final text table bigger f jpg

Sur le plan multimodal, Gemini Ultra a battu GPT-4V dans les tests d’image, de vidéo et d’audio, tandis que Google DeepMind a publié un rapport technique avec plus de détails.

En termes de sécurité, Gemini est considéré comme ayant « les évaluations de sécurité les plus complètes de tous les modèles d’IA de Google à ce jour », avec de nouvelles protections en place pour prendre en compte les capacités multimodales. Google s’attaque en particulier aux biais et à la toxicité.

Bard avec Gemini Pro

La première façon d’expérimenter ce nouveau modèle fondamental est d’utiliser « Bard with Gemini Pro ». Cette « version spécialement adaptée » de Gemini Pro offre des fonctions de raisonnement, de planification et de rédaction plus avancées, ainsi que des fonctions de compréhension et de résumé du contenu. Google a spécifiquement vanté les performances supérieures à celles de GPT 3.5 (dans 6 benchmarks sur 8, y compris MMLU et GSM8K), et a déclaré qu’il s’agissait de la plus grande amélioration de la qualité de Bard depuis le lancement de l’application.

Dans les évaluations à l’aveugle avec nos évaluateurs tiers, Bard est maintenant le chatbot gratuit le plus préféré par rapport aux principales alternatives.

Bard avec Gemini Pro est déployé aujourd’hui en anglais dans 170 pays/territoires, avec une disponibilité au Royaume-Uni et en Europe « dans un futur proche ». Dans un premier temps, Gemini Pro utilisera des prompts textuels, mais d’autres modalités seront bientôt prises en charge.

Gemini FlexibleModel jpg

Gemini Ultra sera quant à lui disponible au début de l’année prochaine. Google procède actuellement à des vérifications approfondies de la confiance et de la sécurité, ainsi qu’à l’affinement du modèle, avant de le mettre à la disposition des développeurs et des entreprises.

Il sera disponible par le biais d’une nouvelle offre « Bard Advanced », que Google présente comme offrant un accès anticipé à ses modèles et capacités les plus avancés, comme Gemini Ultra. Au cours des prochains mois, Gemini arrivera dans Google Search, Chrome, Duet AI et Ads. Les premiers tests ont montré que Gemini réduisait la latence SGE (Search Generative Experience) de 40 %.

Depuis des années, Pichai et d’autres dirigeants de Google évoquent avec poésie le potentiel de l’IA. Pichai lui-même a déclaré plus d’une fois que l’IA transformera davantage l’humanité que le feu ou l’électricité. Dans cette première génération, le modèle Gemini ne changera peut-être pas le monde. Dans le meilleur des cas, il pourrait aider Google à rattraper OpenAI dans la course à la construction d’une grande IA générative. Mais Pichai, Hassabis et tous les autres employés de Google semblent penser qu’il s’agit du début de quelque chose de vraiment énorme. Le Web a fait de Google un géant de la technologie ; Gemini pourrait être encore plus grand.

Lire plus
Intelligence Artificielle

Google lance Gemini Nano pour le Pixel 8 Pro : IA locale et avancée

Gemini logo

Gemini est peut-être le modèle de langage le plus grand et le plus puissant (LLM) jamais développé par Google, mais il est mieux adapté aux datacenters qu’à votre smartphone. Cependant, avec Gemini Nano, l’entreprise tente de faire la différence : elle a construit une version réduite de son LLM phare qui peut fonctionner localement et hors ligne sur votre appareil.

Enfin, un appareil, en tout cas. Le Pixel 8 Pro est le seul smartphone compatible avec Gemini Nano jusqu’à présent, mais Google considère le nouveau modèle comme un élément central d’Android à l’avenir.

Si vous avez un Pixel 8 Pro, à partir d’aujourd’hui, deux choses sur votre smartphone seront alimentées par Gemini Nano : la fonction de résumé automatique dans l’application Enregistreur, et la partie Réponse suggérée du clavier Gboard. Ces deux éléments font partie de l’offre de fonctionnalités du Pixel pour le mois de décembre. Les deux fonctionnent hors ligne puisque le modèle est exécuté sur l’appareil lui-même, ce qui devrait donner une impression de rapidité et d’originalité.

Google commence très modestement avec Gemini Nano. Même la fonction Réponse suggérée n’est alimentée par Gemini que dans WhatsApp, bien que Google affirme qu’elle sera disponible dans d’autres applications l’année prochaine. Et Gemini dans son ensemble n’est déployé qu’en anglais pour l’instant, ce qui signifie que de nombreux utilisateurs ne pourront pas l’utiliser du tout.

Outre la confidentialité et le fait que les données ne quittent pas l’appareil, Google souligne que la nature de l’appareil « permet des expériences cohérentes avec une latence déterministe, de sorte que les fonctionnalités sont toujours disponibles, même en l’absence de réseau ».

Uniquement pour le Pixel 8 Pro pour le moment

Votre Pixel 8 Pro ne se sentira pas soudainement comme un appareil massivement mis à niveau — bien qu’il puisse le faire avec le temps, si Gemini est aussi bon que Google pense qu’il peut l’être. Et l’année prochaine, lorsque Google apportera un Bard alimenté par Gemini à Assistant sur les smartphones Pixel, vous obtiendrez encore plus de l’expérience Gemini.

Pour l’instant, le processeur Tensor 3 de Google semble être le seul capable d’exécuter le modèle. Mais Google travaille également à l’intégration de Nano dans l’ensemble de l’écosystème Android : il a lancé un nouveau service système appelé AICore que les développeurs peuvent utiliser pour intégrer des fonctions alimentées par Gemini dans leurs applications. Votre smartphone aura toujours besoin d’une puce haut de gamme pour fonctionner, mais l’article de blog de Google annonçant la fonctionnalité mentionne Qualcomm, Samsung et MediaTek comme des entreprises fabriquant des processeurs compatibles. Les développeurs peuvent dès à présent participer au programme d’accès anticipé de Google.

Google a annoncé d’autres améliorations de l’IA pour les smartphones Pixel dans le cadre d’une présentation de fonctionnalités en décembre. Parmi celles-ci, une nouvelle fonctionnalité Video Boost pour améliorer les clips du Pixel 8 Pro en les téléchargeant sur le cloud pour les améliorer, un mode timelapse Night Sight pour le Pixel 8 et le Pixel 8 Pro, un aperçu double écran pour le Pixel Fold qui vous permet d’afficher le viseur de votre appareil photo sur l’écran de couverture, et plusieurs autres mises à jour.

Lire plus
Intelligence Artificielle

Bing révolutionne la recherche avec Deep Search de Microsoft

1920x1080 Hero

Microsoft a récemment regroupé toutes les fonctions assistées par l’IA de son vaste portefeuille de produits sous le nom de Copilot, avec un nouveau logo et une disponibilité accrue. À l’aube de 2024, l’entreprise a détaillé une poignée de nouvelles fonctionnalités qui seront bientôt déployées.

Mais la plus grande amélioration dans ce domaine est Deep Search, qui sera bientôt disponible pour les utilisateurs de Bing. En résumé, si l’IA était destinée à réimaginer l’expérience de la recherche sur le Web et à la rendre plus gratifiante, Deep Search est la réponse. Elle décompose une requête simple en plusieurs directions et présente des réponses pertinentes pour chacune d’entre elles, ce qui vous évite les étapes de recherche ultérieures.

En effet, Microsoft prépare une nouvelle fonctionnalité de Bing qui devrait vous éviter d’avoir à inventer votre propre requête IA. Cette fonction, baptisée Deep Search (recherche approfondie) et alimentée par GPT-4, prend en compte votre requête Bing et la développe, ce qui permet au moteur de recherche de trouver des réponses sur plusieurs sujets liés à votre question sur le Web.

Selon Microsoft, Deep Search n’est pas une alternative à la recherche traditionnelle sur le Web. Il s’agit plutôt d’un système complémentaire qui tente de poser des questions pertinentes en rapport avec votre requête initiale et qui trouve les réponses de manière proactive.

À titre d’exemple, Microsoft montre comment Bing transforme une recherche vague du type « comment fonctionnent les systèmes de points au Japon » en une requête détaillée qui demande à Bing de :

Expliquer le fonctionnement de divers programmes de cartes de fidélité au Japon, y compris les avantages, les conditions et les limites de chacun d’entre eux. Inclure des exemples de cartes de fidélité populaires dans différentes catégories, telles que les magasins de proximité, les supermarchés et les restaurants. Comparez les avantages et les inconvénients de l’utilisation des cartes de fidélité par rapport aux autres méthodes de paiement au Japon, y compris les récompenses et les avantages actuels. Mettre en évidence les services les plus populaires et les commerçants participants.

Comment fonctionne la recherche approfondie ?

Comme mentionné précédemment, le modèle linguistique GPT-4 de l’OpenAI est au cœur de Deep Search. Lorsqu’un utilisateur tape une phrase de recherche, le modèle d’IA exploite ses capacités de génération et développe la requête de recherche en y ajoutant de multiples extensions contextuelles, comme décrit ci-dessus. Ce faisant, il élargit également l’éventail et le contexte des mots-clés. La façon la plus simple de comprendre ce comportement est de supposer que si votre recherche contient un « pourquoi », Deep Search y ajoutera les parties « comment », « quand » et « où » dans la forme développée.

« Deep Search s’appuie sur GPT-4 pour trouver toutes les intentions possibles et calcule une description complète pour chacune d’entre elles », explique Microsoft. Mais il s’agit au mieux d’une supposition contextuelle prédictive, et même Microsoft reconnaît que le travail d’expansion de Deep Search peut s’avérer défaillant de temps à autre. Pour s’assurer qu’elle guide les utilisateurs dans la bonne direction et ne les submerge pas de réponses inutiles, la section Deep Search proposera un panneau où les utilisateurs pourront sélectionner la bonne extension pour leur requête, tandis que les autres contextes de recherche générés par l’IA seront supprimés.

Un processus de recherche un peu plus lent

Il s’agit d’un processus complexe, en plusieurs étapes, qui se déroule en arrière-plan. Il n’est donc pas surprenant que la compilation et la présentation des résultats d’une recherche approfondie prennent beaucoup plus de temps qu’une recherche Bing classique. Selon la complexité de la requête, Microsoft indique que Deep Search peut prendre jusqu’à 30 secondespour faire apparaître les résultats.

Mais vous n’utiliserez pas Deep Search pour toutes vos recherches sur le Web, surtout si vous souhaitez obtenir une réponse directe. Considérez Deep Search comme un chatbot, tel que ChatGPT ou Bing Chat, mais qui est intrinsèquement lié à la recherche sur Internet et qui tente de trouver des réponses avant même que vous ne puissiez les poser.

Comment essayer Deep Search de Bing ?

Même si Copilot est désormais accessible au public, Deep Search reste une fonctionnalité expérimentale. C’est pourquoi Microsoft adopte une approche prudente dans son déploiement afin de s’assurer que tous les problèmes sont résolus dans la phase initiale avant un déploiement plus large. Pour l’instant, l’entreprise précise que Deep Search n’est disponible que « pour de petits groupes d’utilisateurs sélectionnés de manière aléatoire sur Bing dans le monde entier ». Microsoft ne précise pas si elle privilégie un certain groupe d’utilisateurs ou de clients payants pour l’accès à Deep Search. Mais étant donné qu’il s’agit d’une technologie propre à Bing Search, le meilleur moyen d’y accéder avant les autres est d’utiliser le navigateur Edge.

Dès qu’il sera disponible, vous verrez apparaître un nouveau bouton Deep Search à côté de la zone de recherche textuelle. En attendant, vous pouvez vous tourner vers le navigateur Web de Microsoft, qui dispose désormais d’un Copilot dédié dans le coin supérieur droit de l’écran. En tapant dessus, vous ouvrez la fenêtre Copilot with Bing Chat, dans laquelle vous pouvez saisir une requête ; elle extrait les réponses du Web sous forme de paragraphes, avec les citations des sources. Une fois la réponse fournie, l’interface présente un ensemble de trois requêtes connexes basées sur votre recherche initiale.

Il s’agit d’une version rudimentaire de ce que Deep Search promet d’accomplir. Certaines des améliorations GPT-4 promises par Microsoft pour Copilot, telles que la recherche multimodale, ont déjà commencé à apparaître pour les utilisateurs. Deep Search ne devrait pas tarder à apparaître aux utilisateurs.

Lire plus