Des chercheurs ont constaté que le nouveau système d’IA d’Apple, ReALM, surpassait les capacités du GPT-4 d’OpenAI. L’article intitulé « ReALM : Reference Resolution as Language Modelling » examine la question de la résolution de référence. La référence est un processus linguistique dans lequel un mot d’une phrase ou d’un discours fait référence à un autre mot ou à une autre entité. La tâche consistant à résoudre ces références est connue sous le nom de résolution de référence.
Les chercheurs affirment que si les Large Language Model (LLM) sont extrêmement puissants pour toute une série de tâches, leur utilisation dans la résolution de références, en particulier pour les entités non conversationnelles, reste sous-exploitée.
Selon l’étude, la plus petite version de ReALM a été comparée à GPT-3.5 et GPT-4, et elle est parvenue à atteindre des performances comparables à celles de GPT-4, tandis que les modèles plus grands l’ont nettement surpassée.
Apple says its latest AI model ReALM is even “better than OpenAI’s GPT4”.
It likely is as GPT4 has regressed because of “alignment”.
The ReALM war begins at WWDC 2024.
Paper: https://t.co/3emVSjgRvK pic.twitter.com/tOPMVaVI9V
— Brian Roemmele (@BrianRoemmele) April 1, 2024
À l’approche de la WWDC 2024 et du lancement anticipé d’iOS 18 en juin, les attentes sont élevées quant aux débuts d’un Siri 2.0 avancé. Il n’est pas certain que ReALM soit intégré à Siri d’ici là.
Les récents efforts d’Apple dans le domaine de l’IA ne sont pas passés inaperçus, marqués par l’introduction de nouveaux modèles et outils visant à améliorer l’efficacité de l’IA sur des appareils plus petits, ainsi que par des partenariats stratégiques. Ces développements soulignent la stratégie de l’entreprise visant à placer l’IA au premier plan de ses activités commerciales.
Le dévoilement de ReALM représente l’initiative la plus récente et la plus ciblée de l’équipe de recherche en IA d’Apple pour affiner et accélérer les modèles existants, en les faisant évoluer vers plus de vitesse, d’intelligence et d’efficacité.
Principales caractéristiques de l’IA ReALM d’Apple
ReALM utiliserait une nouvelle méthode pour convertir les informations de l’écran en texte, ce qui lui permet de contourner les paramètres de reconnaissance d’image et d’assurer un traitement plus efficace sur les dispositifs d’IA.
Il tient également compte de ce qui se trouve sur l’écran de l’utilisateur ou de ce qui s’exécute en arrière-plan.
Par conséquent, le LLM devrait permettre aux utilisateurs de faire défiler un site Web et de demander à Siri d’appeler une entreprise. Siri serait alors en mesure de « voir » le numéro de téléphone sur le site Web et de passer directement l’appel.
ReALM pourrait donc améliorer considérablement les capacités contextuelles des assistants vocaux. Grâce à sa capacité à interpréter les informations à l’écran et à utiliser un contexte supplémentaire, la mise à jour de Siri pourrait contribuer à offrir à l’utilisateur une expérience plus fluide et mains libres.
Assez impressionnant !
ReALM pourrait également gérer une grande variété de références, y compris celles qui dépendent du contexte de la conversation, du contenu à l’écran et même des informations de base. Cet aspect est essentiel pour développer des systèmes d’IA plus intuitifs et réactifs, capables de s’adapter aux complexités du langage et du contexte humains.
L’article fait état d’améliorations considérables par rapport aux systèmes existants dotés de fonctionnalités analogues, le plus petit modèle ayant apparemment obtenu des gains absolus de plus de 5 % pour les références à l’écran.