Apple a nié avoir utilisé un ensemble de données collectées de manière non éthique par EleutherAI pour entraîner son produit phare d’intelligence artificielle (IA), Apple Intelligence. La société affirme toutefois avoir utilisé l’ensemble de données pour un autre modèle d’intelligence artificielle.
Après qu’il a été révélé cette semaine qu’une société appelée EleutherAI a utilisé un ensemble de données contenant des centaines de milliers de légendes de vidéos YouTube pour créer un ensemble de données destiné à faciliter l’entraînement à l’intelligence artificielle, Apple a nié que « The Pile » d’EleutherAI ait été utilisé pour entraîner Apple Intelligence.
La société a toutefois confirmé que « The Pile » avait été utilisé lors du développement des modèles OpenELM open source publiés au début de l’année.
Qu’est-ce que la « pile » d’EleutherAI ?
EleutherAI est une organisation à but non lucratif qui souhaite rendre la recherche et le développement en matière d’IA plus accessibles aux entreprises autres que les grandes sociétés technologiques qui travaillent principalement sur d’énormes modèles d’IA comme OpenAI.
Elle y parvient notamment en fournissant des ensembles de données d’entraînement pour les Large Language Model (LLM) et d’autres applications d’IA. Toutefois, au lieu de payer des droits de licence pour accéder aux données ou de conclure des partenariats pour utiliser des données provenant de sources, EleutherAI utilise le Web pour obtenir ses données. Celles-ci comprennent les légendes de plus de 170 000 vidéos YouTube.
Le résultat de cette démarche est « The Pile », un vaste corpus de données d’entraînement non éthique destiné à abaisser la barrière à l’entrée des petites entreprises sur le marché de l’IA. Toutefois, des entreprises plus importantes ont également utilisé cet ensemble de données.
Qu’est-ce que OpenELM d’Apple ?
Bien qu’Apple n’ait pas utilisé « The Pile » pour entraîner Apple Intelligence (et affirme que les modèles d’Apple Intelligence ont été entraînés « sur des données sous licence, y compris des données sélectionnées pour améliorer des fonctionnalités spécifiques, ainsi que des données accessibles au public collectées par notre robot d’exploration du Web »), Apple a admis l’avoir utilisé pour développer des modèles d’intelligence artificielle et des modèles d’intelligence artificielle. Apple a admis l’avoir utilisé pour développer ses modèles OpenELM.
Apple a publié OpenELM en avril. Il a été créé à des fins de recherche et n’est pas utilisé pour alimenter les fonctions ou caractéristiques d’Apple Intelligence. Apple a déclaré à 9to5Mac qu’elle n’avait pas l’intention de développer OpenELM ou de publier d’autres versions de l’outil.