La quête de données d’entraînement de haute qualité constitue un défi pressant pour les entreprises spécialisées en intelligence artificielle, comme le soulignent les récents rapports de grands médias. Alors que ces entreprises s’efforcent d’améliorer leurs modèles d’IA, la rareté des données utilisables les pousse à explorer divers moyens, certains frôlant les limites des normes légales et éthiques.
Selon le Wall Street Journal et le New York Times, des géants de l’IA tels que OpenAI et Google trouvent de plus en plus difficile de sourcer les énormes quantités de données nécessaires pour entraîner leurs modèles sophistiqués.
Par exemple, OpenAI, aurait utilisé plus d’un million d’heures de vidéos YouTube transcrites pour entraîner son modèle GPT-4, bien qu’elle reconnaisse les potentiels problèmes légaux impliqués. Le président de l’entreprise, Greg Brockman, aurait été personnellement impliqué dans la sélection de ces vidéos.
L’utilisation de telles données est controversée car elle implique du contenu qui pourrait ne pas être explicitement autorisé à des fins d’entraînement d’IA. Google a également été scruté pour ses pratiques de données. Un porte-parole de Google a commenté les rapports non confirmés des méthodes d’OpenAI et a réitéré que le scraping ou le téléchargement de contenu YouTube sans autorisation viole leurs conditions de service.
OpenAI a fait preuve d’opacité en ce qui concerne les données d’entraînement qu’elle utilise pour créer ses Large Language Model (LLM) et d’autres outils d’IA générative. Cette situation a donné lieu à plusieurs poursuites judiciaires.
Approche et défis de Meta face à l’IA
Pendant ce temps, Google admet utiliser le contenu de YouTube pour entraîner ses modèles mais affirme le faire dans les limites des accords passés avec les créateurs de contenu.
Meta, un autre acteur majeur de l’espace IA, aurait discuté de l’utilisation de contenus protégés par le droit d’auteur sans autorisation pour entraîner ses modèles. Cette approche semble être un dernier recours après avoir épuisé presque tous les textes en anglais disponibles en ligne. Les stratégies internes de Meta semblent inclure la considération de l’acquisition de licences ou même l’achat d’entités éditoriales importantes pour sécuriser les données nécessaires.
L’épuisement continu des données disponibles pourrait amener les entreprises d’IA à adopter de nouvelles stratégies telles que la création de données synthétiques ou l’emploi d’un apprentissage par curriculum, qui organise l’ingestion de données pour forger des connexions conceptuelles plus efficaces avec moins d’informations. Cependant, ces méthodes ne sont pas encore prouvées à grande échelle.
Équilibre entre innovation et respect du droit d’auteur
Alors que les entreprises d’IA naviguent dans le paysage complexe de l’acquisition de données, elles doivent équilibrer l’innovation avec le respect du droit d’auteur et de la vie privée. La nature évolutive de la recherche en IA et les cadres juridiques qui l’accompagnent continueront probablement de défier ces entreprises alors qu’elles développent et affinent leurs technologies.