La société mère de Tumblr et WordPress, Automattic, est en train de conclure un accord pour vendre des données d’utilisateurs afin de former des modèles d’intelligence artificielle (IA).
L’accord a été découvert par 404media, le site d’information technologique ayant mis la main sur des documents internes qui montrent la vente imminente de données à des sociétés telles que Midjourney et OpenAI. 404media affirme qu’il y aura un nouveau paramètre introduit aujourd’hui qui « permettra aux utilisateurs de refuser le partage de données avec des tiers, y compris des entreprises d’IA ».
Automattic a publié sur son site une déclaration intitulée « Protecting User Choice » (Protéger le choix de l’utilisateur) qui décrit en détail la position de l’entreprise sur l’IA.
« L’IA transforme rapidement presque tous les aspects de notre monde, y compris la façon dont nous créons et consommons du contenu », peut-on lire dans la déclaration. « Chez Automattic, nous avons toujours cru en un Web libre et ouvert et au choix individuel. Comme d’autres entreprises technologiques, nous suivons de près ces avancées, y compris la façon de travailler avec les entreprises d’IA d’une manière qui respecte les préférences de nos utilisateurs ».
L’entreprise a également déclaré qu’elle bloquait actuellement les robots d’indexation de l’IA et les sites d’indexation des moteurs de recherche afin de garder les messages des utilisateurs hors de leur champ de vision, à moins que l’utilisateur n’ait accepté que ce contenu soit rendu public.
Des soucis ?
Automattic a également parlé ouvertement de son travail avec des tiers en déclarant : « Nous travaillons également directement avec des entreprises d’IA sélectionnées, tant que leurs plans s’alignent sur ce qui préoccupe notre communauté : l’attribution, les opt-outs et le contrôle ».
« Nos partenariats respecteront tous les paramètres d’exclusion », peut-on lire dans la déclaration sur l’IA. « Nous prévoyons également d’aller plus loin et d’informer régulièrement nos partenaires des personnes qui se sont désinscrites et qui demandent que leur contenu soit supprimé des sources passées et des formations futures ».
Un accord avec les entreprises d’IA et les impacts spécifiques sur les données des utilisateurs restent donc à voir, mais la corrélation entre le rapport 404media et cette déclaration publique montre que Automattic considère déjà les implications des informations publiques et de l’IA.
Pourquoi les entreprises d’IA veulent-elles avoir accès aux données des utilisateurs ?
Les entreprises d’IA et leurs algorithmes complexes ont besoin d’une source de données pour être essentiellement « formés » sur un ensemble ou un sujet spécifique.
Plus les données qui alimentent ces modèles d’apprentissage sont de qualité, plus les résultats seront théoriquement exacts. Par exemple, un modèle d’IA qui ne peut accéder qu’à des données limitées n’aura qu’une autorité limitée sur un certain sujet.
L’entrave à la réglementation de l’IA, qui a été un environnement plutôt anarchique, signifie que davantage d’accords doivent être conclus avec les entreprises qui ont accès à ces ensembles de données pour obtenir le meilleur rendement d’une requête d’IA. Cela signifie également que les propriétaires des modèles d’apprentissage ne tombent pas sous le coup de la loi sur les droits d’auteur et que les propriétaires de plateformes telles que Tumblr et WordPress obtiennent quelque chose en échange de l’accès aux données des utilisateurs.