Microsoft a clarifié sa position sur l’utilisation des données client issues de ses applications Microsoft 365, telles que Word et Excel, pour entraîner ses modèles d’intelligence artificielle. Cette déclaration fait suite à des rumeurs selon lesquelles les utilisateurs de Word et Excel devraient désactiver manuellement une option pour empêcher leurs données d’être utilisées pour l’entraînement des systèmes d’IA de l’entreprise.
La polémique est née d’un paramètre de confidentialité dans Microsoft Office, qui active par défaut les « expériences connectées facultatives ». Cette fonctionnalité permet aux utilisateurs d’accéder à des outils, comme la recherche d’images en ligne ou la collecte d’informations sur Internet. Cependant, la description de cette option ne mentionne pas explicitement l’entraînement des modèles d’IA.
Un document d’apprentissage de Microsoft, publié le 21 octobre 2024, a également alimenté cette confusion. Il y décrivait une série d’expériences connectées dans Office capables « d’analyser votre contenu », sans préciser que ces analyses n’étaient pas utilisées pour former des Large Language Model (LLMs).
En réponse à ces inquiétudes, le compte officiel Microsoft 365 sur X (anciennement Twitter) a expliqué : « Dans les applications M365, nous n’utilisons pas les données des clients pour entraîner des LLMs. Ce paramètre active uniquement des fonctionnalités nécessitant un accès à Internet, comme la co-édition d’un document ».
Heads up: Microsoft Office, like many companies in recent months, has slyly turned on an “opt-out” feature that scrapes your Word and Excel documents to train its internal AI systems. This setting is turned on by default, and you have to manually uncheck a box in order to opt… pic.twitter.com/wUfhBjcMOR
—nixCraft 🐧 (@nixcraft) November 24, 2024
Frank Shaw, responsable des communications de Microsoft, a également réfuté ces affirmations via Bluesky.
As noted when this came up a few weeks back, this is not true and following the link for more information makes that clear.
– Frank X. Shaw (@fxshaw.com) 26 novembre 2024 à 21 h 44
Un contexte plus large de méfiance envers l’IA
Ces préoccupations ne sont pas nouvelles. Plus tôt cette année, Adobe a été confronté à une controverse similaire après que ses conditions d’utilisation ont été mal interprétées, laissant penser que l’entreprise utilisait le contenu généré par les utilisateurs pour entraîner ses modèles d’IA générative. Adobe avait rapidement révisé le langage de ses conditions pour clarifier que ce n’était pas le cas.
Ces incidents, impliquant Microsoft et Adobe, illustrent une méfiance croissante envers les entreprises technologiques et leur utilisation des données personnelles pour le développement de l’IA. Cette inquiétude est compréhensible dans un contexte où des acteurs majeurs comme Meta, X (anciennement Twitter) et Google optent automatiquement leurs utilisateurs dans des programmes de formation d’IA, utilisant souvent des quantités massives de contenu en ligne.
Une communication plus transparente nécessaire
La polémique souligne le besoin d’une communication plus claire de la part des entreprises sur la manière dont elles gèrent les données utilisateur. Microsoft a réitéré dans un billet de blog d’août 2024 que : « Les modèles d’IA générative ne stockent pas les données d’entraînement ni ne les renvoient pour générer des réponses. Si nous prévoyons des changements concernant l’utilisation des données des consommateurs pour entraîner nos modèles d’IA, nous les communiquerons de manière transparente ».
Malgré cette déclaration, la clause dans les conditions générales de service de Microsoft, qui accorde une licence mondiale et gratuite pour l’utilisation du contenu utilisateur, continue d’alimenter les débats.
L’incident souligne une tendance majeure : les utilisateurs deviennent de plus en plus attentifs à la manière dont leurs données sont collectées et utilisées dans le cadre de l’IA. Les entreprises technologiques devront redoubler d’efforts pour garantir que leurs pratiques respectent la vie privée et la transparence, sous peine de s’exposer à des critiques croissantes dans un paysage technologique en constante évolution.