L’empoisonnement des données (Data Poisoning) est une cyberattaque visant à corrompre intentionnellement les données d’entraînement d’un modèle d’intelligence artificielle ou de machine learning afin de manipuler ses prédictions ou décisions.
Cette technique consiste à insérer des données malveillantes ou trompeuses dans le jeu de données utilisé pour l’apprentissage, compromettant ainsi l’intégrité et la fiabilité du modèle.
Exemples
- Systèmes de reconnaissance d’images
- Des attaquants ont modifié des images de panneaux « Stop » en y ajoutant des autocollants subtils, induisant des erreurs de classification dans les systèmes de vision des voitures autonomes, qui confondaient ces panneaux avec des limitations de vitesse.
- Dans une expérience, le remplacement de 0,00025 % des images de pommes par des images aléatoires a conduit un modèle à étiqueter incorrectement des objets non apparentés comme des pommes.
- Filtres antispam
- Des spammeurs ont signalé massivement des e-mails légitimes comme du spam pour altérer les performances de Gmail, réduisant la précision du filtre entre 2017 et 2018.
- Modèles de langage (LLM)
- Des données empoisonnées injectées dans Wikipédia ont influencé des chatbots comme ChatGPT à répondre systématiquement « The Economist » lorsqu’on leur demandait de recommander un journal.
- L’outil Nightshade a été utilisé pour altérer des modèles génératifs d’images (ex. DALL-E), transformant des chiens en chats via des données d’entraînement corrompues.
- Systèmes de sécurité
- En 2015, des attaques ont forcé des logiciels antivirus à détecter des fichiers inoffensifs comme malveillants en empoisonnant les données de VirusTotal.
- Biais et discrimination
- L’altération des données de scoring de crédit pour cibler une sous-population spécifique (ex. un groupe démographique) a conduit à des décisions injustes dans les prêts bancaires.
Types d’attaques associées
- Attaques en boîte noire : l’attaquant n’a pas accès au modèle, mais manipule les retours utilisateurs pour pervertir l’apprentissage.
- Attaques ciblées : modification du comportement du modèle dans des scénarios spécifiques (ex. reconnaissance faciale échouant pour une personne précise).
- Portes dérobées (backdoor) : insertion de déclencheurs cachés activant un comportement malveillant (ex. un autocollant sur un panneau déclenchant une erreur).
- Attaques de disponibilité : réduction globale de la précision du modèle en inondant les données de bruit.
💉 Enjeux et mesures de protection
- Détection d’anomalies : utiliser des algorithmes pour identifier des tendances inhabituelles dans les données.
- Validation des données : filtrer les sources ouvertes (ex. vérifier les sites web expirés réutilisés pour l’empoisonnement).
- Surveillance continue : évaluer régulièrement les performances des modèles pour détecter les dérives.
- Sécurisation des accès : limiter l’accès aux données sensibles et aux architectures de modèles.