Accueil > Glossaire Cybersécurité > Empoisonnement des données (Data Poisoning) 🔴 Attaque

Empoisonnement des données (Data Poisoning) 🔴 Attaque

L’empoisonnement des données (Data Poisoning) est une cyberattaque visant à corrompre intentionnellement les données d’entraînement d’un modèle d’intelligence artificielle ou de machine learning  afin de manipuler ses prédictions ou décisions.

Cette technique consiste à insérer des données malveillantes ou trompeuses dans le jeu de données utilisé pour l’apprentissage, compromettant ainsi l’intégrité et la fiabilité du modèle.

 


Exemples

  1. Systèmes de reconnaissance d’images
    • Des attaquants ont modifié des images de panneaux « Stop » en y ajoutant des autocollants subtils, induisant des erreurs de classification dans les systèmes de vision des voitures autonomes, qui confondaient ces panneaux avec des limitations de vitesse.
    • Dans une expérience, le remplacement de 0,00025 % des images de pommes par des images aléatoires a conduit un modèle à étiqueter incorrectement des objets non apparentés comme des pommes.
  2. Filtres antispam
    • Des spammeurs ont signalé massivement des e-mails légitimes comme du spam pour altérer les performances de Gmail, réduisant la précision du filtre entre 2017 et 2018.
  3. Modèles de langage (LLM)
    • Des données empoisonnées injectées dans Wikipédia ont influencé des chatbots comme ChatGPT à répondre systématiquement « The Economist » lorsqu’on leur demandait de recommander un journal.
    • L’outil Nightshade a été utilisé pour altérer des modèles génératifs d’images (ex. DALL-E), transformant des chiens en chats via des données d’entraînement corrompues.
  4. Systèmes de sécurité
    • En 2015, des attaques ont forcé des logiciels antivirus à détecter des fichiers inoffensifs comme malveillants en empoisonnant les données de VirusTotal.
  5. Biais et discrimination
    • L’altération des données de scoring de crédit pour cibler une sous-population spécifique (ex. un groupe démographique) a conduit à des décisions injustes dans les prêts bancaires.

Types d’attaques associées

  • Attaques en boîte noire : l’attaquant n’a pas accès au modèle, mais manipule les retours utilisateurs pour pervertir l’apprentissage.
  • Attaques ciblées : modification du comportement du modèle dans des scénarios spécifiques (ex. reconnaissance faciale échouant pour une personne précise).
  • Portes dérobées (backdoor) : insertion de déclencheurs cachés activant un comportement malveillant (ex. un autocollant sur un panneau déclenchant une erreur).
  • Attaques de disponibilité : réduction globale de la précision du modèle en inondant les données de bruit.

 


💉 Enjeux et mesures de protection

  • Détection d’anomalies : utiliser des algorithmes pour identifier des tendances inhabituelles dans les données.
  • Validation des données : filtrer les sources ouvertes (ex. vérifier les sites web expirés réutilisés pour l’empoisonnement).
  • Surveillance continue : évaluer régulièrement les performances des modèles pour détecter les dérives.
  • Sécurisation des accès : limiter l’accès aux données sensibles et aux architectures de modèles.
Vers la ORSYS Cyber Academy : un espace gratuit dédié à la cybersécurité