Home > Woordenlijst cyberbeveiliging > Gegevensvergiftiging 🔴 Aanval

Gegevensvergiftiging 🔴 Aanval

Gegevensvergiftiging (Gegevensvergiftiging) is een cyberaanval het opzettelijk corrumperen van de trainingsgegevens van een kunstmatig intelligentiemodel of machinaal leren  om zijn voorspellingen of beslissingen te manipuleren.

Bij deze techniek worden kwaadaardige of misleidende gegevens toegevoegd aan de dataset die wordt gebruikt om te leren, waardoor de integriteit en betrouwbaarheid van het model wordt aangetast.

 


Voorbeelden

  1. Beeldherkenningssystemen
    • Aanvallers pasten afbeeldingen van "Stop"-borden aan door subtiele stickers toe te voegen, wat leidde tot classificatiefouten in de visionsystemen van autonome auto's, die deze borden verwarden met snelheidsbeperkingen.
    • In één experiment zorgde het vervangen van 0,00025 % afbeeldingen van appels door willekeurige afbeeldingen ervoor dat een model ongerelateerde objecten ten onrechte als appels labelde.
  2. Spamfilters
    • Spammers markeerden massaal legitieme e-mails als spam om de prestaties van Gmail te veranderen, waardoor de nauwkeurigheid van het filter tussen 2017 en 2018 afnam.
  3. Taalmodellen (LLM)
    • Vergiftigde gegevens die in Wikipedia zijn geïnjecteerd hebben een aantal chatbots zoals ChatGPT om systematisch "The Economist" te antwoorden wanneer gevraagd wordt om een krant aan te bevelen.
    • Het gereedschap Nachtschade is gebruikt om generatieve beeldmodellen te veranderen (bijv. DALL-E), waardoor honden in katten veranderden via corrupte trainingsgegevens.
  4. Beveiligingssystemen
    • In 2015 dwongen aanvallen antivirussoftware om onschadelijke bestanden als kwaadaardig te detecteren door VirusTotal-gegevens te vergiftigen.
  5. Bias en discriminatie
    • Het veranderen van kredietscoregegevens om een specifieke subpopulatie (bijv. een demografische groep) aan te spreken heeft geleid tot oneerlijke beslissingen bij het verstrekken van leningen door banken.

Geassocieerde soorten aanvallen

  • Zwarte doos-aanvallen De aanvaller heeft geen toegang tot het model, maar manipuleert gebruikersfeedback om het leren te verstoren.
  • Gerichte aanvallen aanpassing van het gedrag van het model in specifieke scenario's (bijv. gezichtsherkenning die voor een specifieke persoon mislukt).
  • Achterdeuren (achterdeur) invoegen van verborgen triggers die kwaadaardig gedrag activeren (bijvoorbeeld een sticker op een paneel die een fout activeert).
  • Aanvallen op beschikbaarheid Algehele vermindering van de modelnauwkeurigheid door de gegevens te overspoelen met ruis.

 


💉 Aandachtspunten en beschermingsmaatregelen

  • Detectie van afwijkingen met behulp van algoritmen om ongebruikelijke patronen in de gegevens te identificeren.
  • Validatie van gegevens het filteren van open bronnen (bijv. het controleren van verlopen websites die hergebruikt worden voor vergiftiging).
  • Continue bewaking regelmatige beoordeling van de prestaties van het model om eventuele afwijkingen op te sporen.
  • Toegang beveiligen de toegang beperken tot gevoelige data en modelarchitecturen.
Op weg naar de ORSYS Cyber Academy: een gratis ruimte gewijd aan cyberbeveiliging