Envenenamiento de datos (Envenenamiento de datos) es una ataque cibernético corromper intencionadamente los datos de entrenamiento de un modelo de inteligencia artificial o aprendizaje automático para manipular sus predicciones o decisiones.
Esta técnica consiste en insertar datos maliciosos o engañosos en el conjunto de datos utilizado para el aprendizaje, comprometiendo así la integridad y fiabilidad del modelo.
Ejemplos
- Sistemas de reconocimiento de imágenes
- Los atacantes modificaron imágenes de señales de "Stop" añadiendo sutiles pegatinas, lo que provocó errores de clasificación en los sistemas de visión de los coches autónomos, que confundieron estas señales con límites de velocidad.
- En un experimento, la sustitución de 0,00025 imágenes % de manzanas por imágenes aleatorias llevó a un modelo a etiquetar incorrectamente como manzanas objetos no relacionados.
- Filtros de spam
- Los spammers marcaron masivamente correos legítimos como spam para alterar el rendimiento de Gmail, reduciendo la precisión del filtro entre 2017 y 2018.
- Modelos lingüísticos (LLM)
- Los datos envenenados inyectados en Wikipedia han influido en varios chatbots como ChatGPT para responder sistemáticamente "The Economist" cuando se le pide que recomiende un periódico.
- La herramienta Nightshade se ha utilizado para alterar modelos generativos de imágenes (por ejemplo, DALL-E), convirtiendo perros en gatos mediante datos de entrenamiento corruptos.
- Sistemas de seguridad
- En 2015, los ataques forzaron a los antivirus a detectar archivos inofensivos como maliciosos envenenando los datos de VirusTotal.
- Sesgo y discriminación
- La alteración de los datos de calificación crediticia para dirigirse a una subpoblación específica (por ejemplo, un grupo demográfico) ha dado lugar a decisiones injustas en la concesión de préstamos bancarios.
Tipos de ataque asociados
- Ataques de caja negra El atacante no tiene acceso al modelo, pero manipula los comentarios de los usuarios para distorsionar el aprendizaje.
- Ataques selectivos modificación del comportamiento del modelo en escenarios específicos (por ejemplo, que falle el reconocimiento facial de una persona concreta).
- Puertas traseras (puerta trasera) inserción de activadores ocultos que activen comportamientos maliciosos (por ejemplo, una pegatina en un panel que active un error).
- Ataques a la disponibilidad Reducción global de la precisión del modelo al inundar los datos de ruido.
💉 Problemas y medidas de protección
- Detección de anomalías utilizando algoritmos para identificar patrones inusuales en los datos.
- Validación de datos filtrado de fuentes abiertas (por ejemplo, comprobación de sitios web caducados reutilizados para el envenenamiento).
- Control continuo evaluación periódica del rendimiento del modelo para detectar cualquier desviación.
- Asegurar el acceso limitar el acceso a datos sensibles y arquitecturas modelo.