Taxonomie des attaques sur l’IA (NIST 3/3)

Synthèse de la 3ème partie du document du NIST (Adversarial Machine Learning – Taxonomy and Terminology of Attacks and Mitigations) consacrée aux contre-mesures.

🎥 Résumé de la 3ème partie du document en vidéo

Introduction

Le document du NIST constitue la principale référence pour classer, comprendre et anticiper les attaques contre les systèmes d’IA, qu’ils soient prédictifs (PredAI) ou génératifs (GenAI). Il fournit une cartographie exhaustive en attribuant à chaque attaque un identifiant unique (NISTAML.0xx). Il est organisé en trois sections :

(1) La taxonomie des attaques sur l’IA prédictive (PredAI)

(2) La taxonomie des attaques sur l’IA générative (GenAI)

(3) Les recommandations et stratégies d’atténuation des risques et leurs limites

Dans un premier article, nous avions abordé les attaques sur l’IA prédictive (PredAI), puis celles sur l’IA générative (GenAI) dans un deuxième article. Dans ce troisième et dernier article nous abordons les solutions proposées par le NIST pour atténuer les risques.

Le document du NIST souligne qu’il n’existe pas de solution miracle (« silver bullet ») et que les défenses comportent souvent des compromis entre la sécurité, la précision et la performance. Le NIST insiste sur un point important : les mitigations AML sont empiriques, souvent contournables et doivent être testées en permanence face à de nouveaux scénarios d’attaque. L’agence américaine rappelle que la sécurité de l’IA n’est pas un état, mais un processus continu de gestion des risques, couvrant les données, les modèles, les infrastructures et les usages.

Atténuation des risques pour l’IA prédictive

Les défenses pour l’IA prédictive doivent répondre aux trois vecteurs d’attaque principaux : l’empoisonnement, l’évasion et les atteintes à la confidentialité.

Reco NIST - PredAI - Evasion - Poisoning - Privacy

Empoisonnement (Poisoning)

Ces attaques surviennent lors de l’entraînement, visant à insérer des portes dérobées (backdoors) ou à dégrader la performance globale.

Gouvernance et hygiène des données : Assurez une traçabilité stricte des sources, validez les pipelines de collecte et séparez les données internes des données tierces.
Assainissement (Data Sanitization) : Nettoyez le jeu de données avant l’apprentissage en détectant les valeurs aberrantes (outliers) ou en utilisant le clustering pour isoler les échantillons toxiques.
Entraînement robuste : Privilégiez des algorithmes résilients aux valeurs aberrantes (ex: fonctions de perte tronquées) et l’agrégation de modèles (ensembles) pour diluer l’impact d’échantillons malveillants.
Inspection et Forensics : Utilisez des techniques comme Neural Cleanse pour reconstruire les déclencheurs potentiels (trigger reconstruction) et, en cas d’anomalie, retracez l’origine de l’attaque dans le dataset.
Surveillance de la chaîne ML : Sécurisez la supply chain (modèles pré-entraînés, intégrité des poids) et surveillez les métriques de performance (Accuracy, F1, AUC) pour détecter toute chute brutale.

Evasion (Adversarial examples)

Ici, l’objectif est de blinder le modèle contre des perturbations minimes conçues pour tromper l’inférence.

Entraînement contradictoire (Adversarial Training) : C’est la défense la plus prometteuse. Elle consiste à générer des exemples piégés et à les inclure (avec les bonnes étiquettes) dans l’entraînement. Bémol : cela peut réduire la précision sur les données propres.
Lissage aléatoire (Randomized Smoothing) : Cette technique ajoute du bruit (souvent gaussien) lors de l’entraînement ou de la prédiction pour rendre le modèle mathématiquement plus robuste aux perturbations.
Vérification formelle : L’usage de méthodes mathématiques pour certifier la résistance du modèle. Limite : très coûteux en calcul et difficilement applicable aux grands réseaux de neurones. bbbb

Confidentialité (Privacy)

Pour empêcher l’extraction de données sensibles ou l’inférence d’appartenance :

Confidentialité Différentielle (Differential Privacy – DP) : La méthode de référence. Elle ajoute un bruit calibré (ex. DP-SGD) pour garantir qu’on ne puisse pas savoir si une donnée spécifique a été utilisée pour l’entraînement.
Réduction de la mémorisation : Utilisez la régularisation (L1/L2), le dropout, l’arrêt anticipé (early stopping) ou la limitation de la capacité du modèle pour forcer la généralisation plutôt que la mémorisation par cœur.
Désapprentissage (Machine Unlearning) : Mettez en place des processus permettant de retirer l’influence de données spécifiques d’un modèle déjà entraîné.

Atténuation des risques pour l’IA générative

La GenAI hérite des faiblesses de la PredAI mais ajoute de nouveaux vecteurs via les « prompts » et une chaîne d’approvisionnement massive.

Chaîne d’approvisionnement (Supply chain)

Les LLM consomment des données massives, rendant le filtrage parfait impossible.

Audit des composants : Vérifiez l’intégrité (hash) et l’authenticité des modèles open-weights et des datasets téléchargés (Hugging Face, etc.).
Filtrage des données : Tentez de retirer les échantillons empoisonnés des datasets de fine-tuning, même si cela reste un défi à grande échelle.
Interprétabilité mécanistique : Analysez les composants internes du modèle pour tenter d’identifier des fonctionnalités de « backdoor » avant le déploiement.

Prompt injection

RLHF et Alignement : L’apprentissage par renforcement à partir de retours humains reste la première ligne de défense pour réduire la susceptibilité aux commandes malveillantes.
Formatage et « System Prompts » : Enveloppez les entrées utilisateur dans des balises spécifiques (ex: XML) pour aider le modèle à distinguer les instructions système du texte utilisateur.
Filtrage (Input/Output) : Déployez des modèles auxiliaires (guardrails) pour analyser et bloquer les entrées ou sorties toxiques.

Prompt injection indirect

Ce risque est critique pour les architectures RAG (Retrieval-Augmented Generation) où le modèle lit des données externes (emails, pages web).

Spotlighting : Utilisez des techniques de marquage pour aider le modèle à distinguer les données fiables des sources non fiables.
Sécurisation du RAG : Filtrez strictement les données récupérées avant de les envoyer au LLM et contrôlez les sorties générées.
L’Humain dans la boucle : Partez du principe que le modèle peut être compromis. Restreignez ses permissions (ex: ne jamais autoriser l’envoi d’emails sans validation humaine explicite).

Propriété intellectuelle

Défense en profondeur : Protégez vos prompts systèmes, limitez le verbatim dans les réponses et surveillez activement les tentatives d’extraction.
Watermarking (Filigranage) : Marquez le contenu généré pour tracer sa provenance, bien que l’efficacité de ces techniques face à un attaquant motivé reste encore limitée.

Conclusion

Le NIST conclut sur des principes de gestion essentiels :

Gestion des compromis : Il est souvent impossible de maximiser simultanément la précision, la robustesse et l’équité. Chaque organisation doit définir son point d’équilibre.
Red Teaming : En l’absence de preuves mathématiques de sécurité, l’évaluation empirique via des simulations d’attaques (Red Teaming) est indispensable avant et pendant le déploiement.
Zero Trust pour les modèles : Considérez les modèles d’IA comme des composants non fiables (untrusted components) et appliquez les pratiques de cybersécurité traditionnelles à l’écosystème qui les entoure.

L’agence américaine rappelle que la sécurité de l’IA n’est pas un état final mais un processus continu. Les mesures d’atténuation sont empiriques, souvent contournables et doivent évoluer aussi vite que les scénarios d’attaque. La protection efficace nécessite une approche de défense en profondeur : combiner des techniques spécifiques au Machine Learning (comme l’entraînement robuste) avec des mesures de sécurité systémiques classiques (contrôle d’accès, surveillance, audits).