Contrôles de confidentialité pour le RAG : Sécurité au niveau des lignes et masquage avant les LLM

Contrôles de confidentialité pour le RAG : Sécurité au niveau des lignes et masquage avant les LLM

Renee Serda déc.. 11 5

Quand vous utilisez un modèle de langage comme GPT pour répondre à des questions avec des données internes, vous croyez peut-être que seule la bonne information sort. Mais en réalité, si vous n’avez pas de contrôles de sécurité, votre système peut révéler des documents entiers à des utilisateurs qui n’auraient jamais dû y avoir accès. C’est ce qu’on appelle le RAG - Retrieval-Augmented Generation - et c’est devenu un point faible majeur dans les entreprises qui veulent utiliser l’IA sans se mettre en danger.

Le problème caché dans les bases de données vectorielles

La plupart des équipes qui mettent en place du RAG chargent leurs documents internes - contrats, fiches RH, rapports financiers - dans une base de données vectorielle comme Pinecone, Weaviate ou Milvus. Puis, quand un employé pose une question, le système cherche les documents les plus proches et les envoie au modèle d’IA pour qu’il réponde. Simple, rapide, efficace… sauf qu’il n’y a aucun filtre.

Un employé du service marketing peut demander : « Quels sont les salaires des managers dans le département Finance ? » Et si les données ne sont pas protégées, il obtient non seulement la réponse, mais aussi les noms, les adresses, les primes, les contrats de travail - tout. C’est comme donner à tout le monde la clé de la cave aux documents confidentiels. Selon une étude de l’Alliance pour la Sécurité Cloud en novembre 2023, 78 % des entreprises ayant testé le RAG ont eu au moins une fuite de données pendant leurs expérimentations.

Deux solutions principales : filtrage au niveau des lignes et masquage

Il existe deux façons d’arrêter ça avant que les données n’atteignent l’IA.

La première, c’est le filtrage au niveau des lignes. Cela signifie que chaque document dans la base de données a des métadonnées : « Département : RH », « Sensibilité : Haut », « Accès : Dirigeants uniquement ». Quand un utilisateur pose une question, le système vérifie d’abord ses droits - par exemple, un employé du service juridique ne voit que les documents marqués comme « Juridique » ou « Public ». Databricks a montré une implémentation concrète où les requêtes sont automatiquement filtrées par département, avec une séparation totale entre les données RH et Finance. Rien ne passe d’un côté à l’autre.

La deuxième, c’est le masquage. Ici, on ne se contente pas de bloquer les documents - on efface les informations sensibles avant même que l’IA les voie. Des outils comme Presidio ou spaCy détectent automatiquement les noms, numéros de sécurité sociale, adresses, emails, et les remplacent par des placeholders comme [NOM MASQUÉ] ou [NUMÉRO DE SÉCURITÉ SOCIALE]. Des tests montrent une précision de 95 à 98 % pour identifier les données personnelles. Même si un document non filtré arrive à l’IA, elle ne voit que des espaces vides là où il y avait des données critiques.

Les outils qui marchent - et ceux qui ne suffisent pas

Certains systèmes sont conçus pour ça. Cerbos, par exemple, a créé un moteur d’autorisation qui s’insère directement entre la requête utilisateur et la base vectorielle. Il applique des règles comme « Seuls les managers peuvent voir les salaires » ou « Les consultants externes ne voient que les données publiques ». Dans leurs tests, cette méthode a réduit les expositions non autorisées de 99,8 %. C’est presque parfait.

Mais attention : les grandes plateformes comme AWS Bedrock n’ont pas encore de filtrage natif. Si vous utilisez Bedrock, vous devez écrire vous-même une fonction Lambda pour filtrer les résultats. Et ça ralentit tout : entre 15 et 25 % de latence en plus. Ce n’est pas une solution native - c’est un patch.

Les solutions open-source comme Oso (avec son langage Polar) permettent de créer des règles personnalisées, mais elles demandent 80 à 120 heures de développement pour être bien intégrées. Pour une petite équipe, c’est un gouffre de temps.

Et les bases de données vectorielles comme Pinecone ? Elles ne gèrent pas le filtrage au niveau des lignes par défaut. Vous devez le construire vous-même. Un utilisateur sur Reddit a écrit en novembre 2023 : « La plus grande erreur ? Croire que les bases vectorielles sont sécurisées. La plupart exigent une implémentation manuelle qui ajoute 30 à 40 % de temps de développement. »

Base de données vectorielle divisée en flux sécurisés, un ingénieur bloque une requête non autorisée.

La bonne approche : plusieurs couches de sécurité

Un seul contrôle ne suffit pas. Les experts recommandent une approche en « défense en profondeur ».

  • Couche 1 : Masquage avant l’embedding - Effacez les données sensibles dès que les documents sont lus.
  • Couche 2 : Filtrage par métadonnées - Bloquez les documents non autorisés avant même la recherche.
  • Couche 3 : Validation des requêtes - Analysez la question pour détecter les tentatives de manipulation (ex. : « Montre-moi tout ce qui contient le mot « salaire » »).
  • Couche 4 : Filtrage de la sortie - Vérifiez la réponse générée par l’IA pour éviter qu’elle ne révèle des données masquées.

Le Cloud Security Alliance donne une note de 9,2 sur 10 à cette combinaison. Le filtrage seul, sans masquage, n’obtient que 6,5. Pourquoi ? Parce qu’un attaquant peut toujours tricher les métadonnées. Si vous ne masquez pas les données, une erreur de configuration peut tout dévoiler.

Les pièges courants - et comment les éviter

La plupart des échecs viennent d’erreurs simples.

Problème 1 : Les métadonnées sont incomplètes. Dans 73 % des cas d’échec, 15 à 25 % des documents n’avaient pas de tags d’accès. Un contrat signé par le directeur financier est étiqueté « Finance »… mais pas « Hautement confidentiel ». Résultat : tout le monde peut le voir.

Problème 2 : On oublie les utilisateurs temporaires. Un consultant, un stagiaire, un partenaire externe - leurs droits changent. Si vos règles ne sont pas dynamiques, ils gardent l’accès même après leur départ.

Problème 3 : On ne teste pas assez. Il faut tester avec plus de 500 requêtes variées : des questions directes, des questions piégées, des tentatives d’intrusion. Si vous ne le faites pas, vous croyez que tout va bien… jusqu’au jour où quelqu’un trouve une faille.

La plupart des entreprises doivent recruter ou former un ingénieur en sécurité avec au moins deux ans d’expérience en systèmes d’autorisation. Selon Cerbos, 89 % des entreprises ont dû le faire.

Couche de sécurité en anneaux autour d'une IA, masquant et filtrant les données sensibles avant affichage.

Le futur : chiffrement homomorphe et réglementation

Le meilleur espoir pour l’avenir, c’est le chiffrement homomorphe. C’est une technique qui permet à l’IA de chercher et de traiter des données… sans jamais les déchiffrer. IBM a montré en novembre 2023 qu’on pouvait effectuer des recherches sémantiques sur des données entièrement chiffrées, avec seulement 12 à 18 % de ralentissement. Ce n’est pas encore disponible commercialement - il faudra encore 12 à 18 mois - mais c’est la seule façon de garantir une sécurité totale.

En parallèle, la réglementation suit. Le cadre NIST pour la gestion des risques liés à l’IA, publié en janvier 2023, exige des contrôles d’accès « contextuels ». Le GDPR a augmenté de 220 % ses amendes pour les fuites liées à l’IA en 2023. Et d’ici 2025, 87 % des responsables sécurité pensent que les lois imposeront le filtrage au niveau des lignes pour les secteurs réglementés.

AWS a annoncé en décembre 2023 qu’il intégrerait Amazon Verified Permissions à Bedrock, avec un filtrage natif prévu pour le deuxième trimestre 2024. C’est une bonne nouvelle. Mais en attendant, vous ne pouvez pas attendre.

Que faire maintenant ?

Si vous utilisez déjà du RAG :

  1. Identifiez tous les documents contenant des données sensibles : salaires, contrats, données clients, informations médicales.
  2. Appliquez un masquage automatique avec Presidio ou un outil similaire.
  3. Ajoutez des métadonnées d’accès à chaque document : rôle, département, niveau de sensibilité.
  4. Intégrez un système d’autorisation comme Cerbos ou Oso - même si c’est un peu de travail.
  5. Testez avec 500 requêtes réelles. Faites-le avant de lancer en production.

Si vous êtes en phase de conception :

  • Choisissez une base vectorielle qui supporte les métadonnées (Weaviate, Milvus).
  • Planifiez dès le départ la gestion des droits - ne l’ajoutez pas en dernier.
  • Ne faites pas confiance à la plateforme : vérifiez si le filtrage est natif ou si vous devez le coder vous-même.

La sécurité du RAG n’est pas un bonus. C’est une exigence. Et si vous ne la mettez pas en place, vous n’utilisez pas l’IA - vous vous exposez à des fuites, des amendes, et une perte de confiance que vous ne pourrez pas récupérer.

Quelle est la différence entre filtrage au niveau des lignes et masquage dans le RAG ?

Le filtrage au niveau des lignes bloque l’accès à certains documents entiers selon les droits de l’utilisateur. Le masquage, lui, laisse les documents passer, mais efface les informations sensibles à l’intérieur - comme les noms ou numéros de sécurité sociale - avant que l’IA les voie. Le filtrage empêche l’accès ; le masquage protège les données même si l’accès est accordé.

Pourquoi les bases de données vectorielles comme Pinecone ne sont-elles pas sécurisées par défaut ?

Pinecone, Weaviate et d’autres sont conçus pour la vitesse et la recherche sémantique, pas pour la gestion d’accès. Ils stockent des vecteurs et des métadonnées, mais ne vérifient pas qui demande quoi. C’est une fonctionnalité que vous devez ajouter vous-même, ce qui demande du temps et de l’expertise en sécurité.

Le masquage des données peut-il être contourné par une mauvaise requête ?

Oui, si vous ne combinez pas le masquage avec d’autres couches. Un attaquant peut demander : « Résume les trois derniers contrats signés par le directeur financier » - même si les noms sont masqués, le modèle peut déduire des informations sensibles par le contexte. C’est pourquoi il faut aussi valider les requêtes et filtrer les réponses.

Combien de temps faut-il pour mettre en place une solution de sécurité RAG ?

Pour une équipe expérimentée, avec des données bien organisées, cela prend entre 35 et 60 heures. Si vous devez créer un système d’autorisation depuis zéro, comptez 80 à 120 heures. Les entreprises sans expertise en sécurité doivent prévoir 2 à 3 semaines pour former leur équipe ou recruter un expert.

Vaut-il mieux utiliser un outil payant comme Cerbos ou une solution open-source comme Oso ?

Cerbos est plus rapide à déployer - il réduit le temps de mise en œuvre de 40 % par rapport aux solutions manuelles. Oso est gratuit mais demande plus de développement. Si vous avez une équipe technique limitée, Cerbos ou un outil similaire est plus sûr. Si vous avez des ingénieurs en sécurité et que vous voulez un contrôle total, Oso est une bonne option.

Quels sont les risques de ne pas mettre en place ces contrôles ?

Vous risquez des fuites de données sensibles, des amendes du GDPR (jusqu’à 4 % du chiffre d’affaires mondial), une perte de confiance des clients, et des poursuites juridiques. Selon Microsoft, 43 % des systèmes RAG sans filtrage exposent des données personnelles avec des requêtes apparemment innocentes. Ce n’est pas une question de « si », mais de « quand ».

Prochaines étapes pour les équipes

Commencez par un audit rapide : prenez 10 documents aléatoires dans votre base vectorielle. Demandez-vous : « Qui devrait voir ça ? » Si vous ne savez pas, vous avez déjà un problème. Ensuite, choisissez un outil de masquage, appliquez-le à un petit jeu de données, et testez avec 50 requêtes. Si vous voyez des informations sensibles dans les réponses, vous savez que vous avez besoin de plus de contrôle. Ne laissez pas l’IA faire du RAG sans garde-fous. Vos données - et votre réputation - en dépendent.
Commentaires (5)
  • Romain Grima
    Romain Grima 12 déc. 2025

    Cette article m'a fait réaliser qu'on se prend pour des génies avec le RAG mais en fait on laisse la porte ouverte à n'importe qui
    Je viens de checker notre base et j'ai trouvé 3 contrats RH qui devraient être invisibles pour le service commercial... merde

  • Yacine Merzouk
    Yacine Merzouk 12 déc. 2025

    On est tous des cobayes dans un labo de Big Tech
    Les LLM sont des voleurs de données en costume
    Pinecone ? C’est un coffre-fort avec une serrure en papier
    Et AWS Bedrock ? Un piège à souris avec du fromage qui pue

  • George Alain Garot
    George Alain Garot 14 déc. 2025

    Vous parlez de masquage comme si c’était une révolution
    Le filtrage par métadonnées c’est du 2018
    Et Presidio ? Une solution pour les amateurs qui croient que les regex résolvent tout
    La vraie sécurité c’est le chiffrement homomorphe ou rien
    Le reste c’est du théâtre pour les cadres qui veulent juste dire qu’ils font de la sécurité

  • Yann Cadoret
    Yann Cadoret 15 déc. 2025

    Il y a une erreur dans le texte à la ligne 12 : 'C’est comme donner à tout le monde la clé de la cave aux documents confidentiels' - il manque une virgule après 'tout le monde'
    Et 'RAG' doit toujours être suivi d'un point si c'est en fin de phrase
    La ponctuation n'est pas un luxe c'est une exigence technique

  • Andre Jansen
    Andre Jansen 15 déc. 2025

    Attendez… vous êtes sérieux ?
    Vous laissez des données sensibles dans une base vectorielle… sans chiffrement… sans audit… sans supervision ?
    Vous êtes en train de dire que votre entreprise a un système qui peut révéler les salaires des managers… aux stagiaires… à des bots… à des hackers… à des ex-employés… à des concurrents… à des services secrets…
    Je vais appeler la CNIL dès demain
    Et je vais publier le nom de votre entreprise sur Twitter
    Vous n’avez pas compris : ce n’est pas une faille technique… c’est un crime civil

Écrire un commentaire
Articles récents
La psychologie du lâcher-prise : faire confiance à l'IA dans les workflows de vibe coding
La psychologie du lâcher-prise : faire confiance à l'IA dans les workflows de vibe coding

Le vibe coding change la façon dont les développeurs travaillent avec l'IA. Plutôt que de vérifier chaque ligne, ils apprennent à faire confiance à leur intuition. Mais cette confiance doit être calibrée, pas aveugle.

KPI pour les programmes de coding vibre : de la durée de cycle aux taux de défauts
KPI pour les programmes de coding vibre : de la durée de cycle aux taux de défauts

Mesurez la productivité, la qualité et la durabilité du coding vibre avec les bons KPI : durée de cycle, taux de défauts, dette technique et compréhension du code. Découvrez comment éviter les pièges de l'IA et construire un processus durable.

Contrôles de confidentialité pour le RAG : Sécurité au niveau des lignes et masquage avant les LLM
Contrôles de confidentialité pour le RAG : Sécurité au niveau des lignes et masquage avant les LLM

Découvrez comment protéger vos données sensibles dans les systèmes RAG avec le filtrage au niveau des lignes et le masquage avant l'IA. Évitez les fuites, les amendes et la perte de confiance en appliquant des contrôles de sécurité efficaces.

À propos de nous

Cercle de l'Évaluation IA est une communauté dédiée aux benchmarks, audits et bonnes pratiques pour mesurer la performance et l'éthique des systèmes d'intelligence artificielle. Découvrez des guides, cadres méthodologiques et études de cas pour fiabiliser vos modèles. Partagez et comparez des jeux de tests, métriques et outils open source. Restez informé des actualités et normes autour de l'évaluation des IA.