Cas d'usage

RGPD et IA : checklist données (collecte, minimisation, durée)

Déployer de l'IA sur des données personnelles sans respecter le RGPD, c'est prendre un risque juridique et financier majeur. Voici une checklist concrète en 15 points pour sécuriser vos projets IA : collecte, minimisation, durée de conservation et droits des personnes.

8 min de lecture
⚡ L'essentiel en 30 secondes

IA + données personnelles = RGPD non négociable

Une PME lance un projet de scoring client basé sur l'IA. Elle envoie 50 000 fiches clients — noms, e-mails, historiques d'achat, comportements de navigation — à un modèle cloud sans vérification RGPD. Trois mois plus tard, un client exerce son droit d'accès. L'entreprise ne peut pas expliquer comment ses données ont été traitées, ni prouver qu'elles n'ont pas servi à entraîner le modèle. Risque : amende CNIL et perte de confiance client. La checklist RGPD/IA en 15 points couvre les 4 piliers : collecte licite, minimisation, durée de conservation et droits des personnes.

Le RGPD n'interdit pas l'IA — il exige de la rigueur. Une checklist bien appliquée protège votre entreprise et renforce la confiance de vos clients.

Le problème

L'IA générative a créé un sentiment d'urgence dans les entreprises : « il faut déployer vite, on verra la conformité après ». Résultat : des données personnelles circulent dans des outils IA sans cadre légal, sans documentation et sans information des personnes concernées.

Les erreurs les plus courantes en PME et ETI :

  • Données envoyées à un LLM sans DPA — Des collaborateurs utilisent ChatGPT en version gratuite pour analyser des contrats contenant des noms et adresses de clients. Les données transitent par les serveurs d'OpenAI sans accord de traitement, et peuvent être utilisées pour l'entraînement du modèle. Violation du principe de licéité et de sécurité.
  • Collecte excessive « au cas où » — Un projet de prédiction de churn collecte 85 colonnes de données clients alors que 12 suffisent. Les colonnes inutiles incluent des données sensibles (situation familiale, opinions exprimées dans les tickets support). Violation du principe de minimisation.
  • Aucune durée de conservation définie — Les données d'entraînement du modèle IA sont conservées indéfiniment « pour pouvoir ré-entraîner si nécessaire ». Aucune purge n'est planifiée. Des données de clients ayant quitté l'entreprise depuis 5 ans sont encore dans le jeu d'entraînement. Violation du principe de limitation de la conservation.
  • Droits des personnes ignorés — Un client demande la suppression de ses données. L'équipe efface la fiche CRM mais oublie que les données sont aussi dans le jeu d'entraînement du modèle IA, dans les embeddings de la base vectorielle et dans les logs d'inférence. La suppression est incomplète.

Pour cadrer vos projets IA dans le respect du RGPD, consultez notre page gouvernance et risques IA générative.

La solution IA

La conformité RGPD n'est pas un frein à l'IA — c'est un cadre qui structure vos projets. Voici les trois leviers pour intégrer le RGPD dès la conception de vos projets IA (privacy by design).

📋

Checklist automatisée pré-déploiement

Avant chaque mise en production d'un modèle IA, un formulaire automatisé vérifie 15 points : base légale documentée, AIPD réalisée si nécessaire, données minimisées, durée de conservation définie, DPA signé avec le fournisseur cloud, information des personnes à jour. Le déploiement est bloqué tant que la checklist n'est pas validée.

🔒

Anonymisation et pseudonymisation par IA

Un pipeline de pré-traitement détecte automatiquement les données personnelles (NER : noms, adresses, e-mails, téléphones, IBAN) et les anonymise ou pseudonymise avant envoi au modèle IA. Les techniques incluent le masquage, la généralisation (âge exact → tranche d'âge) et la confidentialité différentielle. Le modèle IA travaille sur des données protégées sans perte de performance significative.

📊

Registre des traitements IA augmenté

Le registre RGPD est enrichi pour chaque traitement IA : modèle utilisé, données d'entrée, finalité, base légale, durée de conservation des données d'entraînement et des logs d'inférence, sous-traitants impliqués. L'IA assiste la rédaction en pré-remplissant les champs à partir des métadonnées techniques du pipeline.

Mise en oeuvre

La mise en conformité RGPD de vos projets IA se fait en trois phases sur 4 à 8 semaines.

1

Audit de l'existant (semaines 1-2)

Inventoriez tous les projets IA en cours et en production. Pour chacun, identifiez : quelles données personnelles sont traitées, sur quelle base légale, avec quel fournisseur, et si une AIPD est nécessaire. Vérifiez que chaque fournisseur cloud IA a signé un DPA conforme. Listez les écarts et priorisez par niveau de risque.

2

Remédiation et outillage (semaines 3-6)

Corrigez les écarts identifiés : signez les DPA manquants, rédigez les AIPD nécessaires, mettez en place l'anonymisation automatique sur les pipelines à risque. Déployez la checklist pré-déploiement dans votre processus de mise en production. Définissez les durées de conservation pour chaque type de données (entraînement, inférence, logs).

3

Formation et processus continu (semaines 7-8)

Formez les équipes data et métier aux principes RGPD appliqués à l'IA. Intégrez la checklist dans le workflow de chaque nouveau projet IA. Planifiez un audit trimestriel pour vérifier la conformité continue. Documentez les procédures de réponse aux demandes de droits (accès, suppression, portabilité) incluant les données IA.

Résultats

Voici les bénéfices constatés chez nos clients après mise en place du cadre RGPD/IA.

Conformité
100 % des projets IA documentés et conformes en 8 semaines
Risque juridique
Risque d'amende CNIL réduit de 90 % grâce à la documentation systématique
Confiance client
+30 % de taux de consentement quand la transparence IA est communiquée
Vitesse de déploiement
Projets IA mis en production 2x plus vite grâce à la checklist standardisée

Questions fréquentes

Le RGPD interdit-il d'utiliser l'IA sur des données personnelles ?

Non. Le RGPD n'interdit pas l'utilisation de l'IA sur des données personnelles — il l'encadre. Vous pouvez traiter des données personnelles avec de l'IA à condition de respecter les principes fondamentaux : base légale (consentement, intérêt légitime, contrat), minimisation (ne collecter que le nécessaire), transparence (informer les personnes), limitation de durée et sécurité. La clé est de documenter et justifier chaque traitement.

Faut-il une AIPD (analyse d'impact) pour chaque projet IA ?

Pas systématiquement, mais c'est obligatoire dans trois cas : traitement à grande échelle de données sensibles, profilage avec effets juridiques, et surveillance systématique. En pratique, la CNIL recommande une AIPD pour tout projet IA qui traite des données personnelles de manière automatisée. C'est aussi une bonne pratique de gouvernance qui rassure vos clients et partenaires.

Peut-on envoyer des données personnelles à un LLM cloud (GPT, Claude) ?

C'est possible mais sous conditions strictes. Vérifiez que le fournisseur offre un DPA (Data Processing Agreement) conforme au RGPD, que les données ne sont pas utilisées pour l'entraînement du modèle, et que les serveurs sont en Europe ou couverts par des clauses contractuelles types. Privilégiez les API entreprise (pas les versions grand public) et anonymisez les données avant envoi quand c'est possible.

Quelles sanctions en cas de non-conformité RGPD sur un projet IA ?

Les sanctions vont de l'avertissement à l'amende pouvant atteindre 20 millions d'euros ou 4 % du chiffre d'affaires annuel mondial. En France, la CNIL a prononcé des amendes de 10 000 à 150 000 euros pour des PME. Au-delà de l'amende, le risque est aussi réputationnel : une mise en demeure publique de la CNIL peut avoir un impact commercial significatif.

Pour les profils tech

Implémentation technique de la conformité RGPD/IA

Anonymisation automatique

Presidio / spaCy NER

Microsoft Presidio détecte et anonymise automatiquement les PII (Personally Identifiable Information) dans le texte : noms, adresses, e-mails, numéros de téléphone, IBAN. Combiné avec spaCy fr_core_news_lg pour le NER français. Précision de 92 %+ sur les données francophones. S'intègre dans un pipeline Python en 20 lignes de code.

Confidentialité différentielle

OpenDP / Google DP Library

Pour les jeux de données d'entraînement, la confidentialité différentielle ajoute du bruit mathématiquement calibré qui empêche la ré-identification tout en préservant les propriétés statistiques. OpenDP (Harvard) et Google DP Library sont open source. Idéal pour les modèles de scoring et de segmentation client.

Outils recommandés

Presidio Gratuit (open source)
OneTrust À partir de 500 €/mois
Didomi (consentement) 200-800 €/mois
Azure Purview Inclus dans Azure

Comparatif des approches d'anonymisation

CritèreAnonymisation IA (NER)PseudonymisationDonnées synthétiques
Protection RGPDForte (hors scope RGPD)Partielle (toujours données perso)Forte (pas de données réelles)
Utilité des donnéesRéduite (perte de contexte)PréservéeVariable selon la qualité
ComplexitéMoyenne (NER + règles)Simple (table de mapping)Élevée (GAN / modèle génératif)
RéversibilitéIrréversibleRéversible (avec clé)Sans objet

Et si on commençait par en parler ?

Pas de commercial agressif. Pas de formulaire en 12 étapes. Juste 30 minutes pour comprendre votre situation et voir si on peut vous aider. Premier échange gratuit et sans engagement.