Cas d'usage

Journalisation et audit : rendre l'IA traçable

L'AI Act exige la traçabilité des systèmes IA. Logs structurés, audit trail, rétention et accès : guide complet pour rendre votre assistant IA auditable par les régulateurs, les auditeurs et vos équipes internes.

8 min de lecture
L'essentiel en 30 secondes

Une IA non traçable est un risque juridique et opérationnel

L'AI Act européen, applicable dès août 2026, impose la traçabilité des systèmes IA à haut risque. Mais au-delà de la conformité, la journalisation est un outil opérationnel indispensable : elle permet de diagnostiquer les problèmes (pourquoi l'IA a-t-elle donné cette réponse ?), d'auditer les décisions (quel document a été utilisé ?), et de défendre l'entreprise en cas de litige. Les composants clés : logs structurés pour chaque requête, audit trail immuable, politique de rétention conforme au RGPD, et interface de recherche pour les auditeurs. Un projet de journalisation IA prend 3 à 5 semaines et s'intègre dans votre stack LLMOps existante.

La traçabilité n'est pas une contrainte réglementaire — c'est votre meilleur outil de diagnostic et votre bouclier juridique.

Le problème

Un collaborateur conteste une décision prise sur la base d'une réponse de l'assistant IA. Le DPO reçoit une demande d'accès RGPD sur les données traitées par l'IA. Un auditeur externe veut vérifier que le système IA respecte les procédures internes. Dans chacun de ces scénarios, vous devez pouvoir retrouver exactement ce que l'IA a répondu, sur quelle base, et quand.

Sans journalisation structurée, vous êtes dans l'impossibilité de répondre :

  • Non-conformité réglementaire — L'AI Act (article 12) exige des capacités de journalisation automatique pour les systèmes IA à haut risque. L'absence de logs expose l'entreprise à des sanctions pouvant atteindre 3% du chiffre d'affaires mondial. Même hors catégorie haut risque, la gouvernance IA interne recommande la traçabilité complète.
  • Diagnostic impossible — Un utilisateur signale une mauvaise réponse. Sans log de la requête, du contexte récupéré et du prompt envoyé au LLM, vous ne pouvez pas identifier si le problème vient du retrieval, du prompt ou du modèle.
  • Responsabilité floue — En cas de litige (conseil juridique erroné, information financière incorrecte), l'entreprise doit prouver que le système fonctionnait conformément à sa conception. Sans audit trail, la charge de la preuve est inversée.
  • Amélioration aveugle — Sans historique des requêtes et des réponses, vous ne pouvez pas identifier les patterns de défaillance ni les sujets non couverts. L'amélioration continue est impossible.

La solution IA

Un système de journalisation IA complet repose sur trois piliers : des logs structurés exhaustifs, un audit trail immuable, et une interface de consultation pour les différents profils.

📝

Logs structurés par requête

Chaque interaction génère un log JSON : timestamp, user_id pseudonymisé, question, chunks récupérés (IDs + scores), prompt complet, réponse générée, modèle utilisé, tokens consommés, latence, et feedback. Les logs sont enrichis de métadonnées contextuelles (feature, session). Stockage sur Elasticsearch, Loki ou S3 + Athena.

🔒

Audit trail immuable

Les logs critiques (décisions, conseils, actions automatisées) sont écrits dans un journal append-only avec signature cryptographique. Chaque entrée contient un hash chaîné qui garantit l'intégrité de la séquence. Implémentation : Amazon QLDB, Azure Immutable Blob Storage, ou PostgreSQL avec triggers d'intégrité.

🔍

Interface d'audit multi-profils

Une interface web permet la consultation par profil : l'équipe tech cherche par trace_id pour le diagnostic, le DPO filtre par user_id pour les demandes RGPD, l'auditeur externe filtre par date et type de décision. Contrôle d'accès RBAC pour limiter la visibilité des données sensibles.

Mise en oeuvre

La mise en place d'un système de journalisation IA prend 3 à 5 semaines et s'intègre dans votre infrastructure existante.

1

Définition du schéma de logs (semaine 1)

Définissez le schéma JSON en collaboration avec les équipes tech, juridique et conformité. Identifiez les champs obligatoires (requête, réponse, sources, modèle, timestamp) et optionnels (feedback, actions post-réponse). Définissez la politique de pseudonymisation et la politique de rétention : 6 mois pour les logs standards, 3 ans pour les décisions critiques, avec purge automatique.

2

Instrumentation du pipeline (semaines 2-3)

Instrumentez votre pipeline RAG pour émettre un log structuré à chaque requête. Utilisez OpenTelemetry pour le tracing distribué et Langfuse pour le stockage. Implémentez la pseudonymisation (hash SHA256 des user_ids) et la détection PII (Microsoft Presidio) pour supprimer les données personnelles. Testez la complétude des logs sur 100 requêtes de référence.

3

Interface d'audit et procédures (semaines 4-5)

Développez l'interface avec filtres (date, user_id, trace_id, type) et export CSV/JSON. Implémentez le RBAC : admin (complet), tech (traces sans user_id), DPO (accès par user_id), auditeur (lecture seule). Rédigez la procédure d'audit interne et formez les équipes. Testez un scénario d'audit complet de bout en bout.

Résultats

Résultats mesurés après mise en place de la journalisation IA, en complément de la gouvernance IA.

Temps de diagnostic
De 4 heures à 12 minutes en moyenne pour identifier la cause racine d'une mauvaise réponse
Conformité AI Act
100% des exigences de journalisation de l'article 12 couvertes, validé par audit externe
Demandes RGPD
Temps de réponse aux demandes d'accès passé de 15 jours à 2 jours grâce à la recherche par user_id
Amélioration continue
Identification de 23 patterns de défaillance en 3 mois, alimentant directement le Golden Set de tests

Questions fréquentes

Quelles informations faut-il journaliser pour un assistant IA ?

Au minimum : chaque requête utilisateur (horodatée, anonymisée), les documents récupérés par le retriever (IDs, scores), le prompt complet envoyé au LLM, la réponse générée, le modèle et ses paramètres (version, temperature), la latence par composant, et le feedback utilisateur éventuel. Pour les systèmes à haut risque (AI Act), ajoutez : l'identité de l'utilisateur, le contexte décisionnel et les actions prises suite à la réponse.

L'AI Act impose-t-il une obligation de journalisation ?

Oui. L'article 12 de l'AI Act européen exige que les systèmes IA à haut risque disposent de capacités de journalisation automatique (logging) permettant de tracer le fonctionnement du système tout au long de son cycle de vie. Les logs doivent être conservés pendant une durée appropriée (minimum 6 mois recommandé, plus pour certains secteurs).

Comment concilier journalisation et protection des données personnelles ?

Trois principes : pseudonymisation des identifiants utilisateurs dans les logs (hash irréversible), suppression automatique des données personnelles identifiées dans les requêtes (PII detection via Presidio ou regex), et durée de rétention alignée sur le RGPD (pas de conservation illimitée). Stockez les logs sur une infrastructure européenne.

Quel est le coût de stockage des logs d'un assistant IA ?

Un assistant IA traitant 1000 requêtes par jour génère environ 5 à 10 Go de logs structurés par mois (requêtes, contextes, réponses, métadonnées). Sur un stockage objet (S3, GCS), le coût est d'environ 0.50 à 1 euro par mois. Sur Elasticsearch ou un SIEM, comptez 20 à 50 euros par mois.

Pour les profils tech

Architecture de journalisation IA

L'architecture de référence s'appuie sur OpenTelemetry pour la collecte, un pipeline de transformation (pseudonymisation, PII detection), et un backend de stockage dual : temps réel (Elasticsearch/Loki) pour le diagnostic et long terme (S3 + Athena/BigQuery) pour l'audit.

Schéma de log de référence : trace_id, timestamp, user_hash, session_id, query (sanitized), retrieved_chunks (array de {chunk_id, score, doc_id}), prompt_template_version, model, model_params, response, citations, tokens_input, tokens_output, latency_ms, feedback, pii_detected.

Pipeline de transformation :

  • Pseudonymisation — SHA256(user_id + salt). Le mapping inverse est conservé séparément avec accès restreint au DPO.
  • PII Detection — Microsoft Presidio scanne requêtes et réponses. Les PII sont remplacées par des tokens ([NOM], [EMAIL]).
  • Intégrité — Chaque lot quotidien est signé HMAC-SHA256. Toute modification ultérieure est détectable.

Comparatif des backends de journalisation

CritèreLangfuse + S3ElasticsearchDatadogLoki + Grafana
Tracing LLM natifExcellentVia pluginBonBasique
Recherche full-textBasiqueExcellentBonLogQL
Rétention long termeS3 illimitéCoûteuxTrès coûteuxS3 backend
ImmutabilitéS3 Object LockVia snapshotSaaS géréVia S3
Coût (1000 req/jour)~5 euros/mois~30 euros/mois~100 euros/mois~10 euros/mois

Et si on commençait par en parler ?

Pas de commercial agressif. Pas de formulaire en 12 étapes. Juste 30 minutes pour comprendre votre situation et voir si on peut vous aider. Premier échange gratuit et sans engagement.