Cas d'usage

Évaluer une chaîne RAG : métriques et protocole

Faithfulness, relevance, recall : les métriques indispensables pour mesurer la qualité d'une chaîne RAG en production. Protocole complet, outils open source et seuils recommandés pour garantir des réponses fiables à vos utilisateurs.

8 min de lecture
L'essentiel en 30 secondes

Sans évaluation rigoureuse, votre RAG est une boîte noire

Une chaîne RAG (Retrieval-Augmented Generation) en production sans métriques d'évaluation, c'est comme un site e-commerce sans analytics : vous ne savez pas ce qui fonctionne ni ce qui échoue. Les entreprises qui déploient un RAG sans protocole d'évaluation découvrent les problèmes par les plaintes utilisateurs — trop tard. Les métriques clés à suivre : faithfulness (fidélité aux sources), answer relevancy (pertinence de la réponse), context recall (capacité à retrouver les bons documents) et context precision (absence de bruit dans les résultats). Avec un protocole structuré et les bons outils, vous passez d'un système opaque à un pipeline mesurable et améliorable.

Évaluer un RAG, ce n'est pas un luxe de data scientist — c'est la condition pour passer du prototype à la production fiable.

Le problème

Vous avez construit un assistant IA connecté à votre base documentaire. Les premiers tests sont encourageants. Vous déployez en interne. Et puis les remontées arrivent : « L'IA a inventé un chiffre qui n'existe nulle part », « La réponse ne correspond pas à ce que dit le document », « Il a ignoré la procédure mise à jour le mois dernier ». Ces problèmes sont prévisibles — et mesurables — si vous avez un protocole d'évaluation en place.

Le défi fondamental d'un RAG est qu'il combine deux systèmes faillibles : un moteur de recherche vectorielle qui peut récupérer les mauvais documents, et un LLM qui peut mal interpréter ou halluciner à partir des bons documents. Sans métriques distinctes pour chaque composant, vous ne savez pas lequel corriger quand la réponse est mauvaise.

Les trois symptômes les plus fréquents d'un RAG non évalué :

  • Hallucinations silencieuses — Le LLM génère des réponses plausibles mais fausses. Sans vérification systématique contre les sources, personne ne s'en aperçoit jusqu'à ce qu'une décision métier soit prise sur une information erronée.
  • Dégradation progressive — Au fil des ajouts de documents, la qualité de la recherche se dégrade. Les nouveaux documents introduisent du bruit, les embeddings perdent en précision, mais aucune alerte ne se déclenche.
  • Optimisation à l'aveugle — Vous modifiez le prompt, changez le modèle d'embedding, ajustez le nombre de chunks récupérés… sans savoir si ces changements améliorent ou dégradent les résultats. Chaque itération est un pari.

Le coût de l'inaction est réel : une étude interne menée auprès de nos clients montre que 34% des réponses RAG non évaluées contiennent au moins une inexactitude. Après mise en place d'un protocole d'évaluation et de correction, ce taux tombe à 8%.

La solution IA

Un protocole d'évaluation RAG repose sur trois piliers : des métriques automatisées pour le suivi continu, un dataset de référence pour les tests de régression, et des évaluations humaines pour les cas critiques. Voici les trois composants essentiels à mettre en place.

📊

Métriques automatisées (LLM-as-Judge)

Utilisez un LLM évaluateur (GPT-4o, Claude) pour noter automatiquement la faithfulness, la relevance et la complétude de chaque réponse. Ragas et DeepEval fournissent des implémentations prêtes à l'emploi. Coût : environ 0.02$ par évaluation. Exécution quotidienne sur un échantillon de requêtes réelles.

🧪

Dataset de référence (Golden Set)

Constituez un jeu de 200 à 500 paires question/réponse validées par des experts métier. Ce dataset sert de référence pour les tests de non-régression après chaque modification du pipeline. Incluez des questions factuelles, comparatives, multi-documents et des questions pièges hors périmètre.

👁️

Évaluation humaine ciblée

Chaque semaine, un expert métier évalue 20 réponses critiques sur une échelle de 1 à 5. Cette boucle de feedback humain détecte les faux positifs des métriques automatisées et alimente le dataset de référence. Utilisez Argilla ou Label Studio pour structurer le processus d'annotation.

Mise en oeuvre

La mise en place d'un pipeline d'évaluation RAG prend 3 à 6 semaines selon la maturité de votre infrastructure. Voici les trois phases clés.

1

Construire le Golden Set (semaines 1-2)

Collectez 200 questions représentatives de vos utilisateurs réels. Pour chaque question, rédigez la réponse attendue et identifiez les passages sources pertinents. Catégorisez les questions par type (factuel, comparatif, procédural, hors scope). Impliquez au moins 2 experts métier pour valider les réponses de référence. Stockez le tout dans un format structuré (JSON ou CSV) versionné dans Git.

2

Implémenter les métriques automatisées (semaines 3-4)

Intégrez Ragas ou DeepEval dans votre pipeline CI/CD. Configurez les 4 métriques essentielles : faithfulness (seuil > 0.85), answer relevancy (seuil > 0.80), context recall (seuil > 0.75) et context precision (seuil > 0.70). Branchez le pipeline sur LangSmith ou Weights & Biases pour visualiser les tendances. Automatisez l'exécution quotidienne sur 50 requêtes échantillonnées des logs de production.

3

Boucle d'amélioration continue (semaines 5-6)

Analysez les premiers résultats : identifiez les catégories de questions où le score est le plus faible. Corrigez en priorité les problèmes de retrieval (chunks mal découpés, métadonnées manquantes) avant les problèmes de génération (prompt engineering). Mettez en place un dashboard de suivi avec alertes automatiques quand une métrique passe sous le seuil. Planifiez une revue hebdomadaire des 20 pires réponses avec l'équipe métier.

Résultats

Voici les résultats mesurés chez nos clients après mise en place d'un protocole d'évaluation RAG structuré, sur des projets de RAG entreprise.

Faithfulness
Score moyen passé de 0.68 à 0.91 en 8 semaines grâce à l'identification et la correction des sources d'hallucination
Taux d'erreur
Réduction de 34% à 8% des réponses contenant au moins une inexactitude vérifiable
Temps de diagnostic
De 2 jours à 15 minutes pour identifier la cause d'une mauvaise réponse (retrieval vs génération)
Confiance utilisateur
NPS interne de l'assistant passé de +12 à +47 après 3 mois d'amélioration guidée par les métriques

Questions fréquentes

Qu'est-ce qu'une métrique de faithfulness en RAG ?

La faithfulness mesure si la réponse générée par le LLM est fidèle aux documents sources récupérés. Concrètement, chaque affirmation de la réponse doit pouvoir être tracée vers un passage du contexte. Un score de 0.85 signifie que 85% des affirmations sont vérifiables dans les sources. C'est la métrique la plus critique pour éviter les hallucinations.

Combien de questions faut-il dans un dataset d'évaluation RAG ?

Minimum 50 questions pour un pilote, idéalement 200 à 500 pour une évaluation robuste en production. Les questions doivent couvrir les différents types de requêtes utilisateurs : factuelles, comparatives, multi-documents et hors périmètre. Prévoyez 20% de questions pièges (hors scope) pour mesurer le taux de refus approprié.

Quels outils utiliser pour évaluer une chaîne RAG ?

Les trois outils de référence sont Ragas (open source, métriques standardisées), DeepEval (framework Python avec 14 métriques) et LangSmith (plateforme LangChain pour le tracing et l'évaluation). Pour les évaluations humaines, Argilla permet d'annoter les résultats collaborativement. Comptez 2 à 4 semaines pour mettre en place un pipeline d'évaluation complet.

À quelle fréquence faut-il évaluer sa chaîne RAG ?

En production, exécutez une évaluation automatisée quotidienne sur un échantillon de 50 requêtes réelles. Complétez par une évaluation humaine hebdomadaire sur 20 cas critiques. Relancez une évaluation complète (200+ questions) après chaque modification du pipeline : changement de modèle d'embedding, ajout de documents, modification du prompt ou mise à jour du LLM.

Pour les profils tech

Architecture d'un pipeline d'évaluation RAG

Le pipeline d'évaluation s'intègre en parallèle de votre chaîne RAG existante. Il intercepte les triplets (question, contexte récupéré, réponse générée) et calcule les métriques en asynchrone. L'implémentation de référence utilise Ragas comme moteur de métriques, LangSmith pour le tracing, et Weights & Biases pour le suivi longitudinal.

Les 4 métriques essentielles à implémenter :

  • Faithfulness — Décompose la réponse en claims, vérifie chaque claim contre le contexte. Implémentation : NLI (Natural Language Inference) ou LLM-as-Judge.
  • Answer Relevancy — Génère N questions à partir de la réponse, mesure la similarité cosinus avec la question originale. Score élevé = réponse ciblée, score faible = réponse vague ou hors sujet.
  • Context Recall — Compare les passages récupérés avec les passages de référence du Golden Set. Identifie les documents manqués par le retriever.
  • Context Precision — Mesure la proportion de passages récupérés réellement utiles pour répondre. Un score faible indique trop de bruit dans le retrieval.

Comparatif des frameworks d'évaluation

CritèreRagasDeepEvalLangSmithTruLens
Métriques RAG natives8 métriques14 métriques5 métriques6 métriques
Open sourceOui (Apache 2)Oui (Apache 2)PartielOui
Intégration CI/CDpytest natifpytest natifAPI RESTAPI REST
DashboardBasiqueConfident AICompletComplet
CoûtGratuit + coût LLMGratuit + coût LLMFreemium (1$/dev/jour)Gratuit + coût LLM

Et si on commençait par en parler ?

Pas de commercial agressif. Pas de formulaire en 12 étapes. Juste 30 minutes pour comprendre votre situation et voir si on peut vous aider. Premier échange gratuit et sans engagement.