RAGAS, DeepEval, LettuceDetect : pourquoi l'évaluation RAG est aveugle aux défaillances documentaires

RAGAS, DeepEval, LettuceDetect mesurent la fidélité au contexte récupéré — pas la fiabilité du corpus. L'angle mort de votre évaluation RAG.

En 2026, un consensus s’est installé dans les équipes d’ingénierie IA : le déploiement sérieux d’un pipeline RAG doit s’accompagner d’une évaluation structurée. RAGAS, DeepEval, TruLens, LettuceDetect — les frameworks de mesure se sont multipliés, les équipes les ont adoptés, les tableaux de bord de fidélité (faithfulness) se sont étoffés. Mais une analyse publiée le 10 juin 2026 par ragaboutit.com — qui synthétise neuf études sur le RAG en conditions d’entreprise — pointe un chiffre structurant : selon un article de 2025 de chercheurs de l’Université Renmin et de Tencent, 67 % des cas d’hallucination dans les RAG conversationnels sont de type extractif (ragaboutit.com, 10 juin 2026). Autrement dit, dans la majorité des cas, le modèle ne fabrique pas : il reproduit fidèlement un contenu incorrect issu du corpus récupéré. La mécanique du pipeline est saine. Le corpus ne l’est pas. Cette distinction pointe vers une question que peu d’équipes se posent : est-ce que les outils que nous utilisons pour évaluer notre pipeline peuvent détecter les problèmes qui viennent du corpus lui-même ?

Ce que RAGAS, DeepEval et LettuceDetect mesurent — et ce qu’ils présupposent

Les frameworks d’évaluation RAG de référence partagent une même logique architecturale : ils mesurent la qualité du pipeline conditionnellement aux documents récupérés. Autrement dit, ils évaluent si le système a bien travaillé avec ce qu’on lui a donné — ils ne questionnent pas ce qu’on lui a donné.

RAGAS, présenté en 2023 par Shahul Es et al. (arXiv:2309.15217), définit quatre métriques fondamentales : la faithfulness (chaque affirmation de la réponse est-elle attribuable aux passages récupérés ?), la answer relevance (la réponse adresse-t-elle la question ?), la context precision (les passages récupérés sont-ils pertinents ?) et la context recall (les passages essentiels ont-ils été récupérés ?). DeepEval, de Confident AI, étend ce périmètre avec des mesures de cohérence, de toxicité et de biais, mais reste positionné sur la même logique : la référence est le contexte injecté, pas la vérité de terrain externe.

LettuceDetect prend une approche différente : il utilise ModernBERT pour de l’inférence en langage naturel (Natural Language Inference) et vérifie si les affirmations d’une réponse sont entailées par les passages récupérés. C’est une mécanique robuste — qui détecte, par exemple, qu’une réponse affirme un pourcentage que le document ne contient pas. TruLens propose la « RAG Triad » : groundedness, QA relevance, context relevance — même posture : le corpus récupéré est la référence.

Le présupposé commun est invisible parce qu’il est raisonnable : si un document est dans votre corpus, il a été jugé digne d’y figurer. Ce que ces frameworks ne peuvent pas mesurer, c’est si ce présupposé est correct.

La lacune commune : les métriques de pipeline présupposent un corpus cohérent

Prenons un cas concret. Une grande organisation financière déploie un assistant RAG sur son référentiel de politiques RH — plusieurs centaines de documents répartis entre SharePoint, Confluence et un GED historique. Elle mesure sa faithfulness RAGAS à 0,97 après trois semaines de tests. Satisfaite, elle passe en production.

Ce que RAGAS a mesuré : sur 200 questions de test, 97 % des affirmations produites étaient attribuables à l’un des passages récupérés. C’est vrai. Et c’est insuffisant.

Ce que RAGAS n’a pas mesuré : dans ce corpus, une enquête que nous avons conduite sur un référentiel documentaire similaire lors d’un premier diagnostic a mis en évidence qu’environ une anomalie sur huit correspond à une situation où deux documents formellement valides se contredisent sur un seuil, une date ou un taux — une note de politique d’avril 2025 et une mise à jour d’octobre 2025 qui s’appliquent toutes deux, avec des valeurs différentes pour la même règle. Quand l’agent RAG récupère la version d’avril, il répond faithfully à ce document. Il obtient un score de 1,0 sur ce point de mesure. Et il donne la mauvaise réponse.

C’est ce que Sinequa nomme dans son enquête de juin 2026 sur 740 dirigeants : 38,4 % des organisations identifient « des données qui ne se mettent pas à jour » comme cause principale d’échec de leur déploiement RAG (Sinequa, Beyond the Hype: The Reality of Enterprise Agentic AI in 2026, 2 juin 2026). Ces 38,4 % n’apparaîtront jamais dans un score RAGAS, parce que RAGAS mesure le pipeline, pas le corpus.

Faithfulness à 97 % sur un corpus contradictoire : comment un score peut être correct et trompeur à la fois

La tension est formellement soluble : un score RAGAS de 0,97 peut être rigoureusement exact et indiquer qu’un système répond correctement à une question avec une information périmée ou contradictoire. Ce n’est pas un défaut de RAGAS — c’est la conséquence logique d’une définition de la faithfulness qui ne peut pas dépasser le périmètre du contexte injecté.

Considérons le scénario le plus fréquent que nous observons sur les corpus documentaires de grandes entreprises : deux versions d’un même règlement interne coexistent, indexées toutes les deux, avec des dates de mise à jour différentes mais aucune mention d’invalidation de la version antérieure. Le retriever hybride — selon la requête — peut récupérer l’une ou l’autre. RAGAS mesure ensuite : « l’affirmation de la réponse est-elle attestée par ce qui a été récupéré ? » Réponse oui dans les deux cas. Score : 1,0 dans les deux cas. Résultats pour l’utilisateur : potentiellement opposés.

LettuceDetect, avec son approche NLI, est encore plus précis dans la détection de ce cas : si le document récupéré contient la valeur ancienne et que la réponse cite cette valeur correctement, il n’y a pas d’hallucination détectable. Le problème n’est pas dans le pipeline — il est dans le corpus.

C’est la distinction que Gabriel Anhaia formule dans son analyse d’avril 2026 : 70 à 80 % des déploiements RAG enterprise n’atteignent jamais la production stable, et dans 73 % des cas l’erreur est côté retriever — mais « retriever » inclut ici la qualité de ce qu’il y a à récupérer, pas seulement la mécanique de récupération (dev.to/gabrielanhaia, 26 avril 2026).

Les trois classes de défaillances documentaires invisibles à l’évaluation standard

L’expérience terrain sur les corpus d’entreprise fait ressortir trois familles de problèmes que RAGAS, DeepEval et LettuceDetect ne peuvent structurellement pas détecter :

1. Les contradictions inter-documents. Deux documents portant sur le même sujet donnent des informations incompatibles. Le retriever peut en récupérer l’un ou l’autre selon le vecteur de la requête. Les deux cas produisent un score de fidélité parfait, mais les réponses finales se contredisent. Cette classe de défaillance a été documentée plus en détail dans notre R&D Note du 27 mai 2026 sur les modes de défaillance RAG — mais sa pertinence pour l’évaluation reste sous-explorée.

2. L’obsolescence non marquée. Un document existe, est indexé, est récupérable — mais il décrit un état du monde qui a changé. Le contenu n’est pas faux dans son contexte d’origine, mais il est périmé dans le contexte d’une question posée aujourd’hui. RAGAS ne peut pas le savoir : il n’a pas accès à la vérité de terrain externe. Un score faithfulness de 1,0 cohabite parfaitement avec une réponse construite sur une politique révisée douze mois plus tôt.

3. Les doublons divergents. Même document, deux versions légèrement différentes dans le corpus — une importation depuis SharePoint et une copie manuelle dans Confluence, avec une valeur qui diffère entre les deux versions. Le retriever récupère tantôt l’une, tantôt l’autre selon la formulation de la requête. Le système est non-déterministe pour des questions qui devraient avoir une réponse unique. Aucune métrique d’évaluation RAG standard ne mesure la variance de réponse issue de la présence de doublons divergents dans le corpus.

Ces trois classes correspondent à trois des six axes d’audit documentaire que nous instrumentons chez K-AI avant tout déploiement IA (voir notre méthode d’audit en 6 axes, 15 mai 2026).

L’audit corpus comme étape zéro avant d’évaluer votre pipeline RAG

La conclusion pratique n’est pas que RAGAS, DeepEval ou LettuceDetect sont de mauvais outils — ce sont des outils bien conçus, qui font ce qu’ils annoncent. La conclusion est que leur usage présuppose une étape préalable que la plupart des équipes n’ont pas encore formalisée : vérifier que le corpus sur lequel ils sont appliqués est lui-même cohérent.

L’ordre des opérations devrait être :

Étape 0 — Audit corpus : cartographie des contradictions inter-documents, détection des doublons divergents, identification des contenus obsolètes non marqués, mesure de la couverture thématique, vérification de la traçabilité.

Étape 1 — Configuration du pipeline : chunking, embedding, stratégie de retrieval hybride, reranking.

Étape 2 — Évaluation du pipeline : RAGAS, DeepEval, LettuceDetect — mesure de la fidélité, de la pertinence, de la cohérence.

En pratique, les équipes sautent l’étape 0 parce qu’elle n’est pas outillée par les frameworks d’évaluation eux-mêmes. RAGAS ne vous dira pas de faire l’audit avant de le lancer — et c’est logique, ce n’est pas son rôle. Mais l’absence d’outillage ne signifie pas que l’étape est optionnelle.

Le signal le plus direct de cette lacune vient du marché lui-même : un an après la publication du papier fondateur RAGOps (arXiv:2506.03401, Xu et al., CSIRO Data61 / TU Munich, 2025), qui définit explicitement la gestion continue du corpus comme composante structurelle du RAGOps, aucun éditeur de framework d’évaluation n’a intégré de métriques de santé corpus dans son périmètre standard. Ce n’est pas un oubli — c’est une frontière de responsabilité. Aux équipes de la franchir.

K-AI accompagne déjà CMA CGM, Veolia, PwC, BNP Paribas, TotalEnergies et CEVA Logistics. Partenaires : AWS, Snowflake, Microsoft, Wavestone, Devoteam.

Foire aux questions

Comment auditer un pipeline RAG pour détecter les sources erronées ou inventées ?

L’audit d’un pipeline RAG se conduit en deux temps distincts. En amont du pipeline, un audit corpus vérifie la cohérence interne du corpus : contradictions inter-documents, doublons divergents, contenus obsolètes non marqués, couverture thématique, traçabilité. En aval, les frameworks d’évaluation pipeline (RAGAS, DeepEval, LettuceDetect) mesurent la fidélité des réponses aux passages récupérés. La plupart des équipes font uniquement l’audit aval — c’est nécessaire mais insuffisant. Une réponse peut être fidèle à un document périmé et obtenir un score parfait tout en étant fausse dans le contexte actuel de l’organisation.

Pourquoi mon système RAG hallucine-t-il malgré des documents internes fiables ?

Quand les hallucinations persistent dans un RAG bien configuré, la cause est rarement le modèle ou la mécanique de retrieval. Elle est dans le corpus : deux versions d’un document coexistent avec des valeurs contradictoires, ou un document de référence n’a pas été mis à jour alors que la politique qu’il décrit a changé. L’utilisateur formule sa question, le retriever récupère le document le plus sémantiquement proche (qui peut être la version périmée), le LLM répond fidèlement à ce document — et RAGAS valide la réponse avec un score élevé. La chaîne pipeline est saine. Le corpus ne l’est pas.

Quelle est la différence entre un score RAGAS élevé et un RAG fiable en production ?

RAGAS mesure la cohérence interne du pipeline : les affirmations de la réponse sont-elles attribuables au contexte récupéré ? Un score RAGAS de 0,97 signifie que 97 % des affirmations sont supportées par les passages injectés dans le contexte. Mais cela ne dit rien de la vérité externe des passages eux-mêmes. Un RAG fiable en production requiert deux conditions : un pipeline qui répond fidèlement à ce qu’il récupère (mesuré par RAGAS) et un corpus dont les documents sont cohérents, à jour et sans contradictions (mesuré par un audit corpus).

LettuceDetect est-il plus efficace que RAGAS pour détecter les hallucinations en entreprise ?

LettuceDetect et RAGAS mesurent des choses légèrement différentes. LettuceDetect, basé sur ModernBERT et l’inférence en langage naturel (NLI), détecte précisément si une affirmation est entailée par les passages sources — il est particulièrement adapté à la détection fine de chiffres ou de dates mal attribués. RAGAS a une approche plus large sur l’ensemble de la réponse. Mais les deux partagent la même limite structurelle : ils évaluent la fidélité au contexte récupéré. Si le document récupéré contient lui-même une erreur ou une information contradictoire, ni RAGAS ni LettuceDetect ne peuvent le détecter — c’est le périmètre de l’audit corpus amont.

Faut-il un audit du corpus documentaire avant de brancher un RAG sur mes données internes ?

Oui. L’audit corpus est l’étape zéro avant tout déploiement RAG sérieux en entreprise, pour trois raisons. Premièrement, les frameworks d’évaluation pipeline (RAGAS, DeepEval, LettuceDetect) mesurent la qualité du pipeline conditionnellement au corpus — ils présupposent un corpus sain. Deuxièmement, les défaillances issues de contradictions, doublons divergents ou contenus obsolètes ne sont pas visibles dans les métriques pipeline standard. Troisièmement, en environnement réglementé, un audit corpus traçable est une composante de l’exigence de documentation technique (AI Act Article 12 — journalisation des sources).

Pour aller plus loin

Si vous souhaitez cartographier les défaillances documentaires de votre corpus avant votre prochaine évaluation RAG, nous réalisons un premier diagnostic en 48 heures. Contactez-nous à contact@k-ai.ai.

Sources citées

Shahul Es et al., RAGAS: Automated Evaluation of Retrieval Augmented Generation, arXiv:2309.15217, septembre 2023 — https://arxiv.org/abs/2309.15217
Gabriel Anhaia, 70% of Enterprise RAG Deployments Fail Before Production, dev.to, 26 avril 2026 — https://dev.to/gabrielanhaia/70-of-enterprise-rag-deployments-fail-before-production-heres-what-kills-them-26ml
Sinequa, Beyond the Hype: The Reality of Enterprise Agentic AI in 2026, 2 juin 2026 — https://www.sinequa.com/resources/blog/beyond-the-hype-the-reality-of-enterprise-agentic-ai-in-2026/
Xu et al. (CSIRO Data61 / TU Munich), RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines, arXiv:2506.03401, 2025 — https://arxiv.org/abs/2506.03401
ragaboutit.com (David Richards), 9 RAG Benchmarks Prove 67% Hallucination Still Ships, 10 juin 2026 — https://ragaboutit.com/9-rag-benchmarks-prove-67-hallucination-still-ships/ — cite : Renmin University / Tencent, On the Hallucination in Conversational RAG, 2025
Vectara, Introducing the Next Generation of Vectara’s Hallucination Leaderboard, novembre 2025 — https://www.vectara.com/blog/introducing-the-next-generation-of-vectaras-hallucination-leaderboard