Vous croyez que votre RAG hallucine à cause de l'embedding ? Regardez votre corpus.

Pinecone vient d'admettre que le modèle n'est plus le goulet du RAG enterprise. Trois chiffres désignent un autre coupable : le corpus rot.

Le 4 mai 2026, Pinecone — l’entreprise qui a fait du RAG une infrastructure mondiale — a publié un billet inhabituel. Le titre : « Better Models Won’t Save Your Agent ». La phrase qui m’a arrêté : « the bottleneck is no longer the model, it’s getting agents grounded in the right knowledge » (Pinecone, 4 mai 2026, repris par The New Stack). En deux phrases, l’acteur qui a vendu plus de retrieval vectoriel que n’importe qui d’autre déclare publiquement que le verrou n’est plus là où la profession l’a cherché pendant trois ans. C’est un acte rare. Il appelle une suite que personne ne donne encore : si le verrou n’est plus le modèle, et qu’il n’est même plus le vecteur, alors où est-il passé ? Je veux dire ce que je vois chaque semaine en clientèle, et que les chiffres publiés cette semaine valident sans le formuler ainsi.

Le 4 mai, Pinecone a admis quelque chose d’inhabituel

Pinecone n’a pas seulement annoncé un nouveau produit — Nexus, qu’ils décrivent comme un knowledge engine plutôt qu’un retrieval system (Pinecone). Pinecone a admis que la couche vectorielle, dont ils ont fait leur métier, ne suffit plus dès qu’on bascule du chatbot expérimental à l’agent enterprise en production. L’industrie réagit en cascade. Le 12 mai, Glean publie son Agent Development Lifecycle, un cadre en sept étapes pour gouverner des flottes d’agents (MarTech Series, 12 mai 2026). VentureBeat documente, dans son Pulse Q1 2026, un pivot d’investissement net : l’optimisation du retrieval devient le premier poste d’investissement RAG, à 28,9 %, devant l’évaluation et devant l’embedding, et l’intention d’adopter le retrieval hybride a triplé en un trimestre, passant de 10,3 % à 33,3 % (VentureBeat). Trois acteurs, trois fenêtres temporelles, un même mouvement de fond : on ne corrige plus le modèle, on reconstruit la couche du dessous.

Mais aucun de ces acteurs ne pose la question de bout. Pinecone fait porter le problème à l’ancrage knowledge, et propose une nouvelle infra de compilation. Glean fait porter le problème à la gouvernance d’agents, et propose un framework de cycle de vie. VentureBeat fait porter le problème au retrieval, et observe les budgets bouger. Mais nulle part on ne dit ce que je dis aux équipes que j’accompagne depuis trois ans : votre RAG ne hallucine pas parce que vous retrieve mal. Il hallucine parce que vous retrieve très bien des contenus pourris.

Trois chiffres qu’aucun benchmark ne croise jamais

Trois mesures publiques, prises séparément, ne disent pas grand-chose. Croisées, elles racontent une histoire que je n’ai vue nulle part écrite.

Premier chiffre — 31 %. Sur un naive RAG enterprise — pipeline standard avec récupération vectorielle simple, contexte bruité ou partiel — un audit Anthropic relayé par la communauté RAG documente 31 % de réponses contenant des affirmations non supportées par le corpus. L’étude montre aussi que des architectures plus matures réduisent ce taux : –43 % avec un Constitutional RAG, –58 % avec une self-correction agentique (generation RAG, 2026). Lecture habituelle : « il faut empiler des couches d’architecture. » Lecture qui m’intéresse : « il y a 31 % de défaut résiduel sur un corpus enterprise typique avant même qu’on touche au modèle. »

Deuxième chiffre — au-delà de 10 %. Vectara a republié en 2026 son Hallucination Leaderboard, mais sur un dataset trois fois plus grand et beaucoup plus difficile : 7 700 articles longs, jusqu’à 32 000 tokens, prélevés dans le droit, la médecine, la finance, la tech, l’éducation, le sport, l’information (Vectara, 2026). Sur ce benchmark plus exigeant, les modèles frontier — GPT-5, Claude Sonnet 4.5, Grok-4, Gemini-3-Pro — dépassent tous 10 % de taux d’hallucination. Ce n’est plus 1 ou 2 %. C’est dix fois plus. Et c’est mesuré sur un corpus propre. En clientèle, les corpus ne le sont pas.

Troisième chiffre — moins 30 %. Chroma Research, dans son étude Context Rot, a testé 18 modèles frontier (dont GPT-4.1, Claude 4, Gemini 2.5, Qwen3) sur des contextes longs. Conclusion : aucun modèle ne consomme son contexte de façon uniforme. Quand l’information-clé est placée au milieu du contexte plutôt qu’au début ou à la fin, l’accuracy chute de plus de 30 % ; et un modèle annoncé avec une fenêtre de 200 000 tokens montre une dégradation significative dès 50 000 tokens (Chroma Research). Plus inattendu encore : les modèles performent mieux sur un haystack mélangé que sur des documents logiquement cohérents — « semantically similar but irrelevant content actively misleads the model ».

Le triptyque est complet. 31 % de défaut résiduel sur un pipeline standard. Au-delà de 10 % sur des frontier models confrontés à des documents enterprise longs et propres. Moins 30 % d’accuracy quand l’information arrive mal placée dans le contexte. Aucun de ces chiffres ne dit le modèle est mauvais. Tous disent : le modèle exécute fidèlement ce qu’on lui présente — et ce qu’on lui présente est trop bruité, trop long, trop déstructuré pour être correctement exploité. Le coupable n’est pas l’embedding. Il n’est même plus l’architecture de retrieval. Il est en amont.

Chroma a nommé le “context rot”. Il existe un cousin que personne n’a encore nommé : le corpus rot

Chroma a popularisé un terme utile : context rot. C’est la dégradation d’un raisonnement quand le contexte injecté à l’inférence devient trop long, trop redondant, trop déséquilibré. Glean a repris le terme, The New Stack et Atlan aussi. C’est un concept côté inférence.

Il manque le concept miroir côté source. Je propose un nom : corpus rot.

Le corpus rot, c’est ce qui se passe dans un référentiel documentaire d’entreprise quand on cesse de le gouverner. Trois doublons divergents d’une même politique RH, chacun cité par un système différent. Une procédure datée de 2019 que personne n’a retirée, indexée à côté de la version 2026. Un mémo de pilotage qui contredit le standard officiel sans le marquer comme tel. Un PowerPoint d’un commercial qui devient, par hasard, plus proche sémantiquement d’une requête utilisateur qu’un manuel validé — parce qu’il en reprend les mots-clés. Ce ne sont pas des accidents ponctuels. Sur un seul référentiel documentaire, lors d’un premier diagnostic chez un client K-AI, nous détectons systématiquement plusieurs centaines d’incohérences de ce type — contradictions internes, doublons, obsolescences non marquées. Et c’est un référentiel parmi des dizaines dans une grande organisation.

Le corpus rot a une propriété cruelle : il ne se voit pas au moment où l’on construit le pipeline RAG. Tout fonctionne en démo, sur des questions choisies par les équipes qui connaissent leurs données. Il apparaît en production, quand de vrais utilisateurs posent de vraies questions sur des angles morts. Les meilleures équipes IA que je rencontre attribuent alors le problème à l’embedding, ou au re-ranker, ou au chunking, ou au prompt. Elles tournent en rond pendant six mois. Le 4 mai, Pinecone leur a dit gentiment que ce n’était pas là. Reste à dire où.

Le triangle CTO–CDO–Head of KM se trompe d’adversaire

Dans une grande entreprise, quand un RAG hallucine en production, trois personnes sont alertées. Le CTO regarde la stack — embedding, vecteur, re-ranker, GraphRAG. Le CDO regarde la donnée — pipelines, qualité, gouvernance. Le Head of Knowledge Management regarde l’usage — recherche, adoption, taxonomie. Chacun voit un bout. Personne ne tient l’objet entier.

L’objet entier, c’est ce que nous appelons un Document Knowledge Platform — la transposition du Data Catalog et du Data Mesh à la couche non structurée. Une couche dédiée à la connaissance documentaire d’entreprise, traitée comme on traite déjà la donnée structurée depuis dix ans : avec un référentiel, un graphe sémantique, un système de détection de contradictions, une discipline d’observabilité. Tant que cette couche n’existe pas, on demande aux trois rôles ci-dessus de résoudre, chacun depuis sa fonction, un problème qui dépasse leur périmètre individuel. Le résultat est prévisible : on patche l’embedding, on patche la stack, on patche la gouvernance des agents — comme le propose Glean cette semaine (MarTech Series) — et le taux d’hallucination ne descend pas.

Ce que disent les trois chiffres du triptyque, lus ensemble, c’est qu’aucune couche aval ne rattrape un corpus qui pourrit en amont. Les knowledge graphs aident — Squirro le rappelle utilement (Squirro) — mais ils n’inventent pas une vérité que les documents source ne portent pas. Les détecteurs d’hallucination en aval, comme Cleanlab, identifient qu’une réponse est fausse, mais pas pourquoi le corpus la rend probable (Cleanlab). Tous ces outils sont utiles. Aucun ne se substitue à la gouvernance de la source.

Du Start Clean au Stay Clean — le monitoring continu du corpus comme discipline produit

La conséquence opérationnelle est moins glamour qu’un changement d’embedding, mais elle a un meilleur retour sur investissement. Elle se décline en deux temps.

Temps un — le nettoyage initial. Avant tout déploiement RAG sérieux, auditer le corpus cible. Détecter les contradictions inter-documents, les doublons divergents, les contenus obsolètes, les zones non couvertes par une source autorisée. Établir un référentiel de vérité. Sur les périmètres que nous avons audités, ce nettoyage initial permet de retirer ou de fusionner une part significative du volume documentaire, simplement parce que personne ne l’avait jamais fait — c’est un travail que l’organisation n’a pas pris en charge parce qu’aucune équipe n’en avait le mandat clair.

Temps deux — le monitoring continu. Une fois le corpus assaini, il pourrit à nouveau. Tous les jours, quelqu’un produit une nouvelle version d’une politique sans archiver la précédente. Tous les mois, un manuel se périme. Toutes les semaines, deux équipes documentent la même procédure différemment. Sans observabilité dédiée, la dette documentaire redevient invisible en quelques trimestres. La discipline qui manque dans la plupart des grandes organisations s’appelle, faute d’un meilleur terme : Stay Clean. C’est un monitoring sémantique du corpus en continu, qui détecte l’apparition de contradictions, l’obsolescence des sources, la dérive de fraîcheur. C’est ce qu’on fait depuis dix ans pour les pipelines de données structurées — et ce qu’on n’a presque jamais fait pour les documents.

Pinecone a admis le 4 mai que le modèle n’est plus le goulet. Le 13 mai, je veux dire la suite logique : ce n’est pas non plus le vecteur, ni même tout à fait le retrieval. C’est la matière. Tant que le corpus n’est pas traité comme un actif gouverné — avec un owner, un catalog, un graphe sémantique, une discipline d’observabilité — vous pouvez upgrader votre stack autant que vous voulez. Votre RAG continuera à halluciner. Et vous croirez, à tort, que c’est l’embedding.

Foire aux questions (FAQ)

Pourquoi mon RAG hallucine-t-il encore en production malgré un meilleur modèle et un re-ranker ?

Parce que le défaut résiduel mesuré sur les pipelines RAG enterprise n’est pas localisé dans le modèle ni dans le retrieval. Sur un naive RAG, une étude Anthropic mesure 31 % de réponses contenant des affirmations non supportées ; sur des documents longs réels, les modèles frontier de 2026 dépassent encore 10 % d’hallucinations (Vectara). Améliorer la couche stack — meilleur embedding, re-ranker, GraphRAG — réduit la marge mais ne traite pas la cause amont : un corpus contenant des contradictions, des doublons divergents et des versions obsolètes que le retrieval va fidèlement servir. C’est ce que nous appelons le corpus rot.

Quelle est la différence entre context rot et corpus rot ?

Le context rot, formalisé par Chroma Research, est un phénomène d’inférence : la qualité d’une réponse se dégrade quand le contexte injecté devient trop long, redondant, ou mal placé — l’accuracy chute de plus de 30 % quand l’information-clé est au milieu du contexte (Chroma). Le corpus rot est le phénomène miroir, situé en amont, côté source : un référentiel documentaire d’entreprise qui n’est pas gouverné accumule des contradictions, des doublons et de l’obsolescence non marquée. Le context rot dégrade la lecture ; le corpus rot dégrade la matière elle-même. Les deux comptent ; en production, le second domine.

Quels métriques surveiller pour qualifier un corpus IA-ready ?

Cinq familles, à observer comme on observe la qualité d’un pipeline de données structurées. Un, le taux de contradictions inter-documents détectées dans le périmètre (politiques, procédures, standards qui se contredisent sans hiérarchie explicite). Deux, le taux de doublons divergents (versions concurrentes du même document avec des contenus différents). Trois, le taux d’obsolescence non marquée (documents périmés non retirés ni étiquetés). Quatre, la fraîcheur par segment de corpus (date moyenne de dernière mise à jour). Cinq, la couverture des intentions utilisateur (zones de demande sans source autorisée). Ces cinq métriques, suivies en continu, constituent la base d’un AI Readiness Score documentaire défendable.

Pourquoi Copilot retourne-t-il moins de résultats que SharePoint search sur la même requête ?

C’est une plainte récurrente dans les communautés Microsoft 365 — des cas documentés montrent 80 résultats côté SharePoint contre une poignée côté Copilot pour la même requête. Plusieurs causes se combinent : la synchronisation d’index ne couvre pas tous les sous-dossiers, certains types de fichiers ne sont pas reconnus comme sources de connaissance, les contenus filtrés par les permissions diffèrent. Mais la cause profonde, dans les corpus que nous auditons, est plus simple : Copilot ne sert qu’un sous-ensemble du corpus et n’a aucun moyen de signaler que les documents qu’il ne retrouve pas seraient pertinents. Sur un référentiel non gouverné, ce sous-ensemble peut être radicalement plus pauvre que la base réelle.

Les knowledge graphs résolvent-ils vraiment les hallucinations RAG ?

Partiellement. Un knowledge graph d’entreprise ajoute une couche déterministe au-dessus du retrieval vectoriel — il peut imposer qu’une réponse soit cohérente avec un schéma d’entités et de relations vérifié. Squirro et d’autres documentent les gains (Squirro). Mais un graphe ne crée pas une vérité qui n’existe pas dans les documents source. Si deux documents disent deux choses contradictoires, le graphe va, au mieux, refléter le conflit ; au pire, reproduire la version la plus représentée. La qualité d’un knowledge graph est plafonnée par la qualité de son corpus d’extraction. D’où la logique Start Clean, Stay Clean en amont.

Pour aller plus loin

Si vous reconnaissez la situation que je décris — un pipeline RAG en production qui ne descend plus sous un taux d’erreur inacceptable malgré plusieurs cycles d’optimisation —, l’étape utile n’est pas un nouvel embedding. C’est un audit du corpus qu’il consomme. Nous le faisons pour des grandes entreprises sur des périmètres pilotés. Écrivez-nous à contact@k-ai.ai.

Sources citées

Pinecone, Better Models Won’t Save Your Agent et Pinecone Nexus: The Knowledge Engine for Agents, 4 mai 2026 — https://www.pinecone.io/blog/introducing-nexus-knowledge-engine/
The New Stack, The company that made RAG mainstream is now betting against it, mai 2026 — https://thenewstack.io/pinecone-nexus-rag-obsolete/
Chroma Research, Context Rot: How Increasing Input Tokens Impacts LLM Performance, 2025-2026 — https://www.trychroma.com/research/context-rot
Vectara, Introducing the Next Generation of Vectara’s Hallucination Leaderboard, 2026 — https://www.vectara.com/blog/introducing-the-next-generation-of-vectaras-hallucination-leaderboard
generation RAG, The Ugly Truth About Enterprise RAG Anthropic Just Quantified, 2026 — https://ragaboutit.com/the-ugly-truth-about-enterprise-rag-anthropic-just-quantified/
VentureBeat, The Retrieval Rebuild, Q1 2026 — https://venturebeat.com/data/the-retrieval-rebuild-why-hybrid-retrieval-intent-tripled-as-enterprise-rag-programs-hit-the-scale-wall
MarTech Series, Glean Introduces the Enterprise Agent Development Lifecycle, 12 mai 2026 — https://martechseries.com/predictive-ai/ai-platforms-machine-learning/glean-introduces-the-enterprise-agent-development-lifecycle-codifying-how-enterprises-build-govern-and-measure-ai-agents/
Squirro, How Knowledge Graphs Bridge the Gap in Enterprise AI, 5 mars 2026 — https://squirro.com/squirro-blog/how-do-knowledge-graphs-bridge-the-gap-in-enterprise-ai
Cleanlab, Benchmarking Hallucination Detection in RAG, 2026 — https://cleanlab.ai/blog/rag-tlm-hallucination-benchmarking/