📖Chapitre 14

RAG : augmenter vos agents IA avec des connaissances externes

Le Knowledge Retrieval (RAG) Pattern améliore significativement les capacités des LLMs en leur accordant l'accès à des bases de connaissances externes avant de générer une réponse. Au lieu de se fier uniquement à leurs connaissances pré-entraînées, RAG permet aux LLMs de chercher des informations pertinentes.

Mis à jour le 18 mars 2026

Ce que c'est

Quand un utilisateur pose une question, le système ne l'envoie pas directement au LLM. Le système parcourt d'abord une base de connaissances externe pour trouver les passages pertinents, puis les fournit comme contexte au LLM. Le processus implique la Récupération (chercher dans une base de connaissances les passages pertinents via des embeddings vectoriels) et l'Augmentation (ajouter ces passages au prompt du LLM). RAG aide les LLMs à surmonter les données d'entraînement obsolètes, réduit les hallucinations et améliore la précision factuelle.

Comment ça marche

Indexation : les documents sont décomposés en passages (chunks), chaque passage est converti en embedding vectoriel et stocké dans une base de données vectorielle (Pinecone, Weaviate, ChromaDB). La qualité du chunking détermine la qualité de la récupération.

Récupération : quand l'utilisateur pose une question, sa requête est convertie en embedding et comparée aux embeddings stockés par similarité cosinus. Les K passages les plus pertinents sont récupérés.

Génération augmentée : les passages récupérés sont insérés dans le prompt du LLM comme contexte additionnel. Le LLM génère sa réponse en s'appuyant sur ces passages, avec la possibilité de citer ses sources.

Quand l'utiliser

Chatbot d'entreprise documenté

Un chatbot qui répond aux questions des employés en s'appuyant sur la documentation interne (wiki, Confluence, Notion), avec citation des sources pour permettre la vérification.

Assistant de support technique

Un agent qui recherche dans les manuels, les FAQ et les tickets résolus pour proposer des solutions techniques, en citant les pages de documentation pertinentes.

Q&A sur des documents spécifiques

Un système qui permet de poser des questions sur un corpus de documents (contrats, rapports annuels, spécifications techniques) et obtient des réponses sourcées.

Points clés

1RAG améliore les LLMs en leur permettant d'accéder à des informations externes et à jour.
2Le processus implique la Récupération et l'Augmentation du prompt avec les passages pertinents.
3RAG réduit les hallucinations et améliore la précision factuelle.
4L'implémentation nécessite une base de données vectorielle pour stocker les embeddings.

Erreurs fréquentes

Chunks trop grands ou trop petits : des chunks de 3000 tokens contiennent trop de bruit, des chunks de 50 tokens perdent le contexte. Visez 200-500 tokens avec chevauchement (overlap) de 10-20 % entre chunks.

Pas de re-ranking après la récupération : les K premiers résultats par similarité cosinus ne sont pas toujours les plus pertinents. Un re-ranker (cross-encoder) améliore significativement la précision.

Patterns liés

🧠Memory Management 🔧Tool Use (Function Calling)🔌Model Context Protocol (MCP)👥Multi-Agent Collaboration

Ressources complémentaires

Blog SEO et IA Analyse GEO pour les moteurs IA Guide GEO et IA en 2026 Audit SEO complet Comparatifs outils SEO Guide : améliorer son score SEO

Auditez le pipeline RAG de votre agent

Obtenez un score de maturité, les patterns manquants et un plan d'action personnalisé.

Auditer mon agent