RAG : augmenter vos agents IA avec des connaissances externes
Le Knowledge Retrieval (RAG) Pattern améliore significativement les capacités des LLMs en leur accordant l'accès à des bases de connaissances externes avant de générer une réponse. Au lieu de se fier uniquement à leurs connaissances pré-entraînées, RAG permet aux LLMs de chercher des informations pertinentes.
Ce que c'est
Quand un utilisateur pose une question, le système ne l'envoie pas directement au LLM. Le système parcourt d'abord une base de connaissances externe pour trouver les passages pertinents, puis les fournit comme contexte au LLM. Le processus implique la Récupération (chercher dans une base de connaissances les passages pertinents via des embeddings vectoriels) et l'Augmentation (ajouter ces passages au prompt du LLM). RAG aide les LLMs à surmonter les données d'entraînement obsolètes, réduit les hallucinations et améliore la précision factuelle.
Comment ça marche
Indexation : les documents sont décomposés en passages (chunks), chaque passage est converti en embedding vectoriel et stocké dans une base de données vectorielle (Pinecone, Weaviate, ChromaDB). La qualité du chunking détermine la qualité de la récupération.
Récupération : quand l'utilisateur pose une question, sa requête est convertie en embedding et comparée aux embeddings stockés par similarité cosinus. Les K passages les plus pertinents sont récupérés.
Génération augmentée : les passages récupérés sont insérés dans le prompt du LLM comme contexte additionnel. Le LLM génère sa réponse en s'appuyant sur ces passages, avec la possibilité de citer ses sources.
Quand l'utiliser
Chatbot d'entreprise documenté
Un chatbot qui répond aux questions des employés en s'appuyant sur la documentation interne (wiki, Confluence, Notion), avec citation des sources pour permettre la vérification.
Assistant de support technique
Un agent qui recherche dans les manuels, les FAQ et les tickets résolus pour proposer des solutions techniques, en citant les pages de documentation pertinentes.
Q&A sur des documents spécifiques
Un système qui permet de poser des questions sur un corpus de documents (contrats, rapports annuels, spécifications techniques) et obtient des réponses sourcées.
Points clés
- 1RAG améliore les LLMs en leur permettant d'accéder à des informations externes et à jour.
- 2Le processus implique la Récupération et l'Augmentation du prompt avec les passages pertinents.
- 3RAG réduit les hallucinations et améliore la précision factuelle.
- 4L'implémentation nécessite une base de données vectorielle pour stocker les embeddings.
Erreurs fréquentes
Chunks trop grands ou trop petits : des chunks de 3000 tokens contiennent trop de bruit, des chunks de 50 tokens perdent le contexte. Visez 200-500 tokens avec chevauchement (overlap) de 10-20 % entre chunks.
Pas de re-ranking après la récupération : les K premiers résultats par similarité cosinus ne sont pas toujours les plus pertinents. Un re-ranker (cross-encoder) améliore significativement la précision.
Patterns liés
Ressources complémentaires
Auditez le pipeline RAG de votre agent
Obtenez un score de maturité, les patterns manquants et un plan d'action personnalisé.
Auditer mon agent