--- title: RAG (Retrieval-Augmented Generation) created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, architecture, agent] confidence: high contested: false sources: [synthesized] --- # 🔍 RAG (Retrieval-Augmented Generation) ## Définition Courte Architecture qui **augmente** un LLM en lui fournissant des documents pertinents récupérés dans une base de connaissances au moment de la requête, pour générer une réponse informée. ## Explication Détaillée Étapes : 1. **Ingestion** : découper les documents en chunks, les transformer en **embeddings**, les stocker dans une base vectorielle. 2. **Retrieval** : à la question de l'utilisateur, on calcule l'embedding de la question, on cherche les chunks les plus similaires. 3. **Augmentation** : on injecte ces chunks dans le prompt du LLM. 4. **Generation** : le LLM répond en s'appuyant sur le contexte fourni. **Avantages vs fine-tuning** : pas d'entraînement, données toujours à jour, traçabilité des sources. **Inconvénients** : dépendance à la qualité du retrieval, taille de contexte limitée. ## Cas d'Usage - Chatbot de support client (base de connaissances). - Assistant de documentation interne. - Recherche sémantique dans une bibliothèque. ## Outils Liés - **Vectoriels** : Qdrant, ChromaDB, Weaviate, Pinecone. - **Frameworks** : LangChain, LlamaIndex, Haystack. - **Embeddings** : OpenAI, Cohere, BGE, Nomic Embed. ## Pages Liées - [[fine-tuning]] - [[glossaire-ia]] - [[comparatif-stockage]] ## Questions Ouvertes - Comment évaluer la qualité d'un pipeline RAG ? - Le RAG va-t-il fusionner avec les longs contextes (1M+ tokens) ? ## Liens - [[base-de-donnees-vectorielle]] - [[tokenisation]] - [[base-de-donnees-solo-dev]]