---
title: RAG (Retrieval-Augmented Generation)
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, architecture, agent]
confidence: high
contested: false
sources: [synthesized]
---
# 🔍 RAG (Retrieval-Augmented Generation)

## Définition Courte
Architecture qui **augmente** un LLM en lui fournissant des documents pertinents récupérés dans une base de connaissances au moment de la requête, pour générer une réponse informée.

## Explication Détaillée
Étapes :
1. **Ingestion** : découper les documents en chunks, les transformer en **embeddings**, les stocker dans une base vectorielle.
2. **Retrieval** : à la question de l'utilisateur, on calcule l'embedding de la question, on cherche les chunks les plus similaires.
3. **Augmentation** : on injecte ces chunks dans le prompt du LLM.
4. **Generation** : le LLM répond en s'appuyant sur le contexte fourni.

**Avantages vs fine-tuning** : pas d'entraînement, données toujours à jour, traçabilité des sources.
**Inconvénients** : dépendance à la qualité du retrieval, taille de contexte limitée.

## Cas d'Usage
- Chatbot de support client (base de connaissances).
- Assistant de documentation interne.
- Recherche sémantique dans une bibliothèque.

## Outils Liés
- **Vectoriels** : Qdrant, ChromaDB, Weaviate, Pinecone.
- **Frameworks** : LangChain, LlamaIndex, Haystack.
- **Embeddings** : OpenAI, Cohere, BGE, Nomic Embed.

## Pages Liées
- [[fine-tuning]]
- [[glossaire-ia]]
- [[comparatif-stockage]]

## Questions Ouvertes
- Comment évaluer la qualité d'un pipeline RAG ?
- Le RAG va-t-il fusionner avec les longs contextes (1M+ tokens) ?

## Liens
- [[base-de-donnees-vectorielle]]
- [[tokenisation]]
- [[base-de-donnees-solo-dev]]