🔍 RAG (Retrieval-Augmented Generation)

Définition Courte

Architecture qui augmente un LLM en lui fournissant des documents pertinents récupérés dans une base de connaissances au moment de la requête, pour générer une réponse informée.

Explication Détaillée

Étapes :

Ingestion : découper les documents en chunks, les transformer en embeddings, les stocker dans une base vectorielle.
Retrieval : à la question de l'utilisateur, on calcule l'embedding de la question, on cherche les chunks les plus similaires.
Augmentation : on injecte ces chunks dans le prompt du LLM.
Generation : le LLM répond en s'appuyant sur le contexte fourni.

Avantages vs fine-tuning : pas d'entraînement, données toujours à jour, traçabilité des sources. Inconvénients : dépendance à la qualité du retrieval, taille de contexte limitée.

Cas d'Usage

Chatbot de support client (base de connaissances).
Assistant de documentation interne.
Recherche sémantique dans une bibliothèque.

Outils Liés

Vectoriels : Qdrant, ChromaDB, Weaviate, Pinecone.
Frameworks : LangChain, LlamaIndex, Haystack.
Embeddings : OpenAI, Cohere, BGE, Nomic Embed.

Pages Liées

Questions Ouvertes

Comment évaluer la qualité d'un pipeline RAG ?
Le RAG va-t-il fusionner avec les longs contextes (1M+ tokens) ?

1.7 KiB Raw Blame History