--- title: Base de Données Vectorielle created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, data, tech] confidence: high contested: false sources: [synthesized] --- # 🧊 Base de Données Vectorielle ## Définition Courte Type de base de données optimisé pour stocker et rechercher des **vecteurs de grande dimension** (embeddings) en calculant la **similarité sémantique** plutôt que l'égalité exacte. ## Explication Détaillée Les BDD classiques (SQL) sont excellentes pour des recherches exactes (`WHERE x = 5`), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'**ANN (Approximate Nearest Neighbors)** comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points. Métriques de distance : - **Cosine** : angle entre vecteurs (le plus courant pour le texte). - **Euclidean (L2)** : distance géométrique. - **Dot Product** : produit scalaire. ## Cas d'Usage - **RAG** : retrouver les passages pertinents pour un LLM (cf. [[rag]]). - Recherche sémantique (moteur de recherche par le sens). - Recommandation (produits similaires). - Détection d'anomalies. - Déduplication de documents. ## Outils Liés - **Open-source** : Qdrant, Milvus, Weaviate, ChromaDB. - **Postgres** : extension pgvector. - **SaaS** : Pinecone. - **Algorithmes** : FAISS (Meta), Annoy (Spotify), ScaNN (Google). ## Pages Liées - [[rag]], [[embeddings]] - [[comparatif-stockage]] - [[hebergement-llm-solo-dev]] ## Questions Ouvertes - À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ? - L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?