1.8 KiB
1.8 KiB
title, created, updated, type, tags, confidence, contested, sources
| title | created | updated | type | tags | confidence | contested | sources | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Base de Données Vectorielle | 2026-06-06 | 2026-06-06 | concept |
|
high | false |
|
🧊 Base de Données Vectorielle
Définition Courte
Type de base de données optimisé pour stocker et rechercher des vecteurs de grande dimension (embeddings) en calculant la similarité sémantique plutôt que l'égalité exacte.
Explication Détaillée
Les BDD classiques (SQL) sont excellentes pour des recherches exactes (WHERE x = 5), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'ANN (Approximate Nearest Neighbors) comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points.
Métriques de distance :
- Cosine : angle entre vecteurs (le plus courant pour le texte).
- Euclidean (L2) : distance géométrique.
- Dot Product : produit scalaire.
Cas d'Usage
- RAG : retrouver les passages pertinents pour un LLM (cf. rag).
- Recherche sémantique (moteur de recherche par le sens).
- Recommandation (produits similaires).
- Détection d'anomalies.
- Déduplication de documents.
Outils Liés
- Open-source : Qdrant, Milvus, Weaviate, ChromaDB.
- Postgres : extension pgvector.
- SaaS : Pinecone.
- Algorithmes : FAISS (Meta), Annoy (Spotify), ScaNN (Google).
Pages Liées
Questions Ouvertes
- À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ?
- L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?