45 lines
1.8 KiB
Markdown
45 lines
1.8 KiB
Markdown
---
|
|
title: Base de Données Vectorielle
|
|
created: 2026-06-06
|
|
updated: 2026-06-06
|
|
type: concept
|
|
tags: [IA, data, tech]
|
|
confidence: high
|
|
contested: false
|
|
sources: [synthesized]
|
|
---
|
|
# 🧊 Base de Données Vectorielle
|
|
|
|
## Définition Courte
|
|
Type de base de données optimisé pour stocker et rechercher des **vecteurs de grande dimension** (embeddings) en calculant la **similarité sémantique** plutôt que l'égalité exacte.
|
|
|
|
## Explication Détaillée
|
|
Les BDD classiques (SQL) sont excellentes pour des recherches exactes (`WHERE x = 5`), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'**ANN (Approximate Nearest Neighbors)** comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points.
|
|
|
|
Métriques de distance :
|
|
- **Cosine** : angle entre vecteurs (le plus courant pour le texte).
|
|
- **Euclidean (L2)** : distance géométrique.
|
|
- **Dot Product** : produit scalaire.
|
|
|
|
## Cas d'Usage
|
|
- **RAG** : retrouver les passages pertinents pour un LLM (cf. [[rag]]).
|
|
- Recherche sémantique (moteur de recherche par le sens).
|
|
- Recommandation (produits similaires).
|
|
- Détection d'anomalies.
|
|
- Déduplication de documents.
|
|
|
|
## Outils Liés
|
|
- **Open-source** : Qdrant, Milvus, Weaviate, ChromaDB.
|
|
- **Postgres** : extension pgvector.
|
|
- **SaaS** : Pinecone.
|
|
- **Algorithmes** : FAISS (Meta), Annoy (Spotify), ScaNN (Google).
|
|
|
|
## Pages Liées
|
|
- [[rag]], [[embeddings]]
|
|
- [[comparatif-stockage]]
|
|
- [[hebergement-llm-solo-dev]]
|
|
|
|
## Questions Ouvertes
|
|
- À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ?
|
|
- L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?
|