Initial vault setup
This commit is contained in:
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: Base de Données Vectorielle
|
||||
created: 2026-06-06
|
||||
updated: 2026-06-06
|
||||
type: concept
|
||||
tags: [IA, data, tech]
|
||||
confidence: high
|
||||
contested: false
|
||||
sources: [synthesized]
|
||||
---
|
||||
# 🧊 Base de Données Vectorielle
|
||||
|
||||
## Définition Courte
|
||||
Type de base de données optimisé pour stocker et rechercher des **vecteurs de grande dimension** (embeddings) en calculant la **similarité sémantique** plutôt que l'égalité exacte.
|
||||
|
||||
## Explication Détaillée
|
||||
Les BDD classiques (SQL) sont excellentes pour des recherches exactes (`WHERE x = 5`), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'**ANN (Approximate Nearest Neighbors)** comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points.
|
||||
|
||||
Métriques de distance :
|
||||
- **Cosine** : angle entre vecteurs (le plus courant pour le texte).
|
||||
- **Euclidean (L2)** : distance géométrique.
|
||||
- **Dot Product** : produit scalaire.
|
||||
|
||||
## Cas d'Usage
|
||||
- **RAG** : retrouver les passages pertinents pour un LLM (cf. [[rag]]).
|
||||
- Recherche sémantique (moteur de recherche par le sens).
|
||||
- Recommandation (produits similaires).
|
||||
- Détection d'anomalies.
|
||||
- Déduplication de documents.
|
||||
|
||||
## Outils Liés
|
||||
- **Open-source** : Qdrant, Milvus, Weaviate, ChromaDB.
|
||||
- **Postgres** : extension pgvector.
|
||||
- **SaaS** : Pinecone.
|
||||
- **Algorithmes** : FAISS (Meta), Annoy (Spotify), ScaNN (Google).
|
||||
|
||||
## Pages Liées
|
||||
- [[rag]], [[embeddings]]
|
||||
- [[comparatif-stockage]]
|
||||
- [[hebergement-llm-solo-dev]]
|
||||
|
||||
## Questions Ouvertes
|
||||
- À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ?
|
||||
- L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?
|
||||
Reference in New Issue
Block a user