Initial vault setup

This commit is contained in:
2026-06-09 18:40:21 +02:00
commit bda02d587f
3692 changed files with 402457 additions and 0 deletions
+44
View File
@@ -0,0 +1,44 @@
---
title: Base de Données Vectorielle
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, data, tech]
confidence: high
contested: false
sources: [synthesized]
---
# 🧊 Base de Données Vectorielle
## Définition Courte
Type de base de données optimisé pour stocker et rechercher des **vecteurs de grande dimension** (embeddings) en calculant la **similarité sémantique** plutôt que l'égalité exacte.
## Explication Détaillée
Les BDD classiques (SQL) sont excellentes pour des recherches exactes (`WHERE x = 5`), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'**ANN (Approximate Nearest Neighbors)** comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points.
Métriques de distance :
- **Cosine** : angle entre vecteurs (le plus courant pour le texte).
- **Euclidean (L2)** : distance géométrique.
- **Dot Product** : produit scalaire.
## Cas d'Usage
- **RAG** : retrouver les passages pertinents pour un LLM (cf. [[rag]]).
- Recherche sémantique (moteur de recherche par le sens).
- Recommandation (produits similaires).
- Détection d'anomalies.
- Déduplication de documents.
## Outils Liés
- **Open-source** : Qdrant, Milvus, Weaviate, ChromaDB.
- **Postgres** : extension pgvector.
- **SaaS** : Pinecone.
- **Algorithmes** : FAISS (Meta), Annoy (Spotify), ScaNN (Google).
## Pages Liées
- [[rag]], [[embeddings]]
- [[comparatif-stockage]]
- [[hebergement-llm-solo-dev]]
## Questions Ouvertes
- À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ?
- L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?