Initial vault setup

2026-06-09 18:40:21 +02:00
commit bda02d587f
3692 changed files with 402457 additions and 0 deletions
@@ -0,0 +1,44 @@
+---
+title: Base de Données Vectorielle
+created: 2026-06-06
+updated: 2026-06-06
+type: concept
+tags: [IA, data, tech]
+confidence: high
+contested: false
+sources: [synthesized]
+---
+# 🧊 Base de Données Vectorielle
+
+## Définition Courte
+Type de base de données optimisé pour stocker et rechercher des **vecteurs de grande dimension** (embeddings) en calculant la **similarité sémantique** plutôt que l'égalité exacte.
+
+## Explication Détaillée
+Les BDD classiques (SQL) sont excellentes pour des recherches exactes (`WHERE x = 5`), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'**ANN (Approximate Nearest Neighbors)** comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points.
+
+Métriques de distance :
+- **Cosine** : angle entre vecteurs (le plus courant pour le texte).
+- **Euclidean (L2)** : distance géométrique.
+- **Dot Product** : produit scalaire.
+
+## Cas d'Usage
+- **RAG** : retrouver les passages pertinents pour un LLM (cf. [[rag]]).
+- Recherche sémantique (moteur de recherche par le sens).
+- Recommandation (produits similaires).
+- Détection d'anomalies.
+- Déduplication de documents.
+
+## Outils Liés
+- **Open-source** : Qdrant, Milvus, Weaviate, ChromaDB.
+- **Postgres** : extension pgvector.
+- **SaaS** : Pinecone.
+- **Algorithmes** : FAISS (Meta), Annoy (Spotify), ScaNN (Google).
+
+## Pages Liées
+- [[rag]], [[embeddings]]
+- [[comparatif-stockage]]
+- [[hebergement-llm-solo-dev]]
+
+## Questions Ouvertes
+- À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ?
+- L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?