Files
wiki/concepts/base-de-donnees-vectorielle.md
2026-06-09 18:40:21 +02:00

1.8 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Base de Données Vectorielle 2026-06-06 2026-06-06 concept
IA
data
tech
high false
synthesized

🧊 Base de Données Vectorielle

Définition Courte

Type de base de données optimisé pour stocker et rechercher des vecteurs de grande dimension (embeddings) en calculant la similarité sémantique plutôt que l'égalité exacte.

Explication Détaillée

Les BDD classiques (SQL) sont excellentes pour des recherches exactes (WHERE x = 5), mais incapables de répondre à "trouve-moi les textes qui parlent de la même chose". Les bases vectorielles utilisent des algorithmes d'ANN (Approximate Nearest Neighbors) comme HNSW, IVF ou ScaNN pour trouver les k plus proches voisins d'un vecteur en quelques millisecondes, même sur des millions de points.

Métriques de distance :

  • Cosine : angle entre vecteurs (le plus courant pour le texte).
  • Euclidean (L2) : distance géométrique.
  • Dot Product : produit scalaire.

Cas d'Usage

  • RAG : retrouver les passages pertinents pour un LLM (cf. rag).
  • Recherche sémantique (moteur de recherche par le sens).
  • Recommandation (produits similaires).
  • Détection d'anomalies.
  • Déduplication de documents.

Outils Liés

  • Open-source : Qdrant, Milvus, Weaviate, ChromaDB.
  • Postgres : extension pgvector.
  • SaaS : Pinecone.
  • Algorithmes : FAISS (Meta), Annoy (Spotify), ScaNN (Google).

Pages Liées

Questions Ouvertes

  • À partir de quelle taille de corpus faut-il une vraie base vectorielle (vs SQLite) ?
  • L'arrivée des modèles à 1M+ tokens de contexte rend-elle les bases vectorielles moins utiles ?