Files
wiki/concepts/embeddings.md
2026-06-09 18:40:21 +02:00

1.4 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Embeddings 2026-06-06 2026-06-06 concept
IA
ML
data
high false
synthesized

🌌 Embeddings

Définition Courte

Représentation vectorielle dense d'une donnée (texte, image, audio) dans un espace de grande dimension (ex: 768, 1024, 4096) où la proximité géométrique reflète la proximité sémantique.

Explication Détaillée

Un embedding transforme "Le chat dort" en un vecteur [0.12, -0.45, 0.78, ...]. Deux phrases de sens proche auront des vecteurs proches (cosine similarity élevée).

Modèles populaires :

  • OpenAI : text-embedding-3-small/large.
  • Cohere : embed-english-v3.0.
  • Hugging Face : BGE, E5, Nomic Embed (open-weights).

Cas d'usage : recherche sémantique, RAG, classification, recommandation, détection d'anomalies.

Cas d'Usage

  • Base de connaissances RAG.
  • Recherche de doublons.
  • Clustering de documents.
  • Recommandation de produits.

Outils Liés

  • Bases vectorielles : Qdrant, Chroma, Weaviate, Pinecone, pgvector (Postgres).
  • Modèles : OpenAI, Cohere, BGE, Nomic.

Pages Liées

Questions Ouvertes

  • Quelle dimension d'embedding choisir (trade-off mémoire vs précision) ?
  • Les embeddings vont-ils être remplacés par des modèles plus unifiés ?