--- title: Embeddings created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, ML, data] confidence: high contested: false sources: [synthesized] --- # 🌌 Embeddings ## Définition Courte Représentation **vectorielle dense** d'une donnée (texte, image, audio) dans un espace de grande dimension (ex: 768, 1024, 4096) où la **proximité géométrique** reflète la **proximité sémantique**. ## Explication Détaillée Un embedding transforme "Le chat dort" en un vecteur `[0.12, -0.45, 0.78, ...]`. Deux phrases de sens proche auront des vecteurs proches (cosine similarity élevée). Modèles populaires : - **OpenAI** : `text-embedding-3-small/large`. - **Cohere** : `embed-english-v3.0`. - **Hugging Face** : BGE, E5, Nomic Embed (open-weights). **Cas d'usage** : recherche sémantique, RAG, classification, recommandation, détection d'anomalies. ## Cas d'Usage - Base de connaissances RAG. - Recherche de doublons. - Clustering de documents. - Recommandation de produits. ## Outils Liés - **Bases vectorielles** : Qdrant, Chroma, Weaviate, Pinecone, pgvector (Postgres). - **Modèles** : OpenAI, Cohere, BGE, Nomic. ## Pages Liées - [[rag]] - [[glossaire-ia]] - [[comparatif-stockage]] ## Questions Ouvertes - Quelle dimension d'embedding choisir (trade-off mémoire vs précision) ? - Les embeddings vont-ils être remplacés par des modèles plus unifiés ?