wiki/concepts/embeddings.md

---
title: Embeddings
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, ML, data]
confidence: high
contested: false
sources: [synthesized]
---
# 🌌 Embeddings

## Définition Courte
Représentation **vectorielle dense** d'une donnée (texte, image, audio) dans un espace de grande dimension (ex: 768, 1024, 4096) où la **proximité géométrique** reflète la **proximité sémantique**.

## Explication Détaillée
Un embedding transforme "Le chat dort" en un vecteur `[0.12, -0.45, 0.78, ...]`. Deux phrases de sens proche auront des vecteurs proches (cosine similarity élevée).

Modèles populaires :
- **OpenAI** : `text-embedding-3-small/large`.
- **Cohere** : `embed-english-v3.0`.
- **Hugging Face** : BGE, E5, Nomic Embed (open-weights).

**Cas d'usage** : recherche sémantique, RAG, classification, recommandation, détection d'anomalies.

## Cas d'Usage
- Base de connaissances RAG.
- Recherche de doublons.
- Clustering de documents.
- Recommandation de produits.

## Outils Liés
- **Bases vectorielles** : Qdrant, Chroma, Weaviate, Pinecone, pgvector (Postgres).
- **Modèles** : OpenAI, Cohere, BGE, Nomic.

## Pages Liées
- [[rag]]
- [[glossaire-ia]]
- [[comparatif-stockage]]

## Questions Ouvertes
- Quelle dimension d'embedding choisir (trade-off mémoire vs précision) ?
- Les embeddings vont-ils être remplacés par des modèles plus unifiés ?