Files
wiki/concepts/embeddings.md
T
2026-06-09 18:40:21 +02:00

44 lines
1.4 KiB
Markdown

---
title: Embeddings
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, ML, data]
confidence: high
contested: false
sources: [synthesized]
---
# 🌌 Embeddings
## Définition Courte
Représentation **vectorielle dense** d'une donnée (texte, image, audio) dans un espace de grande dimension (ex: 768, 1024, 4096) où la **proximité géométrique** reflète la **proximité sémantique**.
## Explication Détaillée
Un embedding transforme "Le chat dort" en un vecteur `[0.12, -0.45, 0.78, ...]`. Deux phrases de sens proche auront des vecteurs proches (cosine similarity élevée).
Modèles populaires :
- **OpenAI** : `text-embedding-3-small/large`.
- **Cohere** : `embed-english-v3.0`.
- **Hugging Face** : BGE, E5, Nomic Embed (open-weights).
**Cas d'usage** : recherche sémantique, RAG, classification, recommandation, détection d'anomalies.
## Cas d'Usage
- Base de connaissances RAG.
- Recherche de doublons.
- Clustering de documents.
- Recommandation de produits.
## Outils Liés
- **Bases vectorielles** : Qdrant, Chroma, Weaviate, Pinecone, pgvector (Postgres).
- **Modèles** : OpenAI, Cohere, BGE, Nomic.
## Pages Liées
- [[rag]]
- [[glossaire-ia]]
- [[comparatif-stockage]]
## Questions Ouvertes
- Quelle dimension d'embedding choisir (trade-off mémoire vs précision) ?
- Les embeddings vont-ils être remplacés par des modèles plus unifiés ?