44 lines
1.4 KiB
Markdown
44 lines
1.4 KiB
Markdown
---
|
|
title: Embeddings
|
|
created: 2026-06-06
|
|
updated: 2026-06-06
|
|
type: concept
|
|
tags: [IA, ML, data]
|
|
confidence: high
|
|
contested: false
|
|
sources: [synthesized]
|
|
---
|
|
# 🌌 Embeddings
|
|
|
|
## Définition Courte
|
|
Représentation **vectorielle dense** d'une donnée (texte, image, audio) dans un espace de grande dimension (ex: 768, 1024, 4096) où la **proximité géométrique** reflète la **proximité sémantique**.
|
|
|
|
## Explication Détaillée
|
|
Un embedding transforme "Le chat dort" en un vecteur `[0.12, -0.45, 0.78, ...]`. Deux phrases de sens proche auront des vecteurs proches (cosine similarity élevée).
|
|
|
|
Modèles populaires :
|
|
- **OpenAI** : `text-embedding-3-small/large`.
|
|
- **Cohere** : `embed-english-v3.0`.
|
|
- **Hugging Face** : BGE, E5, Nomic Embed (open-weights).
|
|
|
|
**Cas d'usage** : recherche sémantique, RAG, classification, recommandation, détection d'anomalies.
|
|
|
|
## Cas d'Usage
|
|
- Base de connaissances RAG.
|
|
- Recherche de doublons.
|
|
- Clustering de documents.
|
|
- Recommandation de produits.
|
|
|
|
## Outils Liés
|
|
- **Bases vectorielles** : Qdrant, Chroma, Weaviate, Pinecone, pgvector (Postgres).
|
|
- **Modèles** : OpenAI, Cohere, BGE, Nomic.
|
|
|
|
## Pages Liées
|
|
- [[rag]]
|
|
- [[glossaire-ia]]
|
|
- [[comparatif-stockage]]
|
|
|
|
## Questions Ouvertes
|
|
- Quelle dimension d'embedding choisir (trade-off mémoire vs précision) ?
|
|
- Les embeddings vont-ils être remplacés par des modèles plus unifiés ?
|