Initial vault setup
This commit is contained in:
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: Embeddings
|
||||
created: 2026-06-06
|
||||
updated: 2026-06-06
|
||||
type: concept
|
||||
tags: [IA, ML, data]
|
||||
confidence: high
|
||||
contested: false
|
||||
sources: [synthesized]
|
||||
---
|
||||
# 🌌 Embeddings
|
||||
|
||||
## Définition Courte
|
||||
Représentation **vectorielle dense** d'une donnée (texte, image, audio) dans un espace de grande dimension (ex: 768, 1024, 4096) où la **proximité géométrique** reflète la **proximité sémantique**.
|
||||
|
||||
## Explication Détaillée
|
||||
Un embedding transforme "Le chat dort" en un vecteur `[0.12, -0.45, 0.78, ...]`. Deux phrases de sens proche auront des vecteurs proches (cosine similarity élevée).
|
||||
|
||||
Modèles populaires :
|
||||
- **OpenAI** : `text-embedding-3-small/large`.
|
||||
- **Cohere** : `embed-english-v3.0`.
|
||||
- **Hugging Face** : BGE, E5, Nomic Embed (open-weights).
|
||||
|
||||
**Cas d'usage** : recherche sémantique, RAG, classification, recommandation, détection d'anomalies.
|
||||
|
||||
## Cas d'Usage
|
||||
- Base de connaissances RAG.
|
||||
- Recherche de doublons.
|
||||
- Clustering de documents.
|
||||
- Recommandation de produits.
|
||||
|
||||
## Outils Liés
|
||||
- **Bases vectorielles** : Qdrant, Chroma, Weaviate, Pinecone, pgvector (Postgres).
|
||||
- **Modèles** : OpenAI, Cohere, BGE, Nomic.
|
||||
|
||||
## Pages Liées
|
||||
- [[rag]]
|
||||
- [[glossaire-ia]]
|
||||
- [[comparatif-stockage]]
|
||||
|
||||
## Questions Ouvertes
|
||||
- Quelle dimension d'embedding choisir (trade-off mémoire vs précision) ?
|
||||
- Les embeddings vont-ils être remplacés par des modèles plus unifiés ?
|
||||
Reference in New Issue
Block a user