Initial vault setup
This commit is contained in:
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: Mixture of Experts (MoE)
|
||||
created: 2026-06-06
|
||||
updated: 2026-06-06
|
||||
type: concept
|
||||
tags: [IA, architecture, model]
|
||||
confidence: high
|
||||
contested: false
|
||||
sources: [synthesized]
|
||||
---
|
||||
# 🧠 Mixture of Experts (MoE)
|
||||
|
||||
## Définition Courte
|
||||
Architecture de réseau de neurones qui **active seulement une partie** des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.
|
||||
|
||||
## Explication Détaillée
|
||||
Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :
|
||||
- Plusieurs "experts" (sous-réseaux) coexistent.
|
||||
- Un **routeur** (gating network) choisit top-1 ou top-2 experts par token.
|
||||
- Seuls les experts sélectionnés sont activés.
|
||||
|
||||
**Exemple** : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 $\rightarrow$ ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.
|
||||
|
||||
## Cas d'Usage
|
||||
- Modèles LLM très grands à coût d'inférence maîtrisé.
|
||||
- Modèles multimodaux (un expert par modalité).
|
||||
|
||||
## Outils Liés
|
||||
- **Modèles** : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
|
||||
- **Frameworks** : vLLM (inférence MoE optimisée), TGI.
|
||||
|
||||
## Pages Liées
|
||||
- [[phi-3-5]]
|
||||
- [[llama-3-1]]
|
||||
- [[glossaire-ia]]
|
||||
|
||||
## Questions Ouvertes
|
||||
- Le MoE est-il l'avenir de tous les grands modèles ?
|
||||
- Comment fine-tuner un MoE (quel expert entraîner) ?
|
||||
Reference in New Issue
Block a user