1.4 KiB
1.4 KiB
title, created, updated, type, tags, confidence, contested, sources
| title | created | updated | type | tags | confidence | contested | sources | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Mixture of Experts (MoE) | 2026-06-06 | 2026-06-06 | concept |
|
high | false |
|
🧠 Mixture of Experts (MoE)
Définition Courte
Architecture de réseau de neurones qui active seulement une partie des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.
Explication Détaillée
Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :
- Plusieurs "experts" (sous-réseaux) coexistent.
- Un routeur (gating network) choisit top-1 ou top-2 experts par token.
- Seuls les experts sélectionnés sont activés.
Exemple : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 \rightarrow ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.
Cas d'Usage
- Modèles LLM très grands à coût d'inférence maîtrisé.
- Modèles multimodaux (un expert par modalité).
Outils Liés
- Modèles : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
- Frameworks : vLLM (inférence MoE optimisée), TGI.
Pages Liées
Questions Ouvertes
- Le MoE est-il l'avenir de tous les grands modèles ?
- Comment fine-tuner un MoE (quel expert entraîner) ?