--- title: Mixture of Experts (MoE) created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, architecture, model] confidence: high contested: false sources: [synthesized] --- # 🧠 Mixture of Experts (MoE) ## Définition Courte Architecture de réseau de neurones qui **active seulement une partie** des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré. ## Explication Détaillée Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE : - Plusieurs "experts" (sous-réseaux) coexistent. - Un **routeur** (gating network) choisit top-1 ou top-2 experts par token. - Seuls les experts sélectionnés sont activés. **Exemple** : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 $\rightarrow$ ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense. ## Cas d'Usage - Modèles LLM très grands à coût d'inférence maîtrisé. - Modèles multimodaux (un expert par modalité). ## Outils Liés - **Modèles** : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE). - **Frameworks** : vLLM (inférence MoE optimisée), TGI. ## Pages Liées - [[phi-3-5]] - [[llama-3-1]] - [[glossaire-ia]] ## Questions Ouvertes - Le MoE est-il l'avenir de tous les grands modèles ? - Comment fine-tuner un MoE (quel expert entraîner) ?