Files
wiki/concepts/mixture-of-experts.md
T
2026-06-09 18:40:21 +02:00

40 lines
1.4 KiB
Markdown

---
title: Mixture of Experts (MoE)
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, architecture, model]
confidence: high
contested: false
sources: [synthesized]
---
# 🧠 Mixture of Experts (MoE)
## Définition Courte
Architecture de réseau de neurones qui **active seulement une partie** des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.
## Explication Détaillée
Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :
- Plusieurs "experts" (sous-réseaux) coexistent.
- Un **routeur** (gating network) choisit top-1 ou top-2 experts par token.
- Seuls les experts sélectionnés sont activés.
**Exemple** : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 $\rightarrow$ ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.
## Cas d'Usage
- Modèles LLM très grands à coût d'inférence maîtrisé.
- Modèles multimodaux (un expert par modalité).
## Outils Liés
- **Modèles** : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
- **Frameworks** : vLLM (inférence MoE optimisée), TGI.
## Pages Liées
- [[phi-3-5]]
- [[llama-3-1]]
- [[glossaire-ia]]
## Questions Ouvertes
- Le MoE est-il l'avenir de tous les grands modèles ?
- Comment fine-tuner un MoE (quel expert entraîner) ?