🧠 Mixture of Experts (MoE)

Définition Courte

Architecture de réseau de neurones qui active seulement une partie des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.

Explication Détaillée

Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :

Plusieurs "experts" (sous-réseaux) coexistent.
Un routeur (gating network) choisit top-1 ou top-2 experts par token.
Seuls les experts sélectionnés sont activés.

Exemple : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 \rightarrow ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.

Cas d'Usage

Modèles LLM très grands à coût d'inférence maîtrisé.
Modèles multimodaux (un expert par modalité).

Outils Liés

Modèles : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
Frameworks : vLLM (inférence MoE optimisée), TGI.

Pages Liées

Questions Ouvertes

Le MoE est-il l'avenir de tous les grands modèles ?
Comment fine-tuner un MoE (quel expert entraîner) ?

1.4 KiB Raw Blame History