Files
wiki/concepts/mixture-of-experts.md
T
2026-06-09 18:40:21 +02:00

1.4 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Mixture of Experts (MoE) 2026-06-06 2026-06-06 concept
IA
architecture
model
high false
synthesized

🧠 Mixture of Experts (MoE)

Définition Courte

Architecture de réseau de neurones qui active seulement une partie des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.

Explication Détaillée

Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :

  • Plusieurs "experts" (sous-réseaux) coexistent.
  • Un routeur (gating network) choisit top-1 ou top-2 experts par token.
  • Seuls les experts sélectionnés sont activés.

Exemple : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 \rightarrow ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.

Cas d'Usage

  • Modèles LLM très grands à coût d'inférence maîtrisé.
  • Modèles multimodaux (un expert par modalité).

Outils Liés

  • Modèles : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
  • Frameworks : vLLM (inférence MoE optimisée), TGI.

Pages Liées

Questions Ouvertes

  • Le MoE est-il l'avenir de tous les grands modèles ?
  • Comment fine-tuner un MoE (quel expert entraîner) ?