wiki/concepts/mixture-of-experts.md

---
title: Mixture of Experts (MoE)
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, architecture, model]
confidence: high
contested: false
sources: [synthesized]
---
# 🧠 Mixture of Experts (MoE)

## Définition Courte
Architecture de réseau de neurones qui **active seulement une partie** des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.

## Explication Détaillée
Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :
- Plusieurs "experts" (sous-réseaux) coexistent.
- Un **routeur** (gating network) choisit top-1 ou top-2 experts par token.
- Seuls les experts sélectionnés sont activés.

**Exemple** : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 $\rightarrow$ ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.

## Cas d'Usage
- Modèles LLM très grands à coût d'inférence maîtrisé.
- Modèles multimodaux (un expert par modalité).

## Outils Liés
- **Modèles** : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
- **Frameworks** : vLLM (inférence MoE optimisée), TGI.

## Pages Liées
- [[phi-3-5]]
- [[llama-3-1]]
- [[glossaire-ia]]

## Questions Ouvertes
- Le MoE est-il l'avenir de tous les grands modèles ?
- Comment fine-tuner un MoE (quel expert entraîner) ?