40 lines
1.4 KiB
Markdown
40 lines
1.4 KiB
Markdown
---
|
|
title: Mixture of Experts (MoE)
|
|
created: 2026-06-06
|
|
updated: 2026-06-06
|
|
type: concept
|
|
tags: [IA, architecture, model]
|
|
confidence: high
|
|
contested: false
|
|
sources: [synthesized]
|
|
---
|
|
# 🧠 Mixture of Experts (MoE)
|
|
|
|
## Définition Courte
|
|
Architecture de réseau de neurones qui **active seulement une partie** des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.
|
|
|
|
## Explication Détaillée
|
|
Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :
|
|
- Plusieurs "experts" (sous-réseaux) coexistent.
|
|
- Un **routeur** (gating network) choisit top-1 ou top-2 experts par token.
|
|
- Seuls les experts sélectionnés sont activés.
|
|
|
|
**Exemple** : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 $\rightarrow$ ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.
|
|
|
|
## Cas d'Usage
|
|
- Modèles LLM très grands à coût d'inférence maîtrisé.
|
|
- Modèles multimodaux (un expert par modalité).
|
|
|
|
## Outils Liés
|
|
- **Modèles** : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
|
|
- **Frameworks** : vLLM (inférence MoE optimisée), TGI.
|
|
|
|
## Pages Liées
|
|
- [[phi-3-5]]
|
|
- [[llama-3-1]]
|
|
- [[glossaire-ia]]
|
|
|
|
## Questions Ouvertes
|
|
- Le MoE est-il l'avenir de tous les grands modèles ?
|
|
- Comment fine-tuner un MoE (quel expert entraîner) ?
|