Initial vault setup

2026-06-09 18:40:21 +02:00
commit bda02d587f
3692 changed files with 402457 additions and 0 deletions
@@ -0,0 +1,39 @@
+---
+title: Mixture of Experts (MoE)
+created: 2026-06-06
+updated: 2026-06-06
+type: concept
+tags: [IA, architecture, model]
+confidence: high
+contested: false
+sources: [synthesized]
+---
+# 🧠 Mixture of Experts (MoE)
+
+## Définition Courte
+Architecture de réseau de neurones qui **active seulement une partie** des paramètres ("experts") pour chaque token, permettant des modèles immenses avec un coût d'inférence modéré.
+
+## Explication Détaillée
+Dans un Transformer "dense" classique, chaque token passe par tous les paramètres. Dans un MoE :
+- Plusieurs "experts" (sous-réseaux) coexistent.
+- Un **routeur** (gating network) choisit top-1 ou top-2 experts par token.
+- Seuls les experts sélectionnés sont activés.
+
+**Exemple** : Mixtral 8x7B a 8 experts de 7B, mais n'en active que 2 $\rightarrow$ ~13B params actifs pour 47B total. Plus rapide qu'un 47B dense, plus performant qu'un 13B dense.
+
+## Cas d'Usage
+- Modèles LLM très grands à coût d'inférence maîtrisé.
+- Modèles multimodaux (un expert par modalité).
+
+## Outils Liés
+- **Modèles** : Mixtral, Phi-3.5 MoE, DeepSeek-V3, GPT-4 (rumored MoE).
+- **Frameworks** : vLLM (inférence MoE optimisée), TGI.
+
+## Pages Liées
+- [[phi-3-5]]
+- [[llama-3-1]]
+- [[glossaire-ia]]
+
+## Questions Ouvertes
+- Le MoE est-il l'avenir de tous les grands modèles ?
+- Comment fine-tuner un MoE (quel expert entraîner) ?