Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de llama-3-1 avec des capacités de contexte record.
Spécifications
Version
Paramètres Actifs
Paramètres Totaux
Experts
Contexte
Usage
Scout (17Bx16E)
17B
109B
16
10M tokens
Single GPU (Int4), Long contexte
Maverick (17Bx128E)
17B
400B
128
1M tokens
Serveur, généraliste haut de gamme
Behemoth (non publié)
—
~2T
—
—
Teacher model, top STEM
Architecture
Early Fusion : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif.
MoE : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé.
Scout : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur 1 H100 avec Int4 on-the-fly.
Maverick : Plus grand, tient sur 1 hôte H100 DGX en FP8.
Contexte record : Scout supporte jusqu'à 10M tokens — idéal pour analyse de documents massifs.