--- title: Llama 4 created: 2026-06-11 updated: 2026-06-11 type: entity tags: [model, architecture, open-source] sources: [web research] confidence: high contested: false --- # 🦙 Llama 4 Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de [[llama-3-1]] avec des capacités de contexte record. ## Spécifications | Version | Paramètres Actifs | Paramètres Totaux | Experts | Contexte | Usage | | :--- | :---: | :---: | :---: | :---: | :--- | | **Scout** (17Bx16E) | 17B | 109B | 16 | **10M tokens** | Single GPU (Int4), Long contexte | | **Maverick** (17Bx128E) | 17B | 400B | 128 | 1M tokens | Serveur, généraliste haut de gamme | | **Behemoth** (non publié) | — | ~2T | — | — | Teacher model, top STEM | ## Architecture - **Early Fusion** : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif. - **MoE** : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé. - **Scout** : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur **1 H100** avec Int4 on-the-fly. - **Maverick** : Plus grand, tient sur 1 hôte H100 DGX en FP8. - **Contexte record** : Scout supporte jusqu'à **10M tokens** — idéal pour analyse de documents massifs. - **Langues** : 12 langues supportées (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien). - **Entraînement** : Scout ~40T tokens, Maverick ~22T tokens. Cutoff août 2024. ## Performances - Maverick surpasse GPT-4o et Gemini 2.0 Pro en codage, raisonnement, multilingue et benchmarks image. - Behemoth (teacher) dépasse GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro sur MATH-500 et GPQA Diamond. ## Licence & Disponibilité - Licence **Llama 4 Community License** (licence commerciale personnalisée). - Formats : BF16 (Scout), BF16 + FP8 (Maverick). - Sortie : 5 avril 2025. - Code Int4 on-the-fly fourni pour minimiser la dégradation. ## Pages Liées - [[llama-3-1]] — prédécesseur dense - [[gguf]] — quantification - [[exl2]] — quantification alternative - [[mistral]] — concurrent MoE Mistral AI