wiki/entities/llama-4.md

---
title: Llama 4
created: 2026-06-11
updated: 2026-06-11
type: entity
tags: [model, architecture, open-source]
sources: [web research]
confidence: high
contested: false
---
# 🦙 Llama 4

Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de [[llama-3-1]] avec des capacités de contexte record.

## Spécifications

| Version | Paramètres Actifs | Paramètres Totaux | Experts | Contexte | Usage |
| :--- | :---: | :---: | :---: | :---: | :--- |
| **Scout** (17Bx16E) | 17B | 109B | 16 | **10M tokens** | Single GPU (Int4), Long contexte |
| **Maverick** (17Bx128E) | 17B | 400B | 128 | 1M tokens | Serveur, généraliste haut de gamme |
| **Behemoth** (non publié) | — | ~2T | — | — | Teacher model, top STEM |

## Architecture

- **Early Fusion** : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif.
- **MoE** : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé.
- **Scout** : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur **1 H100** avec Int4 on-the-fly.
- **Maverick** : Plus grand, tient sur 1 hôte H100 DGX en FP8.
- **Contexte record** : Scout supporte jusqu'à **10M tokens** — idéal pour analyse de documents massifs.
- **Langues** : 12 langues supportées (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien).
- **Entraînement** : Scout ~40T tokens, Maverick ~22T tokens. Cutoff août 2024.

## Performances

- Maverick surpasse GPT-4o et Gemini 2.0 Pro en codage, raisonnement, multilingue et benchmarks image.
- Behemoth (teacher) dépasse GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro sur MATH-500 et GPQA Diamond.

## Licence & Disponibilité

- Licence **Llama 4 Community License** (licence commerciale personnalisée).
- Formats : BF16 (Scout), BF16 + FP8 (Maverick).
- Sortie : 5 avril 2025.
- Code Int4 on-the-fly fourni pour minimiser la dégradation.

## Pages Liées

- [[llama-3-1]] — prédécesseur dense
- [[gguf]] — quantification
- [[exl2]] — quantification alternative
- [[mistral]] — concurrent MoE Mistral AI