Files
wiki/entities/llama-4.md
T
2026-06-12 19:26:55 +02:00

51 lines
2.2 KiB
Markdown

---
title: Llama 4
created: 2026-06-11
updated: 2026-06-11
type: entity
tags: [model, architecture, open-source]
sources: [web research]
confidence: high
contested: false
---
# 🦙 Llama 4
Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de [[llama-3-1]] avec des capacités de contexte record.
## Spécifications
| Version | Paramètres Actifs | Paramètres Totaux | Experts | Contexte | Usage |
| :--- | :---: | :---: | :---: | :---: | :--- |
| **Scout** (17Bx16E) | 17B | 109B | 16 | **10M tokens** | Single GPU (Int4), Long contexte |
| **Maverick** (17Bx128E) | 17B | 400B | 128 | 1M tokens | Serveur, généraliste haut de gamme |
| **Behemoth** (non publié) | — | ~2T | — | — | Teacher model, top STEM |
## Architecture
- **Early Fusion** : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif.
- **MoE** : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé.
- **Scout** : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur **1 H100** avec Int4 on-the-fly.
- **Maverick** : Plus grand, tient sur 1 hôte H100 DGX en FP8.
- **Contexte record** : Scout supporte jusqu'à **10M tokens** — idéal pour analyse de documents massifs.
- **Langues** : 12 langues supportées (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien).
- **Entraînement** : Scout ~40T tokens, Maverick ~22T tokens. Cutoff août 2024.
## Performances
- Maverick surpasse GPT-4o et Gemini 2.0 Pro en codage, raisonnement, multilingue et benchmarks image.
- Behemoth (teacher) dépasse GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro sur MATH-500 et GPQA Diamond.
## Licence & Disponibilité
- Licence **Llama 4 Community License** (licence commerciale personnalisée).
- Formats : BF16 (Scout), BF16 + FP8 (Maverick).
- Sortie : 5 avril 2025.
- Code Int4 on-the-fly fourni pour minimiser la dégradation.
## Pages Liées
- [[llama-3-1]] — prédécesseur dense
- [[gguf]] — quantification
- [[exl2]] — quantification alternative
- [[mistral]] — concurrent MoE Mistral AI