🦙 Llama 4

Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de llama-3-1 avec des capacités de contexte record.

Spécifications

Version	Paramètres Actifs	Paramètres Totaux	Experts	Contexte	Usage
Scout (17Bx16E)	17B	109B	16	10M tokens	Single GPU (Int4), Long contexte
Maverick (17Bx128E)	17B	400B	128	1M tokens	Serveur, généraliste haut de gamme
Behemoth (non publié)	—	~2T	—	—	Teacher model, top STEM

Architecture

Early Fusion : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif.
MoE : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé.
Scout : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur 1 H100 avec Int4 on-the-fly.
Maverick : Plus grand, tient sur 1 hôte H100 DGX en FP8.
Contexte record : Scout supporte jusqu'à 10M tokens — idéal pour analyse de documents massifs.
Langues : 12 langues supportées (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien).
Entraînement : Scout ~40T tokens, Maverick ~22T tokens. Cutoff août 2024.

Performances

Maverick surpasse GPT-4o et Gemini 2.0 Pro en codage, raisonnement, multilingue et benchmarks image.
Behemoth (teacher) dépasse GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro sur MATH-500 et GPQA Diamond.

Licence & Disponibilité

Licence Llama 4 Community License (licence commerciale personnalisée).
Formats : BF16 (Scout), BF16 + FP8 (Maverick).
Sortie : 5 avril 2025.
Code Int4 on-the-fly fourni pour minimiser la dégradation.

Pages Liées

llama-3-1 — prédécesseur dense
gguf — quantification
exl2 — quantification alternative
mistral — concurrent MoE Mistral AI

2.2 KiB Raw Blame History

🦙 Llama 4

Spécifications

Architecture

Performances

Licence & Disponibilité

Pages Liées

2.2 KiB

Raw Blame History