Files
wiki/entities/llama-4.md
T
2026-06-12 19:26:55 +02:00

2.2 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
Llama 4 2026-06-11 2026-06-11 entity
model
architecture
open-source
web research
high false

🦙 Llama 4

Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de llama-3-1 avec des capacités de contexte record.

Spécifications

Version Paramètres Actifs Paramètres Totaux Experts Contexte Usage
Scout (17Bx16E) 17B 109B 16 10M tokens Single GPU (Int4), Long contexte
Maverick (17Bx128E) 17B 400B 128 1M tokens Serveur, généraliste haut de gamme
Behemoth (non publié) ~2T Teacher model, top STEM

Architecture

  • Early Fusion : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif.
  • MoE : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé.
  • Scout : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur 1 H100 avec Int4 on-the-fly.
  • Maverick : Plus grand, tient sur 1 hôte H100 DGX en FP8.
  • Contexte record : Scout supporte jusqu'à 10M tokens — idéal pour analyse de documents massifs.
  • Langues : 12 langues supportées (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien).
  • Entraînement : Scout ~40T tokens, Maverick ~22T tokens. Cutoff août 2024.

Performances

  • Maverick surpasse GPT-4o et Gemini 2.0 Pro en codage, raisonnement, multilingue et benchmarks image.
  • Behemoth (teacher) dépasse GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro sur MATH-500 et GPQA Diamond.

Licence & Disponibilité

  • Licence Llama 4 Community License (licence commerciale personnalisée).
  • Formats : BF16 (Scout), BF16 + FP8 (Maverick).
  • Sortie : 5 avril 2025.
  • Code Int4 on-the-fly fourni pour minimiser la dégradation.

Pages Liées

  • llama-3-1 — prédécesseur dense
  • gguf — quantification
  • exl2 — quantification alternative
  • mistral — concurrent MoE Mistral AI