🟢 Gemma 4

Famille de modèles open-weights développée par Google DeepMind, offrant le meilleur rapport intelligence/paramètre avec des architectures denses et MoE, pensée pour le fine-tuning et le déploiement local.

Spécifications

Version	Paramètres (Total)	Actifs	Contexte	Usage
E2B	5,1B	2,3B	128K	Mobile, IoT, Edge
E4B	8B	4,5B	128K	Mobile, Chrome, Edge
12B (Unified)	11,95B	11,95B	256K	Workstation, IDEs
26B A4B (MoE)	25,2B	3,8B	256K	Haute performance, Raisonnement
31B (Dense)	30,7B	30,7B	256K	Local-first serveur, Agents

Architecture

E2B/E4B : Modèles compacts pour appareils mobiles, avec encodeurs vision (~150M) et audio (~300M). Jusqu'à 2,9 Go en Q4.
12B Unified : Encodeur-free — projections linéaires directes des entrées multimodales. Idéal fine-tuning.
26B A4B : MoE avec 8 experts actifs sur 128 + 1 expert partagé. Slot window 1024 tokens.
31B Dense : Modèle dense puissant, encodeur vision ~550M. Performances de pointe.
Thinking intégré : Mode raisonnement pas-à-pas natif.
Quantification : Support natif gguf, QAT Q4_0, SFP8, compressed-tensors, mobile-optimisé.
140+ langues, cutoff Janvier 2025.

Performances

Benchmark	31B IT	26B A4B IT	E4B IT	E2B IT
MMMLU (multilingue)	85,2 %	82,6 %	69,4 %	60,0 %
MMMU Pro (vision)	76,9 %	73,8 %	52,6 %	44,2 %
AIME 2026 (maths)	89,2 %	88,3 %	42,5 %	37,5 %
LiveCodeBench v6	80,0 %	77,1 %	52,0 %	44,0 %
GPQA Diamond	84,3 %	82,3 %	58,6 %	43,4 %
T2-bench (agents)	86,4 %	85,5 %	57,5 %	29,4 %

Licence & Disponibilité

Licence Gemma ouverte, libre pour usage commercial et fine-tuning.
Formats : BF16, GGUF, QAT, compressed-tensors, mobile-transformers.
Disponible sur Hugging Face, ai.google.dev.

Pages Liées

gguf — quantification native
exl2 — quantification alternative
phi-3-5 — concurrent SLM Microsoft
mistral — concurrent Mistral AI
llama-3-1 — concurrent Meta

2.3 KiB Raw Permalink Blame History