Famille de modèles open-weights de Google DeepMind, sortie avant gemma-4, conçue pour apporter de la multimodalité légère (texte + image), du long contexte et de bonnes performances sur matériel grand public. Gemma 3 couvre les tailles 1B, 4B, 12B et 27B et reste une référence importante pour l’écosystème local et quantifié.
Spécifications
Version
Paramètres
Contexte
Modalités
Particularités
1B
~1B
32K
Texte
plus compact, sans encodeur vision
4B
~4,3B avec vision
128K
Texte, image
bon compromis local
12B
~11,8B avec vision
128K
Texte, image
usage workstation
27B
~27B avec vision
128K
Texte, image
variante la plus performante
Vocabulaire : 262K tokens
Langues : 140+ langues
Entrées image : images normalisées en 896×896, encodées en 256 tokens
Sortie : texte uniquement
Date de sortie initiale : 10 mars 2025
Knowledge cutoff : août 2024
Architecture
Type : Transformer décodeur-only avec GQA, RMSNorm et QK-norm.
Attention hybride : alternance de 5 couches locales pour 1 couche globale afin de réduire l’explosion du KV cache en long contexte.
Fenêtre locale : 1024 tokens sur les couches locales ; seules les couches globales voient tout le contexte.
RoPE : base portée à 1M sur l’attention globale pour supporter 128K tokens.
Vision : encodeur SigLIP ~417M partagé sur 4B/12B/27B, gelé pendant l’entraînement.
Pan & Scan : stratégie d’inférence pour mieux gérer les documents, images non carrées et petits détails.
27B IT atteint notamment 42,4 sur GPQA Diamond, 87,6 sur BIG-Bench Hard, 90,4 sur IFEval et 29,7 sur LiveCodeBench.
27B IT obtient 87,8 sur HumanEval, 95,9 sur GSM8K et 89,0 sur MATH.
4B IT est souvent présenté par Google comme compétitif face à Gemma 2 27B IT sur plusieurs usages instruction-tunés.
27B IT est positionné par Google comme comparable à Gemini 1.5 Pro sur plusieurs benchmarks internes/rapportés au moment de la sortie.
Par rapport à gemma-4, Gemma 3 reste moins agentique et moins performante, mais demeure plus simple à comprendre, à fine-tuner et à diffuser dans l’écosystème open-weight.
Licence & Disponibilité
Licence : licence Gemma (poids ouverts, usage soumis aux Gemma Terms of Use ; ce n’est pas une licence Apache 2.0 pour Gemma 3).
Distribution : Google AI for Developers, Kaggle, Hugging Face.
Formats dérivés : nombreuses conversions communautaires en gguf et autres formats de quantification ; exécution fréquente via llama-cpp et ollama.
Accès : certains dépôts Hugging Face sont gated et demandent l’acceptation préalable des conditions d’usage Google.