🟢 Gemma 3

Famille de modèles open-weights de Google DeepMind, sortie avant gemma-4, conçue pour apporter de la multimodalité légère (texte + image), du long contexte et de bonnes performances sur matériel grand public. Gemma 3 couvre les tailles 1B, 4B, 12B et 27B et reste une référence importante pour l’écosystème local et quantifié.

Spécifications

Version	Paramètres	Contexte	Modalités	Particularités
1B	~1B	32K	Texte	plus compact, sans encodeur vision
4B	~4,3B avec vision	128K	Texte, image	bon compromis local
12B	~11,8B avec vision	128K	Texte, image	usage workstation
27B	~27B avec vision	128K	Texte, image	variante la plus performante

Vocabulaire : 262K tokens
Langues : 140+ langues
Entrées image : images normalisées en 896×896, encodées en 256 tokens
Sortie : texte uniquement
Date de sortie initiale : 10 mars 2025
Knowledge cutoff : août 2024

Architecture

Type : Transformer décodeur-only avec GQA, RMSNorm et QK-norm.
Attention hybride : alternance de 5 couches locales pour 1 couche globale afin de réduire l’explosion du KV cache en long contexte.
Fenêtre locale : 1024 tokens sur les couches locales ; seules les couches globales voient tout le contexte.
RoPE : base portée à 1M sur l’attention globale pour supporter 128K tokens.
Vision : encodeur SigLIP ~417M partagé sur 4B/12B/27B, gelé pendant l’entraînement.
Pan & Scan : stratégie d’inférence pour mieux gérer les documents, images non carrées et petits détails.
Quantification / déploiement : très présent dans l’écosystème gguf, exl2, llama-cpp, ollama et quantification-llm.

Performances

27B IT atteint notamment 42,4 sur GPQA Diamond, 87,6 sur BIG-Bench Hard, 90,4 sur IFEval et 29,7 sur LiveCodeBench.
27B IT obtient 87,8 sur HumanEval, 95,9 sur GSM8K et 89,0 sur MATH.
4B IT est souvent présenté par Google comme compétitif face à Gemma 2 27B IT sur plusieurs usages instruction-tunés.
27B IT est positionné par Google comme comparable à Gemini 1.5 Pro sur plusieurs benchmarks internes/rapportés au moment de la sortie.
Par rapport à gemma-4, Gemma 3 reste moins agentique et moins performante, mais demeure plus simple à comprendre, à fine-tuner et à diffuser dans l’écosystème open-weight.

Licence & Disponibilité

Licence : licence Gemma (poids ouverts, usage soumis aux Gemma Terms of Use ; ce n’est pas une licence Apache 2.0 pour Gemma 3).
Distribution : Google AI for Developers, Kaggle, Hugging Face.
Formats dérivés : nombreuses conversions communautaires en gguf et autres formats de quantification ; exécution fréquente via llama-cpp et ollama.
Accès : certains dépôts Hugging Face sont gated et demandent l’acceptation préalable des conditions d’usage Google.

3.4 KiB Raw Blame History Unescape Escape

🟢 Gemma 3

Spécifications

Architecture

Performances

Licence & Disponibilité

Pages Liées

3.4 KiB

Raw Blame History