wiki/entities/gemma-3.md

---
title: Gemma 3
created: 2026-06-11
updated: 2026-06-11
type: entity
tags: [model, architecture, multimodal]
sources: [web research]
confidence: high
contested: false
---
# 🟢 Gemma 3

Famille de modèles open-weights de **Google DeepMind**, sortie avant [[gemma-4]], conçue pour apporter de la multimodalité légère (texte + image), du long contexte et de bonnes performances sur matériel grand public. Gemma 3 couvre les tailles **1B, 4B, 12B et 27B** et reste une référence importante pour l’écosystème local et quantifié.

## Spécifications

| Version | Paramètres | Contexte | Modalités | Particularités |
| :--- | :---: | :---: | :--- | :--- |
| **1B** | ~1B | 32K | Texte | plus compact, sans encodeur vision |
| **4B** | ~4,3B avec vision | 128K | Texte, image | bon compromis local |
| **12B** | ~11,8B avec vision | 128K | Texte, image | usage workstation |
| **27B** | ~27B avec vision | 128K | Texte, image | variante la plus performante |

- **Vocabulaire** : 262K tokens
- **Langues** : 140+ langues
- **Entrées image** : images normalisées en **896×896**, encodées en **256 tokens**
- **Sortie** : texte uniquement
- **Date de sortie initiale** : 10 mars 2025
- **Knowledge cutoff** : août 2024

## Architecture

- **Type** : Transformer décodeur-only avec **GQA**, **RMSNorm** et **QK-norm**.
- **Attention hybride** : alternance de **5 couches locales** pour **1 couche globale** afin de réduire l’explosion du **KV cache** en long contexte.
- **Fenêtre locale** : **1024 tokens** sur les couches locales ; seules les couches globales voient tout le contexte.
- **RoPE** : base portée à **1M** sur l’attention globale pour supporter 128K tokens.
- **Vision** : encodeur **SigLIP ~417M** partagé sur 4B/12B/27B, gelé pendant l’entraînement.
- **Pan & Scan** : stratégie d’inférence pour mieux gérer les documents, images non carrées et petits détails.
- **Quantification / déploiement** : très présent dans l’écosystème [[gguf]], [[exl2]], [[llama-cpp]], [[ollama]] et [[quantification-llm]].

## Performances

- **27B IT** atteint notamment **42,4** sur **GPQA Diamond**, **87,6** sur **BIG-Bench Hard**, **90,4** sur **IFEval** et **29,7** sur **LiveCodeBench**.
- **27B IT** obtient **87,8** sur **HumanEval**, **95,9** sur **GSM8K** et **89,0** sur **MATH**.
- **4B IT** est souvent présenté par Google comme compétitif face à **Gemma 2 27B IT** sur plusieurs usages instruction-tunés.
- **27B IT** est positionné par Google comme comparable à **Gemini 1.5 Pro** sur plusieurs benchmarks internes/rapportés au moment de la sortie.
- Par rapport à [[gemma-4]], Gemma 3 reste moins agentique et moins performante, mais demeure plus simple à comprendre, à fine-tuner et à diffuser dans l’écosystème open-weight.

## Licence & Disponibilité

- **Licence** : licence **Gemma** (poids ouverts, usage soumis aux *Gemma Terms of Use* ; ce n’est pas une licence Apache 2.0 pour Gemma 3).
- **Distribution** : Google AI for Developers, Kaggle, Hugging Face.
- **Formats dérivés** : nombreuses conversions communautaires en [[gguf]] et autres formats de quantification ; exécution fréquente via [[llama-cpp]] et [[ollama]].
- **Accès** : certains dépôts Hugging Face sont *gated* et demandent l’acceptation préalable des conditions d’usage Google.

## Pages Liées

- [[gemma-4]]
- [[ollama]]
- [[gguf]]
- [[exl2]]
- [[llama-cpp]]
- [[quantification-llm]]