wiki/entities/gemma-4.md

---
title: Gemma 4
created: 2026-06-11
updated: 2026-06-11
type: entity
tags: [model, architecture, open-source]
sources: [web research]
confidence: high
contested: false
---
# 🟢 Gemma 4

Famille de modèles open-weights développée par Google DeepMind, offrant le meilleur rapport intelligence/paramètre avec des architectures denses et MoE, pensée pour le fine-tuning et le déploiement local.

## Spécifications

| Version | Paramètres (Total) | Actifs | Contexte | Usage |
| :--- | :---: | :---: | :---: | :--- |
| **E2B** | 5,1B | 2,3B | 128K | Mobile, IoT, Edge |
| **E4B** | 8B | 4,5B | 128K | Mobile, Chrome, Edge |
| **12B** (Unified) | 11,95B | 11,95B | 256K | Workstation, IDEs |
| **26B A4B** (MoE) | 25,2B | 3,8B | 256K | Haute performance, Raisonnement |
| **31B** (Dense) | 30,7B | 30,7B | 256K | Local-first serveur, Agents |

## Architecture

- **E2B/E4B** : Modèles compacts pour appareils mobiles, avec encodeurs vision (~150M) et audio (~300M). Jusqu'à 2,9 Go en Q4.
- **12B Unified** : Encodeur-free — projections linéaires directes des entrées multimodales. Idéal fine-tuning.
- **26B A4B** : MoE avec 8 experts actifs sur 128 + 1 expert partagé. Slot window 1024 tokens.
- **31B Dense** : Modèle dense puissant, encodeur vision ~550M. Performances de pointe.
- **Thinking intégré** : Mode raisonnement pas-à-pas natif.
- **Quantification** : Support natif [[gguf]], QAT Q4_0, SFP8, compressed-tensors, mobile-optimisé.
- **140+ langues**, cutoff Janvier 2025.

## Performances

| Benchmark | 31B IT | 26B A4B IT | E4B IT | E2B IT |
| :--- | :---: | :---: | :---: | :---: |
| MMMLU (multilingue) | 85,2 % | 82,6 % | 69,4 % | 60,0 % |
| MMMU Pro (vision) | 76,9 % | 73,8 % | 52,6 % | 44,2 % |
| AIME 2026 (maths) | 89,2 % | 88,3 % | 42,5 % | 37,5 % |
| LiveCodeBench v6 | 80,0 % | 77,1 % | 52,0 % | 44,0 % |
| GPQA Diamond | 84,3 % | 82,3 % | 58,6 % | 43,4 % |
| T2-bench (agents) | 86,4 % | 85,5 % | 57,5 % | 29,4 % |

## Licence & Disponibilité

- Licence **Gemma** ouverte, libre pour usage commercial et fine-tuning.
- Formats : BF16, GGUF, QAT, compressed-tensors, mobile-transformers.
- Disponible sur Hugging Face, ai.google.dev.

## Pages Liées

- [[gguf]] — quantification native
- [[exl2]] — quantification alternative
- [[phi-3-5]] — concurrent SLM Microsoft
- [[mistral]] — concurrent Mistral AI
- [[llama-3-1]] — concurrent Meta