wiki: 2026-06-12_1926

2026-06-12 19:26:55 +02:00
parent 250bc8bef6
commit e7b0b6c1be
30 changed files with 1710 additions and 3 deletions
@@ -0,0 +1,58 @@
+---
+title: Gemma 4
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🟢 Gemma 4
+
+Famille de modèles open-weights développée par Google DeepMind, offrant le meilleur rapport intelligence/paramètre avec des architectures denses et MoE, pensée pour le fine-tuning et le déploiement local.
+
+## Spécifications
+
+| Version | Paramètres (Total) | Actifs | Contexte | Usage |
+| :--- | :---: | :---: | :---: | :--- |
+| **E2B** | 5,1B | 2,3B | 128K | Mobile, IoT, Edge |
+| **E4B** | 8B | 4,5B | 128K | Mobile, Chrome, Edge |
+| **12B** (Unified) | 11,95B | 11,95B | 256K | Workstation, IDEs |
+| **26B A4B** (MoE) | 25,2B | 3,8B | 256K | Haute performance, Raisonnement |
+| **31B** (Dense) | 30,7B | 30,7B | 256K | Local-first serveur, Agents |
+
+## Architecture
+
+- **E2B/E4B** : Modèles compacts pour appareils mobiles, avec encodeurs vision (~150M) et audio (~300M). Jusqu'à 2,9 Go en Q4.
+- **12B Unified** : Encodeur-free — projections linéaires directes des entrées multimodales. Idéal fine-tuning.
+- **26B A4B** : MoE avec 8 experts actifs sur 128 + 1 expert partagé. Slot window 1024 tokens.
+- **31B Dense** : Modèle dense puissant, encodeur vision ~550M. Performances de pointe.
+- **Thinking intégré** : Mode raisonnement pas-à-pas natif.
+- **Quantification** : Support natif [[gguf]], QAT Q4_0, SFP8, compressed-tensors, mobile-optimisé.
+- **140+ langues**, cutoff Janvier 2025.
+
+## Performances
+
+| Benchmark | 31B IT | 26B A4B IT | E4B IT | E2B IT |
+| :--- | :---: | :---: | :---: | :---: |
+| MMMLU (multilingue) | 85,2 % | 82,6 % | 69,4 % | 60,0 % |
+| MMMU Pro (vision) | 76,9 % | 73,8 % | 52,6 % | 44,2 % |
+| AIME 2026 (maths) | 89,2 % | 88,3 % | 42,5 % | 37,5 % |
+| LiveCodeBench v6 | 80,0 % | 77,1 % | 52,0 % | 44,0 % |
+| GPQA Diamond | 84,3 % | 82,3 % | 58,6 % | 43,4 % |
+| T2-bench (agents) | 86,4 % | 85,5 % | 57,5 % | 29,4 % |
+
+## Licence & Disponibilité
+
+- Licence **Gemma** ouverte, libre pour usage commercial et fine-tuning.
+- Formats : BF16, GGUF, QAT, compressed-tensors, mobile-transformers.
+- Disponible sur Hugging Face, ai.google.dev.
+
+## Pages Liées
+
+- [[gguf]] — quantification native
+- [[exl2]] — quantification alternative
+- [[phi-3-5]] — concurrent SLM Microsoft
+- [[mistral]] — concurrent Mistral AI
+- [[llama-3-1]] — concurrent Meta