wiki: 2026-06-12_1926

2026-06-12 19:26:55 +02:00
parent 250bc8bef6
commit e7b0b6c1be
30 changed files with 1710 additions and 3 deletions
@@ -0,0 +1,63 @@
+---
+title: Gemma 3
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, multimodal]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🟢 Gemma 3
+
+Famille de modèles open-weights de **Google DeepMind**, sortie avant [[gemma-4]], conçue pour apporter de la multimodalité légère (texte + image), du long contexte et de bonnes performances sur matériel grand public. Gemma 3 couvre les tailles **1B, 4B, 12B et 27B** et reste une référence importante pour l’écosystème local et quantifié.
+
+## Spécifications
+
+| Version | Paramètres | Contexte | Modalités | Particularités |
+| :--- | :---: | :---: | :--- | :--- |
+| **1B** | ~1B | 32K | Texte | plus compact, sans encodeur vision |
+| **4B** | ~4,3B avec vision | 128K | Texte, image | bon compromis local |
+| **12B** | ~11,8B avec vision | 128K | Texte, image | usage workstation |
+| **27B** | ~27B avec vision | 128K | Texte, image | variante la plus performante |
+
+- **Vocabulaire** : 262K tokens
+- **Langues** : 140+ langues
+- **Entrées image** : images normalisées en **896×896**, encodées en **256 tokens**
+- **Sortie** : texte uniquement
+- **Date de sortie initiale** : 10 mars 2025
+- **Knowledge cutoff** : août 2024
+
+## Architecture
+
+- **Type** : Transformer décodeur-only avec **GQA**, **RMSNorm** et **QK-norm**.
+- **Attention hybride** : alternance de **5 couches locales** pour **1 couche globale** afin de réduire l’explosion du **KV cache** en long contexte.
+- **Fenêtre locale** : **1024 tokens** sur les couches locales ; seules les couches globales voient tout le contexte.
+- **RoPE** : base portée à **1M** sur l’attention globale pour supporter 128K tokens.
+- **Vision** : encodeur **SigLIP ~417M** partagé sur 4B/12B/27B, gelé pendant l’entraînement.
+- **Pan & Scan** : stratégie d’inférence pour mieux gérer les documents, images non carrées et petits détails.
+- **Quantification / déploiement** : très présent dans l’écosystème [[gguf]], [[exl2]], [[llama-cpp]], [[ollama]] et [[quantification-llm]].
+
+## Performances
+
+- **27B IT** atteint notamment **42,4** sur **GPQA Diamond**, **87,6** sur **BIG-Bench Hard**, **90,4** sur **IFEval** et **29,7** sur **LiveCodeBench**.
+- **27B IT** obtient **87,8** sur **HumanEval**, **95,9** sur **GSM8K** et **89,0** sur **MATH**.
+- **4B IT** est souvent présenté par Google comme compétitif face à **Gemma 2 27B IT** sur plusieurs usages instruction-tunés.
+- **27B IT** est positionné par Google comme comparable à **Gemini 1.5 Pro** sur plusieurs benchmarks internes/rapportés au moment de la sortie.
+- Par rapport à [[gemma-4]], Gemma 3 reste moins agentique et moins performante, mais demeure plus simple à comprendre, à fine-tuner et à diffuser dans l’écosystème open-weight.
+
+## Licence & Disponibilité
+
+- **Licence** : licence **Gemma** (poids ouverts, usage soumis aux *Gemma Terms of Use* ; ce n’est pas une licence Apache 2.0 pour Gemma 3).
+- **Distribution** : Google AI for Developers, Kaggle, Hugging Face.
+- **Formats dérivés** : nombreuses conversions communautaires en [[gguf]] et autres formats de quantification ; exécution fréquente via [[llama-cpp]] et [[ollama]].
+- **Accès** : certains dépôts Hugging Face sont *gated* et demandent l’acceptation préalable des conditions d’usage Google.
+
+## Pages Liées
+
+- [[gemma-4]]
+- [[ollama]]
+- [[gguf]]
+- [[exl2]]
+- [[llama-cpp]]
+- [[quantification-llm]]