wiki: 2026-06-12_1926
This commit is contained in:
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: GLM-5
|
||||
created: 2026-06-11
|
||||
updated: 2026-06-11
|
||||
type: entity
|
||||
tags: [model, architecture, open-source, chinese]
|
||||
sources: [web research]
|
||||
confidence: high
|
||||
contested: false
|
||||
---
|
||||
# 🧬 GLM-5
|
||||
|
||||
Modèle de fondation de Zhipu AI (Beijing), ciblant l'ingénierie de systèmes complexes et les tâches agentiques longue durée. Succède à GLM-4.5/4.7 avec une architecture MoE de 744B paramètres (40B actifs), entraîné sur 28.5T tokens et publié sous licence MIT. Meilleur open-source mondial sur raisonnement, codage et agentic au moment de sa sortie (février 2026).
|
||||
|
||||
## Spécifications
|
||||
| Version | Paramètres totaux | Actifs | Contexte | Précision |
|
||||
|:---|:---:|:---:|:---:|:---:|
|
||||
| GLM-5 | 744B | 40B | 205K tokens | BF16 |
|
||||
| GLM-5-FP8 | 744B | 40B | 205K tokens | FP8 |
|
||||
| GLM-5.1 | 744B | 40B | 205K tokens | BF16 (amélioré) |
|
||||
|
||||
## Architecture
|
||||
- **Type** : Mixture of Experts (MoE) — 256 experts, 80 couches
|
||||
- **Attention** : DeepSeek Sparse Attention (DSA) — intègre l'innovation d'attention sparse de DeepSeek pour réduire coûts
|
||||
- **Post-training** : Infrastructure RL asynchrone `slime` — SFT + RL (GRPO) + distillation on-policy
|
||||
- **Entraînement** : 28.5T tokens de pré-entraînement
|
||||
- **Support quantification** : [[gguf]] et [[exl2]]
|
||||
|
||||
## Performances
|
||||
- **HLE** : 30.5 | **HLE (w/ Tools)** : 50.4 | **GPQA Diamond** : 86.0
|
||||
- **AIME 2026 I** : 92.7 | **HMMT Nov 2025** : 96.9
|
||||
- **SWE-bench Verified** : 77.8 | **SWE-bench Multilingual** : 73.3
|
||||
- **Terminal-Bench 2.0** : 56.2 / 60.7 | **CyberGym** : 43.2
|
||||
- **BrowseComp** : 62.0 | **τ²-Bench** : 89.7 | **MCP-Atlas** : 67.8
|
||||
- **Vending Bench 2** : $4,432 (n°1 open-source, ~95% de Claude Opus 4.5)
|
||||
- Meilleur open-source mondial à sa sortie, devant DeepSeek-V3.2 et Kimi K2.5
|
||||
|
||||
## Licence & Disponibilité
|
||||
- **Licence** : MIT (poids ouverts) — [[mit]]
|
||||
- **Checkpoints** : `zai-org/GLM-5` sur Hugging Face et ModelScope
|
||||
- **API** : api.z.ai, BigModel.cn, NVIDIA NIM
|
||||
- **Inférence locale** : vLLM, SGLang supportés
|
||||
- **Intégration** : Compatible Claude Code et OpenClaw
|
||||
|
||||
## Pages Liées
|
||||
[[deepseek-v4]] [[llama-3-1]] [[mistral]] [[phi-3-5]] [[gguf]] [[exl2]] [[mit]]
|
||||
Reference in New Issue
Block a user