🧊 DeepSeek V4

Quatrième génération de modèles MoE par DeepSeek, publiée en preview le 24 avril 2026. Remplace l'architecture MLA par une attention hybride CSA/HCA, introduit les Manifold-Constrained Hyper-Connections (mHC) et un routage bootstrap par hash. Deux tailles : Pro (1.6T params, 49B actifs) et Flash (284B params, 13B actifs), toutes deux avec 1M tokens de contexte.

Spécifications

Version	Paramètres totaux	Actifs	Contexte	Sortie max
V4-Pro	1.6T	49B	1M tokens	384K tokens
V4-Flash	284B	13B	1M tokens	384K tokens

Architecture

Attention : Hybride CSA (Compressed Sparse Attention) + HCA (Heavily Compressed Attention) — alterne par couche
MoE : Routage top-k standard avec Sqrt(Softplus(·)) au lieu de Sigmoid, expert partagé parallèle, clamped SwiGLU
Hyper-Connections : mHC remplace les résiduelles — hc_mult flux parallèles [B, S, hc_mult, D]
Hash MoE : Premières 3 couches utilisent un lookup statique token-id → expert-id (bootstrap)
Précision : FP4 pour poids experts MoE, FP8 pour le reste ; indexeur CSA en FP4
Support quantification : gguf et exl2

Performances (V4-Pro Max)

SWE-Bench Verified : 80.6% (à 0.2 pt de Claude Opus 4.6)
Terminal-Bench 2.0 : 67.9% | LiveCodeBench : 93.5% | Codeforces : 3206 (~23e humain)
MCP-Atlas Public : 73.6 (2e derrière Opus 4.6)
GPQA Diamond : 90.1 | HLE : 37.7% | SimpleQA-Verified : 57.9%
MRCR (1M ctx) : 66% retrieval accuracy à 1M tokens ; 94% à 128K
Consommation KV cache : 10% de V3.2 pour Pro, 7% pour Flash

Licence & Disponibilité

Licence : MIT (poids ouverts)
Checkpoints : deepseek-ai/DeepSeek-V4-Pro / Flash (+ variantes Base) sur Hugging Face
API : api-docs.deepseek.com — $0.14/$0.28 par M tokens (cache hit : $0.0028)
Périphérie : OpenRouter, DeepSeek Platform, Novita AI, Microsoft Foundry

Pages Liées

deepseek-v4-flash llama-3-1 mistral qwen-3-7 gguf exl2 mit

2.2 KiB Raw Blame History