Files
wiki/entities/deepseek-v4.md
T
2026-06-12 19:26:55 +02:00

2.2 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
DeepSeek V4 2026-06-11 2026-06-11 entity
model
architecture
open-source
chinese
web research
high false

🧊 DeepSeek V4

Quatrième génération de modèles MoE par DeepSeek, publiée en preview le 24 avril 2026. Remplace l'architecture MLA par une attention hybride CSA/HCA, introduit les Manifold-Constrained Hyper-Connections (mHC) et un routage bootstrap par hash. Deux tailles : Pro (1.6T params, 49B actifs) et Flash (284B params, 13B actifs), toutes deux avec 1M tokens de contexte.

Spécifications

Version Paramètres totaux Actifs Contexte Sortie max
V4-Pro 1.6T 49B 1M tokens 384K tokens
V4-Flash 284B 13B 1M tokens 384K tokens

Architecture

  • Attention : Hybride CSA (Compressed Sparse Attention) + HCA (Heavily Compressed Attention) — alterne par couche
  • MoE : Routage top-k standard avec Sqrt(Softplus(·)) au lieu de Sigmoid, expert partagé parallèle, clamped SwiGLU
  • Hyper-Connections : mHC remplace les résiduelles — hc_mult flux parallèles [B, S, hc_mult, D]
  • Hash MoE : Premières 3 couches utilisent un lookup statique token-id → expert-id (bootstrap)
  • Précision : FP4 pour poids experts MoE, FP8 pour le reste ; indexeur CSA en FP4
  • Support quantification : gguf et exl2

Performances (V4-Pro Max)

  • SWE-Bench Verified : 80.6% (à 0.2 pt de Claude Opus 4.6)
  • Terminal-Bench 2.0 : 67.9% | LiveCodeBench : 93.5% | Codeforces : 3206 (~23e humain)
  • MCP-Atlas Public : 73.6 (2e derrière Opus 4.6)
  • GPQA Diamond : 90.1 | HLE : 37.7% | SimpleQA-Verified : 57.9%
  • MRCR (1M ctx) : 66% retrieval accuracy à 1M tokens ; 94% à 128K
  • Consommation KV cache : 10% de V3.2 pour Pro, 7% pour Flash

Licence & Disponibilité

  • Licence : MIT (poids ouverts)
  • Checkpoints : deepseek-ai/DeepSeek-V4-Pro / Flash (+ variantes Base) sur Hugging Face
  • API : api-docs.deepseek.com — $0.14/$0.28 par M tokens (cache hit : $0.0028)
  • Périphérie : OpenRouter, DeepSeek Platform, Novita AI, Microsoft Foundry

Pages Liées

deepseek-v4-flash llama-3-1 mistral qwen-3-7 gguf exl2 mit