Version efficiency-optimized de DeepSeek V4, avec 284B paramètres totaux et 13B activés par token. Conçue pour l'inférence rapide et les workloads à haut débit tout en maintenant des performances solides en raisonnement et codage. Utilisée par défaut sur les routes deepseek-chat et deepseek-reasoner (API legacy, retrait au 24 juillet 2026).
Spécifications
Version
Paramètres totaux
Actifs
Contexte
Sortie max
V4-Flash
284B
13B
1M tokens
384K tokens
V4-Flash-Base
284B
13B
1M tokens
—
Architecture
Même architecture que V4-Pro : Attention hybride CSA/HCA, mHC, MoE avec Sqrt(Softplus), clamped SwiGLU, hash bootstrap
Précision : FP4 + FP8 mixte (FP4 pour experts MoE, FP8 pour le reste)
Modes raisonnement : thinking (high) et xhigh (max reasoning) supportés