⚡ DeepSeek V4 Flash

Version efficiency-optimized de DeepSeek V4, avec 284B paramètres totaux et 13B activés par token. Conçue pour l'inférence rapide et les workloads à haut débit tout en maintenant des performances solides en raisonnement et codage. Utilisée par défaut sur les routes deepseek-chat et deepseek-reasoner (API legacy, retrait au 24 juillet 2026).

Spécifications

Version	Paramètres totaux	Actifs	Contexte	Sortie max
V4-Flash	284B	13B	1M tokens	384K tokens
V4-Flash-Base	284B	13B	1M tokens	—

Architecture

Même architecture que V4-Pro : Attention hybride CSA/HCA, mHC, MoE avec Sqrt(Softplus), clamped SwiGLU, hash bootstrap
Précision : FP4 + FP8 mixte (FP4 pour experts MoE, FP8 pour le reste)
Modes raisonnement : thinking (high) et xhigh (max reasoning) supportés
Support quantification : gguf et exl2
Compatibilité API : OpenAI ChatCompletions & Anthropic API

Performances

SWE-Bench Verified : 79.0% (Pro : 80.6%)
GPQA Diamond : 88.1 (Max) | MMLU-Pro : 86.2 (Max)
HLE : 34.8 (Max) vs Pro 37.7
SimpleQA-Verified : 34.1 (Max)
INFERENCE FLOPs : 10% de V3.2 — extrêmement efficace pour 1M tokens

Licence & Disponibilité

Licence : MIT (poids ouverts) — mit
Checkpoints : deepseek-ai/DeepSeek-V4-Flash sur Hugging Face (~160 GB)
API :
- DeepSeek Platform : $0.14/$0.28 par M tokens
- OpenRouter (meilleur prix) : $0.0983/$0.1966 par M tokens — deepseek/deepseek-v4-flash
Fournisseurs : DeepSeek, OpenRouter, Novita AI, Microsoft Foundry, Vercel AI Gateway
Inférence locale : vLLM, SGLang supportés

Pages Liées

deepseek-v4 llama-3-1 mistral gguf exl2 mit ollama

2.0 KiB Raw Permalink Blame History