--- title: DeepSeek V4 Flash created: 2026-06-11 updated: 2026-06-11 type: entity tags: [model, architecture, open-source, chinese] sources: [web research] confidence: high contested: false --- # ⚡ DeepSeek V4 Flash Version efficiency-optimized de DeepSeek V4, avec 284B paramètres totaux et 13B activés par token. Conçue pour l'inférence rapide et les workloads à haut débit tout en maintenant des performances solides en raisonnement et codage. Utilisée par défaut sur les routes `deepseek-chat` et `deepseek-reasoner` (API legacy, retrait au 24 juillet 2026). ## Spécifications | Version | Paramètres totaux | Actifs | Contexte | Sortie max | |:---|:---:|:---:|:---:|:---:| | V4-Flash | 284B | 13B | 1M tokens | 384K tokens | | V4-Flash-Base | 284B | 13B | 1M tokens | — | ## Architecture - **Même architecture que V4-Pro** : Attention hybride CSA/HCA, mHC, MoE avec Sqrt(Softplus), clamped SwiGLU, hash bootstrap - **Précision** : FP4 + FP8 mixte (FP4 pour experts MoE, FP8 pour le reste) - **Modes raisonnement** : `thinking` (high) et `xhigh` (max reasoning) supportés - **Support quantification** : [[gguf]] et [[exl2]] - **Compatibilité API** : OpenAI ChatCompletions & Anthropic API ## Performances - **SWE-Bench Verified** : 79.0% (Pro : 80.6%) - **GPQA Diamond** : 88.1 (Max) | **MMLU-Pro** : 86.2 (Max) - **HLE** : 34.8 (Max) vs Pro 37.7 - **SimpleQA-Verified** : 34.1 (Max) - **INFERENCE FLOPs** : 10% de V3.2 — extrêmement efficace pour 1M tokens ## Licence & Disponibilité - **Licence** : MIT (poids ouverts) — [[mit]] - **Checkpoints** : `deepseek-ai/DeepSeek-V4-Flash` sur Hugging Face (~160 GB) - **API** : - DeepSeek Platform : $0.14/$0.28 par M tokens - OpenRouter (meilleur prix) : $0.0983/$0.1966 par M tokens — `deepseek/deepseek-v4-flash` - **Fournisseurs** : DeepSeek, OpenRouter, Novita AI, Microsoft Foundry, Vercel AI Gateway - **Inférence locale** : vLLM, SGLang supportés ## Pages Liées [[deepseek-v4]] [[llama-3-1]] [[mistral]] [[gguf]] [[exl2]] [[mit]] [[ollama]]