wiki/entities/deepseek-v4-flash.md

---
title: DeepSeek V4 Flash
created: 2026-06-11
updated: 2026-06-11
type: entity
tags: [model, architecture, open-source, chinese]
sources: [web research]
confidence: high
contested: false
---
# ⚡ DeepSeek V4 Flash

Version efficiency-optimized de DeepSeek V4, avec 284B paramètres totaux et 13B activés par token. Conçue pour l'inférence rapide et les workloads à haut débit tout en maintenant des performances solides en raisonnement et codage. Utilisée par défaut sur les routes `deepseek-chat` et `deepseek-reasoner` (API legacy, retrait au 24 juillet 2026).

## Spécifications
| Version | Paramètres totaux | Actifs | Contexte | Sortie max |
|:---|:---:|:---:|:---:|:---:|
| V4-Flash | 284B | 13B | 1M tokens | 384K tokens |
| V4-Flash-Base | 284B | 13B | 1M tokens | — |

## Architecture
- **Même architecture que V4-Pro** : Attention hybride CSA/HCA, mHC, MoE avec Sqrt(Softplus), clamped SwiGLU, hash bootstrap
- **Précision** : FP4 + FP8 mixte (FP4 pour experts MoE, FP8 pour le reste)
- **Modes raisonnement** : `thinking` (high) et `xhigh` (max reasoning) supportés
- **Support quantification** : [[gguf]] et [[exl2]]
- **Compatibilité API** : OpenAI ChatCompletions & Anthropic API

## Performances
- **SWE-Bench Verified** : 79.0% (Pro : 80.6%)
- **GPQA Diamond** : 88.1 (Max) | **MMLU-Pro** : 86.2 (Max)
- **HLE** : 34.8 (Max) vs Pro 37.7
- **SimpleQA-Verified** : 34.1 (Max)
- **INFERENCE FLOPs** : 10% de V3.2 — extrêmement efficace pour 1M tokens

## Licence & Disponibilité
- **Licence** : MIT (poids ouverts) — [[mit]]
- **Checkpoints** : `deepseek-ai/DeepSeek-V4-Flash` sur Hugging Face (~160 GB)
- **API** :
  - DeepSeek Platform : $0.14/$0.28 par M tokens
  - OpenRouter (meilleur prix) : $0.0983/$0.1966 par M tokens — `deepseek/deepseek-v4-flash`
- **Fournisseurs** : DeepSeek, OpenRouter, Novita AI, Microsoft Foundry, Vercel AI Gateway
- **Inférence locale** : vLLM, SGLang supportés

## Pages Liées
[[deepseek-v4]] [[llama-3-1]] [[mistral]] [[gguf]] [[exl2]] [[mit]] [[ollama]]