Files
wiki/entities/deepseek-v4-flash.md
2026-06-12 19:26:55 +02:00

2.0 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
DeepSeek V4 Flash 2026-06-11 2026-06-11 entity
model
architecture
open-source
chinese
web research
high false

DeepSeek V4 Flash

Version efficiency-optimized de DeepSeek V4, avec 284B paramètres totaux et 13B activés par token. Conçue pour l'inférence rapide et les workloads à haut débit tout en maintenant des performances solides en raisonnement et codage. Utilisée par défaut sur les routes deepseek-chat et deepseek-reasoner (API legacy, retrait au 24 juillet 2026).

Spécifications

Version Paramètres totaux Actifs Contexte Sortie max
V4-Flash 284B 13B 1M tokens 384K tokens
V4-Flash-Base 284B 13B 1M tokens

Architecture

  • Même architecture que V4-Pro : Attention hybride CSA/HCA, mHC, MoE avec Sqrt(Softplus), clamped SwiGLU, hash bootstrap
  • Précision : FP4 + FP8 mixte (FP4 pour experts MoE, FP8 pour le reste)
  • Modes raisonnement : thinking (high) et xhigh (max reasoning) supportés
  • Support quantification : gguf et exl2
  • Compatibilité API : OpenAI ChatCompletions & Anthropic API

Performances

  • SWE-Bench Verified : 79.0% (Pro : 80.6%)
  • GPQA Diamond : 88.1 (Max) | MMLU-Pro : 86.2 (Max)
  • HLE : 34.8 (Max) vs Pro 37.7
  • SimpleQA-Verified : 34.1 (Max)
  • INFERENCE FLOPs : 10% de V3.2 — extrêmement efficace pour 1M tokens

Licence & Disponibilité

  • Licence : MIT (poids ouverts) — mit
  • Checkpoints : deepseek-ai/DeepSeek-V4-Flash sur Hugging Face (~160 GB)
  • API :
    • DeepSeek Platform : $0.14/$0.28 par M tokens
    • OpenRouter (meilleur prix) : $0.0983/$0.1966 par M tokens — deepseek/deepseek-v4-flash
  • Fournisseurs : DeepSeek, OpenRouter, Novita AI, Microsoft Foundry, Vercel AI Gateway
  • Inférence locale : vLLM, SGLang supportés

Pages Liées

deepseek-v4 llama-3-1 mistral gguf exl2 mit ollama