Modèle hybride open-weight de DeepSeek, lancé en août 2025. Sa particularité est d'unifier un mode thinking et un mode non-thinking dans un même checkpoint, avec sélection par chat template. Il vise un compromis entre vitesse, qualité générale, usage d'outils et performances agentiques.
Spécifications
Élément
Valeur
Paramètres totaux
671B (≈685B affichés par certaines interfaces)
Paramètres actifs
37B
Contexte
128K tokens
Modes
Thinking + non-thinking dans un seul modèle
Date de sortie
2025-08-21
Architecture
Type : transformer-architecture MoE de grande taille, post-entraîné à partir de DeepSeek-V3.1-Base
Long contexte : extension 32K portée à 630B tokens et extension 128K portée à 209B tokens
Format numérique : DeepSeek met en avant un entraînement en UE8M0 FP8 pour les poids et activations
Mode hybride : changement de comportement via template, sans checkpoint séparé pour le raisonnement
Outils : support explicite du function-calling en mode non-thinking, plus scénarios agentiques de recherche et de code
Performances
MMLU-Redux : 91.8 en non-thinking, 93.7 en thinking