Files
wiki/entities/deepseek-v3-1.md
2026-06-12 19:26:55 +02:00

2.5 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
DeepSeek V3.1 2026-06-11 2026-06-11 entity
model
hybrid-reasoning
open-source
chinese
web research
medium false

⚙️ DeepSeek V3.1

Modèle hybride open-weight de DeepSeek, lancé en août 2025. Sa particularité est d'unifier un mode thinking et un mode non-thinking dans un même checkpoint, avec sélection par chat template. Il vise un compromis entre vitesse, qualité générale, usage d'outils et performances agentiques.

Spécifications

Élément Valeur
Paramètres totaux 671B (≈685B affichés par certaines interfaces)
Paramètres actifs 37B
Contexte 128K tokens
Modes Thinking + non-thinking dans un seul modèle
Date de sortie 2025-08-21

Architecture

  • Type : transformer-architecture MoE de grande taille, post-entraîné à partir de DeepSeek-V3.1-Base
  • Long contexte : extension 32K portée à 630B tokens et extension 128K portée à 209B tokens
  • Format numérique : DeepSeek met en avant un entraînement en UE8M0 FP8 pour les poids et activations
  • Mode hybride : changement de comportement via template, sans checkpoint séparé pour le raisonnement
  • Outils : support explicite du function-calling en mode non-thinking, plus scénarios agentiques de recherche et de code

Performances

  • MMLU-Redux : 91.8 en non-thinking, 93.7 en thinking
  • MMLU-Pro : 83.7 / 84.8 ; GPQA-Diamond : 74.9 / 80.1
  • LiveCodeBench : 56.4 / 74.8 ; Aider-Polyglot : 68.4 / 76.3
  • Codeforces Div1 : 2091 en mode thinking
  • SWE Verified (agent mode) : 66.0 ; SWE-bench Multilingual : 54.5 ; Terminal-bench : 31.3
  • AIME 2024 : 66.3 / 93.1 ; AIME 2025 : 49.8 / 88.4 ; HMMT 2025 : 33.5 / 84.2
  • En pratique, le mode thinking se rapproche de DeepSeek R1 0528 tout en répondant plus vite selon DeepSeek

Licence & Disponibilité

  • Licence : MIT pour les poids et le dépôt officiel
  • Poids : disponibles sur Hugging Face et ModelScope (deepseek-ai/DeepSeek-V3.1)
  • API : exposé sur DeepSeek Platform et chez divers fournisseurs ; prix observés autour de $0.56 / $1.67 par million de tokens selon Artificial Analysis
  • Positionnement : open-weight polyvalent, plus récent que R1 et antérieur à deepseek-v4 / deepseek-v4-flash

Pages Liées

deepseek-r1 deepseek-v4 deepseek-v4-flash llama-4 qwen-3-7 function-calling transformer-architecture