48 lines
2.5 KiB
Markdown
48 lines
2.5 KiB
Markdown
---
|
|
title: DeepSeek V3.1
|
|
created: 2026-06-11
|
|
updated: 2026-06-11
|
|
type: entity
|
|
tags: [model, hybrid-reasoning, open-source, chinese]
|
|
sources: [web research]
|
|
confidence: medium
|
|
contested: false
|
|
---
|
|
# ⚙️ DeepSeek V3.1
|
|
|
|
Modèle hybride open-weight de **DeepSeek**, lancé en août 2025. Sa particularité est d'unifier un mode *thinking* et un mode *non-thinking* dans un même checkpoint, avec sélection par *chat template*. Il vise un compromis entre vitesse, qualité générale, usage d'outils et performances agentiques.
|
|
|
|
## Spécifications
|
|
| Élément | Valeur |
|
|
|:---|:---|
|
|
| Paramètres totaux | 671B (≈685B affichés par certaines interfaces) |
|
|
| Paramètres actifs | 37B |
|
|
| Contexte | 128K tokens |
|
|
| Modes | Thinking + non-thinking dans un seul modèle |
|
|
| Date de sortie | 2025-08-21 |
|
|
|
|
## Architecture
|
|
- **Type** : [[transformer-architecture]] MoE de grande taille, post-entraîné à partir de **DeepSeek-V3.1-Base**
|
|
- **Long contexte** : extension 32K portée à **630B tokens** et extension 128K portée à **209B tokens**
|
|
- **Format numérique** : DeepSeek met en avant un entraînement en **UE8M0 FP8** pour les poids et activations
|
|
- **Mode hybride** : changement de comportement via template, sans checkpoint séparé pour le raisonnement
|
|
- **Outils** : support explicite du [[function-calling]] en mode non-thinking, plus scénarios agentiques de recherche et de code
|
|
|
|
## Performances
|
|
- **MMLU-Redux** : 91.8 en non-thinking, 93.7 en thinking
|
|
- **MMLU-Pro** : 83.7 / 84.8 ; **GPQA-Diamond** : 74.9 / 80.1
|
|
- **LiveCodeBench** : 56.4 / 74.8 ; **Aider-Polyglot** : 68.4 / 76.3
|
|
- **Codeforces Div1** : 2091 en mode thinking
|
|
- **SWE Verified (agent mode)** : 66.0 ; **SWE-bench Multilingual** : 54.5 ; **Terminal-bench** : 31.3
|
|
- **AIME 2024** : 66.3 / 93.1 ; **AIME 2025** : 49.8 / 88.4 ; **HMMT 2025** : 33.5 / 84.2
|
|
- En pratique, le mode thinking se rapproche de **DeepSeek R1 0528** tout en répondant plus vite selon DeepSeek
|
|
|
|
## Licence & Disponibilité
|
|
- **Licence** : MIT pour les poids et le dépôt officiel
|
|
- **Poids** : disponibles sur Hugging Face et ModelScope (`deepseek-ai/DeepSeek-V3.1`)
|
|
- **API** : exposé sur DeepSeek Platform et chez divers fournisseurs ; prix observés autour de **$0.56 / $1.67** par million de tokens selon Artificial Analysis
|
|
- **Positionnement** : open-weight polyvalent, plus récent que R1 et antérieur à [[deepseek-v4]] / [[deepseek-v4-flash]]
|
|
|
|
## Pages Liées
|
|
[[deepseek-r1]] [[deepseek-v4]] [[deepseek-v4-flash]] [[llama-4]] [[qwen-3-7]] [[function-calling]] [[transformer-architecture]]
|