wiki: 2026-06-12_1926
This commit is contained in:
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: DeepSeek R1
|
||||
created: 2026-06-11
|
||||
updated: 2026-06-11
|
||||
type: entity
|
||||
tags: [model, reasoning, open-source, chinese]
|
||||
sources: [web research]
|
||||
confidence: medium
|
||||
contested: false
|
||||
---
|
||||
# 🧠 DeepSeek R1
|
||||
|
||||
Modèle de raisonnement open-weight de **DeepSeek**, publié en janvier 2025. Il reprend la base MoE de la lignée V3, puis ajoute une chaîne d'entraînement orientée raisonnement avec *cold start*, SFT et RL. Il est surtout connu pour avoir popularisé un positionnement « open o1-like » sur les tâches de maths, code et raisonnement long.
|
||||
|
||||
## Spécifications
|
||||
| Élément | Valeur |
|
||||
|:---|:---|
|
||||
| Paramètres totaux | 671B (≈685B affichés sur Hugging Face) |
|
||||
| Paramètres actifs | 37B |
|
||||
| Contexte | 128K tokens |
|
||||
| Génération max recommandée | 32 768 tokens |
|
||||
| Famille | Modèle de raisonnement dérivé de DeepSeek V3 |
|
||||
|
||||
## Architecture
|
||||
- **Type** : [[transformer-architecture]] de type MoE, avec architecture de base partagée avec la série V3
|
||||
- **Entraînement** : pipeline en 4 étapes : *cold-start SFT*, RL orienté raisonnement, SFT par rejet/curation, puis RL d'alignement plus général
|
||||
- **Origine technique** : DeepSeek indique que R1 est construit sur **DeepSeek-V3-Base**
|
||||
- **Particularité** : privilégie le zéro-shot ; le papier note que le few-shot peut dégrader les performances
|
||||
- **Écosystème** : a servi de source de distillation pour plusieurs variantes Qwen et Llama
|
||||
|
||||
## Performances
|
||||
- **MMLU** : 90.8 ; **MMLU-Pro** : 84.0 ; **GPQA-Diamond** : 71.5
|
||||
- **AIME 2024** : 79.8 ; **MATH-500** : 97.3 ; **CNMO 2024** : 78.8
|
||||
- **LiveCodeBench (Pass@1-COT)** : 65.9 ; **Codeforces** : 96.3 percentile / 2029 Elo
|
||||
- **SWE Verified** : 49.2 ; **Aider-Polyglot** : 53.3
|
||||
- **AlpacaEval 2.0** : 87.6 ; **ArenaHard** : 92.3
|
||||
- Se positionne comme référence ouverte antérieure à [[deepseek-v4]] et reste souvent comparé à [[llama-4]] et [[qwen-3-7]]
|
||||
|
||||
## Licence & Disponibilité
|
||||
- **Licence** : MIT pour le dépôt et les poids ; usage commercial autorisé selon la documentation officielle
|
||||
- **Poids** : disponibles sur Hugging Face (`deepseek-ai/DeepSeek-R1`) ; variantes distillées publiées séparément
|
||||
- **API** : diffusé via DeepSeek Platform et plusieurs agrégateurs ; contexte API souvent étendu selon le fournisseur
|
||||
- **Disponibilité** : modèle ouvert, exploitable en self-hosting via vLLM, SGLang et autres stacks compatibles
|
||||
|
||||
## Pages Liées
|
||||
[[deepseek-v4]] [[deepseek-v4-flash]] [[llama-4]] [[qwen-3-7]] [[function-calling]] [[transformer-architecture]]
|
||||
Reference in New Issue
Block a user