wiki: 2026-06-12_1926

2026-06-12 19:26:55 +02:00
parent 250bc8bef6
commit e7b0b6c1be
30 changed files with 1710 additions and 3 deletions
@@ -0,0 +1,46 @@
+---
+title: DeepSeek R1
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, reasoning, open-source, chinese]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# 🧠 DeepSeek R1
+
+Modèle de raisonnement open-weight de **DeepSeek**, publié en janvier 2025. Il reprend la base MoE de la lignée V3, puis ajoute une chaîne d'entraînement orientée raisonnement avec *cold start*, SFT et RL. Il est surtout connu pour avoir popularisé un positionnement « open o1-like » sur les tâches de maths, code et raisonnement long.
+
+## Spécifications
+| Élément | Valeur |
+|:---|:---|
+| Paramètres totaux | 671B (≈685B affichés sur Hugging Face) |
+| Paramètres actifs | 37B |
+| Contexte | 128K tokens |
+| Génération max recommandée | 32 768 tokens |
+| Famille | Modèle de raisonnement dérivé de DeepSeek V3 |
+
+## Architecture
+- **Type** : [[transformer-architecture]] de type MoE, avec architecture de base partagée avec la série V3
+- **Entraînement** : pipeline en 4 étapes : *cold-start SFT*, RL orienté raisonnement, SFT par rejet/curation, puis RL d'alignement plus général
+- **Origine technique** : DeepSeek indique que R1 est construit sur **DeepSeek-V3-Base**
+- **Particularité** : privilégie le zéro-shot ; le papier note que le few-shot peut dégrader les performances
+- **Écosystème** : a servi de source de distillation pour plusieurs variantes Qwen et Llama
+
+## Performances
+- **MMLU** : 90.8 ; **MMLU-Pro** : 84.0 ; **GPQA-Diamond** : 71.5
+- **AIME 2024** : 79.8 ; **MATH-500** : 97.3 ; **CNMO 2024** : 78.8
+- **LiveCodeBench (Pass@1-COT)** : 65.9 ; **Codeforces** : 96.3 percentile / 2029 Elo
+- **SWE Verified** : 49.2 ; **Aider-Polyglot** : 53.3
+- **AlpacaEval 2.0** : 87.6 ; **ArenaHard** : 92.3
+- Se positionne comme référence ouverte antérieure à [[deepseek-v4]] et reste souvent comparé à [[llama-4]] et [[qwen-3-7]]
+
+## Licence & Disponibilité
+- **Licence** : MIT pour le dépôt et les poids ; usage commercial autorisé selon la documentation officielle
+- **Poids** : disponibles sur Hugging Face (`deepseek-ai/DeepSeek-R1`) ; variantes distillées publiées séparément
+- **API** : diffusé via DeepSeek Platform et plusieurs agrégateurs ; contexte API souvent étendu selon le fournisseur
+- **Disponibilité** : modèle ouvert, exploitable en self-hosting via vLLM, SGLang et autres stacks compatibles
+
+## Pages Liées
+[[deepseek-v4]] [[deepseek-v4-flash]] [[llama-4]] [[qwen-3-7]] [[function-calling]] [[transformer-architecture]]