🧠 DeepSeek R1

Modèle de raisonnement open-weight de DeepSeek, publié en janvier 2025. Il reprend la base MoE de la lignée V3, puis ajoute une chaîne d'entraînement orientée raisonnement avec cold start, SFT et RL. Il est surtout connu pour avoir popularisé un positionnement « open o1-like » sur les tâches de maths, code et raisonnement long.

Spécifications

Élément	Valeur
Paramètres totaux	671B (≈685B affichés sur Hugging Face)
Paramètres actifs	37B
Contexte	128K tokens
Génération max recommandée	32 768 tokens
Famille	Modèle de raisonnement dérivé de DeepSeek V3

Architecture

Type : transformer-architecture de type MoE, avec architecture de base partagée avec la série V3
Entraînement : pipeline en 4 étapes : cold-start SFT, RL orienté raisonnement, SFT par rejet/curation, puis RL d'alignement plus général
Origine technique : DeepSeek indique que R1 est construit sur DeepSeek-V3-Base
Particularité : privilégie le zéro-shot ; le papier note que le few-shot peut dégrader les performances
Écosystème : a servi de source de distillation pour plusieurs variantes Qwen et Llama

Performances

MMLU : 90.8 ; MMLU-Pro : 84.0 ; GPQA-Diamond : 71.5
AIME 2024 : 79.8 ; MATH-500 : 97.3 ; CNMO 2024 : 78.8
LiveCodeBench (Pass@1-COT) : 65.9 ; Codeforces : 96.3 percentile / 2029 Elo
SWE Verified : 49.2 ; Aider-Polyglot : 53.3
AlpacaEval 2.0 : 87.6 ; ArenaHard : 92.3
Se positionne comme référence ouverte antérieure à deepseek-v4 et reste souvent comparé à llama-4 et qwen-3-7

Licence & Disponibilité

Licence : MIT pour le dépôt et les poids ; usage commercial autorisé selon la documentation officielle
Poids : disponibles sur Hugging Face (deepseek-ai/DeepSeek-R1) ; variantes distillées publiées séparément
API : diffusé via DeepSeek Platform et plusieurs agrégateurs ; contexte API souvent étendu selon le fournisseur
Disponibilité : modèle ouvert, exploitable en self-hosting via vLLM, SGLang et autres stacks compatibles

Pages Liées

deepseek-v4 deepseek-v4-flash llama-4 qwen-3-7 function-calling transformer-architecture

2.5 KiB Raw Blame History