Modèle de raisonnement open-weight de DeepSeek, publié en janvier 2025. Il reprend la base MoE de la lignée V3, puis ajoute une chaîne d'entraînement orientée raisonnement avec cold start, SFT et RL. Il est surtout connu pour avoir popularisé un positionnement « open o1-like » sur les tâches de maths, code et raisonnement long.
Spécifications
Élément
Valeur
Paramètres totaux
671B (≈685B affichés sur Hugging Face)
Paramètres actifs
37B
Contexte
128K tokens
Génération max recommandée
32 768 tokens
Famille
Modèle de raisonnement dérivé de DeepSeek V3
Architecture
Type : transformer-architecture de type MoE, avec architecture de base partagée avec la série V3
Entraînement : pipeline en 4 étapes : cold-start SFT, RL orienté raisonnement, SFT par rejet/curation, puis RL d'alignement plus général
Origine technique : DeepSeek indique que R1 est construit sur DeepSeek-V3-Base
Particularité : privilégie le zéro-shot ; le papier note que le few-shot peut dégrader les performances
Écosystème : a servi de source de distillation pour plusieurs variantes Qwen et Llama