Files
wiki/entities/deepseek-r1.md
T
2026-06-12 19:26:55 +02:00

2.5 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
DeepSeek R1 2026-06-11 2026-06-11 entity
model
reasoning
open-source
chinese
web research
medium false

🧠 DeepSeek R1

Modèle de raisonnement open-weight de DeepSeek, publié en janvier 2025. Il reprend la base MoE de la lignée V3, puis ajoute une chaîne d'entraînement orientée raisonnement avec cold start, SFT et RL. Il est surtout connu pour avoir popularisé un positionnement « open o1-like » sur les tâches de maths, code et raisonnement long.

Spécifications

Élément Valeur
Paramètres totaux 671B (≈685B affichés sur Hugging Face)
Paramètres actifs 37B
Contexte 128K tokens
Génération max recommandée 32 768 tokens
Famille Modèle de raisonnement dérivé de DeepSeek V3

Architecture

  • Type : transformer-architecture de type MoE, avec architecture de base partagée avec la série V3
  • Entraînement : pipeline en 4 étapes : cold-start SFT, RL orienté raisonnement, SFT par rejet/curation, puis RL d'alignement plus général
  • Origine technique : DeepSeek indique que R1 est construit sur DeepSeek-V3-Base
  • Particularité : privilégie le zéro-shot ; le papier note que le few-shot peut dégrader les performances
  • Écosystème : a servi de source de distillation pour plusieurs variantes Qwen et Llama

Performances

  • MMLU : 90.8 ; MMLU-Pro : 84.0 ; GPQA-Diamond : 71.5
  • AIME 2024 : 79.8 ; MATH-500 : 97.3 ; CNMO 2024 : 78.8
  • LiveCodeBench (Pass@1-COT) : 65.9 ; Codeforces : 96.3 percentile / 2029 Elo
  • SWE Verified : 49.2 ; Aider-Polyglot : 53.3
  • AlpacaEval 2.0 : 87.6 ; ArenaHard : 92.3
  • Se positionne comme référence ouverte antérieure à deepseek-v4 et reste souvent comparé à llama-4 et qwen-3-7

Licence & Disponibilité

  • Licence : MIT pour le dépôt et les poids ; usage commercial autorisé selon la documentation officielle
  • Poids : disponibles sur Hugging Face (deepseek-ai/DeepSeek-R1) ; variantes distillées publiées séparément
  • API : diffusé via DeepSeek Platform et plusieurs agrégateurs ; contexte API souvent étendu selon le fournisseur
  • Disponibilité : modèle ouvert, exploitable en self-hosting via vLLM, SGLang et autres stacks compatibles

Pages Liées

deepseek-v4 deepseek-v4-flash llama-4 qwen-3-7 function-calling transformer-architecture