Files
wiki/concepts/reinforcement-learning.md
T
2026-06-09 18:40:21 +02:00

2.0 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Reinforcement Learning (RL) 2026-06-06 2026-06-06 concept
IA
ML
training
high false
synthesized

🎮 Reinforcement Learning (RL)

Définition Courte

Paradigme d'apprentissage automatique où un agent apprend à prendre des décisions en interagissant avec un environnement, en maximisant une récompense cumulée.

Explication Détaillée

Les 4 concepts clés :

  • Agent : le décideur (le modèle, le robot, le joueur).
  • Environment : le monde dans lequel il évolue.
  • State : la situation actuelle observée.
  • Action : ce que l'agent peut faire.
  • Reward : signal positif/négatif après une action.

Algorithmes majeurs :

  • Q-Learning / DQN : apprendre une fonction de valeur.
  • Policy Gradient (REINFORCE) : optimiser directement la politique.
  • PPO (Proximal Policy Optimization) : standard en RLHF.
  • A3C, SAC, TD3 : variantes pour des cas spécifiques.

RL + LLM :

  • RLHF (RL from Human Feedback) : aligner le modèle sur les préférences humaines.
  • DPO (Direct Preference Optimization) : alternative plus simple, sans RL explicite.
  • GRPO (Group Relative Policy Optimization) : utilisé par DeepSeek-R1.
  • RLAIF : remplacer les humains par un autre LLM comme "juge".

Cas d'Usage

  • Jeux (AlphaGo, AlphaStar, OpenAI Five).
  • Robotique (locomotion, manipulation).
  • Trading algorithmique.
  • Alignement des LLM (cf. nouveautes-ia-par-mois).
  • Optimisation de ressources (data center cooling, Google).

Outils Liés

  • Stable Baselines3 (Python).
  • Ray RLlib (distribué).
  • Gymnasium (anciennement OpenAI Gym, environnements).
  • TRL (Hugging Face, RLHF pour LLM).

Pages Liées

Questions Ouvertes

  • Le RL pur a-t-il un avenir face à l'apprentissage auto-supervisé à grande échelle ?
  • DPO va-t-il totalement remplacer RLHF ?