--- title: Reinforcement Learning (RL) created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, ML, training] confidence: high contested: false sources: [synthesized] --- # 🎮 Reinforcement Learning (RL) ## Définition Courte Paradigme d'apprentissage automatique où un **agent** apprend à prendre des décisions en **interagissant avec un environnement**, en maximisant une **récompense** cumulée. ## Explication Détaillée **Les 4 concepts clés** : - **Agent** : le décideur (le modèle, le robot, le joueur). - **Environment** : le monde dans lequel il évolue. - **State** : la situation actuelle observée. - **Action** : ce que l'agent peut faire. - **Reward** : signal positif/négatif après une action. **Algorithmes majeurs** : - **Q-Learning / DQN** : apprendre une fonction de valeur. - **Policy Gradient (REINFORCE)** : optimiser directement la politique. - **PPO** (Proximal Policy Optimization) : standard en RLHF. - **A3C, SAC, TD3** : variantes pour des cas spécifiques. **RL + LLM** : - **RLHF** (RL from Human Feedback) : aligner le modèle sur les préférences humaines. - **DPO** (Direct Preference Optimization) : alternative plus simple, sans RL explicite. - **GRPO** (Group Relative Policy Optimization) : utilisé par DeepSeek-R1. - **RLAIF** : remplacer les humains par un autre LLM comme "juge". ## Cas d'Usage - Jeux (AlphaGo, AlphaStar, OpenAI Five). - Robotique (locomotion, manipulation). - Trading algorithmique. - Alignement des LLM (cf. [[nouveautes-ia-par-mois]]). - Optimisation de ressources (data center cooling, Google). ## Outils Liés - **Stable Baselines3** (Python). - **Ray RLlib** (distribué). - **Gymnasium** (anciennement OpenAI Gym, environnements). - **TRL** (Hugging Face, RLHF pour LLM). ## Pages Liées - [[fine-tuning]] - [[lora]] - [[prompt-engineering]] - [[glossaire-ia]] - [[transformer-architecture]] ## Questions Ouvertes - Le RL pur a-t-il un avenir face à l'apprentissage auto-supervisé à grande échelle ? - DPO va-t-il totalement remplacer RLHF ?