2.0 KiB
2.0 KiB
title, created, updated, type, tags, confidence, contested, sources
| title | created | updated | type | tags | confidence | contested | sources | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Reinforcement Learning (RL) | 2026-06-06 | 2026-06-06 | concept |
|
high | false |
|
🎮 Reinforcement Learning (RL)
Définition Courte
Paradigme d'apprentissage automatique où un agent apprend à prendre des décisions en interagissant avec un environnement, en maximisant une récompense cumulée.
Explication Détaillée
Les 4 concepts clés :
- Agent : le décideur (le modèle, le robot, le joueur).
- Environment : le monde dans lequel il évolue.
- State : la situation actuelle observée.
- Action : ce que l'agent peut faire.
- Reward : signal positif/négatif après une action.
Algorithmes majeurs :
- Q-Learning / DQN : apprendre une fonction de valeur.
- Policy Gradient (REINFORCE) : optimiser directement la politique.
- PPO (Proximal Policy Optimization) : standard en RLHF.
- A3C, SAC, TD3 : variantes pour des cas spécifiques.
RL + LLM :
- RLHF (RL from Human Feedback) : aligner le modèle sur les préférences humaines.
- DPO (Direct Preference Optimization) : alternative plus simple, sans RL explicite.
- GRPO (Group Relative Policy Optimization) : utilisé par DeepSeek-R1.
- RLAIF : remplacer les humains par un autre LLM comme "juge".
Cas d'Usage
- Jeux (AlphaGo, AlphaStar, OpenAI Five).
- Robotique (locomotion, manipulation).
- Trading algorithmique.
- Alignement des LLM (cf. nouveautes-ia-par-mois).
- Optimisation de ressources (data center cooling, Google).
Outils Liés
- Stable Baselines3 (Python).
- Ray RLlib (distribué).
- Gymnasium (anciennement OpenAI Gym, environnements).
- TRL (Hugging Face, RLHF pour LLM).
Pages Liées
Questions Ouvertes
- Le RL pur a-t-il un avenir face à l'apprentissage auto-supervisé à grande échelle ?
- DPO va-t-il totalement remplacer RLHF ?