Files
wiki/concepts/reinforcement-learning.md
T
2026-06-09 18:40:21 +02:00

59 lines
2.0 KiB
Markdown

---
title: Reinforcement Learning (RL)
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, ML, training]
confidence: high
contested: false
sources: [synthesized]
---
# 🎮 Reinforcement Learning (RL)
## Définition Courte
Paradigme d'apprentissage automatique où un **agent** apprend à prendre des décisions en **interagissant avec un environnement**, en maximisant une **récompense** cumulée.
## Explication Détaillée
**Les 4 concepts clés** :
- **Agent** : le décideur (le modèle, le robot, le joueur).
- **Environment** : le monde dans lequel il évolue.
- **State** : la situation actuelle observée.
- **Action** : ce que l'agent peut faire.
- **Reward** : signal positif/négatif après une action.
**Algorithmes majeurs** :
- **Q-Learning / DQN** : apprendre une fonction de valeur.
- **Policy Gradient (REINFORCE)** : optimiser directement la politique.
- **PPO** (Proximal Policy Optimization) : standard en RLHF.
- **A3C, SAC, TD3** : variantes pour des cas spécifiques.
**RL + LLM** :
- **RLHF** (RL from Human Feedback) : aligner le modèle sur les préférences humaines.
- **DPO** (Direct Preference Optimization) : alternative plus simple, sans RL explicite.
- **GRPO** (Group Relative Policy Optimization) : utilisé par DeepSeek-R1.
- **RLAIF** : remplacer les humains par un autre LLM comme "juge".
## Cas d'Usage
- Jeux (AlphaGo, AlphaStar, OpenAI Five).
- Robotique (locomotion, manipulation).
- Trading algorithmique.
- Alignement des LLM (cf. [[nouveautes-ia-par-mois]]).
- Optimisation de ressources (data center cooling, Google).
## Outils Liés
- **Stable Baselines3** (Python).
- **Ray RLlib** (distribué).
- **Gymnasium** (anciennement OpenAI Gym, environnements).
- **TRL** (Hugging Face, RLHF pour LLM).
## Pages Liées
- [[fine-tuning]]
- [[lora]]
- [[prompt-engineering]]
- [[glossaire-ia]]
- [[transformer-architecture]]
## Questions Ouvertes
- Le RL pur a-t-il un avenir face à l'apprentissage auto-supervisé à grande échelle ?
- DPO va-t-il totalement remplacer RLHF ?