59 lines
2.0 KiB
Markdown
59 lines
2.0 KiB
Markdown
---
|
|
title: Reinforcement Learning (RL)
|
|
created: 2026-06-06
|
|
updated: 2026-06-06
|
|
type: concept
|
|
tags: [IA, ML, training]
|
|
confidence: high
|
|
contested: false
|
|
sources: [synthesized]
|
|
---
|
|
# 🎮 Reinforcement Learning (RL)
|
|
|
|
## Définition Courte
|
|
Paradigme d'apprentissage automatique où un **agent** apprend à prendre des décisions en **interagissant avec un environnement**, en maximisant une **récompense** cumulée.
|
|
|
|
## Explication Détaillée
|
|
**Les 4 concepts clés** :
|
|
- **Agent** : le décideur (le modèle, le robot, le joueur).
|
|
- **Environment** : le monde dans lequel il évolue.
|
|
- **State** : la situation actuelle observée.
|
|
- **Action** : ce que l'agent peut faire.
|
|
- **Reward** : signal positif/négatif après une action.
|
|
|
|
**Algorithmes majeurs** :
|
|
- **Q-Learning / DQN** : apprendre une fonction de valeur.
|
|
- **Policy Gradient (REINFORCE)** : optimiser directement la politique.
|
|
- **PPO** (Proximal Policy Optimization) : standard en RLHF.
|
|
- **A3C, SAC, TD3** : variantes pour des cas spécifiques.
|
|
|
|
**RL + LLM** :
|
|
- **RLHF** (RL from Human Feedback) : aligner le modèle sur les préférences humaines.
|
|
- **DPO** (Direct Preference Optimization) : alternative plus simple, sans RL explicite.
|
|
- **GRPO** (Group Relative Policy Optimization) : utilisé par DeepSeek-R1.
|
|
- **RLAIF** : remplacer les humains par un autre LLM comme "juge".
|
|
|
|
## Cas d'Usage
|
|
- Jeux (AlphaGo, AlphaStar, OpenAI Five).
|
|
- Robotique (locomotion, manipulation).
|
|
- Trading algorithmique.
|
|
- Alignement des LLM (cf. [[nouveautes-ia-par-mois]]).
|
|
- Optimisation de ressources (data center cooling, Google).
|
|
|
|
## Outils Liés
|
|
- **Stable Baselines3** (Python).
|
|
- **Ray RLlib** (distribué).
|
|
- **Gymnasium** (anciennement OpenAI Gym, environnements).
|
|
- **TRL** (Hugging Face, RLHF pour LLM).
|
|
|
|
## Pages Liées
|
|
- [[fine-tuning]]
|
|
- [[lora]]
|
|
- [[prompt-engineering]]
|
|
- [[glossaire-ia]]
|
|
- [[transformer-architecture]]
|
|
|
|
## Questions Ouvertes
|
|
- Le RL pur a-t-il un avenir face à l'apprentissage auto-supervisé à grande échelle ?
|
|
- DPO va-t-il totalement remplacer RLHF ?
|