vellis/wiki

Files

T

vellis bda02d587f Initial vault setup

2026-06-09 18:40:21 +02:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, confidence, contested, sources

title

created

updated

type

tags

confidence

contested

sources

Reinforcement Learning (RL)

2026-06-06

2026-06-06

concept

IA

ML

training

high

false

synthesized

🎮 Reinforcement Learning (RL)

Définition Courte

Paradigme d'apprentissage automatique où un agent apprend à prendre des décisions en interagissant avec un environnement, en maximisant une récompense cumulée.

Explication Détaillée

Les 4 concepts clés :

Agent : le décideur (le modèle, le robot, le joueur).
Environment : le monde dans lequel il évolue.
State : la situation actuelle observée.
Action : ce que l'agent peut faire.
Reward : signal positif/négatif après une action.

Algorithmes majeurs :

Q-Learning / DQN : apprendre une fonction de valeur.
Policy Gradient (REINFORCE) : optimiser directement la politique.
PPO (Proximal Policy Optimization) : standard en RLHF.
A3C, SAC, TD3 : variantes pour des cas spécifiques.

RL + LLM :

RLHF (RL from Human Feedback) : aligner le modèle sur les préférences humaines.
DPO (Direct Preference Optimization) : alternative plus simple, sans RL explicite.
GRPO (Group Relative Policy Optimization) : utilisé par DeepSeek-R1.
RLAIF : remplacer les humains par un autre LLM comme "juge".

Cas d'Usage

Jeux (AlphaGo, AlphaStar, OpenAI Five).
Robotique (locomotion, manipulation).
Trading algorithmique.
Alignement des LLM (cf. nouveautes-ia-par-mois).
Optimisation de ressources (data center cooling, Google).

Outils Liés

Stable Baselines3 (Python).
Ray RLlib (distribué).
Gymnasium (anciennement OpenAI Gym, environnements).
TRL (Hugging Face, RLHF pour LLM).

Pages Liées

Questions Ouvertes

Le RL pur a-t-il un avenir face à l'apprentissage auto-supervisé à grande échelle ?
DPO va-t-il totalement remplacer RLHF ?