🎯 LoRA / QLoRA

Définition Courte

LoRA (Low-Rank Adaptation) est une technique de fine-tuning qui n'ajuste qu'une petite matrice de poids (low-rank), réduisant drastiquement les coûts de calcul et de stockage.

Explication Détaillée

Au lieu de modifier tous les poids d'un modèle de 7B paramètres, LoRA insère de petites matrices "adaptateurs" dans chaque couche et ne les entraîne que celles-là. Avantages :

Entraînement 10-100x plus rapide.
VRAM requise divisée par 3-10.
Adaptateurs de quelques Mo, faciles à stocker/distribuer.
Possibilité de switcher entre plusieurs adaptateurs sur un même modèle de base.

QLoRA ajoute la quantification 4-bit du modèle de base pendant le fine-tuning, pour des économies encore plus massives.

Cas d'Usage

Fine-tuning sur un seul GPU grand public (RTX 4090).
Adapter un LLM à un domaine spécifique sans exploser le budget.
Créer plusieurs "personas" d'un même modèle.

Outils Liés

Hugging Face PEFT (implémentation officielle).
Unsloth (wrapper optimisé).
bitsandbytes (quantification pour QLoRA).

Pages Liées

Questions Ouvertes

QLoRA est-il aussi bon qu'un full fine-tuning pour les tâches complexes ?
Combien d'adaptateurs peut-on empiler avant dégradation ?

Liens

reinforcement-learning

1.5 KiB Raw Blame History