--- title: LoRA / QLoRA created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, training, optimization] confidence: high contested: false sources: [synthesized] --- # 🎯 LoRA / QLoRA ## Définition Courte **LoRA** (Low-Rank Adaptation) est une technique de fine-tuning qui n'ajuste qu'une **petite matrice** de poids (low-rank), réduisant drastiquement les coûts de calcul et de stockage. ## Explication Détaillée Au lieu de modifier tous les poids d'un modèle de 7B paramètres, LoRA insère de petites matrices "adaptateurs" dans chaque couche et ne les entraîne que celles-là. Avantages : - Entraînement 10-100x plus rapide. - VRAM requise divisée par 3-10. - Adaptateurs de quelques Mo, faciles à stocker/distribuer. - Possibilité de switcher entre plusieurs adaptateurs sur un même modèle de base. **QLoRA** ajoute la **quantification 4-bit** du modèle de base pendant le fine-tuning, pour des économies encore plus massives. ## Cas d'Usage - Fine-tuning sur un seul GPU grand public (RTX 4090). - Adapter un LLM à un domaine spécifique sans exploser le budget. - Créer plusieurs "personas" d'un même modèle. ## Outils Liés - **Hugging Face PEFT** (implémentation officielle). - **Unsloth** (wrapper optimisé). - **bitsandbytes** (quantification pour QLoRA). ## Pages Liées - [[fine-tuning]] - [[quantification-llm]] - [[llama-3-1]] ## Questions Ouvertes - QLoRA est-il aussi bon qu'un full fine-tuning pour les tâches complexes ? - Combien d'adaptateurs peut-on empiler avant dégradation ? ## Liens - [[reinforcement-learning]]