wiki/concepts/lora.md

---
title: LoRA / QLoRA
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, training, optimization]
confidence: high
contested: false
sources: [synthesized]
---
# 🎯 LoRA / QLoRA

## Définition Courte
**LoRA** (Low-Rank Adaptation) est une technique de fine-tuning qui n'ajuste qu'une **petite matrice** de poids (low-rank), réduisant drastiquement les coûts de calcul et de stockage.

## Explication Détaillée
Au lieu de modifier tous les poids d'un modèle de 7B paramètres, LoRA insère de petites matrices "adaptateurs" dans chaque couche et ne les entraîne que celles-là. Avantages :
- Entraînement 10-100x plus rapide.
- VRAM requise divisée par 3-10.
- Adaptateurs de quelques Mo, faciles à stocker/distribuer.
- Possibilité de switcher entre plusieurs adaptateurs sur un même modèle de base.

**QLoRA** ajoute la **quantification 4-bit** du modèle de base pendant le fine-tuning, pour des économies encore plus massives.

## Cas d'Usage
- Fine-tuning sur un seul GPU grand public (RTX 4090).
- Adapter un LLM à un domaine spécifique sans exploser le budget.
- Créer plusieurs "personas" d'un même modèle.

## Outils Liés
- **Hugging Face PEFT** (implémentation officielle).
- **Unsloth** (wrapper optimisé).
- **bitsandbytes** (quantification pour QLoRA).

## Pages Liées
- [[fine-tuning]]
- [[quantification-llm]]
- [[llama-3-1]]

## Questions Ouvertes
- QLoRA est-il aussi bon qu'un full fine-tuning pour les tâches complexes ?
- Combien d'adaptateurs peut-on empiler avant dégradation ?

## Liens
- [[reinforcement-learning]]