46 lines
1.5 KiB
Markdown
46 lines
1.5 KiB
Markdown
---
|
|
title: LoRA / QLoRA
|
|
created: 2026-06-06
|
|
updated: 2026-06-06
|
|
type: concept
|
|
tags: [IA, training, optimization]
|
|
confidence: high
|
|
contested: false
|
|
sources: [synthesized]
|
|
---
|
|
# 🎯 LoRA / QLoRA
|
|
|
|
## Définition Courte
|
|
**LoRA** (Low-Rank Adaptation) est une technique de fine-tuning qui n'ajuste qu'une **petite matrice** de poids (low-rank), réduisant drastiquement les coûts de calcul et de stockage.
|
|
|
|
## Explication Détaillée
|
|
Au lieu de modifier tous les poids d'un modèle de 7B paramètres, LoRA insère de petites matrices "adaptateurs" dans chaque couche et ne les entraîne que celles-là. Avantages :
|
|
- Entraînement 10-100x plus rapide.
|
|
- VRAM requise divisée par 3-10.
|
|
- Adaptateurs de quelques Mo, faciles à stocker/distribuer.
|
|
- Possibilité de switcher entre plusieurs adaptateurs sur un même modèle de base.
|
|
|
|
**QLoRA** ajoute la **quantification 4-bit** du modèle de base pendant le fine-tuning, pour des économies encore plus massives.
|
|
|
|
## Cas d'Usage
|
|
- Fine-tuning sur un seul GPU grand public (RTX 4090).
|
|
- Adapter un LLM à un domaine spécifique sans exploser le budget.
|
|
- Créer plusieurs "personas" d'un même modèle.
|
|
|
|
## Outils Liés
|
|
- **Hugging Face PEFT** (implémentation officielle).
|
|
- **Unsloth** (wrapper optimisé).
|
|
- **bitsandbytes** (quantification pour QLoRA).
|
|
|
|
## Pages Liées
|
|
- [[fine-tuning]]
|
|
- [[quantification-llm]]
|
|
- [[llama-3-1]]
|
|
|
|
## Questions Ouvertes
|
|
- QLoRA est-il aussi bon qu'un full fine-tuning pour les tâches complexes ?
|
|
- Combien d'adaptateurs peut-on empiler avant dégradation ?
|
|
|
|
## Liens
|
|
- [[reinforcement-learning]]
|