970 B
970 B
title, created, updated, type, tags, sources, confidence, contested
| title | created | updated | type | tags | sources | confidence | contested | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Quantification LLM | 2026-06-06 | 2026-06-06 | concept |
|
|
high | false |
💻 Quantification LLM
La quantification est le processus de réduction de la précision des poids d'un modèle (ex: passer de FP16 à INT4) pour diminuer l'empreinte mémoire et augmenter la vitesse d'inférence.
Formats Principaux
GGUF (llama.cpp)
Format universel permettant l'exécution sur CPU et GPU.
- Commande type :
./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m - Avantage : Compatibilité maximale (Ollama, llama.cpp).
EXL2 (ExLlamaV2)
Format optimisé pour la VRAM des GPU Nvidia.
- Commande type :
python convert.py -m model_dir -o quant_dir -q 4.0 - Avantage : Vitesse d'inférence extrêmement élevée.
Liens
- Modèles compatibles : llama-3-1, mistral, phi-3-5
- fiches-modeles-llm