--- title: Quantification LLM created: 2026-06-06 updated: 2026-06-06 type: concept tags: [architecture, tech, automation] sources: [raw/articles/fiches-modeles-llm.md] confidence: high contested: false --- # 💻 Quantification LLM La quantification est le processus de réduction de la précision des poids d'un modèle (ex: passer de FP16 à INT4) pour diminuer l'empreinte mémoire et augmenter la vitesse d'inférence. ## Formats Principaux ### GGUF (llama.cpp) Format universel permettant l'exécution sur CPU et GPU. - **Commande type** : `./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m` - **Avantage** : Compatibilité maximale (Ollama, llama.cpp). ### EXL2 (ExLlamaV2) Format optimisé pour la VRAM des GPU Nvidia. - **Commande type** : `python convert.py -m model_dir -o quant_dir -q 4.0` - **Avantage** : Vitesse d'inférence extrêmement élevée. ## Liens - Modèles compatibles : [[llama-3-1]], [[mistral]], [[phi-3-5]] - [[fiches-modeles-llm]]