Initial vault setup
This commit is contained in:
@@ -0,0 +1,29 @@
|
||||
---
|
||||
title: Quantification LLM
|
||||
created: 2026-06-06
|
||||
updated: 2026-06-06
|
||||
type: concept
|
||||
tags: [architecture, tech, automation]
|
||||
sources: [raw/articles/fiches-modeles-llm.md]
|
||||
confidence: high
|
||||
contested: false
|
||||
---
|
||||
# 💻 Quantification LLM
|
||||
|
||||
La quantification est le processus de réduction de la précision des poids d'un modèle (ex: passer de FP16 à INT4) pour diminuer l'empreinte mémoire et augmenter la vitesse d'inférence.
|
||||
|
||||
## Formats Principaux
|
||||
|
||||
### GGUF (llama.cpp)
|
||||
Format universel permettant l'exécution sur CPU et GPU.
|
||||
- **Commande type** : `./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m`
|
||||
- **Avantage** : Compatibilité maximale (Ollama, llama.cpp).
|
||||
|
||||
### EXL2 (ExLlamaV2)
|
||||
Format optimisé pour la VRAM des GPU Nvidia.
|
||||
- **Commande type** : `python convert.py -m model_dir -o quant_dir -q 4.0`
|
||||
- **Avantage** : Vitesse d'inférence extrêmement élevée.
|
||||
|
||||
## Liens
|
||||
- Modèles compatibles : [[llama-3-1]], [[mistral]], [[phi-3-5]]
|
||||
- [[fiches-modeles-llm]]
|
||||
Reference in New Issue
Block a user