Initial vault setup

2026-06-09 18:40:21 +02:00
commit bda02d587f
3692 changed files with 402457 additions and 0 deletions
@@ -0,0 +1,29 @@
+---
+title: Quantification LLM
+created: 2026-06-06
+updated: 2026-06-06
+type: concept
+tags: [architecture, tech, automation]
+sources: [raw/articles/fiches-modeles-llm.md]
+confidence: high
+contested: false
+---
+# 💻 Quantification LLM
+
+La quantification est le processus de réduction de la précision des poids d'un modèle (ex: passer de FP16 à INT4) pour diminuer l'empreinte mémoire et augmenter la vitesse d'inférence.
+
+## Formats Principaux
+
+### GGUF (llama.cpp)
+Format universel permettant l'exécution sur CPU et GPU. 
+- **Commande type** : `./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m`
+- **Avantage** : Compatibilité maximale (Ollama, llama.cpp).
+
+### EXL2 (ExLlamaV2)
+Format optimisé pour la VRAM des GPU Nvidia.
+- **Commande type** : `python convert.py -m model_dir -o quant_dir -q 4.0`
+- **Avantage** : Vitesse d'inférence extrêmement élevée.
+
+## Liens
+- Modèles compatibles : [[llama-3-1]], [[mistral]], [[phi-3-5]]
+- [[fiches-modeles-llm]]