vellis/wiki

Files

T

vellis bda02d587f Initial vault setup

2026-06-09 18:40:21 +02:00

970 B

Raw Blame History

title, created, updated, type, tags, sources, confidence, contested

title

created

updated

type

tags

sources

confidence

contested

Quantification LLM

2026-06-06

2026-06-06

concept

architecture

tech

automation

raw/articles/fiches-modeles-llm.md

high

false

💻 Quantification LLM

La quantification est le processus de réduction de la précision des poids d'un modèle (ex: passer de FP16 à INT4) pour diminuer l'empreinte mémoire et augmenter la vitesse d'inférence.

Formats Principaux

GGUF (llama.cpp)

Format universel permettant l'exécution sur CPU et GPU.

Commande type : ./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m
Avantage : Compatibilité maximale (Ollama, llama.cpp).

EXL2 (ExLlamaV2)

Format optimisé pour la VRAM des GPU Nvidia.

Commande type : python convert.py -m model_dir -o quant_dir -q 4.0
Avantage : Vitesse d'inférence extrêmement élevée.

Liens

Modèles compatibles : llama-3-1, mistral, phi-3-5
fiches-modeles-llm