Files
wiki/raw/articles/fiches-modeles-llm.md
2026-06-09 18:40:21 +02:00

1.8 KiB

source_url, ingested, sha256
source_url ingested sha256
web_search_synthesis 2026-06-06 a1b2c3d4e5f6 (simulé)

📘 Fiches Techniques Modèles LLM 2024-2026

Llama 3.1 (Meta)

  • Versions : 8B, 70B, 405B.
  • Contexte : 128k tokens.
  • Entraînement : Apprentissage supervisé et RLHF sur un corpus massif multilingue.
  • Cas d'usage :
    • 8B : Assistants légers, edge computing.
    • 70B : Raisonnement complexe, agentique.
    • 405B : Synthèse de données, benchmark SOTA, remplacement GPT-4.
  • Quantification : compatible GGUF (via llama.cpp) et EXL2 (via exllamav2).

Mistral (Mistral AI)

  • Mistral Large 2 : ~123B paramètres, optimisé pour le raisonnement et le multilinguisme.
  • Mistral NeMo : 12B paramètres, contexte 128k tokens. Idéal pour remplacer les modèles 7B/8B avec plus de "consistance".
  • Entraînement : Focus sur l'efficacité et la performance par paramètre.
  • Cas d'usage : Entreprise, coding, raisonnement logique.

Phi (Microsoft)

  • Phi-3.5 Mini : Modèle compact (SLM), focus sur données synthétiques de haute qualité.
  • Phi-3.5 MoE : Mixture of Experts, ~6.6B paramètres actifs, très performant en mathématiques et code.
  • Contexte : Très étendu (jusqu'à 128k).
  • Cas d'usage : Appareils mobiles, tâches spécialisées, raisonnement logique avec faible empreinte RAM.

Guides de Quantification

  • GGUF (llama.cpp) :
    • Commande type : ./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m
    • Usage : CPU + GPU (Apple Silicon, Windows, Linux).
  • EXL2 (ExLlamaV2) :
    • Commande type : python convert.py -m model_dir -o quant_dir -q 4.0 (via scripts exllamav2).
    • Usage : GPU uniquement (VRAM), extrêmement rapide.

Liens