--- source_url: web_search_synthesis ingested: 2026-06-06 sha256: a1b2c3d4e5f6 (simulé) --- # 📘 Fiches Techniques Modèles LLM 2024-2026 ## Llama 3.1 (Meta) - **Versions** : 8B, 70B, 405B. - **Contexte** : 128k tokens. - **Entraînement** : Apprentissage supervisé et RLHF sur un corpus massif multilingue. - **Cas d'usage** : - 8B : Assistants légers, edge computing. - 70B : Raisonnement complexe, agentique. - 405B : Synthèse de données, benchmark SOTA, remplacement GPT-4. - **Quantification** : compatible GGUF (via llama.cpp) et EXL2 (via exllamav2). ## Mistral (Mistral AI) - **Mistral Large 2** : ~123B paramètres, optimisé pour le raisonnement et le multilinguisme. - **Mistral NeMo** : 12B paramètres, contexte 128k tokens. Idéal pour remplacer les modèles 7B/8B avec plus de "consistance". - **Entraînement** : Focus sur l'efficacité et la performance par paramètre. - **Cas d'usage** : Entreprise, coding, raisonnement logique. ## Phi (Microsoft) - **Phi-3.5 Mini** : Modèle compact (SLM), focus sur données synthétiques de haute qualité. - **Phi-3.5 MoE** : Mixture of Experts, ~6.6B paramètres actifs, très performant en mathématiques et code. - **Contexte** : Très étendu (jusqu'à 128k). - **Cas d'usage** : Appareils mobiles, tâches spécialisées, raisonnement logique avec faible empreinte RAM. ## Guides de Quantification - **GGUF (llama.cpp)** : - Commande type : `./quantize model.fp16.gguf model.q4_k_m.gguf q4_k_m` - Usage : CPU + GPU (Apple Silicon, Windows, Linux). - **EXL2 (ExLlamaV2)** : - Commande type : `python convert.py -m model_dir -o quant_dir -q 4.0` (via scripts exllamav2). - Usage : GPU uniquement (VRAM), extrêmement rapide. ## Liens - [[llama-3-1]] - [[mistral]] - [[phi-3-5]] - [[quantification-llm]]