Files
wiki/comparisons/comparatif-llm-local.md
T
2026-06-09 18:40:21 +02:00

2.1 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Comparatif LLM Local 2026-06-06 2026-06-06 comparison
IA
open-source
auto-hébergement
high false
synthesized

⚖️ Quel LLM Local Pour Quel Usage

Choisir le bon modèle en fonction de votre machine et de votre besoin.

Tableau Comparatif

Modèle Paramètres RAM/VRAM Requise Forces Faiblesses Idéal Pour
Llama 3.1 8B 8B ~6 Go Très rapide, bien équilibré Limité en raisonnement profond Assistants, chatbots, génération simple
Phi-3.5 Mini 3.8B ~3 Go Ultra-léger, très bon en code Moins bon en culture générale Coding, edge AI, machines modestes
Mistral NeMo 12B ~8 Go 128k contexte, multilingue Moins bon que 70B sur tâches complexes RAG, résumé, multilingue
Llama 3.1 70B 70B ~40 Go Raisonnement solide, polyvalent Très gourmand, lent sans GPU haut de gamme Agents complexes, raisonnement, code avancé
Qwen2.5 Coder 32B ~20 Go Excellent en programmation, bon multilingue Hors de prix en VRAM Code, technique, génération structurée
Llama 3.1 405B 405B ~250 Go État de l'art open-source Inaccessible sans matériel pro Recherche, benchmark, distillation

Recommandations par Cas d'Usage

  • Machine modeste (8-16 Go RAM) : phi-3-5 Mini.
  • Mac avec 16-32 Go de RAM unifiée : Mistral NeMo Q4, ou Llama 3.1 8B.
  • PC avec GPU 12 Go VRAM : Mistral NeMo, Qwen2.5 14B.
  • PC avec GPU 24 Go (RTX 4090) : Llama 3.1 70B Q4, Qwen2.5 32B.
  • GPU Pro (A100, H100, multi-GPU) : Llama 3.1 405B.

Méthodologie de Choix

  1. Vérifier votre VRAM (nvidia-smi) ou RAM.
  2. Choisir une taille de modèle quantifié (Q4_K_M pour la qualité/poids).
  3. Utiliser ollama pour faciliter le téléchargement et le lancement.
  4. Évaluer la pertinence avec un test simple (ex: "Écris une fonction Python qui...").

Liens