2.1 KiB
2.1 KiB
title, created, updated, type, tags, confidence, contested, sources
| title | created | updated | type | tags | confidence | contested | sources | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Comparatif LLM Local | 2026-06-06 | 2026-06-06 | comparison |
|
high | false |
|
⚖️ Quel LLM Local Pour Quel Usage
Choisir le bon modèle en fonction de votre machine et de votre besoin.
Tableau Comparatif
| Modèle | Paramètres | RAM/VRAM Requise | Forces | Faiblesses | Idéal Pour |
|---|---|---|---|---|---|
| Llama 3.1 8B | 8B | ~6 Go | Très rapide, bien équilibré | Limité en raisonnement profond | Assistants, chatbots, génération simple |
| Phi-3.5 Mini | 3.8B | ~3 Go | Ultra-léger, très bon en code | Moins bon en culture générale | Coding, edge AI, machines modestes |
| Mistral NeMo | 12B | ~8 Go | 128k contexte, multilingue | Moins bon que 70B sur tâches complexes | RAG, résumé, multilingue |
| Llama 3.1 70B | 70B | ~40 Go | Raisonnement solide, polyvalent | Très gourmand, lent sans GPU haut de gamme | Agents complexes, raisonnement, code avancé |
| Qwen2.5 Coder | 32B | ~20 Go | Excellent en programmation, bon multilingue | Hors de prix en VRAM | Code, technique, génération structurée |
| Llama 3.1 405B | 405B | ~250 Go | État de l'art open-source | Inaccessible sans matériel pro | Recherche, benchmark, distillation |
Recommandations par Cas d'Usage
- Machine modeste (8-16 Go RAM) : phi-3-5 Mini.
- Mac avec 16-32 Go de RAM unifiée : Mistral NeMo Q4, ou Llama 3.1 8B.
- PC avec GPU 12 Go VRAM : Mistral NeMo, Qwen2.5 14B.
- PC avec GPU 24 Go (RTX 4090) : Llama 3.1 70B Q4, Qwen2.5 32B.
- GPU Pro (A100, H100, multi-GPU) : Llama 3.1 405B.
Méthodologie de Choix
- Vérifier votre VRAM (nvidia-smi) ou RAM.
- Choisir une taille de modèle quantifié (Q4_K_M pour la qualité/poids).
- Utiliser ollama pour faciliter le téléchargement et le lancement.
- Évaluer la pertinence avec un test simple (ex: "Écris une fonction Python qui...").