wiki/comparisons/hebergement-llm-solo-dev.md at e7b0b6c1be42b42bec25d944ef3299cf5c769d58

vellis/wiki

Files

T

vellis bda02d587f Initial vault setup

2026-06-09 18:40:21 +02:00

title, created, updated, type, tags, confidence, contested, sources

title

created

updated

type

Tableau Comparatif

Critère	Local (Ollama + GPU)	RunPod	Modal	Replicate	Hugging Face Inference
Simplicité	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐ (code-first)	⭐⭐⭐⭐⭐ (API simple)	⭐⭐⭐⭐
Coût / 1M tokens	⭐⭐⭐⭐⭐ (gratuit)	⭐⭐⭐ (~0.30$)	⭐⭐⭐	⭐⭐⭐⭐ (cold start gratuit)	⭐⭐⭐ (HF Pro)
Maintenance	⭐ (à toi)	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
VRAM dispo	Limitée (ton GPU)	Jusqu'à H100	Jusqu'à H100	Variable	Variable
Confidentialité	⭐⭐⭐⭐⭐ (données locales)	⚠️	⚠️	⚠️	⚠️
Idéal pour	Dev local, homelab	Modèles 70B+ ponctuels	Pipelines code-first	API rapide à intégrer	Fine-tuning + inférence

Développement quotidien, confidentialité : Local (Ollama) (gratuit, illimité, idéal avec RTX 3060+).
Besoin ponctuel d'un gros modèle (70B+) : RunPod (facturation à la minute, H100 dispo).
Tu veux écrire ton code comme si c'était local, mais cloud : Modal (Pythonic, serverless GPU).
API REST simple et stable pour un SaaS : Replicate (une URL, une ligne de fetch).
Tu veux fine-tuner ET héberger : Hugging Face (Spaces + Endpoints + Training).