--- title: Checklist Monitoring created: 2026-06-06 updated: 2026-06-06 type: recipe tags: [monitoring, devops, auto-hébergement] confidence: high contested: false sources: [synthesized] --- # ✅ Checklist Monitoring Minimal Surveiller l'état de santé d'un serveur ou d'un service sans se ruiner. ## 📊 Métriques Système (de base) - [ ] CPU, RAM, Disque, Load Average surveillés (via Netdata, Glances, ou Prometheus + node-exporter). - [ ] Alerte si le disque est > 80% plein. - [ ] Alerte si la RAM est saturée de manière répétée. ## 🌐 Surveillance des Services - [ ] Uptime Kuma ou équivalent pour checker HTTP/TCP des services. - [ ] Notifications configurées (Telegram, Discord, Email, Gotify). - [ ] Intervalle de check adapté (60s pour le web, 5min pour les batchs). ## 📜 Centralisation des Logs - [ ] Les logs Docker sont collectés (Loki + Grafana, ou Dozzle pour du simple). - [ ] Rétention des logs définie (ex: 30 jours). - [ ] Pas de logs sensibles (mots de passe, tokens) en clair. ## 🔔 Alertes Intelligentes - [ ] Distinguer les alertes critiques (service down) des warnings (disque 80%). - [ ] Un canal "silencieux" pour les infos, un canal bruyant pour les urgences. - [ ] Un "dead man switch" : alerte si le monitoring lui-même s'arrête (Healthchecks.io). ## 🛠️ Dashboards - [ ] Un dashboard global (Grafana) est accessible depuis l'extérieur (Tailscale, VPN). - [ ] Les dashboards documentés (les noms des métriques sont explicites). ## Liens - Outils suggérés : Uptime Kuma, Netdata, Grafana, Loki, Dozzle. - [[checklist-mise-en-production]] - [[checklist-securite-vps]] - [[monitoring-solo-dev]]