✂️ Load Shedding

Définition Courte

Stratégie consistant à rejeter délibérément certaines requêtes sous forte charge pour préserver la stabilité du service, plutôt que de tout laisser s'effondrer.

Explication Détaillée

Principe : quand un système sature, accepter de perdre quelques requêtes pour éviter de perdre toutes les requêtes. C'est un compromis explicite disponibilité/charge.

Stratégies :

Priority-based : rejeter d'abord les clients bas-priorité (free users avant paid).
Adaptive : baisser la qualité des réponses (ex: pas d'images, pas de recommandations).
Circuit Breaker : couper un service en panne pour éviter l'effet domino.
Queue-based : accepter la requête, la mettre en file, refuser si la queue est pleine.
Geographic : couper certaines régions d'abord.

Différent du rate limiting : le rate limiting est préventif (limite par user). Le load shedding est réactif (le système se protège globalement).

Cas d'Usage

API LLM en cas de pic de trafic soudain.
Plateforme de e-commerce pendant le Black Friday.
Service de paiement lors d'un incident bancaire.
Toute infra avec auto-scaling limité.

Outils Liés

Hystrix (Netflix, historique).
Resilience4j (Java).
Polly (.NET).
Istio (priority routing).
Cloudflare (rate limit adaptatif).

Pages Liées

Questions Ouvertes

Comment communiquer élégamment les rejets aux clients (UX) ?
Le load shedding peut-il être automatisé par IA (prédire la saturation) ?

1.8 KiB Raw Permalink Blame History