wiki/concepts/chaos-engineering.md

---
title: Chaos Engineering
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [devops, tech, resilience]
confidence: high
contested: false
sources: [synthesized]
---
# 💥 Chaos Engineering

## Définition Courte
Discipline consistant à **injecter volontairement des pannes** dans un système pour observer sa résilience et identifier les faiblesses avant qu'elles ne surviennent en production.

## Explication Détaillée
Popularisé par Netflix (via les Chaos Monkey), le Chaos Engineering suit ces étapes :
1. Définir un "steady state" (état normal mesurable).
2. Émettre une hypothèse (ex: "si la DB tombe, le service reste dégradé").
3. Injecter un défaut (kill d'instance, latence, erreur réseau).
4. Observer l'écart au steady state.
5. Apprendre et améliorer.

**Avantages** : résilience mesurée, culture de la fiabilité, découverte de bugs cachés.
**Inconvénients** : demande de la maturité, peut être coûteux à mettre en place.

## Cas d'Usage
- Microservices à fort trafic.
- Validation de stratégies de fallback.
- Tests de disaster recovery.

## Outils Liés
- **Chaos Monkey** (Netflix).
- **Gremlin** (commercial, complet).
- **Litmus** (Kubernetes-native).
- **ChaosBlade** (Alibaba).

## Pages Liées
- [[observabilite]]
- [[architecture-microservices]]
- [[ci-cd]]

## Questions Ouvertes
- Le chaos engineering est-il rentable pour une PME ?
- Comment convaincre la direction de "casser la prod volontairement" ?

## Liens
- [[load-shedding]]