La fatigue des alertes est réelle — voici comment la combattre

Ce qui cause la fatigue des alertes

- Seuil trop sensible. Alerter sur chaque erreur HTTP génère un bruit constant. - Pas d'alerte basée sur les symptômes. CPU > 80% importe rarement. - Duplication d'alertes. Trois moniteurs séparés déclenchant des alertes pour le même problème.

Réglage des seuils

Un bon seuil d'alerte est défini à 3–4 écarts types de votre base normale.

Pour le temps de réponse : si votre p95 est normalement 200ms, alerter à 500ms est approprié.

Alertes basées sur les symptômes vs les causes

✗ Basée sur les causes : CPU > 90% ✓ Basée sur les symptômes : Taux d'erreur API > 5%

Routage des alertes vers le bon canal

Slack/Discord — SEV2 et en dessous. E-mail — digests quotidiens. SMS — uniquement pour SEV1 avec une rotation d'astreinte explicite.

Révision mensuelle des alertes

1. Quelles alertes se sont déclenchées le plus souvent ? 2. Quel pourcentage était actionnable ? 3. Des incidents réels sont-ils passés inaperçus ?

La fatigue des alertes est réelle — voici comment la combattre

Ce qui cause la fatigue des alertes

Réglage des seuils

Alertes basées sur les symptômes vs les causes

Routage des alertes vers le bon canal

Révision mensuelle des alertes

Uptime Monitoring

Better Stack Alternative

More articles

Choisir le bon canal d'alerte : Email vs Slack vs PagerDuty vs SMS

Surveillance frontend : Real User Monitoring vs tests synthétiques

Surveiller votre pipeline CI/CD : Détecter les échecs de déploiement avant qu'ils atteignent les utilisateurs