La fatiga de alertas es real — así es como combatirla
Tu ingeniero on-call ha recibido 47 alertas esta semana. 44 se resolvieron solas. 2 eran falsos positivos. 1 era real.
Cuando todo es crítico, nada lo es. Aprende a ajustar tus umbrales de alerta y reducir el ruido.
Qué causa la fatiga de alertas
- Umbral demasiado sensible. Alertar en cualquier error HTTP individual genera ruido constante. - Sin alertas basadas en síntomas. CPU > 80% rara vez importa. - Duplicación de alertas. Tres monitores separados disparando para el mismo problema.
Ajuste de umbrales
Un buen umbral de alerta se establece a 3–4 desviaciones estándar de tu línea base normal.
Para el tiempo de respuesta: si tu p95 es normalmente 200ms, alertar a 500ms es apropiado.
Alertas basadas en síntomas vs causas
✗ Basada en causas: CPU > 90% ✓ Basada en síntomas: Tasa de error API > 5%
Enrutamiento de alertas al canal correcto
Slack/Discord — SEV2 y menos. Email — resúmenes diarios. SMS — solo para SEV1 con rotación on-call explícita.
Revisión mensual de alertas
1. ¿Cuáles alertas se dispararon con más frecuencia? 2. ¿Qué porcentaje era accionable? 3. ¿Algún incidente real pasó desapercibido?
Guía de producto
Uptime Monitoring
AlertsDock gives teams uptime monitoring for websites, APIs, TCP checks, DNS checks, SSL expiry, and fast alert routing without enterprise overhead.
Leer guíaPágina alternativa
Better Stack Alternative
Compare AlertsDock with Better Stack for teams that want a more focused monitoring product covering uptime, cron jobs, status pages, and webhooks.
Ver comparaciónMore articles
Eligiendo el canal de alerta correcto: Email vs Slack vs PagerDuty vs SMS
La alerta correcta en el momento equivocado a través del canal equivocado es tan mala como ninguna alerta.
Monitoreo frontend: Real User Monitoring vs pruebas sintéticas
Las verificaciones de disponibilidad del backend pierden el navegador. El monitoreo de usuarios reales muestra lo que los usuarios reales experimentan.
Monitoreando tu pipeline CI/CD: Detectando fallos de despliegue antes de que lleguen a los usuarios
Un pipeline de despliegue roto es tan malo como un servicio roto.