El runbook on-call que cada equipo pequeño necesita

Qué es un runbook (y qué no es)

Un runbook no es una guía de solución de problemas para cada falla posible. Es una lista de verificación para los primeros 30 minutos de un incidente.

Marco de respuesta a incidentes de 5 pasos

1. Reconocer (0–2 min) — Reclamar el incidente. 2. Evaluar (2–5 min) — ¿Qué está realmente roto? 3. Comunicar (5 min) — Actualizar la página de estado. 4. Mitigar (5–30 min) — Llegar a un estado funcional. 5. Documentar (post-incidente) — Escribir un postmortem sin culpas.

Niveles de severidad para equipos pequeños

SEV1 — Producción caída. Despertar al on-call. SEV2 — Degradado. Manejar durante horas hábiles. SEV3 — Menor. Crear ticket.

A quién despertar y cuándo

- Ingeniero on-call: primer respondedor para todos los SEV1/SEV2 - Líder de ingeniería: escalar si no se resuelve en 30 minutos

Herramientas y comandos rápidos

git log --oneline -10 origin/main
docker compose restart api

El runbook on-call que cada equipo pequeño necesita

Qué es un runbook (y qué no es)

Marco de respuesta a incidentes de 5 pasos

Niveles de severidad para equipos pequeños

A quién despertar y cuándo

Herramientas y comandos rápidos

Uptime Monitoring

Better Stack Alternative

More articles

Playbooks de incidente que se auto-ejecutan: de runbook a runtime

Monitoreando tu pipeline CI/CD: Detectando fallos de despliegue antes de que lleguen a los usuarios

Gestión de logs sin complejidad: Guía práctica para equipos en crecimiento