Le runbook on-call dont chaque petite équipe a besoin

Ce qu'est un runbook (et ce qu'il n'est pas)

Un runbook n'est pas un guide de dépannage pour chaque panne possible. C'est une liste de contrôle pour les 30 premières minutes d'un incident.

Cadre de réponse aux incidents en 5 étapes

1. Reconnaître (0–2 min) — Revendiquer l'incident. 2. Évaluer (2–5 min) — Qu'est-ce qui est vraiment cassé ? 3. Communiquer (5 min) — Mettre à jour la page de statut. 4. Atténuer (5–30 min) — Revenir à un état fonctionnel. 5. Documenter (après incident) — Écrire un postmortem sans reproche.

Niveaux de gravité pour les petites équipes

SEV1 — Production en panne. Réveiller l'astreinte. SEV2 — Dégradé. Traiter pendant les heures ouvrables. SEV3 — Mineur. Créer un ticket.

Qui réveiller et quand

- Ingénieur d'astreinte : premier intervenant pour tous les SEV1/SEV2 - Responsable technique : escalader si non résolu en 30 minutes

Outils et commandes rapides

git log --oneline -10 origin/main
docker compose restart api

Le runbook on-call dont chaque petite équipe a besoin

Ce qu'est un runbook (et ce qu'il n'est pas)

Cadre de réponse aux incidents en 5 étapes

Niveaux de gravité pour les petites équipes

Qui réveiller et quand

Outils et commandes rapides

Uptime Monitoring

Better Stack Alternative

More articles

Playbooks d'incident auto-exécutables : du runbook au runtime

Surveiller votre pipeline CI/CD : Détecter les échecs de déploiement avant qu'ils atteignent les utilisateurs

Gestion des logs sans complexité : Guide pratique pour les équipes en croissance