Das On-Call-Runbook, das jedes kleine Team braucht

Was ein Runbook ist (und was nicht)

Ein Runbook ist keine Fehlerbehebungsanleitung für jeden möglichen Fehler. Es ist eine Checkliste für die ersten 30 Minuten eines Vorfalls.

5-Schritte-Incident-Response-Framework

1. Bestätigen (0–2 Min) — Beanspruchen Sie den Vorfall. 2. Beurteilen (2–5 Min) — Was ist tatsächlich kaputt? 3. Kommunizieren (5 Min) — Statusseite auf "Untersuche" aktualisieren. 4. Mitigieren (5–30 Min) — Arbeitszustand so schnell wie möglich erreichen. 5. Dokumentieren (nach dem Vorfall) — Blameless Postmortem schreiben.

Schweregrade für kleine Teams

SEV1 — Produktion ausgefallen. On-Call wecken. SEV2 — Beeinträchtigt. Während Geschäftszeiten behandeln. SEV3 — Geringfügig. Ticket erstellen.

Wen wecken und wann

- On-Call-Ingenieur: Ersthelfer für alle SEV1/SEV2 - Engineering-Lead: Eskalieren, wenn nicht in 30 Minuten gelöst

Werkzeuge und schnelle Befehle

git log --oneline -10 origin/main
docker compose restart api

Das On-Call-Runbook, das jedes kleine Team braucht

Was ein Runbook ist (und was nicht)

5-Schritte-Incident-Response-Framework

Schweregrade für kleine Teams

Wen wecken und wann

Werkzeuge und schnelle Befehle

Uptime Monitoring

Better Stack Alternative

More articles

Vorfalls-Playbooks, die sich selbst ausführen: vom Runbook zur Laufzeit

CI/CD-Pipeline überwachen: Deploy-Fehler abfangen bevor sie Nutzer erreichen

Log-Management ohne Komplexität: Ein praktischer Leitfaden für wachsende Teams