Best Practices11 April 20267 min readاردو

Incident Playbooks جو خود بخود چلتے ہیں: runbook سے runtime تک

Runbook سب سے مسلسل over-rated engineering artifacts میں سے ایک ہے۔ آپ اسے ایک پرسکون دوپہر میں لکھتے ہیں، یہ جامع لگتا ہے، اور پھر پہلا رات 3 بجے کا incident جسے اسے استعمال کرنا چاہیے — کوئی نہیں کرتا۔ ایک playbook جو واقعی چلتا ہے ریاضی بدل دیتا ہے۔

Best PracticesUptime MonitoringWebsite MonitoringApi MonitoringCron Job Monitoring

Best Practices

On-call لوگ runbook کی پیروی کیوں نہیں کرتے

تین وجوہات:

• Stress توجہ تنگ کرتا ہے۔ شدید stress کے تحت دماغ pattern-matching کی طرف جاتا ہے، ہدایات پڑھنے کی طرف نہیں۔ • Time pressure صحت پر غالب ہوتا ہے۔ Engineer مانتا ہے 'مجھے پتہ ہے کیا غلط ہے'۔ • Runbook rot. Step 3 کہتا ہے 'prod-db-01 میں ssh کریں' لیکن وہ host decommission ہو چکا۔

ہر ایک وہ مسئلہ ہے جسے document حل نہیں کر سکتا — آپ کو execution چاہیے۔

Doc اور executable playbook کے درمیان فرق

Document بیان کرتا ہے۔ Playbook عمل کرتا ہے۔

Document کہتا ہے: 'Step 2: worker pool restart کریں۔' Executable playbook کے پاس ایک button ہوتا ہے جو click کرنے پر API call کرتا ہے، green signal کا انتظار کرتا ہے، اور result کو incident timeline میں log کرتا ہے۔

حقیقی playbook کی دوسری خاصیت یہ ہے کہ ہر step auditable ہے۔

monitor_down پر auto-trigger

AlertsDock Playbooks `monitor_down` event پر auto-trigger ہو سکتے ہیں۔

Auto-trigger کب مدد کرتا ہے: • Deterministic remediation (cache clear کریں، stateless pool restart کریں)۔ • Diagnostic جمع کرنا۔ • Paging اور escalation۔

Auto-trigger کب شور پیدا کرتا ہے: • کوئی بھی destructive action (scale down، connections ختم کرنا)۔ Manual confirmation طلب کریں۔ • کوئی بھی چیز جو دوسرے alerts کا سلسلہ شروع کرے۔

قاعدہ: diagnostic اور non-destructive remediation auto-execute کریں۔ Destructive actions کو human click کے پیچھے رکھیں۔

Manual checkbox steps کو automated webhook steps کے ساتھ ملانا

اچھا playbook مکمل طور پر automated نہیں ہوتا — یہ automated actions کا مرکب ہے جن میں computer اچھا ہے، اور manual checkpoints جن میں انسان اچھا ہے۔

• Auto — log pipe سے آخری 5 error traces لائیں۔ • Manual checkbox — 'کیا آپ نے تصدیق کی کہ پچھلا deploy rollback ہو گیا؟' • Auto-with-button — 'API workers restart کریں' (ایک click)۔ • Manual checkbox — 'کیا آپ نے support کو incident number کے ساتھ مطلع کیا؟'

Run log سے اچھے post-incident reviews

ہر playbook run ایک مکمل timeline پیدا کرتا ہے: step name، کس نے چلایا، timestamp، inputs، outputs۔

Review میں آپ پوچھتے ہیں:

• کون سے steps متوقع سے زیادہ دیر تک چلے؟ • کون سے manual steps دباؤ میں skip کیے گئے؟ • کون سے automated steps نے غیر متوقع output دیا؟ • کیا کوئی diagnostic step تھا جسے شامل کرنے کی خواہش ہوتی؟

اچھی review playbook میں ہی ترمیم کے ساتھ ختم ہوتی ہے۔

هذه المقالة متاحة عبر مسارات اللغات المدعومة — استخدم محدد اللغة في الأعلى للتبديل.

فیچر گائیڈ