Best Practices11 April 20267 min readالعربية

كُتيِّبات الحوادث التي تُنفَّذ تلقائياً: من runbook إلى runtime

Runbook من أكثر مخلَّفات الهندسة المُبالَغ في تقديرها باستمرار. تكتبه في عصر هادئ، يبدو شاملاً، ثم يأتي أول حادث في الثالثة صباحاً يجب أن يستخدمه — لا يستخدمه أحد. كُتيِّب يعمل فعلاً يُغيِّر المعادلة.

Best PracticesUptime MonitoringWebsite MonitoringApi MonitoringCron Job Monitoring
Best Practices

كتابة runbook لا يقرؤه أحد في الثالثة صباحاً هو هدر. كتابة واحد يبدأ تلقائياً لحظة تعطُّل monitor ويسجِّل كل خطوة هو مضاعِف قوة. هكذا تجعل on-call يشعر بأنه أقل كاستجابة أزمة منفردة وأكثر كاتباع قائمة تحقق.

لماذا لا يتبع أفراد on-call الـrunbook

ثلاثة أسباب:

الضغط يُضيِّق الانتباه. الدماغ تحت الضغط الحاد يتجه تلقائياً إلى pattern-matching. • ضغط الوقت يتجاوز الصواب. يفترض المهندس 'أعرف ما الذي يُحتمَل أن يكون خطأ'. • تعفُّن Runbook. الخطوة 3 تقول 'ssh إلى prod-db-01' لكن ذلك host أُلغي.

كل من هذه مشكلة لا يستطيع المستند حلها — تحتاج تنفيذاً.

الفرق بين مستند وkُتيِّب قابل للتنفيذ

المستند يصف. الكُتيِّب يفعل.

المستند يقول: 'الخطوة 2: أعد تشغيل مجموعة workers.' الكُتيِّب القابل للتنفيذ لديه زر، عند النقر، يُجري استدعاء API، ينتظر الإشارة الخضراء، ويسجِّل النتيجة في الخط الزمني للحادث.

الخاصية الثانية للكُتيِّب الحقيقي هي أن كل خطوة قابلة للتدقيق.

التشغيل التلقائي على monitor_down

تستطيع Playbooks AlertsDock التشغيل التلقائي على حدث `monitor_down`.

متى يساعد التشغيل التلقائي: • العلاج الحتمي (مسح الذاكرة المؤقتة، إعادة تشغيل pool stateless). • جمع التشخيصات. • Paging والتصعيد.

متى يُحدِث التشغيل التلقائي ضوضاء: • أي إجراء مُدمِّر (scale down، إنهاء اتصالات). اطلب تأكيداً يدوياً. • أي شيء يُعيد تشغيل تتالي تنبيهات أخرى.

القاعدة: نفِّذ التشخيص والعلاج غير المُدمِّر تلقائياً. اقفل الإجراءات المُدمِّرة خلف نقرة بشرية.

خلط خطوات checkbox يدوية مع خطوات webhook آلية

Playbook جيد ليس مُؤتمَتاً بالكامل — إنه خليط من الإجراءات المُؤتمَتة التي يُجيدها الحاسوب، والنقاط اليدوية التي يُجيدها الإنسان.

آلي — اجلب آخر 5 آثار خطأ من log pipe. • Checkbox يدوي — 'هل تحققت من أن النشر السابق تم التراجع عنه؟' • آلي-مع-زر — 'أعد تشغيل API workers' (نقرة واحدة). • Checkbox يدوي — 'هل أبلغت الدعم برقم حادث؟'

مراجعات ما بعد الحادث الجيدة من سجل التشغيل

كل تشغيل playbook يُنتج خطاً زمنياً كاملاً: اسم الخطوة، من شغَّلها، الطابع الزمني، المدخلات، المخرجات.

في المراجعة تسأل:

• أي خطوات استغرقت أطول من المتوقع؟ • أي خطوات يدوية تم تخطِّيها تحت الضغط؟ • أي خطوات آلية أنتجت مخرجات غير متوقعة؟ • هل كانت هناك خطوة تشخيصية نتمنى لو أضفناها؟

مراجعة جيدة تنتهي بتعديلات على الكُتيِّب نفسه.

هذه المقالة متاحة عبر مسارات اللغات المدعومة — استخدم محدد اللغة في الأعلى للتبديل.

دليل ميزة

Uptime Monitoring

AlertsDock gives teams uptime monitoring for websites, APIs, TCP checks, DNS checks, SSL expiry, and fast alert routing without enterprise overhead.

اقرأ الدليل

صفحة بديل

Better Stack Alternative

Compare AlertsDock with Better Stack for teams that want a more focused monitoring product covering uptime, cron jobs, status pages, and webhooks.

شاهد المقارنة
AD
AlertsDock Team
11 April 2026
Try AlertsDock free