هشدارها
راهنمای Alerting سامانه مانیتورینگ همدار
این سند فهرست هشدارهای عملیاتی همدار، شرایط فعالشدن آنها و اقدام اولیه پیشنهادی را ارائه میکند. برای معماری، دسترسی و واژهنامه به راهنمای پنل مانیتورینگ مراجعه کنید.
سطوح Severity
| Severity |
معنی |
زمان واکنش پیشنهادی |
critical |
قطعی، ریسک از دسترفتن سرویس یا رخداد امنیتی مهم |
فوری |
warning |
افت کیفیت، ظرفیت رو به اتمام یا رفتار غیرعادی |
در شیفت جاری |
info |
رویداد Audit یا آگاهی |
بازبینی |
کاتالوگ هشدارهای همدار
نشانگر ماوس را روی عنوان هر هشدار نگه دارید تا نام فنی آن، مطابق نام نمایشدادهشده در Grafana، مشخص شود.
اتصال و Node
| هشدار |
شرط و مدت |
Severity |
اقدام |
| قطع گزارشدهی Node |
اخیرا node_uname_info بیش از ۱۸۰ ثانیه؛ for: 3m |
critical |
Node یا Vector قطع است؛ Ping/SSH، Vector کلاینت و مرکزی، و پورت 9080 را بررسی کنید. |
| Reboot غیرمنتظره |
تغییر node_boot_time_seconds در ۱۵ دقیقه؛ فوری (for: 0s) |
warning |
Reboot رخ داده؛ Change و لاگ systemd/kernel را بررسی کنید. |
منابع
| هشدار |
شرط و مدت |
Severity |
اقدام |
| CPU بالا |
CPU بیش از ۸۰٪ برای ۱۰ دقیقه |
warning |
داشبورد server metrics، Process پرمصرف و بار را بررسی کنید. |
| CPU بحرانی |
CPU بیش از ۹۵٪ برای ۱۰ دقیقه |
critical |
اقدام فوری؛ Job غیرضروری را متوقف و علت اشباع را رفع کنید. |
| حافظه بالا |
RAM بیش از ۸۵٪ برای ۱۰ دقیقه |
warning |
حافظه Process، Cache و Leak را بررسی کنید. |
| حافظه بحرانی |
RAM بیش از ۹۵٪ برای ۱۰ دقیقه |
critical |
خطر OOM؛ حافظه آزاد یا سرویس معیوب را Restart کنید. |
| Load بالا |
Load نرمالشده بیش از ۱۵۰٪ برای ۱۵ دقیقه |
warning |
با CPU و iowait/Disk latency همبسته کنید. |
| Load بحرانی |
Load بیش از ۳۰۰٪ برای ۱۵ دقیقه |
critical |
اشباع شدید Host؛ فوراً Process و Storage را بررسی کنید. |
| کمبود فضای Disk |
/ بیش از ۸۵٪ برای ۱۵ دقیقه |
warning |
df -h، Log rotation و رشد Volume را بررسی کنید. |
| فضای Disk بحرانی |
/ بیش از ۹۵٪ برای ۱۵ دقیقه |
critical |
فوراً فضا آزاد کنید؛ توقف ingest محتمل است. |
| پرشدن قریبالوقوع Disk |
پیشبینی پرشدن / ظرف ۷ روز؛ for: 30m |
warning |
روند رشد را تأیید و ظرفیت اضافه کنید. |
| مصرف بالای Swap |
Swap بیش از ۵۰٪ برای ۱۵ دقیقه |
warning |
Process پرمصرف و فشار RAM را رفع کنید. |
Pipeline مانیتورینگ
این هشدار وضعیت Pipeline دریافت داده را بررسی میکند و به سرور همدار مربوط نیست .
| هشدار |
شرط و مدت |
Severity |
اقدام |
| Backpressure در Vector |
مقدار p95 سیگنال Backpressure در Sinkهای VictoriaMetrics/VictoriaLogs بیش از ۰٫۸ برای ۱۰ دقیقه |
warning |
CPU/Disk و دسترسی VictoriaMetrics/VictoriaLogs را بررسی کنید. |