هشدارها

راهنمای Alerting سامانه مانیتورینگ همدار

این سند فهرست هشدارهای عملیاتی همدار، شرایط فعال‌شدن آن‌ها و اقدام اولیه پیشنهادی را ارائه می‌کند. برای معماری، دسترسی و واژه‌نامه به راهنمای پنل مانیتورینگ مراجعه کنید.

سطوح Severity

Severity معنی زمان واکنش پیشنهادی
critical قطعی، ریسک از دست‌رفتن سرویس یا رخداد امنیتی مهم فوری
warning افت کیفیت، ظرفیت رو به اتمام یا رفتار غیرعادی در شیفت جاری
info رویداد Audit یا آگاهی بازبینی

کاتالوگ هشدارهای همدار

نشانگر ماوس را روی عنوان هر هشدار نگه دارید تا نام فنی آن، مطابق نام نمایش‌داده‌شده در Grafana، مشخص شود.

اتصال و Node

هشدار شرط و مدت Severity اقدام
قطع گزارش‌دهی Node اخیرا node_uname_info بیش از ۱۸۰ ثانیه؛ for: 3m critical Node یا Vector قطع است؛ Ping/SSH، Vector کلاینت و مرکزی، و پورت 9080 را بررسی کنید.
Reboot غیرمنتظره تغییر node_boot_time_seconds در ۱۵ دقیقه؛ فوری (for: 0s) warning Reboot رخ داده؛ Change و لاگ systemd/kernel را بررسی کنید.

منابع

هشدار شرط و مدت Severity اقدام
CPU بالا CPU بیش از ۸۰٪ برای ۱۰ دقیقه warning داشبورد server metrics، Process پرمصرف و بار را بررسی کنید.
CPU بحرانی CPU بیش از ۹۵٪ برای ۱۰ دقیقه critical اقدام فوری؛ Job غیرضروری را متوقف و علت اشباع را رفع کنید.
حافظه بالا RAM بیش از ۸۵٪ برای ۱۰ دقیقه warning حافظه Process، Cache و Leak را بررسی کنید.
حافظه بحرانی RAM بیش از ۹۵٪ برای ۱۰ دقیقه critical خطر OOM؛ حافظه آزاد یا سرویس معیوب را Restart کنید.
Load بالا Load نرمال‌شده بیش از ۱۵۰٪ برای ۱۵ دقیقه warning با CPU و iowait/Disk latency هم‌بسته کنید.
Load بحرانی Load بیش از ۳۰۰٪ برای ۱۵ دقیقه critical اشباع شدید Host؛ فوراً Process و Storage را بررسی کنید.
کمبود فضای Disk / بیش از ۸۵٪ برای ۱۵ دقیقه warning df -h، Log rotation و رشد Volume را بررسی کنید.
فضای Disk بحرانی / بیش از ۹۵٪ برای ۱۵ دقیقه critical فوراً فضا آزاد کنید؛ توقف ingest محتمل است.
پرشدن قریب‌الوقوع Disk پیش‌بینی پرشدن / ظرف ۷ روز؛ for: 30m warning روند رشد را تأیید و ظرفیت اضافه کنید.
مصرف بالای Swap Swap بیش از ۵۰٪ برای ۱۵ دقیقه warning Process پرمصرف و فشار RAM را رفع کنید.

Pipeline مانیتورینگ

این هشدار وضعیت Pipeline دریافت داده را بررسی می‌کند و به سرور همدار مربوط نیست .

هشدار شرط و مدت Severity اقدام
Backpressure در Vector مقدار p95 سیگنال Backpressure در Sinkهای VictoriaMetrics/VictoriaLogs بیش از ۰٫۸ برای ۱۰ دقیقه warning CPU/Disk و دسترسی VictoriaMetrics/VictoriaLogs را بررسی کنید.