跳转到内容

告警配置

Lichen 支持三种告警类型,全部可在 Dashboard「告警」页面管理。

当主机的某项指标持续超过阈值时触发。

告警类型说明
cpu_percentCPU 使用率超过阈值(%)
mem_percent内存使用率超过阈值(%)
disk_percent磁盘使用率超过阈值(%)

防抖机制:指标超阈值后,会持续观察几个采集周期(迟滞 5%),避免因短暂波动触发误报。

心跳超过 180 秒未收到时,判定主机离线并立即触发告警。主机恢复上线后自动发送恢复通知。

监控日志文件中的关键词,匹配时立即触发告警。

# Agent 配置中指定日志文件
log_files:
- path: "/var/log/app/error.log"
tag: "app-error"

在 Dashboard 中创建 log_keyword 类型规则,填入关键词(如 ERRORpanicFATAL)。

  1. 进入「告警」→「告警规则」→「新建规则」
  2. 选择:
    • 适用主机:指定主机 or 所有主机
    • 告警类型:cpu / 内存 / 磁盘 / 离线 / 日志关键词
    • 阈值:触发条件
    • 严重程度:warning / critical
    • 冷却时间:触发后多少分钟内不重复通知(默认 30 分钟)
    • 备注(可选):告警上下文说明

当一条全局规则(适用所有主机)同时触发多台主机时,Lichen 会将通知合并为一条:

🔴 3 台主机 CPU 告警:web-1 (92%)、web-2 (88%)、db-1 (95%)

避免批量故障时通知轰炸。

规则列表中显示实时状态:

  • 告警中(红色 badge):当前正在触发
  • 正常:未触发

点击规则可查看最近告警历史,包含触发时间、恢复时间、影响主机。

「告警历史」页面记录所有历史告警事件,支持按主机、时间范围筛选,可用于:

  • 排查重复告警根因
  • 统计主机 SLA(Dashboard 主机详情页显示 7 天可用率)
场景告警类型建议阈值冷却时间
CPU 异常cpu_percent85%15 分钟
内存泄漏mem_percent90%30 分钟
磁盘预警disk_percent80%60 分钟
磁盘告警disk_percent90%30 分钟
应用 Errorlog_keywordERROR5 分钟
应用 Paniclog_keywordpanic0 分钟
主机宕机offline0 分钟