告警配置
Lichen 支持三种告警类型,全部可在 Dashboard「告警」页面管理。
指标阈值告警
Section titled “指标阈值告警”当主机的某项指标持续超过阈值时触发。
| 告警类型 | 说明 |
|---|---|
cpu_percent | CPU 使用率超过阈值(%) |
mem_percent | 内存使用率超过阈值(%) |
disk_percent | 磁盘使用率超过阈值(%) |
防抖机制:指标超阈值后,会持续观察几个采集周期(迟滞 5%),避免因短暂波动触发误报。
主机离线告警
Section titled “主机离线告警”心跳超过 180 秒未收到时,判定主机离线并立即触发告警。主机恢复上线后自动发送恢复通知。
日志关键词告警
Section titled “日志关键词告警”监控日志文件中的关键词,匹配时立即触发告警。
# Agent 配置中指定日志文件log_files: - path: "/var/log/app/error.log" tag: "app-error"在 Dashboard 中创建 log_keyword 类型规则,填入关键词(如 ERROR、panic、FATAL)。
创建告警规则
Section titled “创建告警规则”- 进入「告警」→「告警规则」→「新建规则」
- 选择:
- 适用主机:指定主机 or 所有主机
- 告警类型:cpu / 内存 / 磁盘 / 离线 / 日志关键词
- 阈值:触发条件
- 严重程度:warning / critical
- 冷却时间:触发后多少分钟内不重复通知(默认 30 分钟)
- 备注(可选):告警上下文说明
当一条全局规则(适用所有主机)同时触发多台主机时,Lichen 会将通知合并为一条:
🔴 3 台主机 CPU 告警:web-1 (92%)、web-2 (88%)、db-1 (95%)
避免批量故障时通知轰炸。
规则列表中显示实时状态:
- 告警中(红色 badge):当前正在触发
- 正常:未触发
点击规则可查看最近告警历史,包含触发时间、恢复时间、影响主机。
「告警历史」页面记录所有历史告警事件,支持按主机、时间范围筛选,可用于:
- 排查重复告警根因
- 统计主机 SLA(Dashboard 主机详情页显示 7 天可用率)
| 场景 | 告警类型 | 建议阈值 | 冷却时间 |
|---|---|---|---|
| CPU 异常 | cpu_percent | 85% | 15 分钟 |
| 内存泄漏 | mem_percent | 90% | 30 分钟 |
| 磁盘预警 | disk_percent | 80% | 60 分钟 |
| 磁盘告警 | disk_percent | 90% | 30 分钟 |
| 应用 Error | log_keyword | ERROR | 5 分钟 |
| 应用 Panic | log_keyword | panic | 0 分钟 |
| 主机宕机 | offline | — | 0 分钟 |