告警与值班手册
告警系统的目标不是“通知很多人”,而是让值班人员在最短时间内知道问题是什么、影响范围多大、应该先做什么。
值班目标
值班体系应该保证任何一个关键问题都能在明确时限内被接住、被分级、被止损,并留下后续修复线索。
告警分级
- P1:影响实盘交易或核心数据链路
- P2:影响研究和回测但可临时绕过
- P3:非关键任务异常或噪声告警
处理顺序
- 先判断是否影响交易或核心数据。
- 再确定是否需要立即止损或回滚。
- 最后安排补数、修复和复盘动作。
值班动作
- 确认是否是重复告警。
- 判断影响链路和业务范围。
- 先止损,再补数,再做复盘。
手册应包含
- 值班联系方式与升级链路
- 常见故障定位入口
- 临时止损动作模板
- 复盘记录模板和责任归属
常见陷阱
- 告警过多但没有分级,导致真正故障被噪声淹没。
- 值班手册只写原则,不写明确动作和入口。
- 故障复盘没有沉淀到手册,导致问题重复出现。
建议模板
### P1 数据延迟
- 影响范围:实盘信号生成
- 先做什么:停止下游调仓任务
- 排查入口:scheduler / data freshness dashboard
- 升级对象:data oncall, strategy owner
值班交接要点
- 当前未关闭的 P1/P2 事件。
- 已采取的止损动作和剩余风险。
- 需要继续观察的监控项和阈值。
- 下一位值班人需要优先关注的系统。
复盘输出建议
- 故障时间线
- 首次发现方式
- 止损动作与恢复时间
- 根因和长期修复项
评论区待配置
将 Giscus 仓库参数补齐后,这里会显示评论区。
OWNER/REPO