数据质量守门规则
数据质量问题往往不会让系统立刻崩溃,但会在研究和实盘中持续注入噪声,因此必须有明确的守门规则。
守门目标
数据质量校验的职责不是替代业务判断,而是在错误进入下游之前尽早阻断,并留下可追溯记录。
最低检查集
- 主键唯一性
- 时间戳连续性
- 关键字段缺失率
- 异常值和突变点
处理策略
- 可修复错误自动标注并修复。
- 不可修复错误阻断下游任务。
- 每次失败都记录样本和原因。
分层策略
- L1 阻断:关键主键错误、时间错乱、数据截断。
- L2 告警:缺失率升高、分布突变、字段异常。
- L3 观察:非关键字段漂移或边缘样本异常。
值得保留的证据
- 出错批次 ID。
- 原始样本行和清洗后样本行。
- 触发规则名称。
- 修复动作或人工处理结论。
发布前最低检查
- 新增字段是否补齐校验规则。
- 关键主键和时间戳是否覆盖抽样测试。
- 告警阈值是否与最近数据规模匹配。
- 失败样本是否能定位到原始批次。
结果输出模板
### Data Quality Report
- batch_id: 2026-04-06-daily-bar
- blocker_count: 2
- warning_count: 5
- impacted_tables: daily_bar, feature_snapshot
- owner: data-platform
常见误区
- 只做字段级校验,不做跨表一致性校验。
- 只在失败时看日志,不保留结构化质量报告。
- 阈值长期不更新,导致告警失真。
评论区待配置
将 Giscus 仓库参数补齐后,这里会显示评论区。
OWNER/REPO