ToopTsToopTs
首页
产品文档
策略研究
量化开发
归档
首页
产品文档
策略研究
量化开发
归档
  • 栏目导览

    • 量化开发
  • 专题目录

    • 数据平台专题
    • 研究系统专题
    • 生产运维专题
  • 数据与研究

    • 数据管线设计
    • 研究工作流组织方式
    • 数据质量守门规则
    • 特征仓库设计
    • 数据血缘目录
    • 实验追踪规范
    • 研究报告模板
    • 策略复盘节奏
  • 回测与运维

    • 回测引擎设计
    • 部署与监控基线
    • 任务调度设计
    • 告警与值班手册
    • 发布检查清单

数据管线设计

量化系统的数据管线需要兼顾稳定性、可回溯性和低维护成本。

设计目标

数据管线的职责不是单纯“把数据搬过来”,而是给研究、回测和生产提供一致、可靠、可追溯的数据底座。

基础原则

  1. 原始数据与清洗数据分层存储。
  2. 每次加工过程可追踪、可重放。
  3. 指标计算与因子生产遵循统一时间口径。

分层建议

  • Raw:外部源数据原样落地。
  • Clean:字段修正、主键校验、时间对齐。
  • Feature:因子和派生特征生产。
  • Serve:为研究、回测和生产提供稳定接口。

推荐模块

  • 数据采集:行情、财务、宏观、另类数据。
  • 数据校验:缺失值、重复值、时间戳校正。
  • 特征生产:标准化、去极值、中性化。
  • 数据服务:为回测、研究和实盘提供统一接口。

示例任务

python -m pipeline.jobs.daily_bar --date 2026-04-06

运维检查项

  1. 当日更新是否按 SLA 完成。
  2. 关键字段缺失率是否异常。
  3. 下游依赖任务是否同步成功。
  4. 最近变更是否影响历史可重放性。

评论区待配置

将 Giscus 仓库参数补齐后,这里会显示评论区。

OWNER/REPO
最近更新: 2026/4/11 12:54
Next
研究工作流组织方式