特征仓库设计
特征仓库的目标是让研究、回测和生产共享同一套特征定义,而不是在不同脚本里重复实现。
设计目标
特征仓库最重要的价值是统一语义。一个特征只应该有一套定义、一套版本逻辑和一套对外输出方式,否则研究和生产会很快分叉。
核心设计
- 特征定义版本化。
- 支持批量回填和增量更新。
- 明确特征依赖和产出粒度。
- 面向研究和生产提供统一读取接口。
推荐结构
- Registry:维护特征名、owner、频率和依赖。
- Compute:负责批量回填和增量计算。
- Store:按实体、日期和版本持久化特征值。
- Serve:为研究脚本和线上服务提供一致查询接口。
关键问题
- 特征是否允许历史回写。
- 版本切换是否会影响旧实验复现。
- 上游依赖变更时是否自动触发重新计算。
示例元数据
feature: quality_score
owner: research
frequency: daily
source: financial_statement
落地建议
- 先从高复用特征开始接入。
- 明确每个特征的 owner 和校验规则。
- 对生产关键特征增加时效性监控。
评论区待配置
将 Giscus 仓库参数补齐后,这里会显示评论区。
OWNER/REPO