文献信息
本次分享的论文由爱丁堡大学信息学院联合撰写,发表于 KDD 2025,标题为《Pre-training Time Series Models with Stock Data Customization》,提出股票定制化预训练框架 SSPT。
推荐理由
论文针对股票价格序列高噪声、非平稳、结构信息利用不足等问题,提出股票定制化预训练框架 SSPT。通过股票代码分类(SCC)、行业分类(SSC)和移动均值预测(MAP)三类任务,从个股差异、行业结构和趋势信息三个维度提取价格序列中的潜在特征,在不增加复杂模型结构的前提下,有效提升选股模型的表征能力与泛化能力。
核心框架
SSPT 基于标准 Transformer 架构,构建“定制化预训练 → 参数迁移 → 选股微调”的一体化股票选股体系。
1)数据构建:以滑动窗口方式对多股票价格序列切片,形成统一时序输入;
2)预训练任务设计:设计股票代码分类(SCC)、行业分类(SSC)与移动均值预测(MAP)三类任务,从个股差异、行业结构与价格趋势三个维度提取价格序列中的潜在信息;
3)多任务联合训练:在同一 Transformer 框架下,通过多任务加权损失进行联合优化,使模型在统一结构中同时学习个股特征、行业共性与时间序列趋势;
4)选股微调:替换任务头,新增收益预测层,在下游选股任务中完成收益预测与排序决策。
亮点分析
对比前期 DFQ-Diversify 模型,SSPT 体现出四点核心增量:
1)建模目标:从剥离环境扰动,拓展到先提升价格表征质量;
2)核心机制:从对抗解耦训练,拓展到任务驱动的表征学习;
3)训练流程:从单阶段收益建模,拓展为“预训练 + 微调”两阶段框架;
4)信息处理:从显式过滤无效信息,拓展为通过定制化任务隐式学习有效结构;
5)体系价值:推动量化选股由“特征构造驱动”向“表征学习驱动”范式升级。
实证结果
论文在 NASDAQ、NYSE、TOPIX-100、FTSE-100 及 NASDAQ-recent 五个市场上进行系统验证。从预训练任务层面看,SCC 与 SSC 组合表现最为稳健,MAP 能提升收益上限但对参数更敏感;从最终选股表现看,SSPT 在多个市场上均显著优于市场基准及主流方法,其中 SSPT-ind(单任务预训练)与 SSPT-comb(多任务预训练)均取得领先表现,体现出较强的跨市场与跨周期泛化能力。
优化方向
结合 A 股市场特性与现有量化研究体系,提出以下优化方向:
1)输入特征:从基础价量数据扩展至多维度因子体系,增强信息覆盖;
2)预训练任务:从个股识别、行业结构与趋势平滑,拓展至更贴近交易逻辑的市场状态建模;
3)训练机制:从多任务简单加权,升级为更稳定的任务协同优化框架,以缓解任务冲突、提升模型鲁棒性。
风险提示
- 量化模型基于历史数据分析,未来存在失效风险,建议投资者紧密跟踪模型表现。
- 极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。