研究结论
股票预测长期受困于数据稀缺,论文将其归为信噪比低(特征与收益率相关性不足 0.03)与数据同质化(同行业个股走势趋同)两点,导致模型易过拟合、样本外泛化能力下降。为此论文引入以 Transformer 为骨干的条件扩散模型 DiffsFormer,先在更大源域训练,再对目标域真实样本做“编辑”以扩充训练集。DiffsFormer 是上游的即插即用数据增强模块,只增强历史特征、不生成收益率标签,不直接做预测或交易,仅为下游模型扩充训练样本。实证显示,合成数据增强使下游模型在 A 股的样本外年化收益率明显提升。
核心框架
- 扩散增强原理:对真实特征逐步加噪、再学习逐步去噪,从而拟合特征分布。
- 编辑式增强与迁移学习:在更大源域(全 A 股)训练,对目标域(CSI300/CSI800)样本只加噪 T′ 步再去噪,由 T′ 控制生成样本偏离目标域的程度。
- 条件扩散:以收益率标签与行业为条件、并令生成特征沿用原标签,将扩散模型从生成适配到监督回归,采用 predictor-free guidance 免去额外预测器、简化训练流程。
- 即插即用:作为上游模块挂接 MLP、LSTM、Transformer 等八类下游模型,无需改动骨干。
亮点分析
相较普通生成式增强方法,DiffsFormer 有四点突破:
- 编辑式增强提升样本保真度:从真实样本出发、只施加有限扰动,生成样本天然锚定在真实分布附近,保真度更高。
- 迁移学习引入更大源域信息,缓解样本同质化:先在覆盖更广的源域训练,再对目标域样本做编辑,蒸馏新信息、缓解同质化问题。
- 条件机制解决生成样本标签难匹配问题:以收益率标签与行业信息作为条件,并让生成特征沿用原标签,使扩散模型从单纯生成任务适配到带监督信号的回归任务。
- 即插即用,可适配多类下游预测模型:不要求下游模型改变结构,也不依赖某一个特定预测器,可挂接到 MLP、LSTM、GRU、Transformer 等不同骨干之上。
实证结果
实证在 A 股进行,股票池为 CSI300 与 CSI800,特征取自 Qlib 的 Alpha158(回看 8 日),数据期 2008–2022 年;CSI300 测试八类模型,CSI800 因概念数据限制未纳入 HIST。年化收益率的相对提升上,CSI300 与 CSI800 分别达 7.2% 与 27.8%(均为相对提升,并非绝对年化收益率)。机制上,编辑步存在保真度与多样性的权衡(CSI300 上 T′=300 最优),标签加行业的联合条件最优;源域选择需结合实证,单纯扩大源域并不必然有效,全 A 股作为源域时迁移效果最好。对照实验显示,编辑式增强优于直接生成、随机加噪与 Shake-shake;仅用增强数据反优于“真实加增强”并集,作者推测与缓解 data collision 有关。
改进方向
结合 A 股投研流程,四个落地方向:
- 适配本土因子池,对接自有因子体系。
- 扩展条件维度,纳入市值、风格与宏观状态。
- 将增强模块嵌入因子挖掘、训练、压力测试与组合风控流程。
- 加强实盘约束,重点评估数据泄漏、交易成本与容量。
风险提示
- 生成样本依赖历史分布,对全新市场环境外推有限。
- 编辑步 T′ 需调参,过大偏离目标域、过小增强有限。
- 条件信息设置不当可能导致生成特征与标签匹配度下降。
- 合成数据训练存在数据泄漏风险。
- 论文以年化收益率为主要指标,采用 top30drop30 规则且未充分扣费,A 股实盘需检验扣费后净收益。