行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

量化研究参考系列之八：DiffsFormer：用扩散模型扩充股票特征样本

2026-06-15 刘静涵东方证券福肺尖

研究结论

股票预测长期受困于数据稀缺，论文将其归为信噪比低（特征与收益率相关性不足 0.03）与数据同质化（同行业个股走势趋同）两点，导致模型易过拟合、样本外泛化能力下降。为此论文引入以 Transformer 为骨干的条件扩散模型 DiffsFormer，先在更大源域训练，再对目标域真实样本做“编辑”以扩充训练集。DiffsFormer 是上游的即插即用数据增强模块，只增强历史特征、不生成收益率标签，不直接做预测或交易，仅为下游模型扩充训练样本。实证显示，合成数据增强使下游模型在 A 股的样本外年化收益率明显提升。

核心框架

扩散增强原理：对真实特征逐步加噪、再学习逐步去噪，从而拟合特征分布。
编辑式增强与迁移学习：在更大源域（全 A 股）训练，对目标域（CSI300/CSI800）样本只加噪 T′ 步再去噪，由 T′ 控制生成样本偏离目标域的程度。
条件扩散：以收益率标签与行业为条件、并令生成特征沿用原标签，将扩散模型从生成适配到监督回归，采用 predictor-free guidance 免去额外预测器、简化训练流程。
即插即用：作为上游模块挂接 MLP、LSTM、Transformer 等八类下游模型，无需改动骨干。

亮点分析

相较普通生成式增强方法，DiffsFormer 有四点突破：

编辑式增强提升样本保真度：从真实样本出发、只施加有限扰动，生成样本天然锚定在真实分布附近，保真度更高。
迁移学习引入更大源域信息，缓解样本同质化：先在覆盖更广的源域训练，再对目标域样本做编辑，蒸馏新信息、缓解同质化问题。
条件机制解决生成样本标签难匹配问题：以收益率标签与行业信息作为条件，并让生成特征沿用原标签，使扩散模型从单纯生成任务适配到带监督信号的回归任务。
即插即用，可适配多类下游预测模型：不要求下游模型改变结构，也不依赖某一个特定预测器，可挂接到 MLP、LSTM、GRU、Transformer 等不同骨干之上。

实证结果

实证在 A 股进行，股票池为 CSI300 与 CSI800，特征取自 Qlib 的 Alpha158（回看 8 日），数据期 2008–2022 年；CSI300 测试八类模型，CSI800 因概念数据限制未纳入 HIST。年化收益率的相对提升上，CSI300 与 CSI800 分别达 7.2% 与 27.8%（均为相对提升，并非绝对年化收益率）。机制上，编辑步存在保真度与多样性的权衡（CSI300 上 T′=300 最优），标签加行业的联合条件最优；源域选择需结合实证，单纯扩大源域并不必然有效，全 A 股作为源域时迁移效果最好。对照实验显示，编辑式增强优于直接生成、随机加噪与 Shake-shake；仅用增强数据反优于“真实加增强”并集，作者推测与缓解 data collision 有关。

改进方向

结合 A 股投研流程，四个落地方向：

适配本土因子池，对接自有因子体系。
扩展条件维度，纳入市值、风格与宏观状态。
将增强模块嵌入因子挖掘、训练、压力测试与组合风控流程。
加强实盘约束，重点评估数据泄漏、交易成本与容量。

风险提示

生成样本依赖历史分布，对全新市场环境外推有限。
编辑步 T′ 需调参，过大偏离目标域、过小增强有限。
条件信息设置不当可能导致生成特征与标签匹配度下降。
合成数据训练存在数据泄漏风险。
论文以年化收益率为主要指标，采用 top30drop30 规则且未充分扣费，A 股实盘需检验扣费后净收益。

报告发布日期 DiffsFormer：用扩散模型扩充股票特征样本 ——量化研究参考系列之八刘静涵执业证书编号：S0860520080003香港证监会牌照：BSX840liujinghan@orientsec.com.cn021-63326320 研究结论 ⚫文献信息：本次分享的论文由中国科学技术大学与阿里巴巴达摩院（DAMOAcademy）团队联合撰写，2024年2月作为arXiv预印本发布（编号2402.06656），标题为《DiffsFormer: A Diffusion Transformer on Stock FactorAugmentation》。用日频K线重建累计Delta订单流指标：——量化研究参考系列之七2026-06-09高频订单失衡波动如何影响市场流动性？：——量化研究参考系列之六2026-05-23Kronos：基于K线预训练的金融基础模型：——量化研究参考系列之五2026-05-18金融风洞：用相似历史行情合成个股收益序列：——量化研究参考系列之四2026-05-12高维环境下的最优因子择时：——量化研究参考系列之三2026-04-21SSPT：股票时序定制化预训练选股框架：——量化研究参考系列之二一2026-04-13QuantaAlpha:用大模型做量化因子挖掘：——量化研究参考系列之一2026-04-07 ⚫推荐理由：股票预测长期受困于数据稀缺，论文将其归为信噪比低（特征与收益率相关性绝对值通常不足0.03）与数据同质化（同行业个股走势趋同）两点，二者使模型易在高维特征空间过拟合、样本外泛化下降。为此论文引入以Transformer为骨干的条件扩散模型DiffsFormer，先在更大源域训练，再对目标域真实样本做“编辑”以扩充训练集。它是上游的即插即用数据增强模块，只增强历史特征、不生成收益率标签（标签沿用真实样本原值），不直接做预测或交易，仅为下游模型扩充训练样本。实证显示，合成数据增强使下游模型在A股的样本外年化收益率明显提升。 ⚫核心框架：1）扩散增强原理：对真实特征逐步加噪、再学习逐步去噪，从而拟合特征分布。2）编辑式增强与迁移学习：在更大源域（全A股）训练，对目标域（CSI300/CSI800）样本只加噪T′步再去噪，由T′控制生成样本偏离目标域的程度。3）条件扩散：以收益率标签与行业为条件、并令生成特征沿用原标签，将扩散模型从生成适配到监督回归，采用predictor-free guidance免去额外预测器、简化训练流程。4）即插即用：作为上游模块挂接MLP、LSTM、Transformer等八类下游模型，无需改动骨干。 ⚫亮点分析：相较普通生成式增强，有四点突破：1）以“编辑现有样本”替代“纯噪声生成”，可视化显示增强样本贴近原始分布，保真度更高；2）在更大源域训练再编辑目标域，蒸馏新信息、缓解行业同质化；3）以标签条件化解决标签难匹配问题，效果明显优于直接生成标签；4）即插即用，可适配多类下游预测模型。 ⚫实证结果：实证在A股进行，股票池为CSI300与CSI800，特征取自Qlib的Alpha158（回看8日），数据期2008–2022年；CSI300测试八类模型，CSI800因缺概念数据未纳入HIST。年化收益率的相对提升上，CSI300与CSI800分别达7.2%与27.8%（均为相对提升，并非绝对年化收益率）。机制上，编辑步存在保真度与多样性的权衡（CSI300上T′=300最优），标签加行业的联合条件最优；源域选择需结合实证，单纯扩大源域并不必然有效，全A股作为源域时迁移效果最好。对照实验显示，编辑式增强优于直接生成、随机加噪与Shake-shake；仅用增强数据反优于“真实加增强”并集，作者推测与缓解data collision有关。 ⚫改进方向：结合A股投研流程，四个落地方向：1）适配本土因子池，对接自有因子体系；2）扩展条件维度，在论文已初步尝试市值条件的基础上，系统纳入市值、风格与宏观状态；3）将增强模块嵌入因子挖掘、训练、压力测试与组合风控流程；4）加强实盘约束，重点评估数据泄漏、交易成本与容量，原文未充分扣费，落地需检验净收益。风险提示 1.生成样本依赖历史分布，对全新市场环境外推有限，建议持续跟踪模型表现。2.编辑步T′需调参，过大偏离目标域、过小增强有限。3.条件信息设置不当可能导致生成特征与标签不匹配，削弱监督信号质量。4.合成数据训练存在数据泄漏风险，若与真实测试集隐含关联，可能高估样本外表现。5.论文以年化收益率为主、采用top30drop30规则且未充分扣费，A股实盘需检验扣费后净收益。目录 1、文献信息：USTC与阿里达摩院联合发表于arXiv，2024年2月预印本..4 2、推荐理由：用扩散式特征增强缓解金融样本稀缺与过拟合.......................4 3、核心框架：源域训练、目标域编辑与条件引导构成特征增强闭环.............5 3.1整体定位：DiffsFormer是即插即用的因子数据增强模块.............................................53.2扩散增强原理：通过加噪与去噪学习特征分布.............................................................63.3编辑式增强与迁移学习：从目标域真实样本出发做可控扰动........................................73.4条件扩散：用收益率标签与行业信息约束生成方向......................................................83.5评估指标：以年化收益率为主，辅以IC、RankIC与加权IC衡量预测有效性.............9 4、亮点分析：相较普通生成增强方法的主要突破..........................................9 4.1编辑式增强提升样本保真度........................................................................................104.2迁移学习引入更大源域信息，缓解样本同质化...........................................................104.3条件机制解决生成样本标签难匹配问题......................................................................104.4即插即用，可适配多类下游预测模型..........................................................................114.5对照金融风洞（FWT）：DiffsFormer的保真取向服务于训练增强............................11 5、实证结果：A股多模型一致受益，消融实验验证核心机制.......................12 5.1主结果：CSI300与CSI800年化收益率均有提升......................................................125.2编辑步、条件机制与迁移学习的消融验证..................................................................125.3与随机噪声、Shake-shake等增强方法的对比...........................................................135.4损失引导加噪提升信息比率并降低波动......................................................................14 6、改进方向：结合A股投研流程推进本土化落地........................................15 6.1适配本土因子池，对接自有因子体系..........................................................................156.2扩展条件维度，纳入市值、风格、行业与宏观状态....................................................156.3嵌入因子挖掘、模型训练、压力测试与组合风控流程.................................................156.4加强实盘约束，重点评估数据泄漏、交易成本与容量.................................................16 7、风险提示................................................................................................16 图表目录 .....................................................................................................................................................4图2：DiffsFormer是即插即用的上游特征增强模块，对接任意下游预测骨干..............................6图3：扩散增强原理：前向逐步加噪、反向逐步去噪....................................................................6图4：编辑步T′越大，增强域(黄)越偏离目标域、越靠近更大的源域...........................................8图5：逐维R²显示标签(红柱)最难准确还原，故作为条件输入而非直接生成对象........................8图6：t-SNE显示编辑(c)的增强特征(蓝)与真实特征(粉)自然混合，直接生成(a)明显偏离目标域...................................................................................................................................................10图7：四种增强对比中DiffsFormer收益最高、箱体更短(更稳)，明显领先Shake-shake..........13图8：信息比率(IR)上，损失引导扩散最高，优于普通扩散、Shake-shake与原始数据.............14 量化投资行业前沿理论与技术迭代提速，海外顶尖量化研究成果中蕴藏着诸多可借鉴的新思路、新框架，为A股量化因子挖掘与策略研发提供重要参考。为此，我们推出量化研究参考系列报告，聚焦海外顶刊、预印本平台发布的量化领域前沿文献，通过深度拆解核心逻辑、实证结果与创新价值，结合A股市场特性及本土投研实践开展适配性分析，提炼可落地的优化方向与应用思路，为投资者提供专业、前沿的研究参考。本期为系列第八篇，重点解读发表于arXiv的论文DiffsFormer，讨论其如何将条件扩散与编辑式增强相结合，对股票特征进行可控增强，为下游量化模型扩充训练样本，缓解数据稀缺导致的过拟合与泛化

点击免费查看完整报告

量化研究参考系列之八：DiffsFormer：用扩散模型扩充股票特征样本

研究结论

核心框架

亮点分析

实证结果

改进方向

风险提示

你可能感兴趣

“学海拾珠”系列之一百八十五：DiffsFormer：基于扩散模型的因子增强框架

量化研究参考系列之四：金融风洞：用相似历史行情合成个股收益序列

量化研究参考系列之七：用日频K线重建累计Delta订单流指标

大类资产配置量化模型研究系列之八：宏观风险配置方法思考：以风险平价和风险最小化为例

量化专题报告：多因子系列之八，日间量价模型研究

基本面量化系列研究之八：量化分析报告从量化模型观察当前行业配置主线

量化研究参考系列之九：大语言模型驱动因子挖掘的模型演进与框架梳理

量化研究参考系列之五：Kronos：基于K线预训练的金融基础模型

量化研究参考系列之二一：SSPT：股票时序定制化预训练选股框架

量化策略系列之八：DFQ机器学习行业轮动模型