您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:量化研究系列报告之二十三:让情绪“有结构”:大模型如何挖掘研报新价值 - 发现报告

量化研究系列报告之二十三:让情绪“有结构”:大模型如何挖掘研报新价值

2025-08-11骆昱杉、严佳炜华安证券心***
AI智能总结
查看更多
量化研究系列报告之二十三:让情绪“有结构”:大模型如何挖掘研报新价值

金融工程 专题报告 让情绪“有结构”:大模型如何挖掘研报新价值 ——量化研究系列报告之二十三 报告日期:2025-08-11 主要观点: 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《临界相变:探寻传统因子中的非线性基因——量化研究系列报告之二十二》2025-06-13 2.《ETF资金流透视:被动化浪潮下行业与个股的演进——量化研究系列报告之二十一》2024-12-25 3.《上市板块差异性视角下的选股策略优化与实战指南——量化研究系列报告之二十》2024-12-23 4.《破解Alpha投资困境:因子择时方案再探索》——量化研究系列报告之十九》2024-09-17 5.《企业利润分配策略:短期股东回报与长期价值创造的平衡》——量化研究系列报告之十八》2024-08-14 6.《另辟蹊径:发掘分析师因子中的另类alpha——量化研究系列报告之十七》2024-06-13 本篇报告依托DeepSeek大模型,将情感分析从研报标题拓展至摘要层面,结合摘要结构解析与多维量化方法,并基于结构化情绪信号实现对研报摘要价值的重构。 基于DeepSeek大模型的研报摘要结构化情感分析 本文依托DeepSeek大模型,将情感分析从研报标题拓展至摘 要,实现从黑箱评分向结构化、可解释评分的转变。通过拆解摘要结构 (业务发展—战略布局、技术创新、渗透率、经营效率;财务表现—盈 利质量、稳健性、业绩对比;其他因素—股东行为、政策影响、市场驱动),引入类别识别、情绪倾向、出现顺序及字数占比四维量化分析。 结构化情绪视角下研报摘要价值的多维洞察 从实证结果看,分类识别显著提升了研报分析的颗粒度,能多维度揭示企业真实价值。其中,利好情绪的“密度”指标对超额收益预测有效,尤其“业绩超预期”密度、“盈利改善”密度表现突出,相关选股策略显著跑赢市场。情绪信息的“出现顺序”与“篇幅占比”反映强调方式,利 好越早出现或篇幅越大,定价能力越强,战略、创新及政策类信号尤为明显,但基本面信号得效力较弱。 研报摘要因子的构建与多维绩效评估 综合情绪类别、篇幅占比与情绪密度等维度,构建四类研报评分因子(简单加权、篇幅加权、类别重要性加权、篇幅&类别重要性加权),并引入集中度调整与非线性权重进行优化。实证结果显示,研报评分在报告发布后20日、40日具有显著的收益解释力,体现出较强的事件驱动特征。 将四类因子等权合成个股综合评分因子𝒔𝒄𝒐𝒓𝒆_𝒓𝒆𝒑𝒐𝒓𝒕_𝒍𝒍𝒎,其整 体表现稳健,�分组收益结构严格单调,具备一定选股与收益预测能力,且与传统因子相关性较低。𝑠𝑐𝑜𝑟𝑒_𝑟𝑒𝑝𝑜𝑟𝑡_𝑙𝑙�的多头年化收益为12.8%、相对中证800的年化超额13.5%,自2020年以来年胜率为 100%,今年截至5月底的月胜率为100%,超额10.4%;年度超额最大回撤控制良好,相对等权组合均控制在4%以内。 风险提示 量化模型基于历史数据,过去的回测业绩不代表未来;量化模型本身存在失效的风险。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1大模型迭代下的文本探索之路5 2研报内容的框架拆解与多维信息挖掘6 2.1研报摘要内容的结构化解读6 2.1.1业务发展:战略优化与核心能力提升7 2.1.2财务表现:盈利质量、稳健性与业绩超预期分析8 2.1.3其他因素:股东行为、政策影响与市场驱动分析9 2.2摘要信息处理与多维度量化分析9 2.3模型选择与场景规则化训练10 2.3.1模型选择与部署调用10 2.3.2任务规则化:为大模型在投资领域“降噪”增效11 2.3.3模型调用实践:本地与云端的高效对接14 3基于DEEPSEEK的分类任务实践与企业价值洞察15 3.1DEEPSEEK在研报分类任务的实践15 3.2文本分类准确性的复查与调整17 3.3细分类别助力从细节洞察企业真实价值19 4结构化情绪视角下的研报摘要价值重构20 4.1研报分类与情绪分析全景20 4.2利好密度驱动下的收益预测与策略应用21 4.2.1短期利好驱动强,超预期与盈利改善信息更具价值22 4.2.2从报告到个股:分类利好密度可有效预测未来收益23 4.2.3构建基于情绪利好密度构建主动选股策略24 4.3研报信息结构是否影响未来走势?26 4.3.1顺序:类别信息靠前意味着更强定价效应?26 4.3.2篇幅:重点说明vs轻描淡写的信号效应28 5研报摘要综合因子的构建与评估28 5.1报告维度的综合评分算法28 5.1.1简单加权及集中度调整28 5.1.2篇幅占比加权29 5.1.3类别重要性加权30 5.1.4篇幅占比&类别重要性加权32 5.2个股层面的评分指标构建33 6总结37 风险提示:38 图表目录 图表1CHATGPT与DEEPSEEK模型对比5 图表2分析师撰写的公司研报的典型框架6 图表3研报摘要业绩部分的典型结构7 图表4不同尺寸的DEEPSEEK-R1版本介绍、参数量、特点、使用场景和硬件配置11 图表5测试模型的部署方式和调用费用11 图表6研报摘要的利好点分类定义与情绪评分规则12 图表7系统提示13 图表8DEEPSEEK-R1-32B模型调用的输入输出示例:输出格式不符合规则,不是JSON格式16 图表9DEEPSEEK-R1-671B模型调用的输入输出示例:输出格式符合规则16 图表10DEEPSEEK-V3-671B模型调用的输入输出示例:输出结果与R1-671B相似17 图表11DEEPSEEK-V3-671B模型基本符合本研究任务17 图表12分类7(业绩对比预期与同业)的分词逻辑18 图表13分类7(业绩对比预期与同业)的复查逻辑18 图表14“沙里淘金”举例19 图表15“去伪存真”举例20 图表16“拨云见日”举例20 图表17分年度有效研报数量20 图表18研报涉及类别数统计20 图表19区间内,涉及各类别的报告数量与占比21 图表20分年度,各分类数量占报告数的情况21 图表21各年度的情绪分布(%)21 图表22各分类的情绪分布(%)21 图表23各类别,不同情绪的报告对应的未来CAR情况22 图表24个股维度:各分类利好密度回归结果23 图表25个股维度:各分类利好密度回归结果(行业因素)23 图表26盈利改善密度组合的分年度收益情况(月频调仓)25 图表27盈利改善密度组合的分年度收益情况(不定期调仓)25 图表28盈利改善密度组合的超额净值曲线25 图表29业绩超预期密度组合的分年度收益情况(月频调仓)26 图表30业绩超预期密度组合的分年度收益情况(不定期调仓)26 图表31出现顺序与CAR的回归结果(情绪值为+1)27 图表32出现顺序与CAR的回归结果(情绪值为-1)27 图表33篇幅占比与CAR的回归结果(情绪值为+1)28 图表34篇幅占比与CAR的回归结果(情绪值为-1)28 图表35𝒔𝒄𝒐𝒓𝒆_𝒔𝒖�和𝒔𝒄𝒐𝒓𝒆_𝒎𝒆𝒂𝒏_𝒉𝒉�与CAR的回归结果29 图表36𝒔𝒄𝒐𝒓𝒆_𝒃𝒚_𝒍𝒆�与CAR的回归结果30 图表37类别重要性权重的计算方案31 图表38𝒔𝒄𝒐𝒓𝒆_𝒃𝒚_𝒄𝒂�与CAR的回归结果32 图表39𝒔𝒄𝒐𝒓𝒆_𝒃𝒚_𝑳𝒆𝒏𝑪𝒂�与CAR的回归结果33 图表40指数衰减加权的权重计算举例33 图表41指数衰减加权的权重示意图33 图表42个股评分因子及逻辑34 图表43𝒔𝒄𝒐𝒓𝒆_𝒎𝒆𝒂�因子表现34 图表44𝒔𝒄𝒐𝒓𝒆_𝒃𝒚_𝒍𝒆�因子表现35 图表45𝐬𝒄𝒐𝒓𝒆_𝒃𝒚_𝒄𝒂�因子表现35 图表46𝒔𝒄𝒐𝒓𝒆_𝒃𝒚_𝑳𝒆𝒏𝑪𝒂�因子表现35 图表47基于研报摘要分类的合成因子的表现36 图表48𝒔𝒄𝒐𝒓𝒆_𝒓𝒆𝒑𝒐𝒓𝒕_𝒍𝒍�的分组年化超额(中证800)37 图表49𝒔𝒄𝒐𝒓𝒆_𝒓𝒆𝒑𝒐𝒓𝒕_𝒍𝒍�的分组超额净值(中证800)37 图表50𝒔𝒄𝒐𝒓𝒆_𝒓𝒆𝒑𝒐𝒓𝒕_𝒍𝒍�因子的多头分年度表现37 图表51𝒔𝒄𝒐𝒓𝒆_𝒓𝒆𝒑𝒐𝒓𝒕_𝒍𝒍�因子的相关性37 1大模型迭代下的文本探索之路 2022年11月,ChatGPT面世后,我们首次尝试将其应用于情感分析领域,通过分析卖方分析师对公司盈余公告点评标题中的情感态度,取得了初步成果,感受到了大型语言模型在文本分析中的强大潜力。ChatGPT不仅能够准确且连贯地进行评分,还能精准捕捉核心情感信息,表现明显优于传统模型如BERT(详见我们2023 年8月14日发布的专题报告《ChatGPT与研报文本情绪的碰撞——量化研究系列报告之十一》)。然而,受限于当时的技术水平与模型调用成本,我们的研究仅聚焦于标题情感分析,尚未延伸至研报摘要部分。 今年,DeepSeek模型的出现为我们提供了新的契机。该模型相比ChatGPT,参数规模更小、成本更低、操作更便捷,且依然保持了出色的性能表现,使得大规模自动化文本分析任务成为现实可能。 图表1ChatGPT与DeepSeek模型对比 资料来源:华安证券研究所整理 基于此,本研究尝试利用DeepSeek将文本分析拓展至卖方分析师研报的摘要部分。一方面,摘要承载了更丰富、全面的信息;另一方面,近年来分析师研报措辞普遍偏积极,特别是标题部分过于简略且不包含客观数据,单纯依赖文字情绪易导致偏差。 传统的诸多研究多聚焦于大模型对摘要进行综合评分,虽取得一定成果,但仍存在若干亟需探讨的问题:其一,评分过程“黑箱化”,模型直接输出总分,难以洞察评分细节;其二,情绪评分易受分析师个人写作风格影响,乐观型分析师偏好正面词汇,部分中立分析师则措辞平和,导致评分可能被局部情绪主导;其三,综合评分缺乏灵活性,通常仅反映分析师对公司整体状况的判断,难以洞察不同经营维度的细节。 因此,本文基于DeepSeek大模型,围绕卖方研报摘要展开系统研究,实现“黑 箱评分”向“可解释结构化”评分。我们从分析逻辑与方法论出发,结合模型选择与 训练过程,深入解析模型输出的情绪结构与信息维度,并探讨其在投资决策中的实际应用价值。 2研报内容的框架拆解与多维信息挖掘 在金融研究领域,研报是分析师与投资者进行信息交流的关键桥梁,而摘要浓缩了全文的核心内容。本章将介绍研报分类的整体框架,深入探讨从研报结构分析到情绪分类的全过程,同时详细介绍分类任务中的各类细节,包括业务发展、财务表现、外部因素等方面的分类定义。通过对研报结构的拆解与分类解读,探索其在投资决策中的应用价值和实用性。 2.1研报摘要内容的结构化解读 分析师撰写的公司报告的摘要通常遵循一个程序化的框架,主要包括以下四个部分: 事件:对核心经营结果的总结,涵盖财务预告、快报或正式报告中的关键财 务数据,以及公司的重要事件,如分红公告、股份回购简要和其他重大事件。 点评:分析师对上述“事件”的详细分析和观点,通常包括对公司整体业绩的评价、经营性指标的解读、毛利率和净利率的分析、流动性状况、销售渠道表现、研发进展以及战略布局等内容。此外,还可能涉及股东行为、政策环境、市场资金和热度等其他相关因素。 盈利预测:对公司的评级,以及未来三年的盈利预测、估值等前瞻性分析。 风险提示:对公司可能面临的风险因素进行说明和提示。 图表2分析师撰写的公司研报的典型框架 章节 内容 事件/总结 公司发布2023年年报,2023年实现营业收入2.46亿元,同比-6.47%;毛利率19.55%,同比下降5.77pct;归母净利润-1.85亿元,亏损同比+15.97%;扣非