您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰期货]:人工智能系列二:基于大语言模型的多信源舆情指数构建与应用 - 发现报告

人工智能系列二:基于大语言模型的多信源舆情指数构建与应用

2025-09-05 虞堪,宋子钰 国泰期货 胡诗郁
报告封面

人工智能系列二:基于大语言模型的多信源舆情指数构建与应用 虞堪投资咨询从业资格号:Z0002804yukan@gtht.com宋子钰(联系人)从业资格证号:F03136034songziyu@gtht.com 报告导读: 在当今信息爆炸的金融市场中,舆情信息对投资决策的影响日益凸显。本报告深入研究了舆情信息的重要性、舆情指数的构建及其实证效果,旨在为投资者提供一种新的、有效的投资决策工具。本报告主要对以下内容进行了展开与介绍: ⚫舆情信息的重要性:市场情绪对投资决策影响显著,传统模型在捕捉情绪转折点时存在滞后性。社交媒体和新闻资讯中的海量非结构化信息为构建前瞻性舆情指标提供了新的数据源。然而,现有舆情分析工具存在诸多问题,如数据来源单一、分析效率低下等,导致舆情指标无法准确反映市场舆情信息。 ⚫舆情指数的构建与实证效果:报告创新性地融合了社交媒体、财经新闻和关注度强度三类数据源,通过“统计权重—语义判别”框架精准筛选关键词,并引入“非线性编码+线性解码”动态因子建模结构,构建了高效闭环体系。基于过往数据,本报告发现舆情指数与沪深300指数显示出显著相关性,且具有1-2日的领先性,能提前发出看多或看空信号,对行情拐点的预测效果良好。 ⚫舆情指数的应用场景和价值:舆情指数不仅对权益市场投资决策具有信息增量作用,还能辅助风险预警。此外,该指标可以拓展至外汇、期货、商品等多类型资产市场,提供统一的情绪刻画框架,支持多市场联动分析。 目录 1.舆情信息的重要性..................................................................................................................................................................................32.舆情指数的构建过程.............................................................................................................................................................................33.舆情指数的实证效果.............................................................................................................................................................................54.舆情指数的应用场景和价值...............................................................................................................................................................7 (正文) 1.舆情信息的重要性 在当今信息爆炸的时代,市场情绪对投资决策的影响日益显著。投资者需要及时、准确地了解市场舆情,以便做出合理的投资选择。传统模型在捕捉市场情绪转折点方面存在滞后性,而社交媒体和新闻资讯蕴含的海量非结构化信息为构建前瞻性舆情指标提供了新的数据源。一般来讲,传统的量价模型,或是更为复杂的机器学习或深度学习模型,所使用基础数据大部分为日内交易时间段的数据。这意味着大量的盘后舆情信息难以被模型所捕捉,导致短期内的因子或模型预测效果出现失准的现象。 市场情绪是长期被关注的指标,它反映了投资者对于金融市场的投资态度或预期,这类指标不论是从定性还是定量的角度,对于提高投资决策的胜率都具有显著的帮助。在对于舆情信息的刻画上,在技术和数据尚未成熟的阶段,一般采用的方式是使用调查问卷或者相似指数进行替代表征,最早甚至可以追溯到1936年,Keynes(1936)使用调查问卷的形式构建了投资者情绪并探究了这项指标对于市场的预测能力。发表于2015年的研究Hao et al.(2015)则是直接使用了公开的消费者信心指数作为投资者情绪的表征,研究了52周高动量策略在不同情绪期下的表现效果。后续,随着数据量的增加和模型的进步,从BakerandWurgler(2006,2007)开始,相关研究开始从降维(如主成分分析,偏最小二乘法)的角度,从市场上的投资者情绪代理中(例如换手率,成交量,IPO数量等),提取共有信息,将多维的情绪代理变量转化为结合了代理中共同信息的单一变量,这一单一变量被视为投资者情绪。在这样的方法论下,投资者情绪与权益市场走势之间的显著相互关系被不断的证实(Huang et al.,2014;Hanand Li,2017;Song and Yu,2022等)。但这类方法所定义的投资者情绪信息来源大部分仍然集中于交易时间段的信息,无法解读盘后情绪或隔夜情绪的发酵,并将之应用于短期的投资决策中。基于研究和需求的痛点,从文本信息出发所构建的投资者情绪或舆情指数在人工智能算法的快速发展下应运而生。从2004年开始,Antweiler和Frank(2004)以及Das和Chen(2007)就开始利用互联网消息记录来预测股票市场,此后越来越多的研究者采用这种方法来预测股市。比较具有代表性的有,Ruanet al.(2020)使用深度学习的方法在中国股票市场中提出了一个投资者情绪指标(ISI)。Jianget al.(2019)基于会议电话和财务报表的总体文本语气构建了一个经理情绪指数。Fang et al.(2021)使用网络爬虫技术选择专家金融平台发布的互联网消息,通过基于字典的语言文本挖掘生成情绪变量。整体来看,得益于数据量的激增和人工智能的发展,使用了文本信息的舆情指数不论是从时效性还是从准确度上来看,都具有明显的优势。 现有的舆情分析工具存在诸多系统性问题,如数据来源单一、分析效率低下、处理能力不足、应用转化缺失等,导致最终生成的舆情指标可能无法准确反映实际的市场舆情信息,在指导交易时的准确率也不够稳定。在现实处理中,舆情数据来源分散,人工抓取不仅耗时,而且成本高,难以整合多渠道的新闻和评论数据,无法全面反映市场情况,资源配置效率低下,难以满足决策需求。此外,传统的舆情分析主要依赖人工或简单的文本处理工具,无法快速有效地识别复杂语义和隐含情感,对市场的转折点敏感性较差。然而,准确率高且性能稳定的舆情指标或舆情分析系统一直是投资者的关注热点和需求热点。刻画市场舆情意味着对海量市场信息的集成,这其中存在较多难点,但对于各类投资者来说都有着重要的帮助。 2.舆情指数的构建过程 为了从多维角度刻画市场舆情,我们把社交媒体、财经新闻和关注度强度这3类舆情数据源放置于同一时间轴进行了交叉验证,保证了舆情信息的多元化采集,显著降低了单一数据源所造成的系统性偏差。 在社交媒体舆情上,我们主要使用了微博的博文以及评论数据,作为反映社交媒体情绪的数据源;在财经新闻的舆情上,我们采用了中科闻歌新闻数据源;此外,我们加入了相关关键词的百度搜索指数,作为关注度强度的表征,经过实证发现,这一处理方式能够有效的提升情绪指数的应用效果。 在对关键词的获取和检索上,我们采用“统计权重—语义判别”两阶段协同框架。面对文本语料中有效信息稀疏的困难,研究创新性地将Qwen3大语言模型与改进TF-IDF算法深度融合,实现“频次代表性+语义有效性”的双重筛选,留下真正影响交易的内容。首先运用改进的TF-IDF算法进行关键词粗筛,随后通过大语言模型进行语义验证与权重调整,保留“对金融决策具有实质性价值”的关键词,降低广告内容、模板化文本对指数构建的结构性污染。最终,确保进入指数计算的每一条信息都具备真正的情绪表达价值,将原本需要大量人工审核的文本处理工作实现自动化,大幅提升数据处理的效率与质量,在保持统计显著性的同时显著提升金融语义的精准覆盖率。 在最终的情绪指标输出上,基于Andreini等的研究为启发,引入“非线性编码+线性解码”的动态因子建模结构(Andreini et al., 2023)。在捕捉舆情数据非线性共性、时变结构与滞后关系的同时,将高频舆情特征降维至少量潜在因子,实现“大N小r”降维,提供因子贡献分解与主题归因的支持。“非线性编码、线性解码”的深度因子聚合架构能够把文本浓缩成几个情绪因子,提取低维公共因子,捕捉复杂的非线性情绪共性;再用简单的线性方式把它们“翻译”回具体的新闻主题和关键词。该方法在充分捕捉非线性市场情绪共性的同时,保持因子层面的经济学可解释性,这种构建机制实现了模型预测能力与业务可理解性的有机平衡。此外,为了最终的情绪指数能够准确的捕获真正核心的情绪变动,我们采用了动态权重的调整方式。以用户互动强度(点赞数、评论数等)为基础,有效放大“真正强信号”的权重贡献,同时用平滑技术把日内噪声与短期异常波动去除,确保指数的时间连续性与统计可靠性。 整体来讲,本研究摒弃传统技术堆叠模式,构建“多源对齐+语义去噪+因子聚合+稳健平滑”的闭环体系。前端通过并发采集系统确保高效的“可用数据”;中段通过多模型融合推理引擎(集成LLM与大语 言模型、BERT与传统模型)保障“可用语义”;核心层通过可解释深度因子聚合实现“可用序列”。整体处理效率较传统方法大大提升。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 3.舆情指数的实证效果 本报告基于2024年8月至2025年8月的市场舆情信息,使用上一章节介绍的流程与步骤,构建了舆情指数序列,并对舆情指数在行情盘点和拐点预测等任务上的表现效果进行了验证。如图4所示,黄色曲线所代表的舆情指数与蓝色曲线所代表的沪深300指数走势存在较为明显的相关性。值得注意的是,舆情指数与沪深300指数的并非同期相关,而是能够在指数的行情来临前,提前产生情绪的变化。我们对不同滞后期下的舆情指数与沪深300指数进行了相关性检验,如图5所示,从统计的角度上看,在滞后期为1日和2日下,舆情指数和沪深300均存在显著的相关关系。这意味着,通过舆情指数,来对权益市场未来的行情进行短期的预判是存在应用价值的。整体来看,情绪指数对权益市场存在1-2日的显著领先性,在日常主观、量化投资交易中均可以被视为的一定领先指标,创造另类Alpha价值。 资料来源:国泰君安期货研究 资料来源:国泰君安期货研究 此外,为了更为具体的将舆情指数对行情拐点的择时效果进行利用和展示,我们将舆情指数进一步进行了重构了映射,转化为了舆情指数的看多信号和看空信号。如图6所示,在沪深300的走势上,舆情指数被映射为了具体的看多和看空信号。比较具有代表性的结果是,在2024年9月24日行情开始前,舆情指数提前发出了看多信号;而在“924”行情尚未结束前,舆情指数提前开出了看空信号,相对于行情有着1-2两天的领先性。这意味着舆情指数能够通过多角度的舆情来源,通过LLM的解析和动态因子模型的处理,获取到了额外的超额。此外,在2025年4月初由于美国关税产生的权益市场调整后阶段,舆情指 标同样在下跌行情见底前,领先性的发出了看多信号。因此,我们认为舆情指数能够在市场情绪过热时,能够提前反应,及时触发风险预警机制,辅助投资者和公司提前采取防御性措施。同样,在市场情绪过冷时,能够捕获触底反弹的信号,获取到与量价指标或基本面指标不同源的超额。 4.舆情指数的应用场景和价值 基于舆情指数在预测行情上的显著效果和胜率,结合其独特角度的信息来源,我们认为该指标可以被广泛应用于不同的场景和需求下。首先,目前所构建的舆情指标主要关键词或信息来源主要集中在权益市场,因此不论是对于量化交易还是主观交易的投资决策,都具有一定的信息增量作用