您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国金证券]:Alpha掘金系列之二十三:论坛散户观点有价值吗?——散户舆情选股投资手册 - 发现报告

Alpha掘金系列之二十三:论坛散户观点有价值吗?——散户舆情选股投资手册

2026-06-21 高智威,赵妍 国金证券 XL
报告封面

金融论坛文本分析的挑战与新方案 金融论坛文本具有内容杂、质量低、文本短、数量大的特性。传统的情感分析方法存在信息的损失,而使用大模型进行情感分析则成本高昂,方法同质化。 基于上述金融论坛文本的特性和研究困境,我们的舆情选股框架,综合了传统的情感分类以及主题分类两个方向,在情感分类和主题分类两个方向上分别进行文本处理和选股因子的挖掘,从“投资者情绪如何”逐步转向“投资者在讨论什么内容”,全面扩充舆情选股因子库。 金融论坛文本的数据特征 我们从子长科技获取了股吧金融论坛文本,文本来自以下3个股票池:沪深300成分股、中证500成分股、中证1000成分股。从各股票池的样本特征来看,金融论坛主帖的字数较少,平均字数仅有50-60字,而50字以内的帖子占比均超过80%,中证1000股票池中,2019年5月至2025年9月份的帖子数量已超过1亿条。 情感分类与因子挖掘 我们使用FinBERT2模型对金融论坛文本进行情感二分类,并根据论坛文本的股票归属关系计算各类统计量构建选股因子。我们基于数量、占比、数量变动、占比变动等多个维度进行因子的构建,并在沪深300、中证500、中证1000等3个股票池进行因子测试,筛选出有效因子。在3个股票池中,随着市值的下降,因子有效性提升。 基于Bertopic+LLM的主题分类与因子挖掘 我们创新的将大模型与Bertopic模型结合,从主题分类的角度,将金融论坛文本划分为基本面、技术面、情绪表达、行业政策、无关内容等多个类别,由此进行因子的构建,并在沪深300、中证500、中证1000等3个股票池进行因子测试,筛选出有效因子。测试发现,主题分类系列因子在沪深300股票池中无效,在中证500、中证1000股票池中能挖掘出有效因子。而基本面占比因子IC为正,技术面/情绪面主题占比因子IC为负。 因子合成、相关性分析与策略构建 情感分类下的因子与主题分类下的因子相关性较低,但情感分类系列因子与风格因子中的技术类因子相关性较高。由于情感分类下的因子非对称性明显,尾部负超额显著,因此在构建策略时,剔除尾部负超额明显的股票。策略最终在沪深300、中证500、中证1000中的年化超额收益率分别为5.25%、6.79%、8.69%,信息比率分别为1.12、1.53、1.78。 我们把主题分类合成因子,作为股票被噪音交易者主导程度高低的度量指标。我们也发现,通过情感分类合成因子划分的热门股与冷门股两个池子中,主题分类合成因子的IC均值方向相反,在热门股中,噪音交易者占比高的股票未来表现可能相对较差,而冷门股中,噪音交易者主导程度高的股票未来表现可能相对较好。而那些噪音交易者占比高的股票,如果作为风险股票池,可以作为热门股票见顶的信号,起到风险监控的作用。 风险提示 以上结果通过历史数据统计、建模和测算完成,历史规律不代表未来;在市场环境发生变化时,模型存在失效的风险;策略基于假设通过历史数据回测得到,当交易成本或其他条件改变时,可能导致策略收益下降甚至出现亏损。基金相关信息及数据仅作为基金研究使用,不作为募集材料或者宣传材料。本文涉及所有基金历史业绩均不代表未来表现。 内容目录 1、金融论坛文本分析的挑战与新方案..............................................................6 1.1金融论坛文本分析的四大挑战.............................................................61.2传统情感分析的局限性...................................................................61.3基于情感识别+主题分类的舆情选股策略框架................................................6 2.1金融论坛文本数据来源介绍...............................................................72.2样本特征...............................................................................82.3样本覆盖度与样本初步清洗...............................................................9 3.1 FinBERT2模型:专为金融文本优化的预训练模型............................................93.2相比第一代FinBERT的核心优化...........................................................93.3使用Finbert2模型进行文本情感分类.....................................................103.4沪深300股票池的因子测试..............................................................113.5中证500股票池的因子测试..............................................................133.6中证1000股票池的因子测试.............................................................143.7情感分类与因子挖掘总结................................................................15 4.1 BERTopic:新一代主题建模技术的核心优势................................................164.2金融论坛文本主题分类建模全流程........................................................174.3金融论坛文本主题分类效果..............................................................184.4主题分类因子构建......................................................................194.5沪深300股票池因子测试................................................................194.6中证500股票池因子测试................................................................204.7中证1000股票池因子测试...............................................................214.8补充测试——观点的方向性分类是否是有效因子............................................23 5.8噪音交易者主导的热门股组合——风险股票池..............................................326、结论与展望.................................................................................336.1重点结论..............................................................................336.2实践意义..............................................................................33风险提示......................................................................................33 图表目录 图表1:舆情选股策略的整体框架................................................................7图表2:金融论坛数据形式......................................................................7图表3:各股票池帖子字数分布(从左到右依次为沪深300、中证500、中证1000).....................8图表4:不同股票池周度帖子数量变化及中位数统计................................................8图表5:不同股票池样本覆盖度统计..............................................................9图表6:FinBERT2整体工作流简介................................................................9图表7:情感分类任务中FinBert2与其他模型及大模型的对比......................................10图表8:情感分类后正面、负面帖子占比统计.....................................................10图表9:基于情感分类的舆情因子清单...........................................................11图表10:周频因子构建逻辑....................................................................11图表11:效果欠佳的周度正面帖子数量因子分位数组合表现........................................12图表12:基于情感分类的舆情因子清单..........................................................12图表13:pos_momentum_90因子分位数组合表现及多空组合净值(升序).............................12图表14:pos_acceleration因子分位数组合表现及多空组合净值(升序)............................12图表15:中证500股票池情感分类因子测试结果(有效因子)......................................13图表16:周度正面帖子数量因子测试结果(升序)................................................13图表17:正面帖子占比180日动量因子测试(升序)..............................................13图表18:正面帖子数180日动量因子测试结果(升序)............................................14图表19:周度正面帖子变动因子测试结果(升序)................................................14图表20:中证1000股票池情感分类因子测试结果(有效因子).....................................14图表2