行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Alpha掘金系列之二十三：论坛散户观点有价值吗？——散户舆情选股投资手册

2026-06-21 高智威,赵妍国金证券 XL

1. 金融论坛文本分析的挑战与新方案

金融论坛文本分析面临内容杂、质量低、文本短、数量多四大挑战。传统情感分析方法存在“唯情感论”造成信息损失和大模型成本高昂、方法同质化等问题。因此，提出基于情感识别+主题分类的舆情选股策略框架，从“投资者情绪如何”逐步转向“投资者在讨论什么内容”，全面扩充舆情选股因子库。

2. 数据与预处理

数据来源为子长科技，涵盖沪深300、中证500、中证1000成分股的金融论坛主帖，时间区间为2019年5月至2025年9月。样本特征显示，主帖平均字数50-60字，50字以内帖子占比超过80%，且随着股票池市值下降，帖子数量大幅增加。

3. 情感分类与因子挖掘

使用FinBERT2模型进行情感二分类，并根据股票归属关系计算各类统计量构建选股因子。基于数量、占比、数量变动、占比变动等多个维度进行因子构建，并在沪深300、中证500、中证1000等3个股票池进行因子测试。随着市值的下降，因子有效性提升。情感分类因子表现出较强的非对称性特征，尾部负超额显著。

4. 创新路径探索——BERTopic+LLM主题分类

采用BERTopic模型结合大语言模型进行主题分类，将金融论坛文本划分为基本面、技术面、情绪表达、行业政策、无关内容等多个类别，并基于各类主题占比构建选股因子。测试发现，主题分类系列因子在沪深300股票池中无效，但在中证500、中证1000股票池中能挖掘出有效因子。

5. 因子合成、相关性分析与策略构建

情感分类下的因子与主题分类下的因子相关性较低，但情感分类系列因子与风格因子中的技术类因子相关性较高。策略构建时，剔除尾部负超额明显的股票。策略在沪深300、中证500、中证1000中的年化超额收益率分别为5.25%、6.79%、8.69%，信息比率分别为1.12、1.53、1.78。

6. 结论与展望

情感分类能够提高关注度类因子的有效性，但核心逻辑仍在于“关注度”及关注度的变动。主题分类能提取更多文本信息，对策略进行补充；基本面占比正向IC，技术面占比和情绪发泄占比显著负向IC。中小市值股票更敏感，中证500、中证1000效果更强。Top组合正超额不及Bottom组合负超额突出。在热门股票组合和冷门股票组合中，主题分类因子表现完全相反，噪音交易者主导的热门股票表现不及基准，更不及噪音交易者主导的冷门股。

金融论坛文本分析的挑战与新方案金融论坛文本具有内容杂、质量低、文本短、数量大的特性。传统的情感分析方法存在信息的损失，而使用大模型进行情感分析则成本高昂，方法同质化。基于上述金融论坛文本的特性和研究困境，我们的舆情选股框架，综合了传统的情感分类以及主题分类两个方向，在情感分类和主题分类两个方向上分别进行文本处理和选股因子的挖掘，从“投资者情绪如何”逐步转向“投资者在讨论什么内容”，全面扩充舆情选股因子库。金融论坛文本的数据特征我们从子长科技获取了股吧金融论坛文本，文本来自以下3个股票池：沪深300成分股、中证500成分股、中证1000成分股。从各股票池的样本特征来看，金融论坛主帖的字数较少，平均字数仅有50-60字，而50字以内的帖子占比均超过80%，中证1000股票池中，2019年5月至2025年9月份的帖子数量已超过1亿条。情感分类与因子挖掘我们使用FinBERT2模型对金融论坛文本进行情感二分类，并根据论坛文本的股票归属关系计算各类统计量构建选股因子。我们基于数量、占比、数量变动、占比变动等多个维度进行因子的构建，并在沪深300、中证500、中证1000等3个股票池进行因子测试，筛选出有效因子。在3个股票池中，随着市值的下降，因子有效性提升。基于Bertopic+LLM的主题分类与因子挖掘我们创新的将大模型与Bertopic模型结合，从主题分类的角度，将金融论坛文本划分为基本面、技术面、情绪表达、行业政策、无关内容等多个类别，由此进行因子的构建，并在沪深300、中证500、中证1000等3个股票池进行因子测试，筛选出有效因子。测试发现，主题分类系列因子在沪深300股票池中无效，在中证500、中证1000股票池中能挖掘出有效因子。而基本面占比因子IC为正，技术面/情绪面主题占比因子IC为负。因子合成、相关性分析与策略构建情感分类下的因子与主题分类下的因子相关性较低，但情感分类系列因子与风格因子中的技术类因子相关性较高。由于情感分类下的因子非对称性明显，尾部负超额显著，因此在构建策略时，剔除尾部负超额明显的股票。策略最终在沪深300、中证500、中证1000中的年化超额收益率分别为5.25%、6.79%、8.69%，信息比率分别为1.12、1.53、1.78。我们把主题分类合成因子，作为股票被噪音交易者主导程度高低的度量指标。我们也发现，通过情感分类合成因子划分的热门股与冷门股两个池子中，主题分类合成因子的IC均值方向相反，在热门股中，噪音交易者占比高的股票未来表现可能相对较差，而冷门股中，噪音交易者主导程度高的股票未来表现可能相对较好。而那些噪音交易者占比高的股票，如果作为风险股票池，可以作为热门股票见顶的信号，起到风险监控的作用。风险提示以上结果通过历史数据统计、建模和测算完成，历史规律不代表未来；在市场环境发生变化时，模型存在失效的风险；策略基于假设通过历史数据回测得到，当交易成本或其他条件改变时，可能导致策略收益下降甚至出现亏损。基金相关信息及数据仅作为基金研究使用，不作为募集材料或者宣传材料。本文涉及所有基金历史业绩均不代表未来表现。内容目录 1、金融论坛文本分析的挑战与新方案..............................................................6 1.1金融论坛文本分析的四大挑战.............................................................61.2传统情感分析的局限性...................................................................61.3基于情感识别+主题分类的舆情选股策略框架................................................6 2.1金融论坛文本数据来源介绍...............................................................72.2样本特征...............................................................................82.3样本覆盖度与样本初步清洗...............................................................9 3.1 FinBERT2模型：专为金融文本优化的预训练模型............................................93.2相比第一代FinBERT的核心优化...........................................................93.3使用Finbert2模型进行文本情感分类.....................................................103.4沪深300股票池的因子测试..............................................................113.5中证500股票池的因子测试..............................................................133.6中证1000股票池的因子测试.............................................................143.7情感分类与因子挖掘总结................................................................15 4.1 BERTopic：新一代主题建模技术的核心优势................................................164.2金融论坛文本主题分类建模全流程........................................................174.3金融论坛文本主题分类效果..............................................................184.4主题分类因子构建......................................................................194.5沪深300股票池因子测试................................................................194.6中证500股票池因子测试................................................................204.7中证1000股票池因子测试...............................................................214.8补充测试——观点的方向性分类是否是有效因子............................................23 5.8噪音交易者主导的热门股组合——风险股票池..............................................326、结论与展望.................................................................................336.1重点结论..............................................................................336.2实践意义..............................................................................33风险提示......................................................................................33 图表目录图表1：舆情选股策略的整体框架................................................................7图表2：金融论坛数据形式......................................................................7图表3：各股票池帖子字数分布（从左到右依次为沪深300、中证500、中证1000）.....................8图表4：不同股票池周度帖子数量变化及中位数统计................................................8图表5：不同股票池样本覆盖度统计..............................................................9图表6：FinBERT2整体工作流简介................................................................9图表7：情感分类任务中FinBert2与其他模型及大模型的对比......................................10图表8：情感分类后正面、负面帖子占比统计.....................................................10图表9：基于情感分类的舆情因子清单...........................................................11图表10：周频因子构建逻辑....................................................................11图表11：效果欠佳的周度正面帖子数量因子分位数组合表现........................................12图表12：基于情感分类的舆情因子清单..........................................................12图表13：pos_momentum_90因子分位数组合表现及多空组合净值（升序）.............................12图表14：pos_acceleration因子分位数组合表现及多空组合净值（升序）............................12图表15：中证500股票池情感分类因子测试结果（有效因子）......................................13图表16：周度正面帖子数量因子测试结果（升序）................................................13图表17：正面帖子占比180日动量因子测试（升序）..............................................13图表18：正面帖子数180日动量因子测试结果（升序）............................................14图表19：周度正面帖子变动因子测试结果（升序）................................................14图表20：中证1000股票池情感分类因子测试结果（有效因子）.....................................14图表2

点击免费查看完整报告

Alpha掘金系列之二十三：论坛散户观点有价值吗？——散户舆情选股投资手册

1. 金融论坛文本分析的挑战与新方案

2. 数据与预处理

3. 情感分类与因子挖掘

4. 创新路径探索——BERTopic+LLM主题分类

5. 因子合成、相关性分析与策略构建

6. 结论与展望

你可能感兴趣

Alpha掘金系列之十三：AI选股模型特征筛选与处理：SHAP、中性化与另类特征

数量化投资系列之二十六：多因子Alpha选股—将行业轮动落实到Top组合

《因子选股系列研究之十三》：Alpha预测

Alpha掘金系列之十二：排序学习对GRU选股模型的增强

Alpha掘金系列之十九：基于Mamba2模型的端到端选股框架

《因子选股系列研究之二十三》：反转因子失效市场下的量化策略应对

《因子选股系列研究之五十二》.：Alpha预测之二，机器的比拼

股债关系研究手册｜资产配置跨市场研究系列之二：资产配置深度报告：美国也有“股债跷跷板”吗？

Alpha掘金系列之十一：基于BERT-TextCNN的中证1000舆情增强策略

Alpha掘金系列之二十二：基于GFlowNet的低相关性量价因子挖掘策略