AI智能总结
掌握股票的“相似性”可以帮助投资者解决许多问题。因此,有效地衡量股票相似性对于投研来说及其重要。相似性研究的核心在于找到个股之间的“共性”因素,并通过定量化方法进行刻画。本文将“投资概念”作为共性的代理变量,借助大模型实现了基于投资概念的股票相似性衡量,并在组合优化的应用中证明其优势。 基于投资概念的股票拆解思路 我们提出一种从投资概念出发的股票相似性衡量思路,设计了自动化的股票概念提取工作流,使用思维链技术让大模型分析研报与公告文本,提取出投资概念与对应解释文本,并构建完善的股票概念关系数据库。 在概念提取的思维链中,我们要求大模型从主营业务、产品产出、技术工艺、政策事件这些角度出发,将所有可能相关的概念名称进行列示。在提取概念名称时,我们要求大模型同步生成概念对应的名词解释与提取原因,以进一步降低大模型的幻觉现象,并获取更加丰富的信息量。 如何根据概念衡量个股相似性 我们通过Embedding模型对概念文本进行向量化,并聚合到股票层面,最终在同一个向量空间中表示股票与概念两类对象,进而实现对股票相似性的衡量。 具体来说,我们将前述步骤中生成的概念名称、概念含义与提取原因合并为概念文本,并对这一长文本进行向量化。 概念向量中嵌入了概念的语义信息,这使得我们能够通过向量余弦相似度来衡量两个概念之间的相似性。在股票层面加总向量并单位化之后,我们便能够得到股票向量,并进行后续的个股相似性排序或聚类分析。 相似性的应用:组合优化 最终我们将股票向量应用于组合优化任务中,对股票向量进行降维聚类并将聚类结果替换掉传统的行业分类。我们以沪深300、中证500与中证A500指数的增强策略为案例,通过对比不同的聚类方案与参数调优,找到相较于传统GICS或中信一级行业分类更加有效的股票聚类结果,并为组合超额净值带来提升。以沪深300增强策略为例,控制股票概念聚类的暴露能够使信息比率达到1.838,而控制中信一级行业分类的策略其信息比率仅1.474。 整体来说,tSNE降维搭配Agglomerative层次凝聚聚类算法效果普遍最好。且股票聚类算法在沪深300上的优势相对中证500或中证A500都更好,这一方面有股票概念覆盖度的原因,另一方面也说明概念相似性更适用于业务范围较广、涉及概念较多的大市值股票。上市公司的业务越难以通过单一的行业完整描述,则使用概念聚类的效果约好。 总结 股票概念关系数据库的构建与相关性衡量是本文的核心贡献,其能够为我们带来丰富的想象空间,譬如可以通过概念相似性捕捉动量溢出效应,快速布局存在补涨可能性的股票,并构建相应选股策略。如何进一步挖掘股票概念数据库的潜力也是我们接下来的研究方向之一。 同时,股票概念关系数据库的构建则是大语言模型在投研领域的又一重要应用案例。大模型能够帮助我们将非结构化的文本信息融入现有策略框架中,并完成此前难以实现的各类任务,也将为传统投研带来全新的方法与思路。 风险提示 以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在时效的风险。策略通过一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。大语言模型输出结果具有一定随机性的风险,模型迭代升级、新功能开发可能会导致结论不同。人工智能模型得出的结论仅供参考,可能出现错误答案的风险。 一、基于投资概念的股票拆解思路 如何有效地对股票“相似性”进行衡量是证券研究的重要课题。我们的核心假设是具有高相似性的股票在股价涨跌上也会更加同步。若我们能准确衡量个股相似性,首先可以对股票进行分类从而快速定位相似的股票;在个股出现上涨行情时也可以基于相似性找到可能联动上涨的个股,构建追涨策略;此外,我们也可以将分类结果用于组合优化,从而有效地控制组合风险,增强超额净值的表现……相似性衡量可以帮助投资者解决许多问题。有效的股票分类结果可谓是证券分析的基石。 相似性研究的核心在于找到个股之间的“共性”因素,并通过定量化标准对其进行衡量。 大家所熟悉的行业分类其实上就是一种相似性分类的结果,本质上是将公司业务作为“共性”的代理变量得到的结果。对共性因素的刻画是衡量个股相似性的关键。我们认为,将投资概念作为共性并用于个股相似性衡量,具有极大的优势。 1.1为何需要从投资概念角度描述股票 当前使用较多、也较受认可的是从“行业”角度出发对股票进行分类,以上市公司的营业收入与利润状况为分类主要依据。按行业进行分类贴合经济活动的本质,也是一种较为直观的分类方式。目前投资者使用较多的包括中信行业分类、申万行业分类、证监会上市公司行业分类与GICS行业分类等,可以方便投资者快速了解个股业务的大致类型。 但在实际情况中,大而泛的行业分类无法完全解释个股涨跌,“投资概念”可能更容易成为个股涨跌的共性来源。以近期火热的“谷子经济”概念为例,这是一种主要涉及二次元文化产品的消费经济形式。从成分股来看,谷子经济主要成分股属于传媒行业,市值占比达到52%,商贸零售行业占比18.69%。 图表1:“谷子经济”成分股行业总市值占比 然而,指数近期相对传媒行业跑出了明显的超额收益。若按照“谷子经济”概念成分股的行业占比来对中信一级行业指数进行加权,得到的合成指数净值同样与谷子经济有明显差距。这表明行业对个股涨跌的描述能力越来越弱。 行业分类的解释能力变弱,其背后的原因一方面在于上市公司的业务越来越多元化,单一的行业分类会损失大量信息;另一方面则是主营业务作为“共性”因素带来的信息量占比较低。若想更好地刻画相似性,还需要我们从其他角度寻找描述方法。 图表2:行业收益率难以解释概念行情的收益来源 除了行业分类之外,也有研究从股票的基本面、量价与事件驱动特征角度出发,使用以上因子构成股票的向量表达,并在向量空间中通过统计方法进行衡量。这类方法对相似性的评价维度更丰富,譬如小市值、高成长、红利股等等;对相似性强弱的刻画也更细致,可以计算出相关系数并对个股进行排序。不过,一些基于量价特征的分类结果具有滞后性,是基于股价同涨跌的现象来判断其分类,分类结果的持续性难以保证,另外类似股权激励、高管增减持的事件驱动类特征对时效性的要求较高,更易失效。 股票的风格因子特征通常会与行业分类同时用于组合优化任务,两者可起到互补作用,更好地控制组合风险;也有一些基于个股度量空间构造的选股策略,可以带来超额收益。但目前,在量化策略的组合优化框架中,风格与行业暴露约束有时也无法控制住跟踪误差,存在一定的局限性。这表明个股相似性能够为现有策略带来信息的增益,但在方法上还有许多可以改进的角度。 图表3:目前相似性衡量方式梳理 当前市场轮动加速,热点频出且受市场关注度持续走高。“投资概念”在个股的描述中愈发重要。在提及某只个股时,投资者通常会将其与当前热门的投资概念联系起来,或是根据投资概念来选择股票。在个股上涨时,投资者首先想到的也是其所属概念下有哪些股票会被溢出资金带动,从而出现联动式的上涨。事实上,主题概念投资在全球不同市场中都得到广泛应用。在海外市场,Cooper等(2001)发现,1998至1999年互联网泡沫时期,很多公司只要沾上“.com”的概念,即便其主营业务与互联网相关性不大,公司的股价也能够获得明显的正向超额收益。以上案例均表明,投资概念相比行业能解释更多个股的超额收益来源,是更有效的一种股票分类方法。 投资概念可以视作股票之间的桥梁,且相对传统方法具有更多优势: 刻画角度全面。投资概念的定义非常广泛,可以全面覆盖主营业务、产品、技术、行业、政策、投资事件等各类对象,任何会导致股价波动、或对股价波动进行传导的因素都可以囊括进来,可以提供行业之外的信息。 可解释性强。概念对股票涨跌带来的驱动因素易于观察与理解,便于检验个股同步涨跌背后的逻辑链条,给出显式的行情传递过程。 信息来源差异化。概念信息更多来自于新闻、研报、公告等非结构化的文本信息,这类数据与结构化数据存在来源差异,能为现有框架带来信息增量。 相关性传递路径明确。个股与概念之间属于多对多关系,相对于单一的行业分类更便于我们构建网络图来描述其中任意两只股票之间的关系,甚至可以刻画由多层概念间接得到的复杂关系。 概念标签具有持续性。投资者一旦将个股打上某个概念标签,则在未来较长时间内都会认为其属于对应的概念股范围,这又会增强概念标签对个股影响的持续性。 实际上,当前也有一些现成的个股概念数据库,可提供股票与概念之间的对应关系。Wind、同花顺与东方财富等数据提供商会将市场关注度较高的概念整理出指数,其指数成分股即包含了与概念相关的股票。但这些现成的概念数据很难直接使用。 首先,概念数据库的维护需要大量人力,且概念股梳理结果相对滞后。如下图所示,以同花顺的“DeepSeek”概念指数为例,截至2025年3月24日指数成分股数量累计达到620只,但在指数启用的2月5日当天仅有12只股票被纳入成分股,其中有大量个股的纳入时间出现滞后,这实际上是人工梳理导致的信息滞后。 而且,这类概念分类具有一定主观性,导致概念股的梳理质量参差不齐。伴随概念股数量的上升,一些明显低相关的个股也会被纳入,这可能是我们在实际应用时想要剔除掉的; 但由于概念指数是等权构建的,我们无法对相关性的强弱进行直观区分,这也为我们的使用带来不便。 此外,这类数据库通常是近年内才扩充起来的,历史数据的缺失也使得我们难以进行较长时间的回测验证。 图表4:同花顺“DeepSeek”概念股累计数量 图表5:同花顺概念指数历年启用数量 那如何更有效地挖掘概念信息呢?我们认为,大语言模型可以帮助我们实现股票投资概念的全自动提取,完成从概念角度描述个股的任务。以下部分,我们将首先展示其概念提取流程,并对使用概念刻画个股相似性的方法论进行详细介绍。 1.2股票投资概念的提取与解析流程 投资概念的提取可以视作一类文本处理类任务,这正是大模型所擅长的。人类研究员在进行概念识别时,也需要将新闻、研报或公司公告等文本作为信息来源,从中识别出具体的投资概念词汇,并总结其与个股的关系。我们参考这一思路,建立工作流来使用大模型实现自动化的概念识别与提取任务。我们设计流程如下: 图表6:投资概念提取流程 文本数据清洗 考虑到信息来源的可靠性以及数据量的可控性,本次项目中我们只将研报与公司公告用于概念提取。文本的选择上,我们使用个股研报的摘要部分、以及公司公告的定期报告中经营相关章节进行分析。研报摘要中一般包括了分析师对于公司的核心观点,也会涉及对公司业务、产品与产业链等核心信息的描述;在个股业务出现调整或相关概念火热时,也会有研报快速更新发布,信息迭代也较为及时。为防止研报覆盖度不高,我们也将公司公告作为基础数据纳入分析。 我们对文本中的风险提示、图表等内容进行了剔除,并分批次进行处理,以获取完整的概念提取结果。 概念初步提取 我们首先采用思维链(Chain of Thought)技术,要求大模型从主营业务、产品产出、技术工艺、政策事件这些角度出发,将所有可能相关的概念名称进行列示。以上范围已相对全面地覆盖了市场对“投资概念”的定义,确保不出现遗漏的情况;去重则在下一步骤中进行处理。 更重要的是,我们要求大模型在生成概念名称时同步生成概念对应的名词解释与提取原因(依据)。这种方式可以进一步降低大模型的幻觉,确保输出的结果完全来自于我们提供的文本,而不是基于大模型自己的知识生成的结果。让大模型回答更多基于原文的内容,可以使其在整个任务中主要发挥文本处理的能力,并减少对其知识库的使用,是降低模型幻觉的重要方法。此外,生成概念名词解释以及提取原因也能提供更多的信息量,便于我们后续进行相关性的衡量等操作。 概念处理与汇总 首先我们需要进行提取概念的清洗与再验证。初步提取的概念中会存在重复(或非常类似)的名词,我们将使用大模型对此进行剔除;同时我们对结果进行再次验证,让大模型再次判断每个概念是否属于前文所列出的“投资概念”范畴,确保提取的概念准确。