吴轲 人工智能赋能金融——效率提升与风险治理1 一、为什么金融尤其需要人工智能? 当前,我们正处于人工智能技术飞速发展的历史节点。2022年11月ChatGPT问世,标志着通用人工智能迈出历史性一步,开启了大模型在金融非结构化信息分析上的新可能;2025年初DeepSeek-R1发布,将高质量推理成本降至学术可承受范围,体现出中国AI研发的韧性与创造力。与此同时,通义千问开源系列大模型持续迭代,多模态处理与文本嵌入能力不断提升,为中文金融文本分析提供了有力的基础工具。从国家战略层面看,中央金融工作会议明确提出建设金融强国、做好科技金融与数字金融等“五篇大文章的目标”;2025年8月国务院印发“人工智能+”行动意见,推动智能体在金融、商务、法律等领域的广泛应用;央行《金融科技发展规划》亦将AI列为核心技术,推动风险管理从“人防”到“智控”的转变。 在产业实践层面,AI已从概念验证进入规模化落地阶段。中国银行计划未来五年为AI全产业链提供不低于1万亿元专项金融支持;工商银行完成DeepSeek本地化部署,赋能200余个业务场景;北京银行启动“AllinAI”战略,落地90余个金融应用;腾讯云联合沪深交易所、中国银行等将AI大模型落地超100个金融场景,智能资讯分析效率提升30倍,信贷尽调周期由10天缩短至1天。Swift联合13家国际银行进行AI模型试验,欺诈识别准确率提升100%,交易审查处理由数天缩短至几分钟。截至2025年底,中国金融科技专利申请量达46419件,居全球第一。 与此同时,AI正经历从“Chat”到“Agent”的范式转变。2026年初爆发式流行的开源AI智能体框架OpenClaw,发布数日即获得GitHub 10万+星标,截至2026年3月突破25万,并在我国迅速完成DeepSeek和微信的本土化适配。AI Agent不再是对话助手,而是能自主执行任务、调用工具、操作计算机的“数字员工”,在金融领域可自动化执行交易策略、管理投资组合、生成合规报告。然而,热潮背后的安全风险不容忽视:2026年2月HudsonRock检测到OpenClaw配置被恶意软件攻陷,API密钥与对话历史泄露;Cisco发现第三方技能存在数据窃取和提示注入攻击;同年3月Claude Code因npm包误带source map暴露大量源码,随后引发伪造仓库和恶意软件传播。2026年3月,我国已限制国有企业和政府 机关在办公电脑上运行OpenClaw应用,以防范潜在安全风险。 金融行业天然适合AI,其核心在于信息处理。5000余家A股上市公司的年报、公告、研报、专利总量以亿字计,传统分析师团队只能覆盖有限比例。大语言模型使得系统性“阅读”全市场文本、提取经济信息并转化为可量化金融变量的新范式第一次成为现实。但AI本身存在前瞻性偏差、幻觉和过拟合等风险,若不加以审慎处理,也可能误导决策。因此,近期研究同时关注AI如何提升效率、辅助风险识别,以及AI应用本身需要警惕的风险。 二、人工智能如何重塑行业边界:基于大语言模型的A股上市公司行业分类 在学术界,基于大模型的金融研究进展迅速。在语义分析与市场预测方面,Lopez-Lira和Tang(2023)率先证明ChatGPT新闻情感信号能预测股票收益;Siano(2025,ManagementScience)表明LLM能从财报电话会议中捕捉传统方法难以识别的细微语义信号;Jha等人(2024a,2024b)展示了ChatGPT从电话会议中提取资本支出和宏观展望信息的能力。在风险管理领域,Pele等人(2026)提出了LLM-VaR和LLM-ES方法,以零样本方式估计在险价值和期望损失。在企业网络构建方面,Breitung和Müller(2025)利用10-K年报构建了上市公司全球商业网络。 行业分类是金融实证研究的重要基础设施(McGahan和Porter,1997),但A股现有的多套行业分类标准存在三大不足:一是更新滞后,对并购重组或业务转型通常存在1-2年的滞后期;二是细分赛道区分不足,组内公司同质性低;三是方法不透明、难复现。中国上市公司协会分类严格参照国标,首要目标是统计和行政监管而非金融研究;申万、万得分类虽更贴近市场,但编制方法不公开。Hoberg和Phillips(2016,JPE)利用美国10-K年报产品描述文本构建了动态TNIC行业分类,但这类数据驱动方法在中国市场一直处于空白状态。 本团队的核心思路是:两家公司在年报中描述的业务内容高度相似,则归为同一行业。这一分类体系追求三大目标——客观性(分类方法公开透明,可复现,可根据具体研究需要调整)、准确性(聚类准确,能够捕捉相似企业,组间差异大,组内差异小)和实时性(及时反映企业业务转型)。研究收集了2007至2023年间沪深两市全部A股上市公司的52702份年报“管理层讨论与分析”(MD&A)文本,采用“嵌入—聚类—命名—测试”四步骤方法构建分类体系。 第一步:嵌入。使用Qwen-text-embedding-v4文本嵌入模型将每份MD&A映射为2048维语义向量。考虑到模型输入长度限制,首先将每篇MD&A文本划分为若干段落,分别计算 各段落的嵌入向量,再以段落嵌入向量的均值作为该篇文本的整体向量表示。为增强嵌入对行业语义的捕捉能力,研究在调用模型时加入任务指令(Prompt)以提升模型信息提取能力。最终对每个MD&A文本生成一个2048维语义嵌入向量,用于描述该公司的业务模式。 第二步:聚类。基于52702个嵌入向量,研究采用层次聚合聚类(AgglomerativeHierarchicalClustering)方法,配合平均链接(AverageLinkage)准则和归一化欧氏距离,自底向上构建三级分类体系。这一方法完全由数据自下而上驱动,避免了预设行业定义可能带来的先验偏差。在归一化前提下,欧式距离和余弦距离存在单调映射关系,归一化欧氏距离的平方根特性在聚合过程中能有效压缩极端样本对的惩罚权重,使聚类算法对MD&A文本中的局部噪声更加鲁棒。具体而言,三级分类的构建过程如下:三级分类层面,先将全部向量聚合为300类,再通过动态小簇合并机制将簇内少于5个点的微小簇并入最近的大簇,得到271个三级行业;二级分类层面,基于三级聚类结果构建簇间距离矩阵,继续聚合至150类后将少于30个点的小簇合并,得到102个二级行业;一级分类层面,在二级结果上继续聚合至50类后将少于300个点的小簇合并,得到26个一级行业。动态小簇合并机制的创新性引入,既解决了传统层次聚合聚类容易产生大量极小孤立簇的缺陷,同时也保证了分类体系的完全嵌套关系——若任意两家上市公司归属于同一三级行业,则它们必然也归属于同一个二级行业和一级行业。 第三步:命名。研究创新性地采用基于大语言模型的两阶段命名策略——“局部摘要-全局命名”,避免人工命名带来的偏好偏差。首先使用具备长上下文处理能力的Qwen-Long模型,对各行业抽样读取MD&A文本,生成详尽的行业业务画像总结;然后使用Qwen3-Max模型将所有行业的业务摘要整合为单一输入进行全局对比分析,赋予符合中国A股市场通用术语的行业名称(如“基础化工”“食品饮料”“高端装备”等),名称长度严格控制在2-6个中文字符,确保名称互斥。二级行业命名时还显式引入一级行业信息作为先验背景,使二级名称体现出对一级行业的从属或细分关系。 第四步:测试。构建分类体系后,研究从行业间差异性、行业内相似性和资产定价三个维度,将LLM分类与申万三级分类、万得四级分类及中国上市公司协会分类进行系统比较。评价指标选取了营业利润率(OpMargin)、资产回报率(ROA)、营业收入增长率(RevGrowth)和资本支出增长率(CapxGrowth)四个在相同业务公司间高度相似的财务特征指标。衡量逻辑是:一个好的分类标准应该把最相似的公司放入同一个类别中,使得类内差异最小、类间差异最大。 最终形成的“人大-新华”分类体系涵盖26个一级、102个二级和271个三级行业。26 个一级行业包括:高端装备、食品饮料、医药生物、电子元件、软件服务、农林牧渔、基础化工、种子农业、交通运输、电力设备、公用事业、纺织服装、文化传媒、建筑材料、商业零售、房地产、综合转型、交运能源、金融服务、家电部件、旅游酒店、轨道交通、造纸包装、高速公路、石油化工和环保水务。聚类层次完全嵌套。数据显示,综合转型行业从2007年的294家骤降至2023年的3家,电子元件行业则从71家扩张至766家,生动反映了中国产业结构的动态演变——高新技术产业和先进制造业快速扩张,而部分传统行业则面临调整或增长瓶颈。 在行业间差异性方面,研究计算了各分类体系下不同行业在四个核心财务指标上的标准差,标准差越大表明行业间财务特征差异越显著。结果显示,在同等类别数量粒度下,LLM分类体系在多数指标上均优于同级别的申万、万得分类。以营业利润率为例,“人大-新华”三级分类的标准差为0.266,而申万三级仅为0.131——LLM行业区分度约为传统分类的两倍。在一级分类层面,LLM分类标准差(0.113)同样显著高于申万一级(0.064)、万得一级(0.097)和万得二级(0.079)。在二级分类层面,LLM二级(0.188)显著超过申万二级(0.102)与万得三级(0.098)。 在行业内相似性方面,研究采用行业哑变量回归的R²作为衡量指标,R²越高表明同一行业内公司在该指标上越趋同。结果显示,LLM分类在多数指标上均具有更高的R²解释力。以营业利润率为例,“人大-新华”三级分类的平均R²为0.144,高于申万三级的0.102和万得四级的0.095。更高的R²意味着同一行业内企业在关键特征上更相似,LLM分类能更好地实现“类内相似、类间差异”的分类目标。 在资产定价检验中,研究基于Hoberg和Phillips(2018)的行业“领先-滞后”效应,结合Du等人(2025)关于A股高价股动量更显著的发现,构造了对冲投资组合。具体方法为:每月末在收盘价不低于10元且流通市值位于市场前70%的股票池中,计算过去11个月(排除最近一个月)同行业公司平均累计收益率作为“领先-滞后”特征,采用双重独立排序——按收盘价(前10%与后10%)和领先-滞后特征(前20%与后20%)独立排序后取交集,做多“高价股+高领先-滞后”组,做空“高价股+低领先-滞后”组。结果表明,“人大-新华”二级和三级分类产生了统计显著的正收益(月均收益分别为1.29%和1.53%,T值分别为2.43和2.81),而其他分类体系的对应组合均未产生显著正收益。经Fama-French五因子模型调整后,LLM三级分类的等权Alpha为1.60%(T=3.00),经中国四因子模型调整后等权Alpha为1.80%(T=2.84),均高度显著;而申万和万得体系在多数设定下均未能产生统计显著的Alpha。Fama-MacBeth横截面回归进一步证实,“人大-新华”二级分类交乘项系 数为0.0148(t=2.05),加入资产增长率、公司规模、账面市值比和毛利率等控制变量后仍在5%水平显著,其他分类体系均不显著。 “人大-新华”A股上市公司行业分类数据集已于2026年3月正式发布并在新华财经数据终端上线,可供金融从业者和研究人员使用。 三、人工智能如何识别风险链条:基于生成式AI的公司关联网络 企业间的关联网络对于理解系统性风险至关重要。2018年东方园林债券违约表面仅为单一公司信用事件,但迅速引发蒙草生态、铁汉生态、道氏技术等多家公司股价大跌,累计损失市值超150亿元。Acemoglu等人(2015)系统揭示了这一机制:关键企业的微观冲击可通过供应链、信用链层层放大,引发宏观波动。在中美科技竞争背景下,出口管制和关税变化可能通过隐性关联网络传导影响大量表面上无直接关联的企业。 现有描述企业关联的方法大多局限于单一维度——供应链联系(Cohen和Frazzini,2008)、行业竞争(Hoberg和Ph