行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

金融大模型应用评测报告-摘要版（2024）

信息技术 2024-12-01 - 上海人工智能实验室等待花开

金融大模型应用评测报告摘要版（2024）

一、评测范式

评测对象：涵盖国内外、开闭源、通用与金融垂直领域的大模型，共20个模型，涉及14个机构。
评测维度：围绕金融核心业务需求，分为“模型基础能力”、“金融安全与价值对齐能力”、“金融风险控制能力”、“金融专业认知能力”和“金融业务辅助拓展能力”五大维度。
评测数据集：采用《库帕思金融大模型评测数据集（2024版）》，包含通用数据、金融安全、金融风险、金融专业认知和金融业务辅助拓展五部分。
评测工具：基于上海人工智能实验室的OpenCompass平台，支持多种评估方法，包括零样本、少样本和思维链评估。
综合评估分数：采用线性加权模型，对五大维度进行标准化处理后加权平均计算，其中多模态模型在总分中不计入权重。

二、评测结果

总分表现：参评模型平均得分为71.9分，前三名分别为Anthropic的Claude-3.5-Sonnet-20240620（79.8分）、阶跃星辰/财跃星辰的Step-2-16k/Finstep（79.7分）和阿里巴巴的Qwen2.5-72b-Instruct/Qwen2-VL-72B（77.6分）。
维度表现：
- 模型基础能力：平均59.8分，前三名分别为阿里巴巴的Qwen2.5-72B-Instruct（70.3分）、Anthropic的Claude-3.5-Sonnet-20240620（68.9分）和阶跃星辰/财跃星辰的Step-2-16k（65.7分）。
- 金融安全与价值对齐能力：平均92.8分，前三名分别为阶跃星辰/财跃星辰的Step-2-16k（98.8分）、智谱的GLM-4-plus（96.3分）和阿里巴巴的Qwen2.5-72B-Instruct（95.9分）。
- 金融风险控制能力：平均77.1分，前三名分别为Anthropic的Claude-3.5-Sonnet-20240620（84.1分）、阶跃星辰/财跃星辰的Step-2-16k（83.3分）和零一万物的Yi-Lightning（79.6分）。
- 金融专业认知能力：平均52.0分，前三名分别为腾讯的Hunyuan-Turbo/Hunyuan-Vision（71.5分）、字节跳动的Doubao-pro-32k/Doubao-vision-pro-32k（70.0分）和阶跃星辰/财跃星辰的Step-2-16k/Finstep（69.8分）。
- 金融业务辅助拓展能力：平均77.8分，前三名分别为Anthropic的Claude-3.5-Sonnet-20240620（85.0分）、OpenAI的GPT-4o-20240806（83.6分）和零一万物的Yi-Lightning（83.3分）。

三、评测总结

核心观点：各模型整体表现基本满足当前场景需求，但金融专业认知和多模态处理能力仍需提升。金融安全与价值对齐表现优异，但需持续迭代安全评测方法和数据集。
关键数据：参评模型平均得分为71.9分，金融安全与价值对齐能力平均得分最高（92.8分），金融专业认知能力平均得分最低（52.0分）。
研究结论：
- 高质量金融语料建设对模型能力提升至关重要，尤其是多模态数据集的构建。
- 拓展以金融业务为核心的评测框架，保持其动态更新，将助力行业高质量发展。
说明：评测范围限定于《金融大模型应用评测指南》团标所构建的数据集，测试内容针对原始大模型的直接调用功能，不构成完整产品体验建议。

摘要版（2024）上海人工智能实验室上海财经大学上海库帕思科技有限公司二零二四年十二月前言为进一步推动金融科技创新应用的落地，切实提升金融服务的智能化水平，降低企业数字化转型成本，并积极探索金融垂直领域大模型应用的新理念、新机制和新手段，上海人工智能实验室和上海财经大学根据上海人工智能协会和上海金融业联合会共同发布的《金融大模型应用评测指南》（T/SAIAS 019—2024）团标，采用上海库帕思科技有限公司依照上述团标制定的评测数据集《库帕思金融大模型评测数据集（2024版）》，形成了《金融大模型应用评测报告（2024）》。目录一、金融大模型应用评测范式.................................................... 1 （一）评测对象范围...............................................................1（二）评测内容与方法...........................................................4（三）评测数据集...................................................................5（四）评测工具.......................................................................6（五）综合评估分数...............................................................7 二、金融大模型应用评测结果.................................................... 8 三、金融大模型应用评测总结.................................................. 11 说明...............................................................................................14 金融大模型应用评测报告 2024（摘要版）一、金融大模型应用评测范式（一）评测对象范围本次测评对象包括国内外、开闭源、通用基模与金融垂模，共计14个主流大模型机构的20个模型。评测围绕金融行业的核心业务需求及大模型在金融场景中的适配性，结合银行、证券、保险、基金等重点应用场景，形成“模型基础能力”、“金融安全与价值对齐能力”、“金融风险控制能力”、“金融专业认知能力”、“金融业务辅助拓展能力” 5大测评维度。具体详情参见表1-1。（二）评测内容与方法本次评测内容和方法基于金融垂直领域的具体需求，采用主观与客观相结合的方式，对语言大模型和多模态大模型进行全面考察，评估它们在金融场景中的表现能力。具体测评依据以下五大能力维度进行展开。具体详情参见表1-2：（三）评测数据集评测采用依照团标制定的评测数据集《库帕思金融大模型评测数据集（2024版）》，其由5部分组成，评测数据集的部分样例已在OpenDataLab社区公开。具体数据集构成如表1-3所示：注：目前构建的金融安全与价值对齐能力和金融风险控制能力数据集与对应的实际业务场景存在潜在差异，但都强调数据的准确性和安全性，以及风险控制的及时性和有效性。构建的金融安全与价值对齐能力数据集重视数据的解释性、公平性、保密性和完整性，确保数据准确反映业务状况，避免偏见和歧视，同时保护数据不被泄露或篡改；金融风险控制能力数据集特别关注合规风险、市场风险，操作风险等数据。（四）评测工具本次评测基于上海人工智能实验室发布的OpenCompass平台作为核心评测工具。OpenCompass具有高效的分布式评估系统能够快速且全面地评估十亿级规模的模型。该平台适应多种评估方法，包括零样本、少样本和思维链评估，并且具有高度可扩展的模块化设计，便于轻松添加新模型、评测集或自定义任务策略。此外，OpenCompass包括实验管理和报告工具，用于详细跟踪和实时结果展示。对于客观题，系统通过标准答案严格计算模型的答题准确率来评估其性能；对于主观题，系统利用大模型对回答进行审核与评分。（五）综合评估分数综合评估分数采用线性加权模型，对每项指标进行标准化处理后加权平均计算。其中金融专业认知能力维度涉及文本和多模态两项测试，其性能表现对总分的贡献比例，会根据其细分维度数量（文本4，多模态7）来进行权衡。鉴于多模态能力在金融领域应用的重要性，未提供多模态模型能力的机构在综合总分中不计分。综合总分DF计算公式：其中： Qi表示五大框架间的权重；Wj表示各框架内不同细分维度间的权重；Vj为具体指标得分。具体权重如表1-4所示二、金融大模型应用评测结果综合来看，参评模型的总分平均得分为71.9分，排名前三的模型依次为：Anthropic的Claude-3.5-Sonnet-20240620（79.8分）、阶跃星辰/财跃星辰的Step-2-16k/Finstep（79.7分）和阿里巴巴的Qwen2.5-72b-Instruct/Qwen2-VL-72B（77.6分）。参评模型总体评测表现如表和图2-1所示。模型基础能力方面，参评模型平均得分为59.8分，排名前三的模型分别为：阿里巴巴的Qwen2.5-72B-Instruct（70.3分）、Anthropic的Claude-3.5-Sonnet-20240620（68.9分）、阶跃星辰/财跃星辰的Step-2-16k（65.7分）；金融安全与价值对齐能力方面，参评模型平均得分为92.8分，排名前三的模型分别为：阶跃星辰/财跃星辰的Step-2-16k（98.8分）、智谱的GLM-4-plus（96.3分）、阿里巴巴的Qwen2.5-72B-Instruct（95.9分）；金融风险控制能力方面，参评模型平均得分77.1分，排名前三的模型为Anthropic的Claude-3.5-Sonnet-20240620（84.1分）、阶跃星辰/财跃星辰的Step-2-16k（83.3分）、零一万物的Yi-Lightning（79.6分）；金融专业认知能力方面，参评模型平均得分52.0分，排名前三的为腾讯的Hunyuan-Turbo/Hunyuan-Vision（71.5分）、字节跳动的Doubao-pro-32k/Doubao-vision-pro-32k（70.0分）、阶跃星辰/财跃星辰的Step-2-16k/Finstep（69.8分）；金融业务辅助拓展能力方面，参评模型平均得分为77.8分，排名前三的是Anthropic的Claude-3.5-Sonnet-20240620（85.0分）、OpenAI的GPT-4o-20240806（83.6分）和零一万物的Yi-Lightning（83.3分）。三、金融大模型应用评测总结本次金融大模型应用评测全面评估了参评模型在金融方向的基础能力及应用潜力，为行业发展提供了重要参考和方向指引。总结如下：（一）金融评测五大能力维度中，各模型整体表现基本满足当下场景需求，其中金融安全与价值对齐表现优异，但金融专业认知和多模态处理能力仍存在较大提升空间。评测结果表明，在本次金融评测的五大能力维度中，参评模型在金融安全与价值对齐方面表现优异，体现了行业对关键合规性和伦理问题的普遍重视。然而，随着大模型在金融业务场景中更深、更广的应用，金融安全问题可能会以更加隐蔽和多变的形式显现。因此，持续迭代更新安全评测方法和评测数据集，将是未来的重点任务。在模型基础能力、金融专业认知能力，特别是多模态处理能力等方面，参评模型表现欠佳。值得关注的是，在金融业务辅助拓展能力维度，特别是智能投顾表现较好，这一结果反映了大模型在投顾业务中的应用潜力，同时也揭示了在投研、投教等其他业务方向的不足。（二）加强高质量金融语料建设事关模型能力的提升与行业应用表现，尤其是多模态数据集的构建与加强，将成为提升模型实际业务解决能力、深化应用和创新场景落地的关键。评测过程中反映出，高质量金融语料数据集的建设与可持续供给对提升模型能力具有重要意义。特别是在多模态金融数据集方面，当前的供给不足已成为业界共同面临的瓶颈。未来，融合金融业务视角与行业实践，是金融领域大模型应用成效评测的重要抓手。评测数据集需要比照最高水平、最好标准，具有规模大、结构优、价值对齐等特点，且符合金融领域对知识鲜活度、多样性和高密度的整体要求。（三）拓展以金融业务为核心的评测框架、保持其动态更新并与实践紧密结合，将成为行业引导与规范发展的重要工具，并助力行业持续高质量发展。为进一步提升大模型的行业适配能力，建议推进构建和完善以金融业务为核心的细分评测框架，并将其作为模型更新迭代的指南。框架的持续优化和与时俱进，不仅能够推动模型能力与实际业务需求的精准对接，也能够规范行业标准，促进基模企业和相关机构在金融场景中的高质量发展和应用落地。说明本次评测仅限于遵循《金融大模型应用评测指南》（T/SAIAS 019—2024）团标所构建的《库帕思金融大模型评测数据集（2024版）》范围内，采用直接购买（闭源）API接口或下载（开源）模型部署的方式进行模型测试，测试内容针对原始大模型的直接调用功能，不等同于完整的产品体验。本报告在任何情形下均不构成对本报告受众的任何工作、投资或其他建议。本报告引用的信息源于公开信息或注明来源信息，由于数据信息来源不同，可能存在数据应用误差。未经上海人工智能实验室书面授权，任何组织或个人不得对本报告进行任何形式的发布、转载、复制、删节和修改。如有任何问题请联系上海人工智能实验：comm@pjlab.org.cn

点击免费查看完整报告

金融大模型应用评测报告-摘要版（2024）