您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中邮证券]:金工专题报告:基于大模型外部评价体系框架介绍 - 发现报告

金工专题报告:基于大模型外部评价体系框架介绍

2025-06-30 冯昱文,肖承志 中邮证券
报告封面

市场有风险,投资需谨慎研究所分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com近期研究报告《beta 风格显著,高波占优——中邮因子周报 20250629》 - 2025.06.30《反转风格显著,小市值回撤——中邮因子周报 20250622》 - 2025.06.23《关注基本面支撑,高波风格占优——中邮因子周报 20250615》 -2025.06.16《结合基本面和量价特征的 GRU 模型》 - 2025.06.05《Claude 4 系列发布,谷歌上线编程智能体 Jules——AI 动态汇总20250526》 - 2025.05.27《谷歌发布智能体白皮书,Manus 全面开放注册——AI 动态汇总 20250519》- 2025.05.20《证监会修改《重组办法》,深化并购重组改革——微盘股指数周报20250518》 - 2025.05.19《通义千问发布 Qwen-3 模型,DeepSeek 发布数理证明大模型——AI动态汇总 20250505》 - 2025.05.06《基金 Q1 加仓有色汽车传媒,减仓电新食饮通信——公募基金 2025Q1 季报点评》 - 2025.04.30《泛消费打开连板与涨幅高度,ETF 资金平铺机器人、人工智能与芯片——行业轮动周报 20250427》 -2025.04.28 金工专题报告型的逻辑推理与专业知识应用能力。l评测实验:示工程策略下的性能表现。l实验结果与核心结论:偏差。l风险提示: 目录1大模型评价基准.............................................................................41.1主流大模型能力评估基准综述.............................................................41.2常见大模型评价基准.....................................................................52大模型金融能力评价基准.....................................................................92.1FinanceBench ......................................................................... 102.2FinBen ............................................................................... 113大模型金融能力评价基准构建................................................................134实验设计..................................................................................174.1实验场景 ............................................................................. 174.2数据集构建 ........................................................................... 174.3模型选择 ............................................................................. 174.4评测指标 ............................................................................. 184.5日志文件生成..........................................................................185实验结论..................................................................................195.1对比实验 ............................................................................. 195.2不同类别题目对比......................................................................205.3Pass@K 评价标准 ....................................................................... 215.4大模型推理内容对比....................................................................225.5结语 ................................................................................. 236风险提示..................................................................................24 请务必阅读正文之后的免责条款部分2 图表目录图表 1: 大模型公司及代表模型 ............................................................ 4图表 2: ChatGPT 旗下推理模型.............................................................5图表 3: ChatGPT 旗下旗舰模型及成本优化模型 ............................................... 5图表 4: LiveCodeBench 测评样题:2727(easy).............................................6图表 5: AIME 2024 基准题库样例 .......................................................... 7图表 6: 金融基准题目样例 ................................................................ 9图表 7: FinanceBench 数据样例 .......................................................... 10图表 8: FinBen 数据集构成,颜色代表数据集大小 ........................................... 12图表 9: 题目分类与标签 ................................................................. 15图表 10: 题目样例 ...................................................................... 16图表 11: 题库结构样例 .................................................................. 16图表 12: 日志文件样例 .................................................................. 19图表 13: 准确率评价指标下模型得分情况 .................................................. 19图表 14: 不同类别题目准确率对比 ........................................................ 21图表 15: Qwen-max 在 Pass@K 评价标准下表现 ...............................................21图表 16: 错题样例 ...................................................................... 22图表 17: 错题对应的正确答案推理过程 .................................................... 22 请务必阅读正文之后的免责条款部分3 请务必阅读正文之后的免责条款部分1大模型评价基准1.1主流大模型能力评估基准综述近年来,随着越来越多的公司推出大模型,不同模型之间的侧重点越来越细分,模型评价与筛选越来越成为一个重要的工作。据不完全统计,截至目前至少已经有以下公司推出过大模型:图表1:大模型公司及代表模型代表大模型系列ChatGPT 系列Claude 系列Google DeepMindGemini 系列Llama 系列Grok 系列阿里 AlibabaQwen 系列腾讯 TencentHunyuan 系列深度求索 DeepSeekR1/V3字节跳动 ByteDanceDoubao 系列Nemotron 系列资料来源:中邮证券研究所以 OpenAI 公司的 ChatGPT 系列为例,截至目前 OpenAI 将旗下模型分为:推理模型、旗舰模型、成本优化模型、实时模型、图片生成模型、文生语音模型、语音转录模型、特定工具模型、Embedding 模型、适度微调模型、较早前模型。除去特定场景使用模型,仅考虑推理模型、旗舰模型、成本优化模型三类模型,现阶段就有 17 个模型可供选择。在如此之多的选择下,如何在合理评价的基础上选择合适的模型已成为必不可少的环节。 4主要特点通用性优秀,多模态、推理强强安全、多步骤推理多模态、长上下文、高效推理开源、社区友好“Think”模式加强推理中文优化,多模态,部分开源微信生态内嵌,中文理解优低成本、推理能力突出低成本中文模型GPU 优化、开源 资料来源:OpenAI, 中邮证券研究所而客观、量化的评价大模型离不开大模型评价基准(benchmark)。没有明确的评价标准时,选择模型通常依靠直觉或厂商宣传,容易误选不适合自身需求的模型;与此同时,在众多企业都追求大模型本地化的当下,大模型的部署和维护成本通常较高,盲目选择可能导致资源浪费。我们常见的大模型评价基准可以按能力维度进行分类,包括:代码能力、数学与逻辑推理能力、指令遵循能力、工具/函数调用能力以及通用知识与多任务1.2常见大模型评价基准LiveCodeBench:综合代码能力评测LiveCodeBench 是由 UC Berkeley、MIT 等机构提出的一个综合且无数据污染的代码能力评测基准。它持续收集最新的编程竞赛问题,并设计多种场景测试代码相关的不同能力。LiveCodeBench 不仅包含传统的代码生成(根据问题描述生成正确工作的代码),还扩展到代码自我修复(模型对自己生成的错误代码进行调试修改)、代码执行(预测代码运行的结果)、测试输出预测(根据代码和输入推测单元测试的输出)等多方面。这使评测更全面,反映真实编程场景中的多截至 2025 年 4 月,LiveCo