行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

金工专题报告：基于大模型外部评价体系框架介绍

2025-06-30 冯昱文,肖承志中邮证券，

大模型评价基准综述
- 主流大模型公司及代表模型众多，如OpenAI、Anthropic、Google、Meta等，模型评价与筛选成为重要工作。
- 常见大模型评价基准包括LiveCodeBench（代码能力）、AIME（数学与逻辑推理能力）、BFCL（函数与工具调用能力）。
大模型金融能力评价基准
- 金融领域评价基准相对缺乏，原因包括任务主观性、数据隐私、任务多样性、法律风险等。
- 主流金融领域基准包括FinanceBench（开放金融问答）、FinBen（多任务金融评估）。
大模型金融能力评价基准构建
- 构建专注于逻辑推理的金融问答评价基准，包含188道单项选择题，涵盖9个类别：金融相关计算、经济学、财务报表分析、公司金融、权益投资、固定收益、衍生品、另类投资、投资组合管理。
- 每道题目包含题目分类、题目、答案、推理过程（思维链）。
实验设计
- 实验场景：基准场景、思维链（CoT）场景、样本提示（few-shot）场景、样本提示+思维链场景。
- 数据集构建：样本提示集72道题目，测试集116道题目。
- 模型选择：DeepSeek-R1、DeepSeek-V3、HUNYUAN-T1、Qwen-max、DouBAO-seed-1.6-thinking、GLM-4-plus。
- 评测指标：准确率、Pass@K。
实验结论
- 对比实验：思维链提示显著提升模型准确率（最高提升超过15%），样本提示效果有限。
- 不同类别题目对比：大模型在金融相关计算、投资组合管理、另类投资类别中得分较高，经济学、财务报表分析类别中表现较差。
- Pass@K评价标准：思维链提示下Pass@3概率达到0.8922，Pass@1指标较为严格。
- 大模型推理内容对比：模型在处理概念相近、存在逻辑陷阱的题目时容易出现理解偏差。
结语
- 大模型在金融知识获取与基础问答上表现不俗，但深度理解和复杂逻辑推理仍是挑战。
- 高质量数据是解锁模型深层能力的关键，思维链/推理线索或提示样本效果显著。
- 大模型不应替代人类思考，而应作为分析师可靠的辅助工具，需深入检验其背后的逻辑链条。
风险提示
- 基于历史数据分析，历史规律未来可能存在失效的风险。
- 案例仅供测试使用，不构成投资建议。
- 大模型回答存在幻觉现象与随机性，生成答案可能存在错误。

市场有风险，投资需谨慎研究所分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com近期研究报告《beta 风格显著，高波占优——中邮因子周报 20250629》 - 2025.06.30《反转风格显著，小市值回撤——中邮因子周报 20250622》 - 2025.06.23《关注基本面支撑，高波风格占优——中邮因子周报 20250615》 -2025.06.16《结合基本面和量价特征的 GRU 模型》 - 2025.06.05《Claude 4 系列发布，谷歌上线编程智能体 Jules——AI 动态汇总20250526》 - 2025.05.27《谷歌发布智能体白皮书，Manus 全面开放注册——AI 动态汇总 20250519》- 2025.05.20《证监会修改《重组办法》，深化并购重组改革——微盘股指数周报20250518》 - 2025.05.19《通义千问发布 Qwen-3 模型，DeepSeek 发布数理证明大模型——AI动态汇总 20250505》 - 2025.05.06《基金 Q1 加仓有色汽车传媒，减仓电新食饮通信——公募基金 2025Q1 季报点评》 - 2025.04.30《泛消费打开连板与涨幅高度，ETF 资金平铺机器人、人工智能与芯片——行业轮动周报 20250427》 -2025.04.28 金工专题报告型的逻辑推理与专业知识应用能力。l评测实验：示工程策略下的性能表现。l实验结果与核心结论：偏差。l风险提示：目录1大模型评价基准.............................................................................41.1主流大模型能力评估基准综述.............................................................41.2常见大模型评价基准.....................................................................52大模型金融能力评价基准.....................................................................92.1FinanceBench ......................................................................... 102.2FinBen ............................................................................... 113大模型金融能力评价基准构建................................................................134实验设计..................................................................................174.1实验场景 ............................................................................. 174.2数据集构建 ........................................................................... 174.3模型选择 ............................................................................. 174.4评测指标 ............................................................................. 184.5日志文件生成..........................................................................185实验结论..................................................................................195.1对比实验 ............................................................................. 195.2不同类别题目对比......................................................................205.3Pass@K 评价标准 ....................................................................... 215.4大模型推理内容对比....................................................................225.5结语 ................................................................................. 236风险提示..................................................................................24 请务必阅读正文之后的免责条款部分2 图表目录图表 1：大模型公司及代表模型 ............................................................ 4图表 2： ChatGPT 旗下推理模型.............................................................5图表 3： ChatGPT 旗下旗舰模型及成本优化模型 ............................................... 5图表 4： LiveCodeBench 测评样题：2727（easy）.............................................6图表 5： AIME 2024 基准题库样例 .......................................................... 7图表 6：金融基准题目样例 ................................................................ 9图表 7： FinanceBench 数据样例 .......................................................... 10图表 8： FinBen 数据集构成，颜色代表数据集大小 ........................................... 12图表 9：题目分类与标签 ................................................................. 15图表 10：题目样例 ...................................................................... 16图表 11：题库结构样例 .................................................................. 16图表 12：日志文件样例 .................................................................. 19图表 13：准确率评价指标下模型得分情况 .................................................. 19图表 14：不同类别题目准确率对比 ........................................................ 21图表 15： Qwen-max 在 Pass@K 评价标准下表现 ...............................................21图表 16：错题样例 ...................................................................... 22图表 17：错题对应的正确答案推理过程 .................................................... 22 请务必阅读正文之后的免责条款部分3 请务必阅读正文之后的免责条款部分1大模型评价基准1.1主流大模型能力评估基准综述近年来，随着越来越多的公司推出大模型，不同模型之间的侧重点越来越细分，模型评价与筛选越来越成为一个重要的工作。据不完全统计，截至目前至少已经有以下公司推出过大模型：图表1：大模型公司及代表模型代表大模型系列ChatGPT 系列Claude 系列Google DeepMindGemini 系列Llama 系列Grok 系列阿里 AlibabaQwen 系列腾讯 TencentHunyuan 系列深度求索 DeepSeekR1/V3字节跳动 ByteDanceDoubao 系列Nemotron 系列资料来源：中邮证券研究所以 OpenAI 公司的 ChatGPT 系列为例，截至目前 OpenAI 将旗下模型分为：推理模型、旗舰模型、成本优化模型、实时模型、图片生成模型、文生语音模型、语音转录模型、特定工具模型、Embedding 模型、适度微调模型、较早前模型。除去特定场景使用模型，仅考虑推理模型、旗舰模型、成本优化模型三类模型，现阶段就有 17 个模型可供选择。在如此之多的选择下，如何在合理评价的基础上选择合适的模型已成为必不可少的环节。 4主要特点通用性优秀，多模态、推理强强安全、多步骤推理多模态、长上下文、高效推理开源、社区友好“Think”模式加强推理中文优化，多模态，部分开源微信生态内嵌，中文理解优低成本、推理能力突出低成本中文模型GPU 优化、开源资料来源：OpenAI, 中邮证券研究所而客观、量化的评价大模型离不开大模型评价基准（benchmark）。没有明确的评价标准时，选择模型通常依靠直觉或厂商宣传，容易误选不适合自身需求的模型；与此同时，在众多企业都追求大模型本地化的当下，大模型的部署和维护成本通常较高，盲目选择可能导致资源浪费。我们常见的大模型评价基准可以按能力维度进行分类，包括：代码能力、数学与逻辑推理能力、指令遵循能力、工具/函数调用能力以及通用知识与多任务1.2常见大模型评价基准LiveCodeBench：综合代码能力评测LiveCodeBench 是由 UC Berkeley、MIT 等机构提出的一个综合且无数据污染的代码能力评测基准。它持续收集最新的编程竞赛问题，并设计多种场景测试代码相关的不同能力。LiveCodeBench 不仅包含传统的代码生成（根据问题描述生成正确工作的代码），还扩展到代码自我修复（模型对自己生成的错误代码进行调试修改）、代码执行（预测代码运行的结果）、测试输出预测（根据代码和输入推测单元测试的输出）等多方面。这使评测更全面，反映真实编程场景中的多截至 2025 年 4 月，LiveCo

点击免费查看完整报告

金工专题报告：基于大模型外部评价体系框架介绍

你可能感兴趣

金工专题报告：基于ChatGPT的基金评价探究

金工专题报告：基于收益率的股基评价靠谱吗？

债券银行系类货基系列专题之三：什么是好的货币基金？货币基金评价体系介绍

大模型赋能投研之二十：从金融文本数据到投研工作流：金融Skills体系介绍

外部支持评价框架、差异解析与实践应用

政务大模型建设路径及评价体系研究报告

2022年债券市场将增强稳经济作用基于信用分层的风险评价体系逐渐形成

每日一基专题系列之三：均衡型基金评价体系——基于alpha持续性

基于算子网格搜索、Numba加速的多维度评价体系

证券投资基金:新推基于基础资产分类的国信债基评价体系

金工专题报告：基于大模型外部评价体系框架介绍

你可能感兴趣

金工专题报告：基于ChatGPT的基金评价探究

金工专题报告：基于收益率的股基评价靠谱吗？

债券银行系类货基系列专题之三：什么是好的货币基金？货币基金评价体系介绍

大模型赋能投研之二十：从金融文本数据到投研工作流：金融Skills体系介绍

外部支持评价框架、差异解析与实践应用

政务大模型建设路径及评价体系研究报告

2022年债券市场将增强稳经济作用 基于信用分层的风险评价体系逐渐形成

每日一基专题系列之三：均衡型基金评价体系——基于alpha持续性

基于算子网格搜索、Numba加速的多维度评价体系

证券投资基金:新推基于基础资产分类的国信债基评价体系

2022年债券市场将增强稳经济作用基于信用分层的风险评价体系逐渐形成