AI智能总结
推理模型综合测评报告 数学推理 2025 语言推理 推理 多步 逻辑幻觉 推理控制 目录 CONTENT 01推理模型发展阶段和发展因素分析 02推理模型测评体系和结果分析 03推理模型未来展望 推理模型发展阶段和发展因素分析 推理模型发展的前置因素①—推理时计算拓展(Inference-ComputeScaling) 根据一些学术论文的研究,在推理过程中增加计算资源,能够有效提高大模型的输出质量。这相当于在现实生活中,人在遇到较难的问题是也需要更多的思考时间或思考量。 这一思路逐渐总结为推理时计算拓展,并逐渐演变出3条主要路径。例如,OpenAI发布的o1模型通过动态扩展思维链(Chain-of- Thought)长度,并采用了自我验证机制,生成多个候选答案后通过内部评分筛选最优解。 为什么?怎么做? 深度思维提示——拉长单链思考时间,让模型多想一步 难点①固定参数≠泛化能力 传统大模型在推理过程中依赖训练阶段形成的静态参数。当遇到没见过的问题时,大模型需要一种更加动态和灵活的计算策略与自我纠错的系统能力。 难点②探索资源效率更优的路径传统ScalingLaw的边际收益递减且成本激增,人们需要探索一种资源效率利用更高的路径方式。 鼓励大模型在回答问题时更多地“思考” 通过“逐步思考”等提示词的注入,让大模型生成更长的单链推理 多链多数表决——并行多条思路,投票选其最优 通过并行解码,在生成的多个思维链中,进行多数表决或者加权投票,选择最优的一条输出 路径搜索——边思考边筛选,保留最佳路径 通过搜索过往路径,多路径中筛选最优通路 备注:InfoQ研究中心根据科研论文整合,代表为《ScalingLLMTest-TimeComputeOptimallycanbeMoreEffectivethanScalingModelParameters》、《LearningtoreasonwithLLMs》 4 ④策略更新 ① 抽样提示 ③ 打分奖励 ② 生成答案 ①抽样提示:从题库或真实用户问题里随机取样,作为模型输入。 ②生成答案:策略模型按当前参数进行解题 ③打分奖励:验证函数进行判分,并生成相应的奖励信号 ④策略更新:将奖励反向传回,更新模型参数 推理模型发展的前置因素②——基于可验证奖励的强化学习(RLVF) 除了推理时计算拓展,基于可验证奖励的强化学习(RLVF)帮助大模型真正掌握长链推理。DeepSeek、OpenAICodex、k1.5、TÜLU3等最新一代模型的技术论文都披露了类似范式,并在编程竞赛、数学推导与通用推理benchmark上验证了RLVF的显著收益。 为什么?怎么做? 策略模型 训练数据 为什么RLHF不够? •主观:反馈中包含人工主观偏好; •昂贵:长链推理中人工评分难,对标注员要求高,造成招募难度和成本双高 可验证奖励 为什么是基于可验证奖励的强化学习? •客观抗作弊:编译器/单元测试判分,且沙箱执行,可实时侦测reward-hacking •低成本:全自动打分,快捷高效低成本 •学习高效:格式和过程准确性可拆成连续奖励,收敛快 备注:InfoQ研究中心根据科研论文整合,代表为《TÜLU3:PushingFrontiersinOpenLanguageModelPost-Training》、《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》、《Kimik1.5:ScalingReinforcementLearningwithLLMs》 5 各家陆续发布推理模型,获取推理模型入场券 受「推理时计算拓展」与「可验证奖励强化学习」两大技术范式驱动,全球厂商已进入推理模型密集发布期:从2024年Q4到2025年Q2,OpenAIo1、DeepSeekR1、Claude3.7SonnetReasoning、k1.5、文心X1-Turbo等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。 2024年9月-12月 2025年2月 2025年4月 •9月,OpenAI发布o1系列模型(o1-preview) •11-12月,各家陆续发布实验性推理模型 (DeepSeek-R1-Lite-Preview、QwQ-32B-Preview、Gemini2.0FlashThinking、天工大模型o1版、GLM-Zero-Preview) •12月,OpenAI发布o1正式版 •Anthropic发布Claude3.7SonnetReasoning •阿里通义团队发布QwQ-Max-Preview •腾讯元宝上线Hunyuan-Thinker-1-Preview •智谱发布GLM-Z1正式版 •百度发布文心X1-Turbo •字节跳动发布Doubao1.5thinkingpro •OpenAI发布o3正式版 •谷歌发布Gemini2.5Flash •DeepSeek、Kimi同一天发布推理模型R1和k1.5 •科大讯飞发布推理模型讯飞星火X1 •百川智能发布Baichuan-M1-Preview •谷歌发布Gemini2.0FlashThinkingExperimental 2025年1月 •阿里通义团队发布QwQ-32B •谷歌发布Gemini2.5pro •腾讯发布混元T1正式版 2025年3月 备注:InfoQ研究中心根据官网信息、媒体公开报道信息整合 6 推理模型带来的能力提升和业务期望 现有场景应用向深 典型代表应用尝试: 典型代表应用尝试: 推理模型把大模型从单纯的内容生成器升级为「可验证的逻辑执行器」,伴随着①单场景推理深度、②跨工具编排广度、③在线自进化能力的同步跃升,更多新商业机会正被快速打开。 •实验方案优化 •代码流水线自学习 在线自进化 从能回答到有逻辑有依据的回答 利用可验证奖励让系统自己 迭代,探索更多应用场景 传统大模型应用 •项目级代码编排 •会议复盘与待办事项生成 •个性化题目答疑 在工具编排与多智能体链路中制定多步骤解决方案 横向调度工具/系统编排能力 典型代表应用尝试: •DeepResearch •Manus •操作系统智能体 •游戏智能体 7 推理模型测评体系和结果分析 推理模型测评体系的三大设计原则 模型测评体系的设计原则: 题目原创性 题库总量300题,其中90%为研究团队全新编写,覆盖中文语境 下的真实业务场景与最新研究痛点;仅≤10%取自LiveBench、UGMathBench、Human-Eval、HLE等公开集,用作对齐基准, 且通过原创题库防止模型通过“背库”获得虚高分 分数可量化 •设置5类计分题型: •判断(0/1计分) •单选(固定分值) •多选(阶梯计分) •排序题(阶梯计分) •填空(精准匹配) •开放题(分段计分) 难度梯度设计 •纵向:同一能力维度设置三档难度,题量比例基本稳定在易40%:中20 %:难40%,既保证覆盖面又能充分区分高阶能力。 •横向:从单点推理到复杂场景推理、从单个概念到多步推导,逐级测评推理模型能力 9 本次测评体系的五大能力维度出发点 •多步和复杂场景推理,是对推理模型综合推理能力以及跨领域知识迁移的重要体现 •编程算法测试逻辑链条的连贯性 •跨学科推导(物理/化学等)验证知识迁移能力 •在实际生产应用中,推理模型必须拥有一定的幻觉控制能力 •事实问答直接检验模型底层数据可靠性 •误导污染测试评估抗干扰能力 •长文本和引用测试实际应用场景下的幻觉 多步推理 控制能力 幻觉控制 45 123 逻辑推理 •基于形式和符号逻辑的推理是推理模型处理复杂问题的底层能力展现,也是推理模型推理一致性和可靠性的重要保障 •长文本推理能力直接影响模型的信息整合效率,结合场景的推理题目也能考验模型的综合逻辑推理能力 数学推理 •符号运算能力代表模型的抽象思维水平,计算题验证推理模型的计算严谨性 •通过数学不同领域不同类型问答题目,测试推理模型的符号运算、数学原理理解和空间想象和抽象建模能力 语言推理 •中文推理测评体系需要专门针对中文场景的测评维度 •汉字结构推理检测推理模型理解能力突破单token推测 •段落排序和意图识别评估语义网络构建 •中文改错等专项测试反映本土化适配需求,并考验推理模型的综合语言能力 10 推理模型综合测评体系说明 根据推理模型的各项能力维度,本次综合测评体系分为5个维度: 序号 测评维度 权重 具体能力说明 题目类型 01 逻辑推理 22% 通过结构化思维,验证模型的逻辑严谨性,包含演绎推理、类比推理、归纳推理、长文本推理 三段论推理、假言推理、选言推理、关系推理、词汇推理、场景推理、长文本阅读理解、侦探谜题等,包含判断、单选、多选、填空、开放题 02 数学推理 29% 多维度数学能力评估,包含代数(符号运算与方程求解)、分析(函数、极限、积分、概率)、几何(平面几何、立体几何、拓扑)、数论(整数特性与抽象结构) 方程式求解、因式分解、矩阵计算;函数、极限、积分、概率的计算与证明;平面几何、三角几何、解析几何、立体几何和拓扑的计算与证明,整除同余性质、数列的计算,包含判断、单选、多选、填空、开放题 03 多步推理 15% 复杂问题拆解与推导推理能力,包含编程算法、复杂科学推导 代码解释、纠错、翻译、生成及测试;化学、物理、生物、医药、工程学等领域复杂问题解答,包含单选、多选、填空、开放题 04 语言推理 21% 中文语境下的深度语言理解,包含中文改错、字形推理、段落排序、对话意图识别 错别字、语病、文件修改;字谜、汉字结构组合和推理;中文段落排序;核心意图、约束条件、复杂场景潜在意图识别,包含单选、多选、填空、排序、开放题 05 幻觉控制 12% 生成内容中的虚假信息抑制能力,事实错误、污染测试、引用测试、上下文幻觉 事实问答;误导污染测试、文献&报告查询、案例匹配、时间线梳理,包含填空及开放题 11 参与测评模型和版本说明 本次测评选取的推理模型、版本号及测试渠道: 序号 推理模型名称 所属机构 版本号 测试渠道 1 DeepSeek-R1 深度求索 2025-01-20 使用DeepSeek官方网页版,深度思考开启,联网搜索关闭 2 k1.5 月之暗面 2025-01-20 使用Kimi官方网页版,长思考(k1.5)开启,未联网搜索 3 Claude-3.7-Sonnet-Reasoning Anthropic 2025-02-24 使用POE网页版,模型选择Claude-3.7-Sonnet-Reasoning 4 GLM-Z1 智谱 2025-04-14 使用智谱清言官方网页版,推理开启,沉思和联网关闭 5 Doubao-1.5-thinking-pro 字节跳动 2025-04-15 使用火山方舟API,联网关闭 6 o3 OpenAI 2025-04-16 使用ChatGPT官方网页版,联网关闭 7 文心X1Turbo 百度 2025-04-25 使用文心一言官方网页版,联网搜索关闭 8 Qwen3-235B-A22B 阿里 2025-04-29 使用Qwen-chat官方网页版,深度思考开启,搜索关闭 12 大模型综合测评题库说明 本次题库部分共涉及300题,具体分布如下: 题目类别 题目数量 细分维度 题目数 逻辑推理 82 演绎推理 22 类比推理 22 归纳推理 22 长文本推理 16 数学推理 88 代数 22 分析 22 几何 22 数论 22 语言推理 64 中文改错 15 字形推理 15 段落排序 15 对话意图识别 19 多步推理 30 编程算法题 15 复杂科学推导 15 幻觉控制 36 事实错误 8 污染测试 8 引用测试 8 上下文幻觉 12 备注:300道题库中,不超过10%的题目来自于公开测试数据集,例如LiveBench、UGMathBench