您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国电信北京研究院&中国电信国际有限公司]:认知对齐·场景深耕·生态协同:AI评测未来核心范式与路径 - 发现报告

认知对齐·场景深耕·生态协同:AI评测未来核心范式与路径

报告封面

中国电信北京研究院中国电信国际有限公司 工作组 组长 杨明川,中国电信北京研究院 大数据与人工智能研究所 副组长 王峰,中国电信北京研究院 大数据与人工智能研究所张园,中国电信北京研究院 大数据与人工智能研究所 林建辉,中国电信国际有限公司 云中台部 工作组成员 丁鹏,中国电信北京研究院 大数据与人工智能研究所赵君,中国电信北京研究院 大数据与人工智能研究所刘倩,中国电信北京研究院 大数据与人工智能研究所郑秋宏,中国电信北京研究院 大数据与人工智能研究所王禹乔,中国电信北京研究院 大数据与人工智能研究所赵艺涵,中国电信北京研究院 大数据与人工智能研究所 联系邮箱 zhengqh@chinatelecom.cn 前言 在人工智能技术向通用化、规模化、产业化深度演进的背景下,AI评测已从单一技术验证工具升级为影响全球技术竞争、产业布局与治理规则的核心基础设施。本文立足全球视野,结合全球前沿理论创新与实践,提出未来AI评测的三大核心趋势:以“认知论+”为核心的智能本质对齐、从通用基准到垂直场景的深度渗透、以及平台化支撑下的多元协同治理。本文将系统剖析各趋势的理论逻辑、全球实践路径与产业核心价值,引入全球典型案例,为全球政策制定者、研究机构、产业界提供具有前瞻性与可操作性的智库参考,推动AI评测向更科学、更实用、更具治理效能的方向发展。 目录 前言 一、AI评测的全球战略定位与演进逻辑01 (一)AI评测的定义和内涵(二)AI评测成为全球竞争与治理的核心枢纽(三)AI评测从技术验证到生态赋能演进010102 二、趋势一:认知对齐⸺“认知论+”重构AI评测的理论根基03 (一)趋势内涵:从“测性能”到“测智能”的本质跃迁(二)全球实践:认知科学与AI评测的融合探索(三)核心价值:破解通用智能评估的根本性难题030304 三、趋势二:场景深耕⸺从通用基准到垂直领域的精准渗透05 (一)趋势内涵:产业落地倒逼评测的场景化转型(二)全球实践:行业定制化评测的多元探索(三)核心价值:加速AI产业的规模化落地050505 四、趋势三:生态协同⸺平台化支撑与治理化升级的双重驱动07 (一)趋势内涵:从单一工具到协同生态的体系进化(二)全球实践:平台建设与治理框架的并行推进(三)核心价值:构建可信、普惠的全球AI生态070708 五、全球AI评测发展的挑战与建议09 (一)面临的核心挑战(二)AI评测发展建议0909 六、结论11 一、AI评测的全球战略定位与演进逻辑 (二)AI评测成为全球竞争与治理的核心枢纽 (一)AI评测的定义和内涵 AI评测并非孤立存在的评估形式,其核心体系由早期大模型评测逐步拓展演进而来,现已形成覆盖大模型、智能体、AI应用系统及具身智能等多类AI形态的综合性评估范畴。从定义来看,AI评测是依托科学的理论框架、标准化的指标体系与系统化的技术方法,对各类AI系统的能力边界、性能表现、场景适配性、安全风险等核心维度进行量化评估与质性研判的综合性活动。AI评测的价值并非局限于大众熟知的榜单排名形式,其更大核心价值在于通过构建专业化的评测能力、研发标准化的评测工具,将评测深度融入AI研发与生产的全流程,既为研发优化提供精准的方向指引,也为安全风险排查筑牢防线,最终为AI系统的产业选型、监管治理提供客观可信的决策依据,成为连接AI技术供给与产业需求的关键桥梁。 当前,人工智能技术正处于加速迭代、全域渗透的关键发展阶段,其演进趋势不仅决定了AI评测的价值边界,更推动着评测体系的持续升级,具体呈现三大核心趋势:一是从单一任务静态测试转向融合认知科学的动态适配性评估,大模型的参数规模持续扩大、能力边界不断拓展,逐步具备跨领域、跨模态、多任务的通用处理能力,对“智能本质”的评估需求日益迫切;二是从技术研发向产业规模化落地演进,AI技术深度渗透政务、工业等千行百业,场景化适配能力成为衡量技术价值的核心标尺;三是从创新突破向规范治理并重演进,各国纷纷出台AI治理政策,安全可信、伦理合规成为AI技术落地的前置条件,推动AI评测强化风险防控维度的核心作用。 从分类体系来看,当前成熟的AI评测体系已形成多维度的划分标准:按评估对象可分为通用大模型评测、行业大模型评测、AI智能体评测、多模态AI系统评测、具身智能系统评测五大类;按评估生命周期可分为研发期前置评测、上线前合规评测、运行期持续评测三大阶段;按评估核心维度可分为能力评测、安全评测、合规评测、能效评测、公平性评测五大方向,形成了全维度、全周期的立体化评测内涵。 人工智能技术的持续演进与应用场景的不断拓展,使得 AI评测具备了持续迭代的价值基础,不仅成为支撑技术创新与产业发展的重要支撑,更逐步成长为支撑全球 AI 技术创新、产业落地与治理规范的核心基础设施,成为全球科技竞争的“隐形战场”与治理规则的“制定基础”(如图1所示)。在技术层面,它决定着AI研发的方向与效率,引导全球创新资源的分配;在产业层面,统一、可信的评测标准是打破市场信息壁垒、降低技术落地成本的关键;在治理层面,评测体系是将伦理原则、安全要求转化为可操作指标的核心载体,直接影响全球AI治理规则的话语权分配。从欧盟《人工智能法案》将合规性评估作为高风险AI准入条件,到各国推动本土化AI治理框架,将安全与能力评测体系作为核心配套措施,无不印证其战略重要性。 从内涵维度进一步拆解,AI评测的核心价值体系包含三层核心要义:其一,技术维度的“性能度量”,聚焦模型及系统的准确率、响应速度、非幻觉率、鲁棒性等通用技术指标,这是评测体系的核心基础;其二,产业维度的“价值适配”,重点关注AI系统在具体行业场景中的问答准确性、知识检索能力、内容生成质量等行业场景指标,是实现评测与产业需求的深度绑定;其三,治理维度的“风险防控”,涵盖意识形态对齐、隐私保护、伦理合规等核心要求,是评测为AI技术的安全规范发展筑牢的底线。随着人工智能技术的向多形态、全场景演进,AI评测的内涵已从单一技术维度的性能验证,全面拓展为覆盖“技术-产业-治理”的全链条综合评估体系。 MMLU、AIME、GPQA 等通用评测基准的广泛应用与升级。这一阶段大模型逐步具备跨领域、多模态的通用处理能力,AI 评测从单一任务性能测试转向多任务通用能力评估,覆盖语言理解、逻辑推理、多模态融合、知识储备、上下文连贯性等多个通用维度,上下文连贯性等多个通用维度,核心解决“大模型通用能力强弱”的评估问题,榜单排名成为这一阶段的主流呈现形式。但随着大模型技术的快速演进,这一阶段的评测体系逐步暴露核心缺陷:全球主流的通用评测基准中,有一定比例已被纳入主流大模型的训练数据,导致测试结果严重失真,大模型“刷榜高分”与“实际应用低分”的矛盾日益突出,推动大模型评测体系进入全新演进阶段。 (三)AI评测从技术验证到生态赋能演进 大模型诞生后,AI 评测的发展已历经三个阶段:第一阶段聚焦大模型单一核心性能(如语言生成准确率、知识问答正确率),解决大模型“能否用”的基础问题;第二阶段转向大模型通用能力评估(如多模态理解、复杂推理等),回应“好不好用”的核心需求;当前正进入第三阶段,核心是解决大模型“如何安全、公平、高效地规模化落地”的问题,评测维度从大模型技术性能延伸至认知本质、场景适配、治理合规等多个层面,呈现出“理论深度化、场景精细化、生态协同化”的鲜明特征,如图 2 所示。 第三阶段为 2025 年至今,是大模型规模化落地期的全栈式全生命周期评测阶段,核心特征是 AI 评测从单一工具向生态基础设施的全面升级,也是本文核心研究的阶段。这一阶段的大模型已从技术迭代转向规模化产业落地,AI 评测突破了传统的“性能测试”定位,全面围绕大模型的全生命周期与全应用链条展开,向认知本质对齐、垂直场景深耕、生态协同治理三大方向演进。评测对象从基础大模型拓展至面向行业的大模型微调版本、AI 智能体、多模态大模型应用、具身智能(基于大模型驱动)等全链条,评测周期拓展至研发、微调、部署、运营的全生命周期,评测价值从技术验证延伸至产业赋能与治理支撑,成为大模型规模化健康发展的核心基础设施。此处“全栈式”核心指代覆盖“基础大模型 - 行业微调模型 - 大模型应用”的全层级,与“全生命周期”形成“空间 + 时间”的双重维度,完善大模型评测体系的核心内涵。 第一阶段为 2022-2023 年,是大模型诞生初期的单一性能评测阶段,核心以大语言模型的基础性能评测为主,标志性事件为 GPT-3 的发布(2022 年)及早期大模型的快速迭代。这一阶段大模型刚诞生,技术尚未成熟,评测核心聚焦大模型单一任务的基础性能指标,如语言生成的流畅度、知识问答的准确率、文本分类的召回率等,解决“大模型能否完成基础语言任务”的核心问题。评测对象以早期通用大语言模型为主,评测形式仍以静态数据集的离线测试为核心,整体处于大模型技术验证的辅助工具定位,尚未涉及复杂认知能力与场景适配性的评估。 第二阶段为 2024-2025 年,是大模型迭代期的通用用能力评测阶段,核心以大语言模型、多模态大模型的通用能力评测为主,标志性事件为 OpenAI 的 o1 系列、DeepSeek-R1 等 新 一 代 大 模 型 的 发 布,以 及 二、趋势一:认知对齐⸺“认知论+”重构AI评测的理论根基 (一)趋势内涵:从“测性能”到“测智能”的本质跃迁 全球顶尖机构已纷纷布局这一方向,形成多元化探索路径,通过理论框架创新,构建基于认知科学的可量化评测体系: 图灵奖得主 YoshuaBengio 联合斯坦福大学、MIT、加州大学伯克利分校等全球 29 所顶尖研究机构的学者共同完成研究,2025 年 10 月发布论文《ADefinition of AGI》,首次建立了可量化的 AGI 评测框架,将 AGI 定义为“在认知多样性与熟练度上,媲美或超过受过良好教育的成年人的 AI”,借鉴心理学权威的 CHC(Cattell-Horn-Carroll)认知能力理论,将通用智能系统拆解为常识与知识、读写能力、数学能力、临场推理、工作记忆等十大核心认知领域,实现对 AI 认知能力的模块化、可量化评估。基于该框架对 GPT-4(2023)和 GPT-5(2025)进行了测试,结果显示:GPT-4 的 AGI 得分为 27%,GPT-5 的 AGI 得分为57%,首次通过标准化认知框架量化了当前通用大模型与人类认知能力的核心差距。 传统AI评测以任务完成度为核心指标,本质是衡量模型的“模式匹配能力”,而非真正的“智能水平”。随着大模型向通用智能演进,“黑箱”问题与能力评估局限性日益凸显⸺模型可能在基准测试中取得高分,却缺乏常识推理、因果判断等核心认知能力。李德毅院士提出,人类认知的四种基本模式⸺记忆驱动的经验模式、知识驱动的推理模式、联想驱动的创造模式和假说驱动的发现模式⸺构成了认知形式化的基础框架,这一形式化为新一代人工智能系统架构提供了理论支撑。通过将人类认知模式抽象为可计算结构,认知形式化使机器能够模拟经验积累、逻辑推理、创造性联想和假设验证等过程,从而实现从计算智能向记忆智能的扩展。 这一趋势的底层逻辑是:AI的终极价值在于模拟并辅助人类智能,其评测体系必须以人类认知为参照系。认知的形式化为构建可交互、会学习和自成长的新一代人工智能系统架构奠定了基础”,只有基于认知科学的评测,才能真正揭示AI系统的能力边界与潜在风险,实现从“测性能”转向“测智能”的本质跃迁。 佐治亚理工学院科学家 Anna A. Ivanova 团队于2025 年在《Nature Human Behaviour》(Nature 子刊)发表论文《How to evaluate the cognitive abilitiesof LLMs》,提出涵盖语言理解、工作记忆、注意力控制、因果推理、类比推理、心智理论、元认知、常识推理、道德推理、创造力、问题解决、决策制定、空间认知、数字认知的 14 种认知能力评测方法论,强调通过模