您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动九天人工智能研究院]:多模型与智能体聚合及服务引擎(MoMA)白皮书 - 发现报告

多模型与智能体聚合及服务引擎(MoMA)白皮书

AI智能总结
查看更多
多模型与智能体聚合及服务引擎(MoMA)白皮书

Mixtureof Models and Agents(MoMA)WhitePaper(2025年) 中国移动九天人工智能研究院 前言 本白皮书旨在提出中国移动九天人工智能研究院对于多模型与智能体聚合及服务引擎(MoMA)的目标愿景与总体框架,关键技术特征和典型应用场景,并借助本白皮书面向产业提出共建共享的MoMA开放运营生态的倡议。 本白皮书的版权归中国移动九天人工智能研究院所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1.引言............................................................22.愿景与框架......................................................32.1目标愿景.....................................................32.2总体框架.....................................................43.关键技术特征....................................................63.1MoMA生态汇聚层...............................................63.2MoMA核心功能层...............................................83.2.1MoMA模型..............................................83.2.2MoMA工程引擎..........................................93.2.3MoMA协议体系.........................................103.3MoMA开放服务层..............................................124.典型应用场景...................................................144.1面向个人用户的智慧生活助手..................................144.2面向行业客户的智能服务调度引擎..............................155.展望与倡议.....................................................18缩略语............................................................20参考文献..........................................................21 1.引言 近年来,大模型技术得到了突飞猛进的发展,模型规模和能力的不断跃升催生了以智能体为主要应用范式的智能服务新形态和AI产业新生态,使智能体逐渐成为大模型应用落地和各行业智能化转型的重要驱动力。 与此同时,随着大模型和智能体技术不断走向落地应用,产业的发展重心正逐步由模型的技术创新转变为以落地价值为导向的应用创新,更加关注应用的实际成效和长期运行成本。这一转变的关键不在于追求更大的模型规模,而在于构建能让大模型及智能体自主协作、动态演化的技术和服务生态;在于如何能以广大用户接受的成本实现更优的服务体验。在产业应用实践过程中,也逐渐暴露出两大痛点: 一是模型选择及组合问题。大模型与智能体的能力各异且数量不断增长,用户的应用场景和业务需求也在持续演进创新,单一模型或智能体难以满足用户的所有需求。如何为用户找到最匹配应用场景需求的能力组合最优解,以保证场景任务完成质量和用户体验,成为部署模型和智能体实现智能服务的首要挑战。 二是模型应用成本问题。除了模型训练外,大量用户并发情况下模型的推理同样需要消耗巨量算力,智能体的长期运营也会带来持续开销。如何在保障服务质量的同时,有效控制算力使用效率和运营成本,成为模型和智能体大规模落地的关键瓶颈。 在这一背景下,大模型和智能体的发展已进入一个迫切需要体系化AI基础设施[1]的阶段。智能服务无法仅依赖单一模型或智能体,而是需要一个能够聚合多模型与多智能体的体系化解决方案,以根据用户需求自动探测匹配各类模型、智能体和工具组合,并通过智能规划、动态路由与精准调度,实现平衡效果、效率和成本的智能化业务服务。 2.愿景与框架 2.1目标愿景 为解决模型选择组合难、模型应用成本高的痛点问题,从供需两个方向推动模型和智能体的规模化应用和商用落地进程,本白皮书基于中国移动在AI领域的“供给者、汇聚者、运营者”定位提出多模型与智能体聚合及服务引擎MixtureofModelsandAgents(MoMA)的概念。 MoMA通过标准化接口自动感知和探索各类模型、智能体和工具,实现动态路由、智能规划、精确调度,提供高准确、高安全、高可靠、高效能的大模型推理服务。一方面为用户提供精准匹配应用需求的,如同通信服务般便捷、普惠和可靠的模型与智能体服务;另一方面有效控制模型和智能体服务全流程的成本,为供需双方提高经济效益。其核心目标包括: 打造MoMA模型:打造最懂模型和智能体的MoMA模型。探测MoMA汇聚的模型和智能体能力,并识别和理解用户意图,精准匹配满足用户应用需求的模型和智能体组合最优解; 提供MoMA引擎:提供具备超大规模服务能力和极致优化成本的工程引擎。在效果、效率、成本三重约束下实现对任务类型、资源分配、执行流程的动态管理和最优决策,提速降本; 构建MoMA协议:构建支持模型、智能体接口互联互通的标准化、高安全的协议体系。融合“类MCP、A2A”等主流通信协议,并增强统一认证及安全通信等能力,使能模型、智能体、工具、数据、环境和应用系统之间的无障碍互联互通。 2.2总体框架 MoMA通过分层架构集成多源异构模型、智能体,形成覆盖能力汇聚、动态智能调度、应用支撑的全链路智能服务流程闭环。其核心架构包含生态汇聚层、核心功能层、开放服务层: MoMA生态汇聚层:负责构建、筛选、评估和持续进化出一个包含丰富多样、质量优良、安全可控的模型、智能体及工具的资源池。通过对模型、智能体及工具的供应商建立严格的准入机制,以及通过标准化的合作流程,持续吸引并激励优质供应商持续提供核心能力。在此基础上,持续进行能力资源的筛选、评估与进化,并依托技术性能、推理效果、安全与合规、服务稳定性四维能力评估体系,确保资源池始终保持卓越的质量与可靠的服务能力。 MoMA核心功能层:由MoMA模型、MoMA工程引擎、MoMA协议体系构成,借助MoMA模型理解用户意图并匹配相应模型及智能体资源,通过MoMA工程引擎确定资源调度方式,实施全链路状态管理及任务熔断自愈,依托MoMA协议体系实现异构资源的高效通信与协同,从而针对复杂场景实现动态编排与最优调度,将原始异构AI能力转化为有序、协同、可信的智能服务流,提供高准确、高安全、高可靠、高性能的大模型推理服务。 MoMA开放服务层:连接MoMA内部能力与外部应用,通过标准、安全、便捷的接口,将平台智能服务高效输出至个人与企业场景等千行百业。涵盖API、SDK、安全风控、用量管理、计费管理等功能。 三者协同组成智能服务流程闭环,有效解决多模型、多智能体聚合中的资源分散、协同低效等痛点,以高可靠、高灵活、高扩展特性促进形成具备持续进化特性的超级大模型服务基座,支撑九天面向复杂行业场景提供“场景-模型-智能体”的自动感知、动态编排与最优调用能力。 3.关键技术特征 3.1MoMA生态汇聚层 MoMA生态汇聚层是整个体系架构的底层,是承接供应侧能力输入、支撑能力调用的核心资源池。它并不直接面向用户提供服务,而是面向整个智能系统,构建起一套规模化、结构化、可调度的AI能力集群,为上层智能体服务、API调用与任务路由提供基础能力支撑。此层主要汇聚了大模型、小模型、智能体组件与工具等核心能力资源,涵盖自研成果与生态合作伙伴接入能力。这些能力资源并非孤立堆叠,而是以标准能力单元的形式,统一纳入能力治理体系,形成结构清晰、接口规范、调度友好的能力集合。从整体架构的宏观视角出发,生态运营汇聚模块具有重要的“汇聚”与“支撑”的作用。 在MoMA体系中,生态汇聚层直接对接供应商,是能力接入的直接来源。作为总体架构的底层支撑,MoMA生态汇聚面向模型、智能体、工具等多元异构AI能力,构建了统一的接入、管理与服务体系。通过建立覆盖技术性能、推理效果、安全合规等维度的评估体系,对接入的模型与智能体能力进行全流程评估与筛选,避免“能力堆叠”的简单汇总,形成结构清晰、质量可控的服务“能力倍增”。 在技术性能评估方面,聚焦服务响应效率与系统吞吐能力,采用多项量化指标衡量服务的质量,指标包括TPS、TTFT、TPOT等。在推理效果评估方面,侧重于评估输出质量与模型泛化能力,通过开源测试集与自有数据集进行测试,筛选具备行业认可度和专业能力的模型,覆盖自然语言、机器视觉、结构化数据以及语音等模态的任务,确保适配不同类型的用户请求。在安全与合规评估方面则聚焦服务提供方在生成内容安全、数据保护和版权管理等方面的合规性。 在实际落地中,MoMA生态汇聚由一套清晰的智能能力聚合与服务支撑体系来承载,如下图所示: 能力汇聚:聚合了多类型的模型、智能体以及工具,包括语言模型、图像处理、数学计算、日程管理、PPT生成、会议助手等大模型及智能体。这些能力单元覆盖从通用生成到垂直工具的多模态任务类型,借助MoMA协议体系提供的统一接口接入,构成MoMA智能调度的操作单元。在运行过程中,这些能力可被动态路由、组合调用,用以支撑上层复杂任务的执行。能力组件在设计上遵循“最小可调度单元”原则,便于实现多源能力的精细化管理与跨任务协同。 供应商管理:MoMA引入了涵盖技术性能、推理效果、安全合规及服务稳定性的多维评估机制。所有接入的模型能力需完成接入前的统一评估与准入审核,运行期间则接受持续监控与动态复评,以确保其行为稳定、响应可控、质量可溯。供应商管理机制也嵌入该流程之中,要求能力提供方配置支持团队提供服务保障,从制度层面形成体系化的生态治理能力。 上述模块共同构成了MoMA生态汇聚层的核心框架,在聚合的基础上实现“可管、可评、可控”的管理能力,也为协议层与服务层的智能调度奠定了坚实的能力支撑基础。可以说,生态汇聚既是MoMA能力广度的体现,也是其能力深度的基础。在这一资源底座的支撑下,MoMA得以构建起从供应商、协议调度到智能体服务的纵向能力通路,形成智能服务体系的完整闭环。 3.2MoMA核心功能层 3.2.1MoMA模型 MoMA模型通过动态聚合异构AI模型与智能体能力,依据模型能力探测以及对用户意图的识别理解,明确不同组合下的协同优势与潜在冲突;精准解析用户输入,判断模型和智能体依赖关系及能力范围,自动选择最优方案;同时,通过闭环监控反馈机制,构建“实时感知-动态调整-持续验证”的循环链路,以更好地适应数据变化、业务需求和环境波动。MoMA模型的核心功能包括: 意图识别:基于专用意图识别模型解析用户输入,精准提取任务领域(代码生成/数学推理/通用QA)、复杂度分级(单论指令/多轮规划)、工具依赖类型(API调用/智能体协同)等关键要素; 模型探测:通过对模型和智能体能力的深入探测,从成本、效果和难易程度等方面构建其能力高维表征,实现用户需求与智能体路由的快速匹配;通过评分机制,评估不同模型和智能体的效果,便于分层路由模型进行快速任务分发; 任务规划:负责需求解构,将用户输入拆分为相互独立、可并行执行的子任务,并综合任务难易程度,工具、模型及多智能体特性,为其匹配route、ReAct、work