建设评估组织最佳实践 目录 第一部分:AI智能体效能体系 第一章:从生成式AI工具到企业智能体效能体系第二章:企业级智能体框架:先分清“谁负责什么”,再分清“系统怎么搭”第三章:智能体效能评估框架:先统一“看什么”,再统一“怎么看到业务价值”第四章:提升智能体效能的三大抓手,为企业推进智能体规模化落地提供实践指引第五章:组织与推进路径——从试点智能体到“智能体驱动型企业”2pg.5pg.10pg.13pg.19pg. 第一章:从生成式AI工具到企业智能体效能体系 在过去两年中,大模型与各类 Copilot 工具快速进入企业日常工作场景。从市场宣传到内部推动,不少企业已经完成了「从零到一」的技术尝鲜。然而,在与众多中国及全球客户的对话中,我们有一个共同的感受:真正能够稳定创造可量化业务价值、并被一线广泛采用的智能体,仍然是少数。越来越多的管理者意识到,问题的关键已经不在于「能不能做出一个智能体」,而在于「能不能搭建一套系统性的智能体效能体系」。 1.1 什么是智能体式 AI (Agentic AI),和传统 AI 有何不同? 回顾人工智能 60 多年的发展历程,我们可以看到几条清晰的技术演进主线:最早的规则系统和专家系统,解决的是「把企业已有经验和规则程序化」的问题;后来的传统机器学习与深度学习,通过对历史数据建模,在特定任务上给出更优的预测和分类结果;最近两三年爆发的生成式 AI,则让机器首次具备了大规模生成自然语言和多模态内容的能力,大幅提升了知识工作者的效率。 在这一演进脉络中,智能体式 AI正在成为新一轮范式变革的代表。我们的研究和实践表明,相比于传统AI 和单纯的生成式 AI,智能体式 AI 更像是把 AI 从「会回答」推向「会办事」:它不再只关注如何生成一个内容,而是聚焦如何围绕一个业务目标,自动规划多步行动,并通过调用各种工具和系统,在预设的安全与治理框架下完成复杂任务。 在本白皮书中,我们将企业级AI 智能体聚焦定义为: 基于大模型,能够理解业务目标、规划多步行动、调用多种工具与系统,并在预设治理框架内自主决策和执行的人机协同单元。 与传统 AI/ 生成式 AI 相比,智能体式 AI 至少在三个维度呈现出本质差异。 第一,是更强的自主性。传统的 AI 系统通常是在「单次请求–单次输出」的模式下运行,例如根据一个输入样本输出一个评分或一个预测结果;多数生成式 AI 应用也停留在「用户提问–模型回答」的范式。而企业级智能体的设计起点是业务目标而非单一问题,例如「完成一次营销活动复盘」「完成一轮信贷审批」「完成一批报销审核」。我们在实践中看到,高效的智能体通常会自动拆解任务、规划步骤,按需调用不同工具,并在必要时主动与人类或其他系统交互,而不是简单地「被动等待下一条指令」。 第二,是更高的决策智能。传统机器学习模型在多数场景中只解决「算分」问题,即在给定输入的前提下输出一个概率或评分,最终决策往往由人工或规则引擎来完成。生成式 AI 在内容生成上具备优势,但默认仍是「一次性回答」。相比之下,智能体必须在多源数据和复杂约束条件下持续权衡,并在任务执行过程中不断修正路径。腾讯在电商、内容、金融等领域的实践表明,优秀的智能体往往不是一次性做出决策,而是通过「规划–执行–反馈–调整」的闭环,在动态环境中保持合理、稳健的行为。 第三,是与工具和系统的深度集成。在传统生成式 AI 应用中,模型的输出往往是文本、代码或图片,真正落地到业务动作仍需要人来点击、粘贴、录入或调用系统。智能体式 AI 则通过与企业现有的 API、RPA、业务系统以及外部服务深度集成,让智能体可以真正变成「会办事的角色」:它可以在工单系统中创建和更新工单,在 CRM 中记录和调整客户信息,在 ERP 中触发采购与库存调整,在财务系统中生成与提交凭证。腾讯的多行业项目中已经出现越来越多类似的场景:从「帮我写一封邮件」走向「帮我生成邮件草稿并直接在系统中创建后续任务」。 从这个意义上讲,智能体式 AI 是企业从「智能问答」走向「智能行动」的关键一跃。它既继承了大模型在理解与生成上的能力,又通过规划、工具调用与治理机制,让 AI 真正嵌入企业核心工作流,成为团队中的一个「新角色」而不仅是一个「新工具」。 1.2 从“能不能做一个智能体”到“智能体效能体系” 尽管技术演进令人兴奋,但我们在对大量企业项目的复盘中观察到一个共同现象:PoC 和 Demo 层出不穷,真正进入生产、产生稳定价值的智能体却寥寥无几。这背后反映的,往往不是技术能力欠缺,而是缺少一套系统性的方法论和治理体系。 我们在与客户沟通中,经常听到类似的反馈: 业务部门认为:「智能体看起来很酷,但很难说清楚三年下来能为我多赚 / 少花多少钱。」技术与安全团队则担心:「这些可以自动执行动作的 智能体,到底会不会做出超出预期甚至违规的操作?我们是否有足够的控制力?」 进一步拆解这些困惑,我们可以看到三个典型症状: 其一,价值难以量化。大量生成式 AI 和智能体试点在用户体验上获得好评,但缺乏统一、可复用的指标体系来衡量业务与财务价值。我们观察到,相当一部分项目只停留在「使用量」「满意度」等中间指标上,难以与 P&L 建立直接联系,导致在预算和资源分配上总是处于「说服力不够」的弱势。 其二,项目与架构高度碎片化。在不少企业内部,「客服智能体」「知识助手」「开发 Copilot」「财务机器人」等项目由不同部门分别推动,各自选择模型、搭建环境、接入系统,缺乏统一的分类体系和技术栈。我们看到,哪怕都是名为「智能体」,不同团队对其定义、责任边界和评价标准也可能完全不同,给后续的治理、复用和风险管理带来巨大挑战。 其三,安全与合规掣肘生产级落地。一旦智能体不再只输出自然语言内容,而是能够触发资金划转、信息修改、审批通过等关键动作,安全和合规团队的要求自然会显著提高。如果没有一套清晰的权限模型、审批与审计机制以及自治等级管理框架,智能体 很难被允许深入关键业务流程,只能停留在「给建议」「写草稿」等外围环节。 因此,我们认为,对于今天的大部分企业而言,关键问题已经从「能不能做出一个 智能体」转变为: 「企业是否具备一套系统管理智能体效能与风险的体系?」 这一「智能体 效能体系」至少要在三个层面给出系统性答案: 在业务与财务层面:用怎样统一的指标框架来判断一个智能体是否「值钱」?如何让业务结果成为智能体投入与扩展的首要依据?在工程与治理层面:如何确保智能体在复杂的 IT 和安全环境中是「可观测、可控、可审计」的,而不是变成新的黑盒?在复制与扩展层面:如何在统一的架构和方法论之上,高效地将智能体从单点试验推广到全企业、多业务、多行业场景,而不是每一个新场景都从零开始? 从第二章节开始,我们将聚焦于构建这样的智能体效能体系: 搭建统一的智能体效能评估与可观测框架,先统一「看什么」再统一「怎么看到业务价值」; 聚焦企业级智能体框架,先分清「谁负责什么」再分清「系统怎么搭」; 进一步讨论组织与推进路径,帮助企业从试点智能体演进为真正的「智能体驱动型企业」。 提炼提升智能体效能的三大抓手,为企业推进智能体规模化落地提供实践指引; 第二章:企业级智能体框架:先分清“谁负责什么”,再分清“系统怎么搭 我们在大量项目中观察到,如果一开始就直接讨论「选哪个模型」「用什么框架」「上哪家云」,往往会陷入「技术细节泥潭」,而忽略了更基础的问题——我们到底在设计什么样的智能体体系。我们的共识是:企业要先搞清楚智能体在组织中的角色分工,再谈技术架构与落地路径。 2.1 智能体角色分工:统一智能体“物种分类” 如果没有统一的智能体分类和命名方式,不同 BU 与团队就会各自给自己的产品贴上「助手」「机器人」「智能体」「Copilot」等标签。在这种情况下,管理层无法回答以下问题: 我们公司到底有多少个智能体?它们分别负责哪些业务范围?这些智能体在运行上是否存在重叠、空白或冲突? 为此,结合全球智能体式 AI 项目的经验与「场景–技能–连接器」的架构实践,我们建议采用一套简明而通用的企业级智能体分类体系,将智能体按角色分为四大类: 第一类:总入口智能体(Super 智能体) 总入口智能体面向员工或客户提供统一入口,是用户感知层的「门面」。常见形态包括嵌入企业微信或办公门户中的「企业总 Copilot」、嵌入统一工作台的「智能助手」,以及面向客户的一站式服务智能体等。Super 智能体的职责主要是识别用户意图与上下文,进行初步理解和澄清,并将需求路由给合适的下游调度或领域智能体。同时,它还负责统一的对话体验和结果呈现,是企业构建「统一智能体品牌」的重要抓手。 第二类:调度智能体(Orchestrator 智能体) 调度智能体可以被视为多智能体系统中的「项目经理」或「调度中心」。当总入口智能体或后台系统触发一个复杂目标时,它负责将目标拆解为一系列子任务,决定这些任务由哪些领域智能体和工具智能体来执行,以及如何处理异常与回退。 我们观察到,在跨系统、跨部门的复杂工作流中,调度的设计质量往往直接决定了智能体方案的稳健性和可维护性。 第三类:领域智能体(Domain 智能体) 领域智能体专注于某条具体业务流程或职能领域,例如「客服智能体」「财务关账智能体」「供应链调度智能体」「销售线索培育智能体」等。与传统的「单点机器人」不同,成熟的领域智能体一般具备以下特征:能够理解本领域的业务语境和专业术语; 能够调用多个系统和数据源,完成端到端任务,而不仅是回答问题;能够对任务结果负责,成为该业务环节中的一个「责任主体」。 在腾讯的实践中,一个复杂场景往往由多个协同的领域智能体组成,它们共同对某条价值链承担职责。 第四类:工具与连接器(Tool / Connector) 工具与连接器主要负责将企业内部和外部的系统能力以「受管控的动作」方式暴露给上层 智能体。它并不直接与用户交互,而是专注于安全、稳定地执行「创建订单」「更新客户信息」「触发支付」「查询库存」等具体操作。 腾讯实践表明,将高风险或关键操作集中封装在工具层进行统一治理,而不是在每个领域智能体中各自实现,不仅显著降低了安全风险,也大幅提升了复用效率和系统演进的灵活性。 这四类构件之间形成了清晰的责任分工:总入口智能体负责入口与体验,调度智能体负责流程设计与任务编排,领域智能体负责业务结果,工具与连接器负责系统操作与安全边界。前三类是模型驱动、自主决策的智能体,工具与连接器则是被它们调用的能力封装。这一统一分类体系可在企业实践中反复使用,帮助企业在纷繁复杂的行业场景中保持清晰的认知坐标。 2.2 企业级智能体技术栈:从“入口—运行—底座”三层思考 在厘清了「谁负责什么」之后,第二个关键问题是「系统怎么搭」。我们观察到,如果每个智能体项目都从头搭建自己的运行时、连接器和日志系统,不仅成本极高,也会在治理和安全上留下隐患。因此,我们主张企业构建一个分层清晰、可持续演进的智能体技术栈。 从实践经验出发,我们建议企业将技术栈抽象为三大层: 分层清晰、可持续演进的智能体技术栈 用户从哪里进入、在什么场景下使用智能体,以及如何与之交互 运行与治理层 智能体能否在复杂企业环境中稳定可靠运行的关键 模型能力和知识从哪里来 第一层:场景与体验层 这一层面向最终用户,解决的问题是「用户从哪里进入、在什么场景下使用智能体,以及如何与之交互在员工侧,这通常意味着将智能体无缝嵌入企业微信、协同办公平台或业务工作台,而不是额外搭建一个孤立的系统;在客户侧,则可能是小程序、App、网页或线下终端等。」。 企业的智能体落地,通常分为两种路径:直接采购(通用智能体、垂类智能体)、或基于自身场景需求自建智能体并统一管理。 【直接采购】 - 通用智能体:面向全行业企业客户,针对通用企业级场景提供服务,提升员工工作效率- 垂类智能体:面向具体需求场景 / 行业客户,可完成特定领域复杂专业任务 【自建】 - 企业原生