您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:《大模型智能体开发平台技术能力测试研究报告》 - 发现报告

《大模型智能体开发平台技术能力测试研究报告》

2025-08-08腾讯x***
AI智能总结
查看更多
《大模型智能体开发平台技术能力测试研究报告》

目录 一、测试概述1 (一)测试背景与核心内容1 (二)测试方法与数据说明1 (三)免责声明3 二、RAG能力测试3 (一)RAG测试采用指标3 (二)测试实施3 (三)文本问答任务4 (四)结构化数据问答任务5 (五)图文问答任务7 三、工作流能力测试9 (一)工作流测试采用指标9 (二)测试实施9 四、Agent能力测试12 (一)Agent测试采用指标12 (二)测试实施12 五、总结与展望16 一、测试概述 (一)测试背景与核心内容 在产业智能化转型加速的背景下,大模型驱动的智能体(Agent)已形成多场景渗透态势。智能体因其具备知识增强、流程编排和智能决策等核心能力,正重塑企业级服务的技术生态。为用户更好地了解大模型智能体典型场景应用情况,对智能体开发平台(以下简称“平台”)技术实现路径与行业适配机制进行研究。本次测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个典型智能体开发平台的个人电脑端,围绕业务智能化的驱动能力展开测试。 结合智能体的技术演进态势和行业应用实践,本报告确立RAG能力、工作流能力、智能体工具调用三个关键能力维度进行测试评估。 1.RAG能力测试:RAG能力评估重点考察平台的知识增强机制,旨在验证RAG在真实业务场景中的综合表现,包括知识检索精度、逻辑推理能力以及用户体验的平衡性。重点评估三个维度:一是多模态知识处理能力:包括文本、表格、图文等不同类型载体的处理;二是任务复杂度适应能力:涵盖从单点信息提取到跨文档关联推理的不同难度层级;三是交互机制完备性:包含拒答处理、澄清反馈、溯源引用等关键功能。 2.工作流(Workflow)能力测试:工作流能力重点考察复杂场景下平台的流程控制机制,评估多轮对话中的流程稳定性与控制精度。以智能客服典型业务场景的订单咨询、退换货等能力为研究对象,聚焦参数动态提取、异常回退、意图识别与容错处理等关键智能性。 3.Agent能力测试:Agent能力围绕工具调用智能化水平与复杂任务处理体验,考察单工具逻辑判断、多工具协同及提示词指令执行能力,验证智能体对内外部工具调用协同的意图识别、选择科学性与答案整合效果。 (二)测试方法与数据说明 本节围绕智能体开发平台核心能力评估,系统阐述了测试方法与数据情况。研究通过构建贴合企业级服务典型业务场景的标准化框架,结合多模态测试数据集、统一配置的智能体/工作流、综合性问题集,以及多样化调用与过程采集方式,实现对平台核心能力的系统测试与分析;同时明确了测试涉及的基础知识数据与响应结果数据的具体构成、来源及特征,为后续研究的科学性与可靠性奠定了方法与数 据基础。 1.测试方法 本次测试基于模拟真实应用场景,构建标准化测试框架实现对大模型驱动的智能体开发平台核心能力的系统测试、比对、分析。 场景构建方法。场景构建选取企业级服务中的客户服务、订单处理、知识问答等典型业务场景,精准还原真实业务流程中的交互逻辑与任务需求,以此保障测试场景与实际业务的高度贴合。 数据集构建方法。数据集构建针对多模态知识处理需求,构建包含政策文档、业务规范等纯文本,订单数据、客户信息等结构化表格,产品说明、操作指南等图文数据的测试数据集,实现对不同知识载体类型与业务领域的全面覆盖。 智能体/工作流配置方法。智能体/工作流配置依据各智能体的技术架构,在线配置相应的智能体与工作流模块。推理模型统一设定为DeepSeekR1,问答模型统一设定为DeepSeekV3,其余参数采用系统默认设置。仅对影响核心能力评估的关键配置进行必要对齐(若部分智能体默认模型无法切换,则保留其默认配置)。 测试问题集设计方法。测试问题集设计以行业真实业务流程和应用场景为依托,围绕三大核心能力维度,设计包含15个测试项、600+测试问题的综合性问题集。每个问题均标注对应能力维度与预期输出,作为评估基准。 调用与过程采集方法。调用与过程采集通过网页交互与API接口调用两种方式,模拟用户操作与系统集成场景,采集各智能体在问题处理过程中的响应结果及流程轨迹,为后续的统计分析提供便利。 2.数据说明 本次测试使用及产生的数据主要包含基础知识数据、响应结果数据。 基础知识数据说明。基础知识涵盖政府、电商、电力3个行业的业务资料, 包括纯文本文档30份(总字数约10万字)、结构化表格5张(含15000+条记 录)、图文内容10组(含产品图、流程图等)。数据来源为公开政策文件、行业报告及模拟业务场景生成的标准化资料,确保数据的典型性与可控性。 响应结果数据说明。响应结果包括文本生成内容、知识来源引用、流程参数变化、工具调用记录等,数据记录涵盖时间戳、处理状态、错误信息等元数据,为能力分析提供完整轨迹。 (三)免责声明 测试时效性说明。本测试开展时间为2025年5月20日—2025年6月15日,所有准确率计算方法见附件,所有计算结果限于测试时间内成立。 测试限制性说明。本测试基于特定模型版本与测试场景,实际应用效果可能因业务需求、配置调整及技术迭代产生差异。测试结果不构成任何商业推荐,用户需结合自身场景进行独立验证与选型决策。 测试缺陷性说明。本测试仅针对各平台用户终端小样本体验,有可能存在数据缺失、技术环境不完全、样品版本bug等缺陷限制。 本次测试最终解释权归国家工业信息安全发展研究中心赛昇实验室所有。 二、RAG能力测试 RAG定义:英文全称是Retrieval-AugmentedGeneration,中文全称是检索增强生成。是一种通过数据检索改进模型内容生成效果的技术方案,它引入来自外挂向量数据库、知识图谱或网络的数据,对原始问题补充增强后输入给大模型,有效缓解幻觉问题,并提高知识更新速度与生成可追溯性(来源:微软研究院)。 (一)RAG测试采用指标 本次测试对RAG能力的评估从检索精准度、知识覆盖广度等六大核心维度展开。一是检索精准度,衡量召回相关文档的准确率与冗余信息过滤能力;二是知识覆盖广度,评估对领域内知识的覆盖完整性及边缘信息的处理能力;三是推理融合度,考察将检索结果与问题深度结合、生成逻辑连贯回答的水平;四是时效性响应,关注检索与生成的整体效率及动态知识更新适配性;五是多模态适配性,检验对文本、表格、图片等多元数据的处理能力;六是鲁棒性表现,评估面对模糊问题、噪声数据时的容错与修正能力。 (二)测试实施 本次测试重点探索RAG在深度行业场景中的落地能力,构建了基于知识载体多样性、任务复杂度与机制完备性的三维评估体系。选取政策咨询、电商客服、销售数据分析等6个典型场景,构建500+个高质量问题集。测试任务具体设计以文本问答、结构化数据问答及图文问答为主。 1.文本问答任务。在检验RAG知识整合与意图理解方面,综合设置了包含单文档查询、多文档交叉验证、边缘案例等任务形式;在检验智能体交互鲁棒性方面,融入语义模糊问题、知识库外问题及多轮对话。 2.结构化数据问答任务。为考察RAG结构化数据处理能力,基于订单数据表与SKU表,设计单表查询、多表关联统计等复杂任务。 3.图文问答任务。为考察RAG的OCR图片文字识别技术、多模态内容关联与配图回答能力,设置图片内容识别、图表关联检索、多模态信息融合等任务。 (三)文本问答任务 实际测试时,设计专精特新政策咨询以及电商客服规定查询两种场景,问题设计聚焦单文档精确定位、多文档交叉验证与综合、语义模糊意图理解、知识库外问题拒答机制等能力维度,旨在全面检验RAG系统在纯文本领域的检索、理解、整合与生成能力。 1.文本处理能力表现优异 各平台在文本问题处理上展现出较强的准确性,纯文本问题得分普遍较高:均能实现意图识别,并在知识库中定位对应文档、合理组织反馈。单文档问题少量丢分,主要源于回答不完整或存在少量“幻觉”信息。多文档文本问题表现良好,所有模型回复准确率超80%,丢分主因是多文档结合时存在少量信息遗漏,导致回答不够全面。个别平台调用结果稳定性不足,如扣子在进行API调用时,有一定比例的内容无法从知识库获取,而其网页端提问可正确回答。 2.拒答与澄清追问处理差异化 在采用同样拒答配置情况下,腾讯云智能体开发平台对知识库中不存在的问题实现100%拒答,其他平台则出现不同程度基于模型知识而非知识库内容的回复。面对需要澄清和追问的问题,各平台均倾向于直接提供所有相关信息供用户参考,其中扣子对于所有问题均未给出追问澄清,但在多数场景也可以符合用户需求。 图1:各平台RAG文本问答表现 3.来源引用策略倾向提供全面信息 在默认配置下,四个平台在来源引用方面都倾向于尽可能提供全面的参考信息。特别是在处理多文档问题时,虽然这种做法可能导致一定程度的信息冗余,但能够通过多源佐证帮助用户更全面地理解信息背景。 (四)结构化数据问答任务 本次测试围绕销售数据分析场景,基于实际订单表与在售商品SKU表数据,针对单表查询、单表统计、多表匹配查询、多表匹配统计4类典型任务展开,考察平台结构化数据处理能力。 鉴于RAG在复杂数据分析场景的局限性,当前主流平台均对结构化数据分析场景进行了优化:阿里云百炼、百度智能云千帆与扣子均设置了独立的结构化数据导入模块,通过字段类型预定义、格式标准化等机制强化数据规范性。其中,阿里云百炼和扣子进一步设计数据库插件,支持多表关联查询与动态计算。而腾讯云智能体开发平台则采用后台自动化处理方案,简化用户操作但弱化了过程可控性。 图2:大模型RAG结构化数据问答表现 根据测试数据分析,各平台表现差异的关键因素在于其对处理流程的调优精细程度。从结果返回看,阿里云百炼仍然是基于文档切片,在跨表关联、多条件组合统计时易出现信息遗漏与聚合误差,凸显纯文本检索模式对结构化分析场景的适配局限;腾讯云智能体开发平台单表查询表现优异,但在多表查询时存在SQL查询未能正确执行的情况,导致返回结果出现偏差;扣子在部分场景下存在自然语言到结构化查询的转换问题,主要表现为逻辑条件遗漏或语义理解偏差,从而导致返回结果异常;百度智能云千帆在单表统计、多表关联等任务中表现稳定,体现了其结构化引擎能较好处理复杂条件筛选与跨表聚合。 通过自然语言交互实现对复杂数据的操作仍是行业共性挑战。研究表明,各平台在嵌套条件解析(如“销售额前五且库存低于警戒值的商品”)、字段格式容错 (如中英文标点混用)以及多表路径推导等任务中均存在失误,反映出语义理解与结构化计算协同的不足。此类问题暴露出当前技术需进一步优化的方向:一方面需增强自然语言到查询语句的精准映射能力,建立上下文感知与模糊匹配机制;另一方面需强化字段格式兼容性校验,通过预处理与后验证双环节来保障数据分析的可靠性。 (五)图文问答任务 图文问答任务场景设计为风电行业市场与技术资料分析,采用各平台默认推荐的多模态模型,主要考察图片提问与配图回答能力,以及显式/非显式调用情况下图片输出的准确性与完整性。 1.具备图片解析与文字识别的底层技术基础 各平台均具备成熟的OCR图片文字识别技术,能够有效解析图片内容并识别用户提问意图,但在研究场景下的实际表现存在一定差异:阿里云百炼(91.7%)、腾讯云智能体开发平台(83.3%)、扣子(83.3%)对图片提问的识别能力较强,而百度智能云千帆识别率低的原因在于流程bug(3次不同时段测试综合结果),未能成功调用已上传的图片,导致图片解析链路断裂。 在基于文档的图片定位任务中,所有平台均无法准确检索储能逆变器PCS等特定技术图片的关联信息,暴露多模态的场景优化深度仍有提升空间。 图3:各平台RAG图文问答场景表现 2.多模态内容关联与配图回答率分化 各平台配图回答率呈现梯度差异:腾讯云智能体开发平台在显式/非显式调用场景下以55%的正确回答率领先,百度智能云千帆存在图片显示故障但文档定位逻辑正确,而阿里云百炼因网页端图片显示异常导致配图正确率为0%(3次不同时段测试综合结果)。研究显示,显式调用图片指令可提升输出比率,表明用户交