行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

《大模型智能体开发平台技术能力测试研究报告》

2025-08-08腾讯x***

AI智能总结

大模型智能体开发平台技术能力综合测试报告总结

一、测试概述

背景与核心内容：在产业智能化转型加速背景下，大模型驱动的智能体（Agent）技术发展迅速，重塑企业级服务生态。本报告对阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个典型智能体开发平台进行技术能力测试，围绕RAG能力、工作流能力和Agent能力三个维度展开评估。
测试方法与数据说明：通过构建标准化测试框架，结合多模态测试数据集、统一配置的智能体/工作流、综合性问题集，以及多样化调用与过程采集方式，实现对平台核心能力的系统测试与分析。测试涉及政府、电商、电力三个行业的业务资料，包括纯文本文档、结构化表格和图文内容。
免责声明：测试时效性限定于2025年5月20日至2025年6月15日，结果受限于特定模型版本和测试场景，不构成商业推荐，最终解释权归国家工业信息安全发展研究中心赛昇实验室所有。

二、RAG能力测试

测试指标：检索精准度、知识覆盖广度、推理融合度、时效性响应、多模态适配性、鲁棒性表现。
测试实施：构建了基于知识载体多样性、任务复杂度与机制完备性的三维评估体系，选取政策咨询、电商客服、销售数据分析等6个典型场景，构建500+个高质量问题集，设计文本问答、结构化数据问答及图文问答任务。
测试结果：
- 文本问答：各平台在文本问题处理上准确性较高，单文档问题少量丢分，多文档文本问题表现良好，但部分平台调用结果稳定性不足。
- 结构化数据问答：阿里云百炼、腾讯云智能体开发平台、扣子均设置了独立的结构化数据导入模块，但阿里云百炼在跨表关联、多条件组合统计时易出现信息遗漏与聚合误差；腾讯云智能体开发平台单表查询表现优异，但在多表查询时存在SQL查询未能正确执行的情况；扣子在部分场景下存在自然语言到结构化查询的转换问题；百度智能云千帆表现稳定。
- 图文问答：各平台均具备OCR图片文字识别技术，但百度智能云千帆识别率低的原因在于流程bug；多模态内容关联与配图回答率分化，腾讯云智能体开发平台表现领先；各平台在图片输出环节均出现内容校验失效问题。

三、工作流能力测试

测试指标：参数动态提取、异常回退、意图识别、容错处理。
测试实施：以订单修改为核心场景，基于包含13条端到端工作流、共计80+个问题的问题集，全面覆盖参数提取、回退、意图识别及流程容错四个关键环节。
测试结果：各平台在意图识别环节均保持较高水平，流程终止节点判断准确率达100%。参数提取环节表现分化，阿里云百炼与腾讯云智能体开发平台提取准确率高于百度智能云千帆与扣子。端到端流程准确率方面，阿里云百炼和腾讯云智能体开发平台准确率接近70%，扣子和百度智能云千帆略低。各平台工作流已具备基础可用性，但在复杂信息处理场景下的技术实现深度与节点细节调优水平存在一定差异。

四、Agent能力测试

测试指标：意图理解深度、操作协同性、反馈有效性、机制完备性。
测试实施：以DeepSeekR1为基础模型，集成天气查询、数据分析、图表生成等6大类通用工具，设计40+个问题集，重点考查单工具调用、多工具协同、提示词显式调用。
测试结果：各平台智能体均构建了基础工具调度机制，实现从用户需求到工具调用的逻辑映射。基础推理模型的强逻辑能力保障了工具意图识别的一致性，各平台智能体在工具调用效果上的差异主要源于平台级生态支撑与流程优化水平。腾讯云智能体开发平台表现突出，工具本身的功能完整性与响应稳定性直接提升了调用成功率。各平台智能体均存在不同程度的工具调用流程断点问题，如百度智能云千帆未将代码执行结果转化为可视化图表并直接输出，阿里云百炼、百度智能云千帆均出现过三方天气/地图工具认证失败导致调用中断的情况。

五、总结与展望

核心观点：当前智能体开发平台能力呈现“基础能力趋同，产品路径分化”的竞争格局，各平台在文本处理、流程控制等基础场景已形成标准化能力，但在复杂场景处理、多模态协同及工具生态建设上表现出一定差异。
关键数据：
- 文档单点知识回复准确率、多文档多段知识组合回复准确率、无关知识拒答准确率、模糊知识澄清准确率等RAG能力指标。
- 单表查询准确率、多表关联查询准确率、图文问答准确率、答案关联出图率等工作流能力指标。
- 端到端准确率、参数提取准确率、参数回退准确率、意图识别准确率、工作流结束判断准确率等工作流能力指标。
- 单工具调用完成率、多工具调用完成率、提示词调用完成率等Agent能力指标。
研究结论：
- 各平台差异性主要体现在技术路径选择与工程实现深度上，阿里云百炼、百度智能云千帆、扣子、腾讯云智能体开发平台在各自维度均有优势。
- 智能体开发平台间竞争力的实质已逐步由单点能力比拼转向体系能力构建。
- 未来发展将取决于场景深度适配、技术链厚度构建、生态广度拓展三个关键路径的持续演进。
- 智能体开发平台正处于能力体系构建的关键爬坡期，从“任务完成”向“任务统筹”再到“服务自治”的跨越是未来发展方向。

目录一、测试概述1 （一）测试背景与核心内容1 （二）测试方法与数据说明1 （三）免责声明3 二、RAG能力测试3 （一）RAG测试采用指标3 （二）测试实施3 （三）文本问答任务4 （四）结构化数据问答任务5 （五）图文问答任务7 三、工作流能力测试9 （一）工作流测试采用指标9 （二）测试实施9 四、Agent能力测试12 （一）Agent测试采用指标12 （二）测试实施12 五、总结与展望16 一、测试概述（一）测试背景与核心内容在产业智能化转型加速的背景下，大模型驱动的智能体（Agent）已形成多场景渗透态势。智能体因其具备知识增强、流程编排和智能决策等核心能力，正重塑企业级服务的技术生态。为用户更好地了解大模型智能体典型场景应用情况，对智能体开发平台（以下简称“平台”）技术实现路径与行业适配机制进行研究。本次测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个典型智能体开发平台的个人电脑端，围绕业务智能化的驱动能力展开测试。结合智能体的技术演进态势和行业应用实践，本报告确立RAG能力、工作流能力、智能体工具调用三个关键能力维度进行测试评估。 1.RAG能力测试：RAG能力评估重点考察平台的知识增强机制，旨在验证RAG在真实业务场景中的综合表现，包括知识检索精度、逻辑推理能力以及用户体验的平衡性。重点评估三个维度：一是多模态知识处理能力：包括文本、表格、图文等不同类型载体的处理；二是任务复杂度适应能力：涵盖从单点信息提取到跨文档关联推理的不同难度层级；三是交互机制完备性：包含拒答处理、澄清反馈、溯源引用等关键功能。 2.工作流（Workflow）能力测试：工作流能力重点考察复杂场景下平台的流程控制机制，评估多轮对话中的流程稳定性与控制精度。以智能客服典型业务场景的订单咨询、退换货等能力为研究对象，聚焦参数动态提取、异常回退、意图识别与容错处理等关键智能性。 3.Agent能力测试：Agent能力围绕工具调用智能化水平与复杂任务处理体验，考察单工具逻辑判断、多工具协同及提示词指令执行能力，验证智能体对内外部工具调用协同的意图识别、选择科学性与答案整合效果。（二）测试方法与数据说明本节围绕智能体开发平台核心能力评估，系统阐述了测试方法与数据情况。研究通过构建贴合企业级服务典型业务场景的标准化框架，结合多模态测试数据集、统一配置的智能体/工作流、综合性问题集，以及多样化调用与过程采集方式，实现对平台核心能力的系统测试与分析；同时明确了测试涉及的基础知识数据与响应结果数据的具体构成、来源及特征，为后续研究的科学性与可靠性奠定了方法与数据基础。 1.测试方法本次测试基于模拟真实应用场景，构建标准化测试框架实现对大模型驱动的智能体开发平台核心能力的系统测试、比对、分析。场景构建方法。场景构建选取企业级服务中的客户服务、订单处理、知识问答等典型业务场景，精准还原真实业务流程中的交互逻辑与任务需求，以此保障测试场景与实际业务的高度贴合。数据集构建方法。数据集构建针对多模态知识处理需求，构建包含政策文档、业务规范等纯文本，订单数据、客户信息等结构化表格，产品说明、操作指南等图文数据的测试数据集，实现对不同知识载体类型与业务领域的全面覆盖。智能体/工作流配置方法。智能体/工作流配置依据各智能体的技术架构，在线配置相应的智能体与工作流模块。推理模型统一设定为DeepSeekR1，问答模型统一设定为DeepSeekV3，其余参数采用系统默认设置。仅对影响核心能力评估的关键配置进行必要对齐（若部分智能体默认模型无法切换，则保留其默认配置）。测试问题集设计方法。测试问题集设计以行业真实业务流程和应用场景为依托，围绕三大核心能力维度，设计包含15个测试项、600+测试问题的综合性问题集。每个问题均标注对应能力维度与预期输出，作为评估基准。调用与过程采集方法。调用与过程采集通过网页交互与API接口调用两种方式，模拟用户操作与系统集成场景，采集各智能体在问题处理过程中的响应结果及流程轨迹，为后续的统计分析提供便利。 2.数据说明本次测试使用及产生的数据主要包含基础知识数据、响应结果数据。基础知识数据说明。基础知识涵盖政府、电商、电力3个行业的业务资料，包括纯文本文档30份（总字数约10万字）、结构化表格5张（含15000+条记录）、图文内容10组（含产品图、流程图等）。数据来源为公开政策文件、行业报告及模拟业务场景生成的标准化资料，确保数据的典型性与可控性。响应结果数据说明。响应结果包括文本生成内容、知识来源引用、流程参数变化、工具调用记录等，数据记录涵盖时间戳、处理状态、错误信息等元数据，为能力分析提供完整轨迹。（三）免责声明测试时效性说明。本测试开展时间为2025年5月20日—2025年6月15日，所有准确率计算方法见附件，所有计算结果限于测试时间内成立。测试限制性说明。本测试基于特定模型版本与测试场景，实际应用效果可能因业务需求、配置调整及技术迭代产生差异。测试结果不构成任何商业推荐，用户需结合自身场景进行独立验证与选型决策。测试缺陷性说明。本测试仅针对各平台用户终端小样本体验，有可能存在数据缺失、技术环境不完全、样品版本bug等缺陷限制。本次测试最终解释权归国家工业信息安全发展研究中心赛昇实验室所有。二、RAG能力测试 RAG定义：英文全称是Retrieval-AugmentedGeneration，中文全称是检索增强生成。是一种通过数据检索改进模型内容生成效果的技术方案，它引入来自外挂向量数据库、知识图谱或网络的数据，对原始问题补充增强后输入给大模型，有效缓解幻觉问题，并提高知识更新速度与生成可追溯性（来源：微软研究院）。（一）RAG测试采用指标本次测试对RAG能力的评估从检索精准度、知识覆盖广度等六大核心维度展开。一是检索精准度，衡量召回相关文档的准确率与冗余信息过滤能力；二是知识覆盖广度，评估对领域内知识的覆盖完整性及边缘信息的处理能力；三是推理融合度，考察将检索结果与问题深度结合、生成逻辑连贯回答的水平；四是时效性响应，关注检索与生成的整体效率及动态知识更新适配性；五是多模态适配性，检验对文本、表格、图片等多元数据的处理能力；六是鲁棒性表现，评估面对模糊问题、噪声数据时的容错与修正能力。（二）测试实施本次测试重点探索RAG在深度行业场景中的落地能力，构建了基于知识载体多样性、任务复杂度与机制完备性的三维评估体系。选取政策咨询、电商客服、销售数据分析等6个典型场景，构建500+个高质量问题集。测试任务具体设计以文本问答、结构化数据问答及图文问答为主。 1.文本问答任务。在检验RAG知识整合与意图理解方面，综合设置了包含单文档查询、多文档交叉验证、边缘案例等任务形式；在检验智能体交互鲁棒性方面，融入语义模糊问题、知识库外问题及多轮对话。 2.结构化数据问答任务。为考察RAG结构化数据处理能力，基于订单数据表与SKU表，设计单表查询、多表关联统计等复杂任务。 3.图文问答任务。为考察RAG的OCR图片文字识别技术、多模态内容关联与配图回答能力，设置图片内容识别、图表关联检索、多模态信息融合等任务。（三）文本问答任务实际测试时，设计专精特新政策咨询以及电商客服规定查询两种场景，问题设计聚焦单文档精确定位、多文档交叉验证与综合、语义模糊意图理解、知识库外问题拒答机制等能力维度，旨在全面检验RAG系统在纯文本领域的检索、理解、整合与生成能力。 1.文本处理能力表现优异各平台在文本问题处理上展现出较强的准确性，纯文本问题得分普遍较高：均能实现意图识别，并在知识库中定位对应文档、合理组织反馈。单文档问题少量丢分，主要源于回答不完整或存在少量“幻觉”信息。多文档文本问题表现良好，所有模型回复准确率超80%，丢分主因是多文档结合时存在少量信息遗漏，导致回答不够全面。个别平台调用结果稳定性不足，如扣子在进行API调用时，有一定比例的内容无法从知识库获取，而其网页端提问可正确回答。 2.拒答与澄清追问处理差异化在采用同样拒答配置情况下，腾讯云智能体开发平台对知识库中不存在的问题实现100%拒答，其他平台则出现不同程度基于模型知识而非知识库内容的回复。面对需要澄清和追问的问题，各平台均倾向于直接提供所有相关信息供用户参考，其中扣子对于所有问题均未给出追问澄清，但在多数场景也可以符合用户需求。图1：各平台RAG文本问答表现 3.来源引用策略倾向提供全面信息在默认配置下，四个平台在来源引用方面都倾向于尽可能提供全面的参考信息。特别是在处理多文档问题时，虽然这种做法可能导致一定程度的信息冗余，但能够通过多源佐证帮助用户更全面地理解信息背景。（四）结构化数据问答任务本次测试围绕销售数据分析场景，基于实际订单表与在售商品SKU表数据，针对单表查询、单表统计、多表匹配查询、多表匹配统计4类典型任务展开，考察平台结构化数据处理能力。鉴于RAG在复杂数据分析场景的局限性，当前主流平台均对结构化数据分析场景进行了优化：阿里云百炼、百度智能云千帆与扣子均设置了独立的结构化数据导入模块，通过字段类型预定义、格式标准化等机制强化数据规范性。其中，阿里云百炼和扣子进一步设计数据库插件，支持多表关联查询与动态计算。而腾讯云智能体开发平台则采用后台自动化处理方案，简化用户操作但弱化了过程可控性。图2：大模型RAG结构化数据问答表现根据测试数据分析，各平台表现差异的关键因素在于其对处理流程的调优精细程度。从结果返回看，阿里云百炼仍然是基于文档切片，在跨表关联、多条件组合统计时易出现信息遗漏与聚合误差，凸显纯文本检索模式对结构化分析场景的适配局限；腾讯云智能体开发平台单表查询表现优异，但在多表查询时存在SQL查询未能正确执行的情况，导致返回结果出现偏差；扣子在部分场景下存在自然语言到结构化查询的转换问题，主要表现为逻辑条件遗漏或语义理解偏差，从而导致返回结果异常；百度智能云千帆在单表统计、多表关联等任务中表现稳定，体现了其结构化引擎能较好处理复杂条件筛选与跨表聚合。通过自然语言交互实现对复杂数据的操作仍是行业共性挑战。研究表明，各平台在嵌套条件解析（如“销售额前五且库存低于警戒值的商品”）、字段格式容错（如中英文标点混用）以及多表路径推导等任务中均存在失误，反映出语义理解与结构化计算协同的不足。此类问题暴露出当前技术需进一步优化的方向：一方面需增强自然语言到查询语句的精准映射能力，建立上下文感知与模糊匹配机制；另一方面需强化字段格式兼容性校验，通过预处理与后验证双环节来保障数据分析的可靠性。（五）图文问答任务图文问答任务场景设计为风电行业市场与技术资料分析，采用各平台默认推荐的多模态模型，主要考察图片提问与配图回答能力，以及显式/非显式调用情况下图片输出的准确性与完整性。 1.具备图片解析与文字识别的底层技术基础各平台均具备成熟的OCR图片文字识别技术，能够有效解析图片内容并识别用户提问意图，但在研究场景下的实际表现存在一定差异：阿里云百炼（91.7%）、腾讯云智能体开发平台（83.3%）、扣子（83.3%）对图片提问的识别能力较强，而百度智能云千帆识别率低的原因在于流程bug（3次不同时段测试综合结果），未能成功调用已上传的图片，导致图片解析链路断裂。在基于文档的图片定位任务中，所有平台均无法准确检索储能逆变器PCS等特定技术图片的关联信息，暴露多模态的场景优化深度仍有提升空间。图3：各平台RAG图文问答场景表现 2.多模态内容关联与配图回答率分化各平台配图回答率呈现梯度差异：腾讯云智能体开发平台在显式/非显式调用场景下以55%的正确回答率领先，百度智能云千帆存在图片显示故障但文档定位逻辑正确，而阿里云百炼因网页端图片显示异常导致配图正确率为0%（3次不同时段测试综合结果）。研究显示，显式调用图片指令可提升输出比率，表明用户交

点击免费查看完整报告