您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Artefact]:智能体监管的未来 - 发现报告

智能体监管的未来

金融2025-06-03Artefact付***
AI智能总结
查看更多
智能体监管的未来

25国家战略与转型 | AI 加速 | 数据基础与 BI | IT 与数据平台 | 市场数据与数字阿特拉斯是全球领先的专业咨询服务公司,专注于数据转型和数据与数字营销,从战略到人工智能解决方案的部署。我们提供创新(艺术)和数据分析(事实)的独特组合。 +1000客户我们加速数据和人工智能的采用,以积极影响人类和组织。1700员工 执行摘要之前已应用于科技产品。监管提供方,包括在这些运营领域内运营的主要数据与人工智能平台,将不得不弥合任何拥有多年的软件监管经验(例如在设立其代理治理时这些领域的空缺)谷歌和微软)以及专业初创公司(WB,框架)。我们得到的第一个洞察是,尽管代理监督ees需要加强他们的AI监督工具。扩展了在 DevOps (软件运营) 中建立的原理,目前许多依赖于现有的 RPA 和 Dev/Data/运行), 数据操作) 和 MLOps (机器 MLOps 工具,或尝试使用自定义构建的解决方案)学习操作),这大大增加了他们的需求,因为他们在寻找更多可持续的长期选择。为了实现稳健的治理,使AI代理保持一致,并拥有充足的早期工具,以及展望未来的需要控制。事实上,具有“开始思考的软件”,一个不可见的、有凝聚力的、端到端监督系统,它集成了风险正在涌现,如幻觉、推理错误、多个组件,促使我们探索技术-不恰当的语气、知识产权侵权或代理监督的逻辑维度进行更深入的探讨。即使提示词劫持。缓解这些可靠性、行为性问题。如同任何 TechOps 框架一样,AgentOps 监督监管和安全风险现需要涉及三个基本阶段的治理:(1)观察,(2)评估不仅更加严谨,而且范围更广,并且(3)监控和管理事件。虽然第三阶段这种治理需求的显著增加是挑战,随着需要监控的新风险类别以及随之而来的length that may define the emerging operational paradigm new logs, traces, and evaluation mechanisms to establish,关于“AgentOps”。有趣的是,面试者为何始终坚持强调建立它清晰的原因,AgentOps将需要构建在每家组织的现有 DevOps、DataOps 以及对支持可扩展和可靠的正确工具的需求之上mlops基础和治理,以及公司在监管方面的滞后。去年二月,我们发布了《AI驱动的未来工作》,这是我们关于自主AI的第一项研究。我们发现,虽然AI代理将取代人类从事繁琐和重复性的任务,但将出现一种新的工作类型:自主监督。在工业革命期间,机器取代了人类从事体力劳动,但出现了诸如机器采购、运营监督和维护等新工作。随着自主AI的出现,认知型工作将被其他更高级、更富有生产力的认知型工作所取代。本研究旨在深入探讨自主监督的早期阶段,并在代理生命周期管理、治理和监督工具方面勾勒出未来监督的轮廓。为了收集代理监督的当前状态,我们采访了14家企业以及5位Artefact代理产品经理和工程师。我们还联系了关键的代理Giskard、RobustIntelligence等。 我们发现,虽然人工智能代理将取代人类从事繁琐和重复性的工作,但将出现一种新的工作类型:代理监督。我们访谈中发现的第二大挑战代表了最大的监管努力和时间投入,前两个挑战对于确保有效的风险管理至关重要。 3 适应这些动态风险和演变在于作品已经取得了先发优势,得益于强大的基础,依赖于企业数据和IT系统来“思考”并采取奠基和一种完善的可观测性和“行动”的文化。正如IT和数据治理需要业务监督。我们观察到,利用现有软件,过去参与其中,是我们在RPA,以及数据监管实践、流程和工具的研究表明,代理治理将要求更加深入能够显著加速进展。然而,关键挑战在于商业参与。用于代理式AI的特定工具集,以及在构建专用方面,与传统软件或数据监督不同,通常面向未来的治理框架。 过度依赖由IT或数据团队处理(并且在最成熟或-传统方法,包括确定性逻辑和定制化组织(由业务主导的数据治理网络)tom构建的工具,可能会成为约束,限制团队需要由业务方负责代理监督。考虑到狭窄、严格控制代理工作流程,并防止人工智能代理固有的不可预测性,事件响应的采用更具自主性的、AI调度代理。其中十项需要领域专业知识。因此,企业必须所有受访者都强调从一开始就有效代理智能体行为的关键。这代表了一个重要监督就是预见。监督不应是一种文化转变:代理式人工智能模糊了IT、数据之间的界限。然而,它必须在智能体的设计业务中尽早嵌入,并且将需要基于新的工作方式和开发。建立可观察性和评估跨职能合作。代理监督是机制仅在代理进入生产后才启动,这是面向未来的工作与人工智能!迟了。在那个阶段发现缺陷通常意味着要重做整个代理,这比从一开始就投资于可靠的监督要昂贵得多。要成功,人工智能治理也必须与强大的信息技术和数据处理实践紧密对齐,因为代理“代理监督是人工智能未来工作的方向!”好消息是,各种经过测试的工具组合和新兴的智能体框架已经可用。我们强烈建议企业AI治理团队定义自己的标准化框架和工具集,以便应用于所有智能体开发。随着智能体开始相互连接,这变得更为关键,使得系统级控制和监督互操作性成为必要。 4挑战。这严重依赖于有一个明确界定的评估每个智能体监督周期的阶段;观察,最后,监督和缓解面临挑战评估、监督,提出了一套自己的挑战-优先排序。随着越来越多的指标和警报,可观测性首先要求预见到要捕获哪些数据,必须为代理监督带来结构和清晰度。以及监督策略。没有这种远见,团队会面临风险,只有少数组织成功地建立了要么收集信息太少,要么被信息淹没,这阻碍了发布有效的治理和标准用于自主型人工智能。通过广阔、非结构化的痕迹,阻碍手动根本原因分析,那些拥有成熟软件和数据治理框架的团队可能会迅速感到不知所措。用于告警和指标管理的标准化框架是分析。像 LangSmith 和 LangChain 这样的工具越来越多地被用于构建和简化智能体行为的观察。另一个主要挑战在于 LLM 推理的不透明性,必须通过有意设计智能体架构和工作流程来加以应对,以确保可追溯性和透明度。监督不应是事后才考虑的事情,它必须在代理的设计和开发早期就嵌入进去。在自主式人工智能中的评估比传统软件或数据质量评估要复杂得多。在经典的DevOps和DataOps中,基于可观察性查询的确定性测试是足够的,但自主系统通常需要人工智能来评估人工智能。这催生了\"将大语言模型用作裁判\"的技术;这是一种反直觉的方法,其中一个模型评估另一个模型的输出。虽然这引发了担忧(为什么信任有缺陷的人工智能去评判有缺陷的人工智能?),但研究表明,它通常比人类评审员能产生更一致和可扩展的结果。然而,受访者中一个普遍的痛点是构建可靠的基准真实数据集、专家编辑的问题-答案对以基准代理响应的困难。人类评估者往往意见不一,并且他们的答案通常不完整。我们对代理监督工具的研究揭示了三个关键洞察。首先,目前还没有一站式解决方案。像谷歌和微软等主要云服务提供商正在积极开发和发布旨在覆盖团队在 Vertex AI(谷歌)和 Copilot Studio(微软)等平台上构建代理的各类监督需求的监督工具和框架。其次,代理监督分为两类:主动式和反应式。主动式监督在开发过程中应用,用于针对定义场景测试代理,或在生产环境中持续防范新出现的威胁,特别是在安全领域,或收集聚合性能数据。其目标是通过时间改进代理行为。另一方面,反应式监督则专注于检测和处理实时事件。虽然这两种类型都依赖于可观测性工具,并可能使用类似的评估机制,但在数据源、评估粒度和响应策略方面存在显著差异。最后,我们的第三个洞察是,代理可观测性、评估和风险缓解仍然复杂且快速发展的领域。我们预计未来几年监督工具将取得重大进展。 阿南·乌赞佛罗伦斯·贝内齐要积极投入,不仅限于监控,还要参与构建专家合作伙伴 数据与人工智能治理管理合伙人,领先生成式人工智能 6方法论特别感谢与致谢企业访谈者AGENTOPS 堆栈面试者亚历克斯·科姆贝西, 联合创始人兼联合首席执行官, GISKARD萨尔瓦梅·富凯,法国客户总监,权重与偏差埃里克·霍雷尼,人工智能市场推广负责人,法国谷歌Amin Karbasi,高级总监,思科基金会人工智能研究(曾任罗伯鲁斯首席科学家)智能)— 合规、安全和IT治理专家,他们就监管预期、伦理风险以及为AI代理量身定制实时控制机制的新兴需求提供了关键输入。Yoann Bersihand,人工智能技术副总裁,SCHNEIDER Arthur Garnier,IT首席助理与数据科学家,ARDIAN Jean-François Guilmard,首席数字官,ACCOR Paul Saffers,副首席数字官,VEOLIA Alexis Vaillant,自动化主管,ORANGE Leo Wang,数据保护官,LOUIS VUITTON 中国— 产品经理和创新高管分享了关于运营用例、组织准备情况以及转向代理中心架构的转变的见解。本研究基于定性研究方法,旨在探讨组织早期实施自主AI代理所面临的挑战及治理实践。通过结合专家访谈与对不断演变的技术环境的深入分析,我们旨在描绘当前实践、识别运营需求,并理解可供选择的代理可观察性、评估和监督解决方案的价值主张。我们采访了20多位直接参与代理系统部署、治理或技术开发的行业专家。这些专家包括:— 首席数据官、人工智能负责人和数据平台总监等人工智能和数据领域的领导者,分享了他们在代理实施、风险管理以及数据基础设施演变方面的战略愿景。让-卢克·洛朗,生成式人工智能/机器学习专家,GOOGLE皮埃尔·佩热,联合创始人兼首席科学官,PRISM Eval克里斯·范佩尔特,联合创始人兼首席信息官,WEIGHTS & BIASES马克·加德特,法国微软副首席技术官 10 意识型人工智能或当软件开始思考时。8 简介58 结论14 新技术,老问题:为什么治理是一个连续体。24 II — 新的 AgentOps 堆栈:测试、护栏和反馈回路。25前期测试必须包含可变性以确保代理就绪。18不再袖手旁观:自主式人工智能将监管交由企业掌握。41代理监督涵盖即时运行时操作到未来规划决策。35防护栏通过在代理执行期间管理风险来保护操作。50扩展多智能体系统需要共享协议以实现互操作性和可管理性。46技术团队需要清晰的标准,以便高效且负责任地构建和部署代理。9我—智能体AI风险正在撼动技术治理与监管游戏。45 III — 使用标准与全球治理安全并加速Agent AI。55商业团队需要组织全球人工智能治理和监督协议。 通过将现实世界从业者的反馈与结构化的技术基准相结合,本研究旨在为公司如何负责任地扩展代理式人工智能系统提供务实且具有前瞻性的视角。同时,我们对超过十种提供与代理治理相关功能的工具和平台进行了系统性回顾,包括Langfuse、LangSmith、DeepEval、Copilot Studio、Vertex AI、Ragas、Weights & Biases、PRISM Eval、DeepEval、Robust Intelligence、Giskard……每个解决方案都使用一个专用框架进行分析,该框架将质量的三个维度(可靠性、行为一致性、安全性)与监督的三个阶段(观察、评估、主动监督)进行交叉参考。—人工智能工具公司创始人及首席科学家,他们的反馈帮助评估了市场在三个关键功能(可观察性、评估和人工智能代理的主动监督)方面的现状。受访者代表了许多不同的组织,包括大型企业(如能源、电信、制药和奢侈品行业)、全球科技公司和高速增长型初创公司,确保了对该主题丰富而细致的理解。 14 I.B — 新技术,老问题:为什么治理是一个连续体。我10 I.A — 智能代理式AI或当软件开始思考。自主AI风险正在颠覆科技治理与监管格局。18I.C — 不再袖手旁观:自主式人工智能将监督交到企业手中。 引言我们广泛理解监督的含义。它始于建立自动化日志记录和跟踪系统。它还包括设计评估和警报框架,这些框架指导最终且最可见的步骤:采取行动(手动纠正错误、