您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中移智库]:智能体技术应用及展望 - 发现报告
当前位置:首页/行业研究/报告详情/

智能体技术应用及展望

信息技术2024-04-01-中移智库静***
智能体技术应用及展望

智能体技术应用及展望中国移动研究院 业务研究所2024年4月中移智库 摘要智能体(AI Agent)是一种能够自主行动、感知环境、做出决策并与环境交互的计算机系统或实体,通常依赖大型语言模型作为其核心决策和处理单元,具备独立思考、调用工具去逐步完成给定目标的能力。作为未来大模型最主流的使用方式,智能体备受业界关注。2024年智能体技术[1]被纳入《国家人工智能产业综合标准化体系建设指南(征求意见稿)》,在标准引领下未来智能体技术将高质量发展并助推大模型加速赋能千行百业。本文通过阐述智能体技术、应用现状及产品演进,分析了智能体技术未来发展方向和面临的挑战。一、智能体技术(一)智能体工作原理[2]大脑(Brain):大脑主要由一个大型语言模型LLM组成,1中移智库 不仅存储知识和记忆,还承担着信息处理和决策等功能,并可以呈现推理和规划的过程,能很好地应对未知任务。感知(Perception):感知模块的核心目的是将智能体的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。行动(Action):在智能体的构建过程中,行动模块接收大脑模块发送的行动序列,并执行与环境互动的行动。(二)智能体技术特点[3]大模型通常通过Prompt(提示)与用户进行交互,输出效果受限于用户提问的清晰度。信息处理方面,仅处理静态或流式数据输入,不涉及直接的环境交互,不能自主地采 取行动。技术应用方面,行业知识缺乏 、易出现 幻觉提示 词工程 学习门槛高成为大模型破圈 的阻碍 。而基 于大模型的智能体,其设计目标是实现对环境的有效互动,通2中移智库 过感知模块收集环境信息,并通过行动模块来改变 环境状态, 整合了感知、决策、行动等多个环节,因而 智能体在自主能力、决策能力、协作交互等方面展现出优势 ,弥补了大模型的不足,成为人工智能界的“行动派”。二、智能体技术应用根据面向的对象、流程不同,智能体主要应用在三种场景[4]:(一)单智能体[5]应用一个特定的环境中,仅有一个智能体进行感知、学习和行动,需要独立地与环境进行交互,并根据环境的反馈来优化其行为策略,以实现预设的目标。可应用在交互性质场景 ,如游戏AI(如围棋 、电子游戏等)、自动驾驶汽车、机 器人控制 等。单智能体系统的复杂性相对较低 ,某些任务中更容易实现和部署。(二)多智能体系统[6]3中移智库 由多个智能体(软件 程序、机器人或其 他具有自治性的实体)组成的复杂 的分 布式系统,每个智能体都具有自己的感知、决策和行动能力,并且可以与其他智能体进行通信、信息共享 、交互和协作,以实现共同 的目标或任务通常 后端 设定不 同角色 的智能体,前端 通过对 话链协同工作,能够完成单个智能体难以完成或无法 完成的任务,具有更 高的 灵活性 、可扩展性和鲁棒性 。可应用在分布式控制、智能交通、智能制造、自然语言处理等领域。(三)智能体平台[4]构建智能体系统的集成化 平台 ,用户在平台上 定义并部署各类智能体,平台 通过策 略性 流程, 优化智能体组合以适应特定任务需求, 各智能体可扮演不 同专 业角色 ,在任务 协商 和角色 分配后 ,协同 执行任务并完成结果整合。适用于智能体开发、企业定制化解决方案场景。4中移智库 三、智能体产品演进从时间维度智能体主流产品的演进大致可划分为三个阶段:(一)构建智能体框架阶段[8]内2023年3月AutoGPT框架项 目发 布,包括 需求下发、自主 运行、 结果输出 三个核心模块。功能上主要是通过Prompt向ChatGPT下发任务,ChatGPT通过大模型对语义内容理解,输出 详细 的解决方 案,经过逻辑判断选择优先执行的步 骤,生成可执行的操作或指 令,并调用外部资源或工具完成指令操 作。AutoGPT框架把 大模型的自然语言理 解、内容生 成、 逻辑 推理等核心能力外推到具体场景 ,辅以感知与行动技术,有端 到端解 决问 题的潜力,被 认为是大模型落地的重要模式。(二)GPTs智能体雏形阶段[7]2023年11月OpenAI推出Assistant API,后续 发布5中移智库 GPTs服务, 允许 用户构建个人自定义GPT助手,无需编码,用户通过上传 个人数据以及自定义训练 ,能实现垂类 模型的快速搭建,大 幅度降低AI应用的 创作门槛 ,进一步推高智能体的热潮。(三)个人智能体孵化阶段[9]2023年12月联想公布了个人智能体“小乐同学”的进展。个人智能体,基于内 嵌于终端 的本地大模型打造 ,精准理解用户意 图,并将意图转换 为相应的任务组合,分解任务并识 别任务完成的路径 ,通过 查询 本地知识库、调用设备API以及合适的模型或应用来执行相应的任务,并将相应的结果返回 给智能体,智能体完成整合后反馈 给用户。与云端 模型能力相比 ,整个过程完全不用 上云 ,不 侵犯 用户个人隐私,并对硬件有很强的控制能力。四、发展方向和面临的挑战在不 久的将来,智能体将成为AI OS系统的最小工作单6中移智库 元, 嵌入自主智能体的软件极有可能 改变 现有的使用方式从用户 适应软件变 成软件适 应用户 习惯 ,真正 成为个人助理。进而系统级别的智能体有望直接操作App或者子智能体,在PC、手机、自动驾驶 领域 预计有广泛 的应用 场景[10]。尽管大语言模型智能体已经取得了重要的进展,但是在实 际应用中 仍然 面临 安全 、伦理、计算资源消耗、复杂 工具使用、多智能体交互机制、模型 适配 方法、面向 真实世界的智能体模拟等一系列技术挑战[11]。7中移智库 [参考文献][1]《国家人工智能产业综合标准化体系建设指南(征求意见稿)》, 工信部,2024[2]《2023年人工智能体(AI Agent)开发与应用全面调研:概念、原理、开发、应用、挑战、展望》,AI前沿,2023[3]《什么是Agent智能体?Agent智能体和大模型有什么区别?|商派》,商派,2024,https://www.shopex.cn/news/archives/17685.html[4]《成果|大模型驱动的自主智能体与群体智能》,AIGC最前线,2024[5]《单智能体(Single Agent)是指什么》,行业百科,2024[6]《多智能体系统是指什么》,行业百科,2024[7]《AI Agent发展现状、行业结构与趋势分析》,天翼智库,2024[8]《AutoGPT:自动化GPT原理及应用实践》,学习猿地,2023[9]《AI 时代,为什么「智能体」将成为第一入口》,极客公园,2024[10]《2023年度十大前沿科技趋势报告》,量子位智库,2023[11]《大语言模型》,AIBOX,2024中移智库 审稿:杨蕾 | 业务研究所 本文作者高静,就职于中国移动研究院,主要从事多媒体处理、AI+赋能产品等领域研究工作。 9 / 10中移智库