AI智能总结
AIAgent与AgenticAI 原理与应用 AI肖睿团队 (韩露、顾跃、王春辉、吴寒、李娜)20250520@北京 •北大青鸟人工智能研究院 •北大计算机学院 •北大教育学院学习科学实验室 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 2 讲座内容介绍 一、本次讲座专为科研人员、工程师及AI技术爱好者设计,旨在深度剖析AIAgent与AgenticAI的核心技术、前沿进展与未来挑战。我们聚焦技术底层机制、关键算法与工程实践痛点,力求超越概念普及,提供硬核洞察。通过本次分享,您将全面理解Agent的技术内涵与趋势,获得技术选型参考,并激发对潜在研究方向与创新应用的深度思考。 二、本次讲座的内容主要涵盖以下四个核心模块: 1.探源与定义-探源Agent智能的“是什么”与“为什么”:探析Agent爆发的技术契机与演进脉络;清晰Agent及AgenticAI的核心定义、关键特征及其与传统AI的界限。 2.核心技术深度剖析-揭秘Agent智能的“如何构建”:系统拆解Agent技术栈:感知、认知与决策(LLM引擎、规划、记忆、学习)、行动模块;深入探讨主流的Agent架构模式(如单Agent、多Agent系统、反思性Agent)及其设计原则与考量,以及针对当下主流的关键交互协议如:MCP、A2A、AG-UI的深入探讨。 3.前沿实践与技术分析:洞察Agent智能的“技术落地”:深度拆解COZE、Manus、DeepResearchAgents、Genspark、Lovart等代表性Agent平台与项目的技术特点、架构创新及优劣势。 4.现状、挑战与未来展望:展望Agent智能的“路在何方”:评估当前技术成熟度,剖析核心挑战(行动、规划、记忆、幻觉等)与开放问题;展望AIAgent的发展趋势、颠覆潜力与伦理考量,并提供行动建议. 三、大家可以参考《人工智能通识教程(微课版)》这本系统全面的入门教材,结合B站“思睿观通”栏目的配套视频进行学习。欢迎关注“AI肖睿团队”的视频号和微信号(ABZ2829),加入ai.kgc.cn社区,共同探讨AIAgent的前沿动态与未来发展。 一、AIAgent和AgenticAI的兴起P4 1.AIAgent的爆发P6 2.Agent的发展历程P8 3.AIAgent的核心特质及概念解析P10 4.AgentsvsAIAgentsvsAgenticAIP15 5.AIAgent的适用场景及判断标准P16 6.AIAgent应用案例分享P17 7.总结:新范式已至,未来可期P18 二、AIAgent的核心技术栈解密P20 1.AIAgent的核心组成部分P22 2.感知模块P23 3.认知与决策模块P29 4.行动模块P39 5.Agent架构模式P53 6.构建基础AIAgent:核心步骤概览P76 7.总结:Agent核心技术-从能力边界到智能涌现P77 三、主流Agent平台、框架与项目技术拆解P79 1.Agent平台/框架/应用分类总览P81 2.Agent构建平台(Low-code/No-code)P82 3.Agent开发框架(Code-centric)P104 4.Agentic应用/产品(End-userfocused)P129 5.通用智能AgentP150 6.专用领域Agent/系统P170 7.总结:Agent生态的多元探索与实践前沿P194 四、AIAgent的技术现状、核心挑战与未来展望P196 1.当前Agent发展现状P198 2.核心技术挑战P204 3.开放性问题探讨P211 4.AIAgent的未来趋势与展望P216 5.总结与思考P220 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 3 主内要容目目录录 一、AIAgent和AgenticAI的兴起 我们将深入探讨AIAgent与AgenticAI这一迅速发展的领域。随着大型语言模型 (LLM)等技术的飞跃式进步,AIAgent正从昔日的理论构想大步迈向现实应用,迎来了前所未有的爆发契机,标志着人工智能发展已步入一个更强调自主性与行动能力的新阶段。 为构建清晰的认知框架,我们将核心聚焦于Agent的本质定义—即一个具备环境感知 (Perception)、智能决策(Decision-making/Reasoning)乃至自主行动 (Action)能力的智能实体。通过对这些核心概念的厘清,您将深刻理解AIAgent的技术底蕴及其与现有AI范式的联系与区别,为把握这一AI前沿趋势奠定坚实基础。 AI肖睿团队4学习交流可加AI肖睿团队助理微信号(ABZ2829)4 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 1.AIAgent的爆发 2.Agent的发展历程 3.AIAgent的核心特质及概念解析 4.AgentsvsAIAgentsvsAgenticAI 5.AIAgent的适用场景及判断标准 6.AIAgent应用案例分享 7.总结:新范式已至,未来可期 1.1天时地利:AIAgent爆发的技术与生态契机 一、AIAgent和AgenticAI的兴起 1.2风口浪尖:为何AIAgent成为当前新焦点? 2.1AIAgent的源起:思想的火花与早期探索 2.2从理论到实践:Agent发展的关键转折点 3.1超越简单交互:AIAgent的独特价值主张 3.2核心概念解析(一):什么是AIAgent? 3.3核心概念解析(一):Agent的核心特征 3.4核心概念解析(一):AIAgent的五个发展阶段 3.5核心概念解析(二):AgenticAI-追求更高阶的智能 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 5 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 6 1.1天时地利:AIAgent爆发的技术与生态契机 大语言模型(LLM)的能力跃升(天时) 1.自然语言理解(NLU)与生成(NLG) LLM具备前所未有的复杂指令理解、上下文推理、复杂文本生成能力,为Agent提供了强大的“大脑”和“嘴巴” 2.常识推理与逻辑演绎 LLM在一定程度上掌握了世界知识和基本推理能力,使得Agent能够进行更复杂的规划和决策。(虽然仍有局限,但已达到可用门槛) 3.代码生成与理解 LLM可以生成和理解代码,为Agent赋予了直接操作软件、调用API的“双手” 相关基础设施与生态的成熟(地利) 1.向量数据库(VectorDatabases) 高效存储和检索海量非结构化数据(文本、图像等转换的Embedding),为Agent构建长期记忆和知识库提供了关键支撑 2.模型API与服务化 各大厂商开放LLM及其他AI能力API(如OpenAIAPI,GoogleGeminiAPI,DeepSeekAPI等),降低了开发者构建Agent的技术门槛和成本 3.开源框架与社区 LangChain,crewAI,AutoGen等开源框架的涌现,提供了模块化的Agent构建工具和丰富的实践案例,加速了Agent应用的开发和迭代 LLM的突破性进展与日益完善的基础设施,共同催生了AIAgent的爆发点。 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 7 1.2风口浪尖:为何AIAgent成为当前新焦点? 1.LLM赋予Agent“超级大脑” 质的飞跃:LLM根本性地解决了以往Agent在理解复杂指令、进行多轮对话、 掌握广博知识、执行灵活推理等方面的核心瓶颈。 Agent不再是预设规则的简单执行者,而是具备了更强的通用性和适应性。 2.GPTs与多样化Agent形态的启示与实践 GPTs、AutoGPT等早期探索的点燃效应,推动了对Agent架构和能力思考。 当前Agent实践的多样化浪潮,从概念验证到应用落地,形态与平台不断涌现,推动Agent走向实用化、产品化。 3.对“行动能力”与“自主智能”的普遍渴望 用户和开发者不再满足于AI的“说”和“写”(内容生成),更期望AI能够“做” LLM的赋能、早期探索的启迪以及当前多样化Agent产品与平台的实践浪潮,共同将AIAgent推向了技术革命和产业变革的前沿。 (任务执行),能够自主理解目标、规划路径、调用工具、与环境交互并最终完成任务,真正成为智能实体或自主系统。 Agent的思想源远流长,是人工智能领域的经典概念之一。早期概念回顾: 符号主义AI中的Agent:(1956–1990) 理念:智能源于符号的表示和操作。Agent被视为能够通过逻辑推理和规则匹配来感知环境、制定计划并执行动作的实体。 代表:AllenNewell和HerbertA.Simon的“逻辑理论家”(LogicTheorist)和“通用问题求解器”(GeneralProblemSolver,GPS)可视为早期Agent思想的雏形。 特点:强调明确的知识表示和演绎推理。 Agent:概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。 分布式人工智能(DAI)与多智能体系统(MAS): 理念:复杂问题可通过多个协同工作的Agent解决。 关注点:Agent间的通信、协调、协商和合作。 AllenNewell HerbertA.Simon AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 8 8/82 2.1AIAgent的源起:思想的火花与早期探索 •为Agent赋予了从与环境交互中学习决策策略的能力(例如,AlphaGo)。 •提升了Agent在感知(如CV,NLP)和模式识别方面的能力。 Step01 基于规则的专家系统 (1970s-1980s) Step02 强化学习(RL)的兴起 (1990s-至今) Step03 互联网与WebAgent (1990s-2000s) Step04 机器学习与深度学习的 融合(2010s) Step05 大型语言模型(LLM)的 爆发(2020s) •虽然不是严格意义上的Agent,但其“知识库+推理机”的模式为Agent的决策模块提供了早期思路。 •搜索引擎爬虫、早期聊天机器人、推荐系统等,展现了Agent在特定任务上的应用潜力。 AI肖睿团队 学习交流可加AI肖睿团队助理微信号(ABZ2829) 9 9/82 2.2从理论到实践:Agent发展的关键转折点 •GPT-3(2020):展示了LLM强大的零样本/少样本学习能力。 •InstructGPT/ChatGPT(2022):通过指令微调和RLHF,显著提 升了LLM的指令遵循和对话能力,使其成为理想的Agent“大脑”。 •AutoGPT,BabyAGI(2023):作为实验性项目,展示了基于LLM的自主任务规划与执行能力,极大地激发了社区与公众对自主AI完成复杂任务的想象,推动了对Agent架构和能力的广泛思考。 •Genspark、Coze、Manus、Lovart(2024~2025):Agent实践的多样化,从概念验证到应用落地,形态与平台不断涌现,推动Agent走向实用化、产品化推动Agent走向实用化、产品化。 关键里程碑: 技术进步不断推动Agent从理论构想向实用系统演进 对比传统AI/机器学习(AI/ML)及生成式AI(GenerativeAI) AIAgent的核心独特价值 传统AI/ML •模式:通常是被动式、数据驱动的模式匹配或预 测(如图像分类、推荐系统)。 •交互:交互性弱,主要处理特定、封闭的任务。 生成式AI(GenAI): •模式:强大的内容生成能力(文本、图像、代码)。 •交互:通常是“一问一答”或“一次性生成”, 自主性(Autonomy) •核心差异:能够基于目标自主决策、规