您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[浙江大学]:DeepSeek系列专题线上公开课(第二季):从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例 - 发现报告

DeepSeek系列专题线上公开课(第二季):从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

信息技术2025-03-24肖俊浙江大学G***
AI智能总结
查看更多
DeepSeek系列专题线上公开课(第二季):从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例 肖俊 浙江大学计算机学科与技术学院人工智能研究所浙江大学人工智能教育教学研究中心2025.03杭州 提纲 •大模型推理能力快速提升 •推理模型和思维链(CoT) •智能体是什么? •四链融合产业大脑案例 大模型推理能力快速提升 快速回望历史——大模型的产生 ChatGPT经过多类技术积累,最终形成针对人类反馈信息学习的大规模预训练语言模型 里程碑:ChatGPT的成功 OpenAI公司于2022年11月发布ChatGPT,短短三个月内日活跃用户从零增长至超过3000万,标志着对话式AI进入大众应用阶段 里程碑:ChatGPT的成功 AI 1.0时代 AI 2.0时代 辨别式AI 生成式AI 对现有内容进行分析、分类、判断、预测 自动生成开放的文本、图像、音频、视频等内容 相对通用的人工智能一个大模型解决多个问题自适应地应对复杂外界环境的挑战 专用人工智能 一事一模型,每个模型完成特定智能任务解决特定的智能问题 大模型能力不断增长 大模型在知识问答、数学、编程等能力上达到新的高度,多种任务上的表现超过人类水平。 早期大模型在推理能力上存在明显短板 大语言模型易产生幻觉,在数学推理方面表现在推理能力严重不足,体现在简单数值比较错误、多步推理能力弱、推理不一致等 9.11>9.9?简单数值比较错误 多步推理错误 早期大模型在推理能力上存在明显短板 大语言模型易产生幻觉,在数学推理方面表现在推理能力严重不足,体现在简单数值比较错误、多步推理能力弱、推理不一致等 无法在复杂的思维链中保持一致性 推理过程和答案不一致 怀疑论 Yann LeCun的批判观点:对纯粹扩大规模方法的根本质疑Mehrdad Farajtabar:"LLM本质上是统计模式匹配工具,而非真正的推理系统"、"下一个词预测框架不足以产生真正的理解" Yann LeCun:自回归大型语言模型没有前途 横空出世:OpenAIo1/o3、DeepSeek-R1等 2023-2024年,推理能力突破性进展:•OpenAI o1/o3在数学和代码推理任务上的卓越表现•开源大模型DeepSeek-R1在MATH基准上达到87.2%的准确率 横空出世:OpenAIo1/o3、DeepSeek-R1等 2023-2024年,推理能力突破性进展: OpenAI o1/o3在数学和代码推理任务上的卓越表现 ••开源大模型DeepSeek-R1在MATH基准上达到87.2%的准确率 DeepSeek的“aha moment” 小结一: 1.早期的大模型推理能力不足 2.OpenAI-o系列模型和DeepSeek-R1等胜在推理能力较强 推理模型和思维链(Chain of Thought,CoT) 推理大模型的发展 推理大模型:通过测试时拓展(Test-Time Scaling)、强化学习、蒸馏等技术,大模型的推理能力不断增强。 OpenAI-o系列推理模型 o1/o3在回答问题之前先Reasoning,生成一个详细的内部思维链,模拟人类的深思熟虑,逐步分解复杂的问题,提高答案的准确性和深度。 什么是思维链(CoT) 从浙大玉泉校区到紫金港校区如何最快出行? 要知道从玉泉校区到紫金港校区如何最快出行,首先得知道有几种交通路线: 地铁10号线黄龙体育中心站->文三路->学院路(转2号线)->古翠路->丰潭路->文新路->三坝->虾龙圩->步行… 1.89路公交车,共17站,需步行2分钟,共用时50分钟2.地铁10号线转2号线,这样就是2站+5站,共7站,需步行20分钟,共用时43分钟3.地铁3号线转7149路公交车,这样就是3站+11站,共14站,需步行11分钟,共用时50分钟4.还可以……这样综合看起来,最快的交通方案应该2,共用时43分钟 什么是思维链(CoT) •有些问题,人也很难快速写出思维链,比如: 桌子上放着50根火柴,丁丁、田田二人轮流每次取走1~3根。规定谁取走最后一根火柴谁输。如果双方采用最佳方法,丁丁先取,那么谁将获胜? 依靠大模型自己生成思维链并求解 DeepSeek-R1的推理过程 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远? 首个将思维链显式展示的开源模型 如何低成本实现推理模型? s1通过在一个精心构建的小规模数据集上(1000条数据)进行微调,并结合预算强制技术,实现了强大的推理能力和测试时计算扩展性 如何低成本实现推理模型? LIMO通过817个训练样本(题目难度高,覆盖知识面广,解题步骤精细),模型就能在复杂的数学推理任务中取得有益的表现 Less Is More for Reasoning LIMO假说:在预训练阶段已经充分编码领域知识的基础模型中,复杂的推理能力可以通过最少但精确编排的认知过程演示来涌现: •模型具备丰富预训练知识 •高质量的推理链示范 小结二: 1.自动化思维链(CoT)的实现是新一代大模型的精髓之一 2.经过精心设计的少量高质量样本即可实现适用于某个专业领域 的高性能低成本推理模型 智能体(AI Agent)是什么? 灵魂发问 •大模型除了可以和我聊天、回答问题,到底还能干什么? 灵魂发问 •ChatGPT的回答 用大模型写邮件 •如果你只有一个大模型,使用它回复邮件的过程大致如下: 有没有更加智能或者自动化的工具来协助我们完成这些手动操作呢? ①用户打开邮箱,手动拷贝邮件内容 ②用户将邮件内容拷贝到大模型运行界面的对话框,写提示词:请基于以下邮件内容帮我草拟一封回复 只有这个步骤是大模型自动完成,其余步骤均需要用户自行手动操作 ③大模型根据提示词自动生成回复邮件 ④用户将大模型生成的回复邮件拷贝至邮箱 ⑤用户填写地址、邮件标题,点击发送 智能体(AI Agent) 大语言模型(LLM)可以接受输入,可以分析&推理、规划任务、输出文字\代码\媒体。然而,其无法像人类一样,拥有运用各种工具与物理世界互动,以及拥有人类的记忆能力。 •LLM:接受输入、思考、规划任务、输出 •人类:LLM(接受输入、思考、规划任务、输出)+记忆+工具 一个具体的例子 •撰写调研报告:调研特斯拉FSD和华为ADS这两个自动驾驶系统 第一步:智能体进行任务拆解,首先调用CollectLinks工具从搜索引擎进行搜索并获取Url地址列表 https://cloud.tencent.com/developer/article/2422923 一个具体的例子 •撰写调研报告:调研特斯拉FSD和华为ADS这两个自动驾驶系统 第二步:调用WebBrowseAndSummarize工具浏览网页并总结网页内容(此工具调用了LLM) 第三步:调用ConductResearch工具生成调研报告(此工具调用了LLM) 一个具体的例子 自动发邮件 Agent System五层基石理论 Models,也就是我们熟悉的调用大模型API。 Prompt Templates,在提示词中引入变量以适应用户输入的提示模版。 Chains,对模型的链式调用,以上一个输出为下一个输入的一部分。 Agent,能自主执行链式调用,以及访问外部工具。 Multi-Agent,多个Agent共享一部分记忆,自主分工相互协作。 The Framework of LLM-powered Agents LLM-powered Agents are artificial entities thatenhanceLLMs with essential capabilities,enablingthemtosensetheirenvironment,makedecisions,andtakeactions. 更复杂的任务:大小模型协作的生成式智能体 •ChatGPT:具有强大的任务规划和工具调用能力•HuggingFace:最大的AI模型社区,每个模型都有详细的功能描述 HuggingGPT:大小模型协作的生成式智能体 •工作流程:大语言模型负责规划和决策,AI小模型负责任务执行 •TaskPlanningModelSelectionTaskExecutionResponseGeneration HuggingGPT:大小模型协作的生成式智能体 •大小模型协作AI Agent:大语言模型负责规划和决策,AI小模型负责任务执行 HuggingGPT: Solving AI Tasks withChatGPTand its Friends in Hugging Face, Yongliang Shen,KaitaoSong, Xu Tan, Dongsheng Li,WeimingLu,YuetingZhuang.NeurIPS2023 HuggingGPT •学术界、开源社区和工业界影响力: Bengio Y, Hinton G, et al. Managingai risks in an era of rapid progress[J] •图灵奖获得者Bengio和Hinton一作论文引用: Many of these risks could soon be amplified, and new riskscreated, as companies are developing autonomous AI:systems that can plan, act in the world, and pursue goals[1] •获得斯坦福客座教授吴恩达、英伟达GEAR Lab主任JimFan、OpenAI研究员等科学家的博文推荐; •论文一年被引600余次,获得WAIC青年优秀论文奖;•开源仓库获得2万多次收藏,获得国际测试委员会颁发的2022-2023百大开源成就奖,Demo系统获得HuggingFaceSpaceTop10;•工 业 界 影 响 : 受 到Hugging Face、Langchain、ModelScope等 团 队 关 注,推 出 相 应 的 产 品 和 功 能 :TransformersAgent、Langchain HuggingGPT和ModelScopeAgent。 英伟达GEAR Lab主任Jim Fan的推荐和解读 图灵奖获得者一作论文的引用评价 OpenAI研究员Lilian和Akhaliq的推荐和解读 斯坦福大学客座教授吴恩达的推荐和解读 大语言模型正在成为人工智能时代的信息系统入口 智能时代一直没有出现像Windows、安卓/iOS这样真正的操作系统——能够为用户提供信息系统入口/界面,同时可以管理计算资源并支撑应用开发。而大语言模型,正在起到信息系统入口界面作用。 小结三: 1.智能体(AIAgent)是大模型(Brain)的眼(Observation)和手(Tools) 2.通过智能体(AIAgent)可以基于大模型实现各种较为复杂的智能应用系统 四链融合产业大脑案例 产业认知决策:国家战略需求 产业竞争从国家间分段互补合作模式转为主导权、制高点和卡脖子的争夺 资源优化配置 如何精准科学地识别并批量形成具有战略意义的"卡脖子"问题清单,是我国实现关键核心技术突破要解决的首要任务,直接影响国家产业安全战略决策与创新资源配置 产业发展决策:广阔的社会需求 航空航天、轨道交通、新材料、新能源、电子信息等战略产业、未来产业对产业信息智能分析提出重大需求,呈现广泛、持续增长的发展态势。 政府决策需求