
Z沙龙前七期纯享版 2023.11-2024.2 「Z计划」是智谱AI面向未上市初创企业与优秀独立开发者/团队,提供Tokens赞助、投资支持、一手大模型技术资料和技术支持等资源的创新加速计划。面向全球,持续招募中! 面向全球大模型创业者,智谱AI「Z计划」开启招募 「Z沙龙」是支持该计划的面向大模型领域的线下活动品牌,大家坐在一起,不吹不黑,聊点干货,互相学习。 目录 第一期:从GPTs聊到Agent、LLMOps以及开源的新机会............................................................................................3第二期:大模型时代的产品长啥样&壁垒在哪?......................................................................................................................15第三期:人人都想做出下一代拟人/情感/社交网络的AI Native产品..........................................................................32第四期:对SuperApp的想象无限&大模型能力有限.......................................................................................................59第五期:大模型时代下的具身智能..................................................................................................................................................84第六期:多模态大模型的GPT时刻............................................................................................................................................114第七期:AI Native硬件:端侧AI革新将至.........................................................................................................................135 免责申明: 1.本文档由第三方爱好者「特工宇宙」,根据官方微信公众号发布的公开内容,修订后整理而成,非官方行为。2.文中内容也不代表智谱认同文中任何观点。为鼓励自由发言,我们也暂时不披露参与者个人信息,不做流水账,抛开敏感信息,分类整理而成。3.文档不可避免的还存在些许问题,后续如果修改或增加新的内容,将更新在下方知识库(左一)。4.我将Z沙龙的所有内容,上传至了智谱清言的GLM创作平台,制作了一个智能体,可以进行QA,扫码即可体验(左二)。5.欢迎关注「质朴发言」公众号(右一),报名参与/学习后续沙龙内容! 第一期:从GPTs聊到Agent、LLMOps以及开源的新机会 活动背景 上周OpenAI举办了DevDay,并公布了GPTs等系列新动作。作为当前大模型领域最头部的玩家,OpenAI的大动作,总能引起圈内热议。围绕GPTs以及由此搅动的大模型产业格局,尤其是应用层创业的生存与发展,我们开展了研究跟进,准备好了认知,不能埋头苦干,决定在周六找朋友们小聚一下。 分享大纲 一、Agent 1.什么是Agent?具备什么能力?2.Agent在B端的落地到底情况如何?3.未来可能有机会的方向。 二、在DevDay之后,国产大模型和OpenAI之间的差距是扩大了还是缩小了? 三、AI LLMOps及开源社区 1.OpenAI对AIOps的态度如何?2.那么,什么形态的AIOps会/不会挡住OpenAI数据飞轮?3.AIOps公司们应该怎样调整入场姿势?4.Agent框架的2种设计思路:功能导向和行业应用导向 四、开源和闭源商业模式之争 #1. 关于Agent 1、什么是Agent?具备什么能力? 观点一:狭义的Agent,由OpenAI定义 “Agent”一词虽然早在马文·明斯基、Russell和Norvig等知名学者的著作中出现,但在大模型时代,OpenAI重新定义了这一概念。Lilian Weng在其个人博客中对Agent的主要功能进行了详细描述,提供了一个更为精确的定义。她指出,狭义上的Agent具备技能调用(Tool use)、记忆(Memory)和规划(Planning)能力。 推荐阅读:Marvin Minsky的两本著作:《心智社会》和《情感机器》。Lilian Weng文章:https://lilianweng.github.io/posts/2023-06-23-agent 观点二:广义的Agent,具有基础智能、角色管理、技能调用、复杂思维、及未来更多的可扩展性 广义的Agent可以在Lilian Weng提出的Agent的基础上进行扩展,具有基础智能、角色管理、技能调用、复杂思维,及未来五感集成能力: oAgent的基础能力,包括常识推理、逻辑性等,来源于大模型提供的基础智能。所以我们对Agent这一层能力的设计,本质上都是对模型的优化。如果要改进Agent在这一方面的能力,通常需要更换或优化底层模型。 oAgent的角色扮演、情感理解和身份相关能力,与其记忆和拟人化角色设定的Prompt工程紧密相关。这部分称为“角色管理”,涉及到如何让Agent理解并扮演特定的角色或身份。 oAgent的技能调用能力,如编程、查询、绘图等,依赖于Agent之上的插件。OpenAI的“Functioncalling”机制是一个经典的实现方式,允许Agent调用外部的功能和资源。 oAgent的复杂思维能力,在基础智能之上,大模型通过人们构建的思维链、思维树等方式,学会更高层的思维方式。这种方法教会模型特定的模式或思维方式,从而提高其处理复杂问题的能力。 在未来,Agent还会具备更多的可扩展的空间。就Observation而言,Agent可以从通过文本输入来观察来理解世界到听觉和视觉的集成;就Action而言,Agent在具身智能的应用场景下,对各种器械进行驱动和操作。 总而言之,Agent是以核心智能模型来驱动的,一个可以具备能力从思考开始,最终做到完整输出的智能性结构。Agent的发展很符合第一性原理,从最先的Prompt,后面有人在写完的Prompt后面加通用的规划器。 再到COT和TOT,其实也是Agent。再后面AutoGPT火了之后,一些公司如面壁出了双循环的Agent,其实是在AutoGPT基础上的演化,包括“斯坦福智能体小镇”。这些都证明Agent更像是大模型的超级版。 2、Agent在B端的落地到底情况如何? 观点一:设想与现实之间的Gap有多大?人和大模型长期共存 目前已成熟的方式 •RAG+知识问答+语音条,目前是比较容易获得订单的方式。•主要场景是替代掉传统客服或者对内做培训的知识库。•可以开发点击鼠标等动作的RPA,搭配RAG的系统,方便现场demo演示。 路径设想 如果用AutoGen搭一个框架,多个GPT可以共同发挥作用。这是最笨但最符合第一性原理的方案。 或者当模型能力进化到一定程度,Agent的能力不再趋同,可以单一模型实现从理解需求到落地。 实现难点 •包括GPT-4在内的很多测试,并不具备planning的能力,只能plan模型学过的知识库里的东西。•比如在金融行业场景中,模型没有学过诸如“供求关系分析”“一致预期”“投资逻辑”等文本,因此根本无法做到这样的planning,包括action。 我们发现,面对更深层次的用户需求:就需要一个产品经理,将问题一层层拆开,拆分成每个分析师独立的观点是什么和汇总的综合观点是什么。所以未来很长时间是人与GPT同时存在的状态,并非GPT-4/GPT-5可以独立全部解决。人类的产品经理扮演很重要的角色,可能是类似过去SaaS的流程规划过程。 比如模拟今天沙龙的一个对话场景:三个GPT同时使用,一个主控制意图,一个是要把对方引导到某种推荐的概念,第三个是回答问题。GPT-4做的都不是很好,只有把人类的规划引入进去后,第一次跑通后再用GPT进行执行。所以落地的主要Gap是培养一个理解需求并且懂得大模型的产品经理的一年时间。 观点二:在Autonomy Agent或Multi-Agent成熟之前,大模型应从“对外业务”和“简单功能”切入ToB服务 •B端能落地的业务都是普通人能通过一小段时间和成本以及一些输入就能习得的。对应到企业场景,可能是:财报,供应链管理等。业务对外的信息管理,可能最先作为大模型服务的辐射范围(如产品入库记录,物料管理,合同管理)•供应商有限数量时,尚且可以轻松进行流程梳理。但当面临一些供应链复杂的巨头/独角兽公司业务的时候,不太可能用GPT解决。•目前可能还没有到解决Autonomy Agent或Multi-Agent能力问题的时候,因为我们Agent实现的单次请求及回复的“原子颗粒”都还没有达到一个很好的状态。 ▪把私有领域知识训练在一个私有的模型里面或直接去训练一个小模型解决这个问题(这种解决问题的语料也可能不存在)▪构建请求链:把问题拆解细分到Agent能解决的问题。▪Multi-agent的协同前提条件是多样化,如果没有解决这个问题,相当于多个Agent在同自己对话,就会出现价值观与角色趋同问题。 ▪Autonomy问题,预训练的通识性模型无法解决,通常要解决这个问题有两种思路: o把私有领域知识训练在一个私有的模型里面或直接去训练一个小模型解决这个问题(这种解决问题的语料也可能不存在)o构建请求链:把问题拆解细分到Agent能解决的问题。 观点三:大模型要做专家知识,还是通用知识? •专家知识派:大模型application落地做隐性知识,甚至是过往没有明文方法论记载的,更多的是隐性的知识,比如如何思考投资决策,一个分析师如何草拟一份报告。解决这类know-how的ToB企业,随着大模型功能的不断完善,未来会有越来越多的机会。 •通用知识派:以投资机构为例,对于一件事情的认知,本来就是构成其业务壁垒的一部分,所以信息不对称对于这些“专家知识”更重要。投资机构不会分享其由信息不对称造成的核心优势,电池制造商也不会公开其材料、组装和工艺流程等核心信息。B端的数据敏感且难以获取,而仅靠公司内有限的私有数据又很难构建出多样性的Agent。因此多样化的Agent很难实现,这也意味着,在金融、高端制造业等B端行业中,复杂的Agent系统的落地面临很大的挑战。 画外音:Agent在B端落地的问题,本质上是Agent先代替哪一类工作的问题——是先代替培养成本高的高精尖的专家还是代替较为通用型的岗位,还是说把其当成实习生,需要Mentor和实习生一起干活?就目前来看,单一Agent无法很好地完成复杂的B端业务,这可能意味着目前Agent的落地需要在“通用的复杂任务”和“专业的简单任务”中做取舍。 观点四:人机边界识别,工程落地能力,基座模型能力,并驾齐驱,同样重要 •Agent开发过程中,任务拆分和划分人机边界同样重要。比如在工程中需要教会GPT用户的思想,在写论文的时候,如果与GPT同步了每一段要表达什么,甚至每一句话的核心观点,那样的呈现比只表达“要写一篇什么样的论文”精确得多。(通过RAG将知识串联起来,最终形成完整论文)