您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [财通证券]:计算机行业AutoGLM沉思:“思行合一”开启Agnet新时代 - 发现报告

计算机行业AutoGLM沉思:“思行合一”开启Agnet新时代

信息技术 2025-04-01 财通证券 冷水河
报告封面

智谱AutoGLM沉思:“思行合一”开启AI Agent新时代。3月31日,智谱在2025中关村论坛上正式发布全新智能体产品AutoGLM沉思——全球首个集深度研究与实际操作能力于一体的Agent。AutoGLM沉思通过深度思考模拟人类推理决策过程,能感知世界,获取并理解环境信息,还可调用操作工具完成复杂任务。目前,沉思功能已在智谱清言网页端、PC端和手机App免费、不限量开放,这也是国内首个正式开放的DeepResearch功能。 网页版AutoGLM沉思测评:计划制定高效、思维链长,搜索与交互尚存优化空间。网页版AutoGLM沉思在测试中表现出色,制定研究计划时,分步计划详细具体,研究效率高且步骤划分合理。进行学术论文综述时,思维链长,遇到查找难题能迅速调整,通过更换关键词获得高质量结果。不过,它在搜索策略、操作流程和任务交互等细节方面存在不足。随着版本迭代优化,有望为用户带来更智能、高效、流畅的深度研究和操作体验。 桌面端AutoGLM沉思测评:具备深度研究基本能力,未来有望持续迭代改善。桌面端AutoGLM沉思测评显示,其生成的研究报告超8000字,内容充实、逻辑严谨、要点完善,具备撰写长报告的基本能力。但它存在一些问题,学术搜索环节,打不开谷歌学术就直接跳过,不够严谨;资料搜索方式混乱,浏览器打开网页操作有时多余;调查过程耗时久,效率有待提高。 智谱全栈自研大模型赋能AutoGLM沉思多元能力融合。智谱的AutoGLM沉思融合深度思考、感知世界、工具使用三大能力,背后是智谱自主研发的全栈大模型技术,整合了GLM-4的通用能力、GLM-Z1的反思能力、GLM-Z1-Rumination的沉思能力以及AutoGLM的自动执行能力。相关核心链路的模型和技术将于4月14日开源。 以AutoGLM沉思为基,探AI Agent发展之路。虽然AutoGLM存在前文测试遇到的种种瑕疵,但AutoGLM沉思依旧无疑是AI Agent领域的重要里程碑,它大胆地将大模型的深度思考能力与Agent的实践操作能力深度融合,进一步强化了2025年将成为AI Agent发展元年的论断。 投资建议:见正文。 风险提示:应用测试结果与本报告不一致的风险;技术迭代不及预期的风险; 商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 1智谱AutoGLM沉思:“思行合一”开启AI Agent新时代 3月31日,智谱在2025中关村论坛上正式发布全新智能体产品AutoGLM沉思——全球首个集深度研究与实际操作能力于一体的Agent。其集深度研究与实际操作能力于一体,实现“边想边干”,依托智谱GLM全栈自研大模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air-0414,前者性能比肩DeepSeek-R1,速度最高可提升8倍,价格仅为后者的1/30,相关核心链路的模型和技术将于4月14日开源。AutoGLM沉思通过深度思考模拟人类推理决策过程,能感知世界,获取并理解环境信息,还可调用操作工具完成复杂任务。目前,其preview版本已在智谱清言PC客户端上线,用户可免费体验研究和操作能力,未来两周将为该智能体扩展更多执行能力,包括推出“虚拟机”版本。同时,沉思功能已在智谱清言网页端、PC端和手机App免费、不限量开放,这也是国内首个正式开放的DeepResearch功能。 图1.智谱AutoGLM沉思 图2.AutoGLM沉思背后的GLM模型 2网页版AutoGLM沉思测评:计划制定高效、思维链长,搜索与交互尚存优化空间 我们针对网页版AutoGLM沉思进行了如下测试: 测试问题1:在过去30天里,有没有跟人工智能板块有关的公告?我想要特别关注A股上市公司的公告,如果里面提到‘算法优化’或者‘深度学习’,请整理一下,然后摘份报告给我,包括公司名称、股票代码、公告标题、发布时间,还有哪些技术细节,谢谢。 在收到问题后,AutoGLM沉思首先进入沉思模式,拆解用户问题,并制定研究计划,按步骤执行任务。 图3.网页版AutoGLM沉思测试1.1 专业内容网站或存在内容获取权限等问题。AutoGLM沉思进行研究计划时会列出详细具体的分步计划思维链,使用户在任务完成前就能对结果有一个预期。完成研究效率很高,计划步骤也划分合理,但输出的结果存在一定问题:首先给出的信息没有附上参考链接导致可信度降低,其次每一家公司的公告的标题和技术细节都是相同的,可能是因为AutoGLM沉思在阅读金融相关网页时存在内容获取权限等问题。 图4.网页版AutoGLM沉思测试1.2 测试问题2:搜集《Journal of Finance》近3年的金融风险管理论文时,或许能发现针对衍生品、金融机构稳健度的最新探讨,做个简要综述。 在收到问题后,AutoGLM沉思首先进入沉思模式,拆解用户问题,并制定研究计划,按步骤执行任务。 图5.网页版AutoGLM沉思测试2.1 如图6所示,使用AutoGLM沉思进行学术论文综述时,模型展示了非常长的思维链,在查找相关文献时遇到瓶颈便会快速调转方向,为了获得更丰富的搜索结果也会不断更换查找关键词,最终获得的结果可用度很高。 图6.网页版AutoGLM沉思测试2.2 搜索策略、操作流程及任务交互等细节上还有提升空间。从上述网页版AutoGLM沉思测试中我们可以看出,在制定研究计划时能够提供详细且具体的分步计划,研究效率高,步骤划分合理。在学术论文综述方面,该模型显示出长思维链,遇到查找瓶颈时能迅速调整方向,并不断更换关键词以丰富搜索结果,最终得出的结果具有较高的可用度。但网页版AutoGLM沉思在搜索策略、操作流程及任务交互等细节上还有提升空间。随着后续版本迭代优化,有望为用户带来更智能、高效、流畅的深度研究与操作体验。 图7.网页版AutoGLM沉思测试2.3 3桌面端AutoGLM沉思测评:具备深度研究基本能力,未来有望持续迭代改善 我们针对桌面端AutoGLM沉思进行了如下测试: 测试问题:AI Agent技术目前的进展以及对未来生产方式可能产生的颠覆性影响。 具体要求:归纳总结目前AI Agent的发展情况(包括海内外的主要厂商的进展)以及未来AI Agent能达到的高度与形态,对比传统生产方式与AI Agent介入后的生产方式的范式差异,包括AIAgent与人之间的关系,且细化到至少5个典型领域(如医疗、法律、文学、经济,艺术等)进行深度研究案例分析。字数要求一万字以上。 在收到问题后,AutoGLM沉思首先进入沉思模式,拆解用户问题,并制定研究计划,按步骤执行任务。 图8.桌面端AutoGLM沉思测试1 开始研究后,AutoGLM沉思首先会列出详细的计划。参考的学术来源是谷歌学术,但在无法打开谷歌后AutoGLM沉思便放弃了学术搜索,没有调用其他学术搜索引擎。AutoGLM沉思仍会采用在普通网页版中的搜索方式,而不是打开浏览器进行搜索。 图9.桌面端AutoGLM沉思测试2 在长达25分钟的运行过程中,AutoGLM一共使用浏览器打开了11个网页,包括谷歌学术、知乎、微信公众号、搜狗搜索等网站。 图10.桌面端AutoGLM沉思测试3 最终的生成结果质量尚可,符合深度研究的要求,包含参考文献的字数共计8772字。 图11.桌面端AutoGLM沉思测试4 具备深度研究基本能力,细节和效率有改善空间。AutoGLM沉思最终生成的研究报告字数在8000字以上,且生成内容以AIAgent的基本概念与技术架构、技术进展、主要厂商、未来形态与发展方向、对传统生产方式的颠覆性影响、典型领域案例分析、面临的挑战与未来发展等几个方面为标题依次展开,虽然存在“未来形态与发展方向”和“面临的挑战与未来发展”两个标题内容有所重复的问题,但整体内容非常充实,细分要点也很完善。作为一款用于深度研究的AIAgent,智谱AutoGLM沉思具备撰写一篇长报告的基本能力,不过我们也发现了几个可进一步提升的方面。 搜索功能存完善空间。该Agent在学术搜索引擎上的搜索存在问题,在未能进入谷歌学术后,没有更换其他学术搜索引擎,而是直接跳过这一步骤,缺乏严谨性。 交互可进一步优化。在搜索资料时,Agent有时会在浏览器上打开网页,有时则直接在模型对话中打开网页,且在浏览器中能打开的网页(如知乎),在模型中也能直接调取内容,这部分时候打开浏览器这一环节略显冗余。 未来随着计算资源的进一步丰富,Agent效率有望进一步提升。整个调查过程耗时大约25分钟,大部分时间消耗在浏览器的搜索和内容理解上,未来在更强的算力和模型的支持下,Agent效率有望进一步提升。 4智谱全栈自研大模型赋能,AutoGLM沉思多元能力融合 智谱的AutoGLM沉思融合深度思考、感知世界、工具使用三大能力,背后是智谱自主研发的全栈大模型技术,整合了GLM-4的通用能力、GLM-Z1的反思能力、GLM-Z1-Rumination的沉思能力以及AutoGLM的自动执行能力。具体来看,AutoGLM的技术演进包括了几个方面,首先在GLM-4模型的基础上训练出推理模型GLM-Z1,基于Z1模型结合工具使用和长程推理能力训练出沉思模型Z1-Rumination作为AutoGLM沉思的大脑,最后集成智谱的智能体框架。 GLM-4-Air-0414(新版基座模型):基于最新技术重新训练,参数量32B。预训练加入更多代码类、推理类数据,对齐阶段针对智能体能力优化。虽参数量仅32B,却能媲美更大参数量主流模型,在工具调用、联网搜索、代码等智能体任务能力大幅提升,为AI智能体大规模落地打基础。 图12.GLM-4-Air-0414(32B) GLM-Z1-Air(新版推理模型):基于GLM-4-Air-0414研发,引入更多推理类数据,优化通用能力。性能与DeepSeek-R1(671B,激活37B)相当,在AIME24/25、LiveCodeBench、GPQA等基准测试中,数理推理能力强。推理速度比R1提升8倍,成本降至1/30,还支持消费级显卡运行。后续MAAS平台将更新免费模型GLM-4-Flash的基座版本,并推出更轻量、高速的推理版本GLM-Z1-Flash。 图13.GLM-Z1-Air GLM-Z1-Rumination(沉思模型):以GLM-Z1为基础,通过扩展强化学习训练,提升结合工具使用完成长程推理的能力。突破传统AI仅依赖内部知识推理的局限,结合实时联网搜索、动态工具调用、深度分析和自我验证,形成完整自主研究流程。 图14.GLM-Z1-Rumination AutoGLM:在斯坦福大模型中心《AI指数2024》选定的AgentBench基准评测中,AutoGLM系列模型在5个测试环境取得SOTA成绩。在PhoneUse基准(AndroidLab&AndroidWorld),AutoGLM-Phone任务成功率大幅提升;在BrowserUse基准上超越OpenAIGPT-4o和AnthropicClaude-3.5-Sonnet。此外,GLM-PC(CogAgent)在GUI智能体领域多个权威评测榜单获SOTA成绩,仅9B参数就超越同类大模型或商用API。 图15.Agent设备操作能力SOTA GLM-4基座模型、GLM-Z1推理模型、GLM-Z1-Rumination沉思模型、AutoGLM模型的核心链路模型和技术,将于4月14日正式开源推动行业发展。 5以AutoGLM沉思为基,探AI Agent发展之路 虽然AutoGLM存在前文测试遇到的种种瑕疵,但AutoGLM沉思依旧无疑是AI Agent领域的重要里程碑,它大胆地将大模型的深度思考能力与Agent的实践操作能力深度融合,进一步强化了2025年将成为AI Agent发展元年的论断。在行业生态建设方面,智谱计划与金融、教育、医疗等多个领域的合作伙伴展开深度合作,致力于推动Agentic LLM在实际场景