您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [财通证券]:计算机-“AI操作系统”时代已至 - 发现报告

计算机-“AI操作系统”时代已至

信息技术 2024-12-01 杨烨,李宇轩 财通证券 丁叮叮叮
报告封面

证券研究报告 投资评级:看好(维持) 核心观点 AI+OS,操作系统级Agent开启人机交互革命。AI赋能OS,操作系统级Agent由于其C端入口特性,有望成为首个“爆款”AI应用。当前市场中长期缺乏“爆款”AI应用,我们认为主要系C端大众对AI的感知度仍然较低,尽管有大量可下载、可付费的AI应用存在,但从广大用户体验来讲,各类AI软件对其生活重塑的边际变化不大。而近期,包括手机端苹果、荣耀、Vivo等,以及PC端联想等厂商上新操作系统级Agent作为新的人机交互形态,以端侧入口形式首次深入群众,令其“被迫”体验接受新的操作范式,有望打造首个“爆款”AI应用,由此将带动AI端侧硬件需求涌现,以及刺激软件内部AI功能快速迭代。 建立交互数据集,深耕Post-Training,获得“从Chat走向Act”通用Agent能力。智谱的Agent能力主要来源于其底层大模型的训练与迭代:CogAgent是18B参数的视觉语言模型(VLM),专门用于GUI理解和导航,基于视觉语言模型CogVLM并结合高分辨率交叉模块,实现了高效GUI推理;AutoWebGLM通过简化HTML增强网页阅读能力,添加人类与AI混合方法构建的网络浏览数据集进行微调,大幅提升大语言模型的Agent能力;AutoGLM实现图形用户界面的自主基础Agent,可用于网页浏览与安卓手机操作,与人类表现差距进一步缩小。我们认为,智谱克服了当前Agent训练的堵点,通过建立网页浏览交互数据集,以及在强化学习、微调阶段进行算法创新,实现了在大语言模型上操作系统级Agent突破。 分析师杨烨SAC证书编号:S0160522050001yangye01@ctsec.com 分析师李宇轩SAC证书编号:S0160524080001liyx02@ctsec.com 相关报告 1.《智驾月报:10月车市环比向好,文远知行上市》2024-11-18 2.《计算机行业2025年投资策略:多维共振,精彩纷呈》2024-11-17 GLM多端Agent家族,打造手机、PC、汽车等终端交互入口。(1)GLM-Phone:可实现跨APP操作、支持超长任务流程、支持更多主流APP,针对手机端应用提供了新的解决方案,显著扩展了其在手机端的应用场景和操作能力;(2)GLM-PC:办公领域将迎来生产力跃升,GLM-PC可实现会议替身、文档处理、网页搜索与总结、远程和定时操作等;(3)GLM-Car&More:Agent为AI终极形态,加速万物智能、万物互联,未来Agent有望渗透至各类智能设备,落地AI原生设备,实现设备主动服务用户。 3.《外政预紧,内需预旺,国产科技迎腾飞机遇》2024-11-10 投资建议:见正文。 风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。 内容目录 1AI+OS,操作系统级Agent开启人机交互革命...................................................................................42建立交互数据集,深耕Post-Training,获得“从Chat走向Act”通用Agent能力.........................62.1CogAgent:CogVLM结合高分辨率交叉模块,实现高效GUI推理...........................................62.2AutoWebGLM:基于大语言模型的Web导航Agent....................................................................82.3AutoGLM:图形用户界面的自主基础Agent,可用于网页浏览与安卓手机操作....................113GLM多端Agent家族,打造手机、PC、汽车等终端交互入口.....................................................133.1GLM-Phone:可实现跨APP操作、支持超长任务流程、支持更多主流APP.........................133.2GLM-PC:办公领域将迎来生产力跃升.........................................................................................153.2.1CogAgent实现Computer Use.....................................................................................................153.2.2AutoGLM-Web进一步扩展AI搜索能力边界..........................................................................183.3GLM-Car&More:Agent为AI终极形态,加速万物智能、万物互联.....................................194投资建议.................................................................................................................................................205风险提示.................................................................................................................................................20 图表目录 图1. Agent类型分为通用型与垂域型两个层面...........................................................................................4图2.智谱清言Agent发展历程....................................................................................................................5图3.智谱清言GLM Agent系列产品..........................................................................................................6图4. CogAgent模型架构................................................................................................................................7图5. CogAgent在多个测试集上显著领先通用模型,部分领域领先专业微调模型................................8图6. AutoWebGLM的系统架构...................................................................................................................9图7.训练步骤包括课程学习、强化学习、拒绝采样微调.........................................................................9图8.训练数据集构建包括简单和复杂任务两部分...................................................................................10图9. AutoWebGLM在Mind2Web、MiniWoB++和WebArena上测试性能具有明显优势................11图10.通过AutoGLM在美团App上“点一杯半糖瑞幸热椰奶拿铁”....................................................12图11.在VAB-WebArena-Lite上各模型与人类表现的差距...................................................................12图12.在AndroidLab(VAB-Mobile)上测试各模型的成功率.............................................................13图13. GLM-Phone前版本操作示例...........................................................................................................13图14. GLM-Phone跨APP操作实例.........................................................................................................14 图15. GLM-Phone多步骤任务流程实现...................................................................................................15图16. GLM-Phone循环任务执行...............................................................................................................15图17. GLM-PC实现Computer Use...........................................................................................................16图18. GLM-PC理解指令、规划任务、逐步完成.....................................................................................16图19. GLM-PC隐形屏幕功能....................................................................................................................17图20.像人一样使用电脑,具备更高能力上限.........................................................................................17图21.通过Web Agent实现给智谱清言微博点赞、评论流程自动化....................................................18图22. AutoGLM-Web的操作面板....................................................