您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机-智谱AutoGLM:人机交互范式的创新与探索 - 发现报告

计算机-智谱AutoGLM:人机交互范式的创新与探索

AI智能总结
查看更多
计算机-智谱AutoGLM:人机交互范式的创新与探索

智谱AutoGLM重磅升级,推动人与机器交互方式的范式转变:2024年11月29日,智谱在OpenDay推出升级版AutoGLM,挑战完成复杂任务。 未来随着GLM团队继续加速agent模型产品研发,将很大程度上改变人机交互形式,用户一句话操作电脑和手机的范式转变指日可待。 手机端AutoGLM可理解超长指令,执行超长任务:根据官方内测用户使用手册,本次手机端AutoGLM升级的重点在于,操作执行不再局限于简单任务场景,也不需要用户手动搭建复杂繁琐的workflow,仅通过自然语言指令即可实现复杂任务的快速执行。从本次系列手机端AutoGLM测评来看,我们认为AutoGLM整体上仍有较大的提升空间。AutoGLM在任务理解方面有待提升。在执行复杂操作时,AutoGLM偶尔会出现较长的停顿时间,无法及时反馈问题,通常需要人工干预,从而影响实际体验和最终效果。不过,在面对打车、导航等简单任务时,AutoGLM能够迅速完成任务,表现出色。 AutoGLM-Web插件可与用户持续交互反馈,全自动上网新体验:根据官方浏览器插件新手指南,智谱清言插件依托Agent智能体强大的任务规划和屏幕界面信息理解能力,使得操作执行不再局限于简单的任务场景和API调用。用户无需手动搭建复杂繁琐的workflow,仅通过自然语言指令即可快速完成复杂任务。我们认为AutoGLM-Web整体上还有较大的提升空间。除了任务理解能力外,AutoGLM-Web与某些网站的适配还不够完善,且在agent模式下的生成能力还有所欠缺。不过,在执行一些简单任务,如浏览器搜索等时,AutoGLM-Web表现出色,基本能够顺利完成任务。 测评总结与Agent展望:持续强化基座模型,多路径探索和实践:智谱基座模型具有强大的竞争力,其基准测试表现与第一梯队模型相当,但在模糊语义理解方面,AutoGLM仍有提升空间。我们认为,AI Agent未来的发展路径包括:开发模块化适配框架以快速适配通用功能模块;利用自动化工具提高适配效率;建立开放平台与开发者合作,以提升适配质量和数据反馈; 提供用户自定义适配功能以增强用户体验。这些策略将推动AI Agent在适配领域的创新,更好地满足用户需求,促进人机交互的发展。 风险提示:应用测试结果与本报告不一致的风险;技术迭代不及预期的风险; 商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 1智谱AutoGLM重磅升级,推动人与机器交互方式的范式转变 智谱推出升级版AutoGLM。2024年11月29日,智谱在OpenDay推出升级版AutoGLM,挑战完成复杂任务。重要进展包括: 手机端:自主执行超过50步的长步骤操作,也可以跨app执行任务; Web端:开启“全自动”上网新体验,支持数十个网站的无人驾驶; 桌面端:像人一样操作电脑的GLM-PC启动内测,基于视觉多模态模型实现通用Agent技术探索。 图1.OpenDay现场,AutoGLM给在场数百位嘉宾发送图2.AutoGLM-Web插件现场自动完成了“在百度搜索 AutoGLM推动人与机器交互方式的范式转变。发布会现场,智谱CEO张鹏介绍并展示了AutoGLM操作手机、电脑,以及手机电脑联动的场景,并表示未来随着GLM团队继续加速agent模型产品研发,将很大程度上改变人机交互形式,用户一句话操作电脑和手机的范式转变指日可待。 图3.大模型为智能设备带来新机会 2手机端AutoGLM:理解超长指令,执行超长任务 自然语言指令,实现复杂任务的快速执行。根据官方内测用户使用手册,本次手机端AutoGLM升级重点在于,操作执行不再受限于简单任务场景,也不需要用户手动搭建复杂繁琐的workflow,仅通过自然语言指令即可实现复杂任务的快速执行。本次升级后,手机端AutoGLM覆盖范围在常用生活场景迅速铺开,在微信、小红书、美团等常用平台之上新增抖音、微博、饿了么。同时,一些跨应用协同长任务也可以执行,例如“在小红书查查上海最好吃的西餐厅,帮我看看他家在大众点评有没有团购券”。本章节,我们将对手机端AutoGLM目前主要支持应用进行测评。 图4.升级版AutoGLM支持应用 图5.手机端AutoGLM目前支持的跨应用协同长任务 2.1社交媒体类测评(微信) 一、微信搜索与内容转发实际操作: 1.首先,用户呼唤AutoGLM,“在微信中搜索关于1月3日a股相关的文章,并把前三篇发送给我的文件传输助手”。 2.在获取用户许可后,AutoGLM打开微信APP,并在搜索框内输入关键词“1月3日a股”,但并没有理解关键词“文章”,随机跳转至“视频号”。 3.在用户手动纠正并筛选一篇相关文章后,AutoGLM将文章发送至“我的文件传输助手”。 4.AutoGLM成功将用户筛选文章发送至文件传输助手。 5.告知用户任务完成。 图6.微信搜索与内容转发 关键词处理有误,用户纠正后完成任务。本次测试中,AutoGLM对于关键词“1月3日a股”理解与执行正确,但并未理解“文章”。在用户介入后,AutoGLM继续完成任务,并成功将文章发送至用户的文件传输助手。 2.2美食探店类测评(大众点评、饿了么) 一、大众点评餐厅搜索实际操作: 1.首先,用户语音呼唤AutoGLM,“帮我在大众点评上找一家上海浦东南路附近,人均消费一百元左右的西餐厅”。 2.在获取用户许可后,AutoGLM打开大众点评APP,并在搜索框内输入关键词“浦东南路”,并在条件筛选内,找到“价格区间”,选择“50-100”。 3.随后,AutoGLM在分类中找到“美食”,并找到“西餐”。 4.在筛选条件后,AutoGLM进一步获得更精准的搜索结果,并询问用户“查找到西餐厅有关东小磨东北菜和迷迭巷·致味新疆。你想选择哪家呢?”。 5.在退出对话框后,可以发现根据AutoGLM的筛选条件,实际搜索结果为“AMINOAMIGO(世纪汇店)”和“M·K意大利餐厅(北外滩来福士店)”,与AutoGLM反馈给用户的结果不一致。 图7.大众点评餐厅搜索 关键词理解与执行正确,但缺乏搜索内容理解导致任务失败。从本次测试中,可以发现AutoGLM对于关键词“浦东南路”、“美食”、“西餐”、“人均消费一百元左右”理解与执行正确。大众点评根据AutoGLM的筛选条件所产生的结果也正确,但AutoGLM在将结果反馈给用户时出现和搜索结果不一致的情况,或表明AutoGLM并不理解其搜索到的内容,最终导致任务失败。 二、饿了么点外卖实际操作: 1.首先,用户语音呼唤AutoGLM,“帮我在饿了么上点一份我常吃的丰收日的套餐”。 2.随后,在获取用户许可后,AutoGLM打开饿了么APP,并在搜索框内输入关键词“丰收日”。 3.AutoGLM在搜索到“丰收日”后,点击进入,并在搜索框内输入关键词“套餐”。随后,对用户发起询问,“查找到丰收日餐厅的套餐有联名款酸菜鱼双人套餐、乐享丰聚双人套餐、红烧大虾带鱼一人食、虾仁芦笋配糖醋排骨一人食和茶香油爆大虾一人食。你想吃哪个套餐呢?”。 4.用户回答“红烧大虾带鱼一人食”和“虾仁芦笋配糖醋排骨一人食”后,AutoGLM选择相应结果,并询问用户“你需要餐具吗?”。 5.用户回答“需要”后,AutoGLM进入结算页面。可以注意到用户选择了两款套餐,但AutoGLM在选择餐具时只选了一份。 图8.饿了么点外卖 关键词理解准确,任务基本完成。AutoGLM对于关键词“丰收日”和“套餐”理解准确,但在进入结算页面后,AutoGLM对于餐具套数和用户所选套餐数量的对应关系并无理解。整体看,AutoGLM理解了任务关键词,基本完成任务。 2.3好物选购类测评(淘宝、京东、拼多多等) 一、淘宝商品搜索与选购实际操作: 1.首先,用户语音呼唤AutoGLM,“帮我在淘宝选购一款联想品牌的aipc笔记本电脑”。 2.随后,在获取用户许可后,AutoGLM打开淘宝APP,并在搜索框内输入“联想aipc笔记本电脑”。 3.AutoGLM在搜索完毕后,对用户发起询问,“查找到联想aipc笔记本电脑有ThinkBook、Thinkbook 14+/16+2024款等。你想选哪个呢”。 4.用户回答“选一款最贵的”后,AutoGLM选择排序第一的搜索结果,并询问用户“查到几款商品类型,你看看有没有喜欢的,比如14.5英寸Ultra5-125H 16G 512G 2.5K屏等。你想选哪个呢”。可以注意到AutoGLM并没有选择最贵的产品。 5.用户回答“选最顶配的”后,AutoGLM选择一款显示已经缺货产品,并告知用户需要自行付款。 图9.淘宝商品搜索与选购 购物选品常用词理解有待加强。整个测评过程约1分20秒。AutoGLM在此次任务中正确理解并执行了用户指令。然而,在用户要求AutoGLM从搜索结果中执行“选一款最贵的”出现失误,直接选择了结果排名第一的选项,表明AutoGLM对于“贵”的概念或没有理解。在选择产品配置时,AutoGLM为用户挑选了一款已经缺货的产品,或表明AutoGLM与淘宝APP适配不够完善。综合测评来看,AutoGLM缺乏对用户在购物选品时常用词汇的理解。此外,商品信息本身比其他品类更复杂,包含的要素更多,因此对AutoGLM的理解和信息筛选能力提出了更高的要求。 二、京东商品搜索与选购实际操作: 1.首先,用户语音呼唤AutoGLM,“在京东里面帮我选购一台华硕品牌最新的AIPC电脑,要价格最贵,配置适中的产品”。 2.随后,在获取用户许可后,AutoGLM打开京东APP,并在搜索框内输入“华硕aipc电脑”。AutoGLM在搜索完毕后,将搜索结果按照价格从高到低排序,但并没有选择“最新的”产品。随即选择第一个选项。 3.AutoGLM选择第一个选项后,询问用户“查找到符合条件的商品有Ultra7 265K/96G等,你先选那个呢”。 4.用户回答“选择最后一个”后,AutoGLM进行相应选择并跳转至结算页面,同时告知用户商品价格并让用户确认付款。 图10.京东商品搜索与选购 部分关键词理解准确,任务基本完成。整个测评过程约1分40秒。AutoGLM对于关键词“价格最贵”理解准确并执行,但并未执行关键词“最新的”所需匹配的动作。整体看,AutoGLM理解了部分关键词,基本完成任务。 三、拼多多商品搜索与选购1实际操作: 1.首先,用户语音呼唤AutoGLM,“帮我选择一款苹果手机,需要16 pro max,在拼多多内选购”。 2.随后,在获取用户许可后,AutoGLM打开拼多多APP,并在搜索框内输入“苹果手机”。 3.AutoGLM在搜索完毕后,对用户发起询问,“查找到几款苹果手机,你看看有没有喜欢的,比如iphone16 Pro Max、iphone15 Pro Max、iphone16等。你想选哪个呢”。 4.用户回答“选第一个”后,AutoGLM选择搜索结果第一的“苹果13 Pro Max”,并询问用户“你要的苹果13 Pro Max有多种颜色,比如白色、粉色和蓝色。 你想选什么颜色呢”。 5.用户回答“选粉色”后,AutoGLM选择“苹果13国行双卡【原装屏】粉色”并告知用户需要自行付款。 图11.拼多多商品搜索与选购1 指令理解有待加强。整个测评过程约1分40秒,相较于用户手动执行类似操作较慢,主要延迟集中于AutoGLM在关键跳转节点需要与用户进行确认,例如在第一步用户语音呼唤AutoGLM并告知任务时,AutoGLM首先需要识别并理解用户指令,并等待用户做出确认或修改的动作。在AutoGLM跳转至拼多多APP后,AutoGLM在搜索框内输入的指令为“苹果手机”,较用户实际给出的指令有细节的遗漏,说明AutoGLM并没有完全理解用户指令。在任务完成后进入结算阶段时,AutoGLM终止运行并通知用户需要自行付款,有效保障了用户的隐私安全。 从拼多多商品选购测评