您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国金证券]:量化漫谈系列之十七:首款通用人工智能助手Manus:竞品分析与投研应用展望 - 发现报告

量化漫谈系列之十七:首款通用人工智能助手Manus:竞品分析与投研应用展望

2025-03-07 高智威,许坤圣 国金证券 喜马拉雅
报告封面

Manus在其宣传视频中,宣称其为全球首款通用人工智能助理(General AI Agent)。不同于传统人工智能,在用户提出需求后,Manus能不止步于仅仅提供方案,还可以亲自“动手实践”向用户交付成果。在测试智能体系统能力的GAIA基准测试中,Manus在三个难度等级问题中的表现均优于OpenAI的DeepResearch,成为了该领域新的SOTA。目前,在日程规划、数据挖掘分析、财报审查等诸多领域,Manus都可以提供高效可靠的一站式解决方案。 目前来说,市面上没有一个与Manus绝对意义上的对标竞品,因为其本身是目前市面上多款产品功能的结合。Manus有和OpenAI的Deep Research都具有强大的研究和任务处理能力。甚至能力在其发布的GAIA基准测试对比图看,能力强于Deep Research。另外,Manus的运行方式又与Anthropic的Computer Use类似,都能在独立环境中运行并调用各类工具。Manus更像是结合各家所长的集成体。虽然目前没有绝对意义上的竞品,但我们也整体对比了下各类与Manus有部分相似功能的竞品。在运行方式上类似的有Computer Use、Proxy和Operator;从信息收集和分析能力强度上类似的有Deep Research。 综合对比来看,Claude需占用本地资源创建虚拟环境,并且单一的Computer Use在处理复杂问题时表现不尽人意,时常发生系统崩溃的问题。例如,用户在使用Claude获取B站游戏类top10视频信息时,由于B站主页并无“排行榜”标签,需要大模型进行推理与尝试以寻找可能的排行榜入口,但Claude因受限于推理能力,在频繁报错后程序崩溃,未能完成该任务。相比之下,Manus优化解决了这一问题,从目前展示的示例来看,无论是像“寻找潜在客户”的抽象问题还是像“分析财务报告”的多步骤问题,Manus都能高效交付结果。另一方面,Proxy和Operator的可执行范围仅局限于浏览器,无法调用终端、文件系统等资源交付最终结果,并且在发生异常时也不能像Manus一样高效地自动处理。总的来说,结合性能测试结果与用户反馈,Manus从其展示的demo来看,在功能和性能上均显著领先于现有竞品,也成为其广受瞩目的重要原因。 Manus的成功展示了Agent范式的新潜力,可以独立地承担更多复杂任务,大幅提高工作效率。因此,Manus相关产业链也受到了金融市场的关注。本文从模型的角度出发,给出“Manus”产业链图谱结果,并提供概念股相关标的结果。 大语言模型输出结果具有一定随机性的风险,模型迭代升级、新功能开发可能会导致结论不同。新闻可能包含误导性的信息,语料质量对结果正确性存在负面影响的风险。人工智能模型得出的结论仅供参考,可能出现错误答案的风险。 1.1Manus使用场景 2025年3月6日凌晨,一款名为Manus的AI产品一经发布,便成为近日AI领域的焦点。 在公开展示的demo中,用户Peak首先向Manus发送了简历分析的指令和10份简历的压缩包,Manus就开始像人类一样工作:解压缩文件、逐份浏览每份简历、创建文件记录重要信息。接着,Peak又向Manus追加上传了5份简历。在一系列推理、计算后,Manus以Word文档的形式返回了排名、摘要等若干结果。从demo展示效果来看,Manus不仅能高效完成简历分析排名,同时在纽约房地产信息筛选、股票数据分析等具体场景中亦表现优异,所返回的电子报告文档、可交互图像, 图表1:Manus运行页面 图表2:简历分析任务运行结果 Manus在其宣传视频中,宣称其为全球首款通用人工智能助理(General AI Agent)。不同于传统人工智能,在用户提出需求后,Manus能不止步于仅仅提供方案,还可以亲自“动手实践”向用户交付成果。在测试智能体系统能力的GAIA基准测试中,Manus在三个难度等级问题中的表现均优于OpenAI的Deep Research,成为了该领域新的SOTA。目前,在日程规划、数据挖掘分析、财报审查等诸多领域,Manus都可以提供高效可靠的一站式解决方案。 图表3:Manus在GAIA基准测试中的表现 1.2 Manus操作界面及任务执行流程 Manus的操作页面非常简洁,用户可以通过页面下方对话框与Manus进行互动。Manus支持文本、文档、压缩包等多种类型的输入。在指令发出后,Manus能够在虚拟机内自行配置和使用终端、编辑器、浏览器等工具,完全自主地实现复杂任务的拆解、规划与异步执行。在执行期间,页面左侧显示有系统当前的运行状态,右侧则显示正在访问的页面或整体进度。由于Manus是在云中异步工作的,一方面用户可以同时运行多个Manus会话,并行执行不同任务;同时用户也可以在任务执行过程中关闭计算机,Manus将在后台继续运行,并且会在任务完成后发送通知。此外,Manus也支持任务执行过程中的实时交互,例如在demo中,用户在上传10简历后追加了5份新的简历。 图表4:系统运行状态与正在访问的界面 图表5:系统运行状态与整体进度 图表6:简历筛选任务执行过程中追加简历 Manus支持知识和记忆机制,用户可配置知识来优化执行流程,使运行结果能更好满足用户需求。例如,默认情况下会与文本文档的格式返回简历信息分析结果,通过规范执行模式,更新Manus记忆为“在出于招聘目的筛选简历时,将结果直接编译成电子表格,并将其提供给用户,而无需中间步骤。电子表格格式要包括候选人排名、专业水平、关键资格和推荐”,即可保证Manus此后的输出结果满足要求。 此外,Manus也有鲁棒的异常处理机制,能够自动处理任务执行过程中出现的错误,而不会导致系统崩溃。例如在发生浏览器错误时,页面右侧将显示“Manus在执行此操作时遇到了一些问题,无需担心,它会自行处理这些错误”的文本,并将在自行处理异常后继续向后执行其他任务。 图表7:规范执行模式 图表8:异常处理 任务执行完成后,Manus将根据用户要求,以文档、网页、图表等形式展示最终结果,从内容准确度和格式规范度上都能较好地满足用户的需求。 图表9:Manus任务执行结果 目前,Manus尚处于内测阶段,据用户反映,Manus能够在用户发布指令后高完成度地实现指令理解、任务规划、环境配置、数据获取与分析、报告撰写的一系列工作,使用户彻底从繁杂的工作中解放了出来。但目前,由于用户数量、算力资源等方面的问题,Manus每日使用次数存在上限并且运行速度尚不理想。此外,尽管据称Manus设有多数据源的交叉验证环节以确保结果准确性,但由于网络上虚假信息的广泛存在,Manus运行结果的可信度仍有待进一步考证。不过Manus的出现,的确也给我们描绘了一个触手可及的美好前景,并且指明了通用型智能助手的发展方向。 而且综合来看,后续以Manus为代表的通用型人工智能助手应用,可预见的能对金融投研工作进行赋能,有着对金融投研与行业研究进行全流程重构的潜力。无论从在事务性工作,包括自动化PPT与word各类报告文档高质量生成或整理发票报销单;还是在行业研究端,通过动态抓取全球财经新闻、企业调研问答信息及专利数据库等各类信息综合构建跨信息源知识关联从而挖掘潜在投资机会等。待Manus开发测试后,我们也会第一时间进行测评。 目前来说,市面上没有一个与Manus绝对意义上的对标竞品,因为其本身是目前市面上多款产品功能的结合。Manus有和OpenAI的Deep Research都具有强大的研究和任务处理能力。甚至能力在其发布的GAIA基准测试对比图看,能力强于Deep Research。另外,Manus的运行方式又与Anthropic的Computer Use类似,都能在独立环境中运行并调用各类工具。Manus更像是结合各家所长的集成体。虽然目前没有绝对意义上的竞品,但我们也整体对比了下各类与Manus有部分相似功能的竞品。在运行方式上类似的有Computer Use、Proxy和Operator;从信息收集和分析能力强度上类似的有Deep Research。 2.1Anthropic推出的Computer Use Anthropic在2024年10月发布的Claude 3.5 Sonnet中首次推出Computer Use功能,该功能通过基于Xvfb的虚拟显示环境实现了计算机自动化操作。与单纯浏览器操作的Proxy或Operator不同,Computer Use支持跨应用的全系统级交互;与需要完整虚拟化方案的Manus相比,它采用轻量级容器技术(如Docker容器)实现环境隔离,并非直接操作物理主机。 在2025年2月推出的Claude 3.7版本中,该功能通过增强型视觉识别引擎、外接存储设备映射、USB HID协议模拟以及扩展思考模式等技术升级,成功在Game Boy模拟器运行《宝可梦·红》时完成了击败三个道馆主的成就,展示了其在受限环境下的精确控制能力。 图表10:Claude的Computer Use功能演示 图表11:Claude 3.7 Sonnet在《宝可梦红》的表现 在配备了内存模块和屏幕像素输入的条件下,Claude 3.7 Sonnet可以通过操作虚拟键盘鼠标游玩游戏《宝可梦红》。相比于无法走出新手村的3.0版,Claude 3.7 Sonnet成功击败了3个道馆主并赢得了徽章,体现了计算机操作能力的显著提升。 2.2 Convergence推出的Proxy Proxy是一款Convergence推出的AI浏览器智能体,能够自主完成网页浏览和操作任务。 用户通过对话框输入指令后,即可自动化实现数据的检索、收集与返回,并且支持表单填写、页面滚动等复杂功能。 图表12:Proxy运行页面 此外,在单次任务执行完成后,用户可设置同一任务定时执行,也可以将指令保存为模板供后续使用。任务定时执行可设置执行任务、执行时间、执行频率、时区四个字段,用户可根据个人需求设置任务定时执行。模板定制则支持用户将当前任务中输入的指令设置为模板,用户可通过鼠标选中的方式,将所选区域设置为变量,之后就可以在只修改变量的前提下实现长指令的快速输入。 图表13:定期执行 图表14:模板定制 但是,在测试过程中,Proxy同样存在运行速度慢的问题,并且错误处理机制不如Manus健全,存在程序崩溃的风险。作为一款浏览器智能体,Proxy无法实现本地文件操作等超出浏览器范围的功能,整体功能及实用性不及Manus。 2.3 OpenAI推出的Operator Operator是一款由OpenAI推出的AI浏览器智能体,由计算机使用代理(CUA, Computer-UsingAgent)驱动,结合了GPT-4o的视觉能力以及强化学习下的高级推理,能够识别网页并自动实现与网页的交互。此外,模型具备一定的推理能力,可以在遇到问题时自我纠正,并且可以在无法解决时将控制权交换给用户。Operator的主要功能与Proxy类似,但在推理能力和图像识别能力上均不及Proxy。前者体现在处理“总结VentureBeat上最受欢迎的五篇文章”问题时,Operator因无法定义最受欢迎而陷入了无限的滚动循环,Proxy则选取了主页上最显眼的五篇文章作为答案;后者体现在WebGames的运行结果显示,Proxy的表现为(43.1±7.0)%,而GTP-4o为(41.2±7.0)%。 图表15:Operator运行页面 图表16:Proxy、GPT-4o、Claude Computer-Use性能比较 综合对比来看,Claude需占用本地资源创建虚拟环境,并且单一的ComputerUse在处理复杂问题时表现不尽人意,时常发生系统崩溃的问题。例如,用户在使用Claude获取B站游戏类top10视频信息时,由于B站主页并无“排行榜”标签,需要大模型进行推理与尝试以寻找可能的排行榜入口,但Claude因受限于推理能力,在频繁报错后程序崩溃,