您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[智昇人工智能研究院]:Manus AI智能体:AGI发展新范式的实践与测评 - 发现报告
当前位置:首页/行业研究/报告详情/

Manus AI智能体:AGI发展新范式的实践与测评

Manus AI智能体:AGI发展新范式的实践与测评

ManusAI智能体 智昇人工智能研究院 AGI发展新范式的实践与测评 智昇人工智能研究院研究员金金、Enjoy、小雪、IRIS、何惠 学君、阿秒AI团队 130所高校教授、博士联合发布 智昇人工智能研究院20250307 contents 智昇人工 智能研究 院 引言 AGI发展历程、现状与趋势 ManusAI概述 目录 ManusAI技术原理探析 ManusAI实测案例分析 ManusAI用户体验评估 ManusAI发展前景与挑战 ManusAI交互指南 写在最后 引言 智昇人工智能研究院 人工智能正经历深刻变革,从传统的单点能力模型正快速向通用人工智能AGI演进。在这一演进过程中,AI智能体Agent的出现代表了AI从“工具”向“助手”再到“代理人”的关键跃迁。 2024年末到2025年初,我们见证了AI智能体从概念走向实践的重要时刻。 自ChatGPT掀起大语言模型革命以来,AI已能进行高质量的文本理解与生成,但其与现实世界的交互能力仍显不足。人类与AI之间的交互依然需要人类作为中介,负责操作各类软件和执行实际任务。这种情况正随着AI智能体的出现而改变。 ManusAI作为新兴的通用智能体,其核心价值主张在于模拟人类操作电脑的能力,实现从“我告诉AI做什么”到“AI能够自己完成任务”的转变。这种能力不仅是技术上的进步,更是AI与人类协作模式的革新,标志着AGI发展的新阶段。 在当前以OpenAI、Anthropic等为代表的国际AI巨头主导的格局中,来自中国的ManusAI团队凭借其创新产品吸引了广泛关注,为全球AI智能体的发展带来了新的可能性和思路。 智昇人工智能研究院 01 AGI发展历程、现状与趋势 AGI发展历程 AGI的理念源于对机器能像人类一样执行任何智力任务的追求,其历史可分为几个关键阶段。 早期探索与乐观估计(1950年代1960年代) 智昇人工智能研究院 1956年的达特茅斯研讨会被视为AI研究的起点,吸引了JohnMcCarthy、MarvinMinsky等学者,探讨机器学习和通用智能的可能性。 1965年,赫伯特西蒙预测机器将在20年内能完成人类任何工作。 1967年,MarvinMinsky认为AGI问题将在一代人内解决,但这些预测未实现,反映了早期对复杂性的低估。 转向狭窄AI(1970年代1990年代) 1970年代初,研究者意识到AGI难度,资金转向应用导向的狭窄AI。 1984年,DougLenat启动Cyc项目,试图构建通用知识库,1980年代初日本的第五代计算机项目也设定了包括自然语言和推理的AGI目标,但未能实现,AI研究者被贴上“空想家”标签,避谈“人类水平”AI。 AGI发展历程 AGI兴趣复兴(1990年代末2000年代) 1997年,MarkGubrud在军事生产讨论中首次使用“AGI”一词。 智昇人工智能研究院 2000年,MarcusHutter提出AIXI模型,描述一个能最大化目标满足的通用AI代理。2002年,PeterVoss、ShaneLegg和BenGoertzel推广该术语。 2009年厦门大学和OpenCog在厦门举办首次AGI暑期学校,标志着研究社区的活跃。 现代AGI研究与进展(2010年代至今) 2010年,DeepMind成立,专注于AGI,2014年被Google收购。 2015年,ElonMusk等创立OpenAI,致力于安全AGI。 2016年,DeepMind的AlphaGo击败围棋世界冠军,展示AI在复杂策略游戏中的能力。 2022年,OpenAI推出ChatGPT,标志自然语言处理的新里程碑。 2023年,微软研究认为ChatGPT可能是早期AGI。 2024年OpenAI的o3模型在ARCAGI基准测试中得分875,超越人类84,进一步推动AGI研究。 智昇人工智能研究院 智昇 从人工智能的技术代际发展看 人工智能研究院 第一阶段:数据启蒙期(1950s2010s) 1997年IBM深蓝击败国际象棋世界冠军卡斯帕罗夫 2000年代自动语音识别系统的商业化应用 2010年左右机器学习在图像分类等任务上的突破 第二阶段:互联网融合期(2010s2025s) 2012年深度神经网络在ImageNet挑战赛中的突破性胜利 2017年Transformer架构的提出,为大型语言模型奠定基础 20222023年GPT、Claude和Llama等大语言模型的广泛应用。 从人工智能的技术代际发展看 智昇 第三阶段:感知觉醒期(2025s2030s) 多模态大模型能无缝融合文本、图像、声音、视频等不同形式的信息 人工智能研究院 感知行动循环的建立,使AI能够通过持续观察调整其行为 实时环境理解和场景重建能力 初步的物理常识和因果推理能力 第四阶段:实体化探索期(2030s2040s)) 灵巧机器人系统与大模型的深度集成 强大的物理操作能力,包括精细运动控制和工具使用 环境适应性和自主学习新技能的能力 在不确定环境中的长期规划和决策能力 第五阶段:社交共融期(2040s) 社会认知能力,包括理解情绪、意图和社会规范 文化理解和适应能力 道德推理和伦理决策能力 与人类的深度合作能力和自我完善机制 智昇人工 智能研究 院 本报告来源于三个皮匠报告站(wwwsgpjbgcom)由用户Id349461下载文档Id616528下载日期20250310 智能体Agent在AGI进化中的关键地位 智昇人工智能研究院 AI智能体是能自主执行任务的软件程序,通过观察环境、决策和行动实现目标。它们被视为AGI发展的关键,因为能处理需要通用智能的任务,如上下文理解、决策和环境交互。 智能体的类型包括: 自主机器人:如Roomba吸尘器和Amazon配送机器人。 游戏智能体:如下棋或扑克智能体。 欺诈检测智能体:用于金融交易分析。 交通管理智能体:优化城市交通流 结合大型语言模型(LLMs),智能体的能力显著增强。例如,Microsoft的研究表明,LLMs使智能体能更自然地与用户交互,处理复杂任务(如代码生成和客户查询解决)。研究还指出,智能体通过迁移学习和单次学习 (oneshotlearning)提升通用性,例如更快适应新任务。它们被视为AGI的构建模块,推动从单一功能AI向多领域适应的转变。 ManusAI的出现与定位 智昇 人工智能研究院 Manus是由中国团队Monicaim于2025年3月5日发布的全球首款通用型AIAgent(智能体)产品,在权威的GAIA基准测试中性能超越OpenAI同类产品。 产品定位Manus定位于手脑并用(拉丁语MensetManus),采用多代理架构模拟人类工作流(PlanDoCheckAct),成本仅为同类产品的十分之一。用户只需输入简单指令,即可获得接近实用状态的报告或文档。 创始人团队肖弘(Red):1992年出生,华中科技大学毕业生,连续创业者。创业历程:2015年创立夜莺科技,推出微信公众号运营工具壹伴助手和微伴助手,累计服务超200万B端用户,获腾讯、真格基金等数亿元投资。2022年创立Monica(北京蝴蝶效应科技),开发AI浏览器插件,主打海外市场,用户突破千万。2025年推出Manus,被媒体称为比DeepSeek创始人更年轻的AI新星。 季逸超(PeakJi)联合创始人兼首席科学家,曾开发获MacWorld特等奖的iOS浏览器猛犸,并创建中文互联网最大知识图谱系统Magi。主导Manus的技术架构设计,强调人机协作的未来方向。 张涛:资深AI产品经理,负责产品场景探索与演示视频制作,曾在工具、SaaS领域有丰富经验。 ManusAI的定位 智昇人工智能研究院 ManusAI定位为通用AI智能体,其名称源自MIT校训“MensetManus”心灵与双手中的“Manus”双手,强调通过“动手实践”解决实际问题。 在技术架构上,Manus采用云端虚拟环境,让AI在独立的“电脑”中操作,避免与用户本地电脑争夺控制权。 ManusAI智能体,旨在将想法转化为行动,自主执行复杂任务。功能和能力包括: 旅行规划:创建个性化旅行手册,如日本4月行程。 金融分析:分析特斯拉股票,设计可视化仪表板。 教育支持:为中学教师创建关于动量定理的视频演示。 保险比较:生成清晰比较表并推荐最佳决策。 B2B采购:跨网络深入研究,找到合适供应商。 智昇人工智能研究院 02 ManusAI概述 核心功能与特点 认知控制中枢 智昇人工智能研究院 智能体控制中枢融合神经符号系统(NeurosymbolicAI),将LLM的语义理解与知识图谱的逻辑推理相结合,在医疗诊断等专业领域的决策准确率可达897,较纯LLM方案提升34个百分点 多模态感知系统 感知系统已突破传统文本交互边界,视觉模块采用ViT22B模型实现每秒60帧的实时场景解析,听觉模块集成WaveNet变体实现982的语音指令识别率13。更革命性的突破在于跨模态对齐技术,通过对比学习算法建立文本图像声音的联合嵌入空间,使得智能体在未知环境中的对象识别准确率提升。 任务规划与执行机制 智能体的规划系统采用分层强化学习框架(HRL),将复杂任务分解为可执行的子目标序列。通过蒙特卡洛树搜索(MCTS)与神经规划器结合,Manus在GAIA基准测试中达到914的任务完成率,远超OpenAI同类产品23个百分点。其执行系统创新性地采用沙盒虚拟机架构,支持Python脚本自动生成与调试,在数据分析类任务中实现完全自动化处理。 自主操作能力 任务规划与执行 智昇人工 智能研究 院 多源信息整合 可视化结果呈现 过程透明与可干预 记忆与学习能力 自主操作能力 智昇人工智能研究院 ManusAI能够模拟人类使用电脑的方式,执行各种操作任务,就像一位虚拟助手在云端计算机上代替您工作。 具体表现: 网页浏览操作:能够打开Chrome浏览器,在地址栏输入URL,点击导航栏,使用前进后退按钮 内容交互:滚动页面,点击链接,填写表单,上传文件,拖放元素 应用程序控制:使用快捷键控制视频播放(如使用空格键暂停播放YouTube视频) 多标签管理:同时打开多个标签页并在其间切换,保持多线程工作流 实例: 当用户要求Manus比较不同平台上小米AI眼镜的价格时,它会像真人一样依次打开各电商平台,在搜索框输入“小米AI眼镜”,滚动浏览搜索结果,点击相关产品链接,记录价格信息,并在遇到验证码时提示用户协助。整个过程就像远程观看一位助手在电脑上操作一样直观。 任务规划与执行 智昇人工智能研究院 ManusAI擅长将复杂任务系统化分解并有序执行,确保高效完成用户需求 实例: 当用户请求Manus进行特斯拉股票分析时,它会自动拆解任务为:1收集特斯拉基本财务数据;2分析行业竞争格局;3评估市场趋势;4研究政策影响;5查找分析师观点;6总结投资建议。它会有序执行这些步骤,在GoogleFinance查询基本数据,访问特斯拉官网获取财报,浏览行业新闻 分析竞争对手,最后将所有信息整合形成完整分析。 具体表现: 任务分析与拆解:自动将大型任务拆分成逻辑子任务 步骤优先级安排:确定最佳执行顺序,提高效率 适应性调整:根据执行过程中的发现动态调整计划 进度跟踪与报告:实时更新任务完成状态 多源信息整合 智昇人工智能研究院 ManusAI能够从各种渠道收集信息,并将其整合为连贯有用的内容。 实例: 当用户要求分析恐怖电影的叙事技巧时,Manus会访问多个信息源:在B站搜索相关视频教程,浏览知乎上的专业讨论,查看搜狐娱乐的影评文章,甚至访问IMDb等国际电影数据库。它能够从各种来源提取关键见解,比如从专业影评中获取叙事结构分析,从观众评论中了解恐怖元素效果,从学术文章中提取类型电影理论,最终整合出全面而深入的分析报告。 具体表现