您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AIAgent的GPT时刻Manus第一时间解读20250306 - 发现报告

AIAgent的GPT时刻Manus第一时间解读20250306

2025-03-06未知机构「***
AI智能总结
查看更多
AIAgent的GPT时刻Manus第一时间解读20250306

一时间解读一时间解读20250306_导读导读 2025年03月06日20:04 关键词关键词 大模型推理模型AI agent Monica manus多模态自主AI成果交付个人助理工具调用异步处理OpenAI编程大模型GGAAA AI零售风险AI通用微型车奔驰one deep research benchmark 全文摘要全文摘要 当前人工智能领域,”大模型”技术突飞猛进,成本低廉却性能卓越,加速了国内与国际先进水平的接轨,预示着多模态应用的创新突破。一款名为manus的AI代理产品,由初创公司开发,能自主完成编写代码、网页浏览、应用操作等复杂任务,离线工作且跨领域工具调用能力强,展现出色性能。该产品技术优势显著,采用OpenAI模型等底层技术,提升了云计算、API调用效率,但面临计算需求增加及全网开放的挑战。 AI Agent的的GPT时刻?时刻?Manus第第 一时间解读一时间解读20250306_导读导读 2025年03月06日20:04 关键词关键词 大模型推理模型AI agent Monica manus多模态自主AI成果交付个人助理工具调用异步处理OpenAI编程大模型GGAAA AI零售风险AI通用微型车奔驰one deep research benchmark 全文摘要全文摘要 当前人工智能领域,”大模型”技术突飞猛进,成本低廉却性能卓越,加速了国内与国际先进水平的接轨,预示着多模态应用的创新突破。一款名为manus的AI代理产品,由初创公司开发,能自主完成编写代码、网页浏览、应用操作等复杂任务,离线工作且跨领域工具调用能力强,展现出色性能。该产品技术优势显著,采用OpenAI模型等底层技术,提升了云计算、API调用效率,但面临计算需求增加及全网开放的挑战。manus的出现,不仅提升了AI在零售等领域的应用价值,推动了市场积极反响,如信创板块股价上涨,同时也揭示了未来技术发展的方向与挑战。 章节速览章节速览 ● 00:00大模型技术进展与大模型技术进展与AI代理的突破代理的突破近期,国内大模型技术快速发展,阿里推出千万级参数的32倍推理模型,性能接近满血版D21 ,成本仅为十分之一。国内模型性能追赶海外模型的速度超预期,预计年内在多模态方面将有重大突破。同时,初创公司Monica发布AI代理产品manus,能自主解决复杂任务,如编写代码、浏览网页、操作应用和交付完整成果,如创作并部署网页游戏。这标志着个人AI助理的概念正逐步实现,成为市场关注焦点。行业专家将分享manus的性能、优缺点及未来路径。 ● 01:31 Minus:一款由中国团队开发的通用型:一款由中国团队开发的通用型AI助手助手由中国团队莫妮卡点IM开发的Minus是全球首款通用型AI 助手,其核心功能在于能够自主执行复杂任务并交付成果,相比传统AI助手有显著提升。Minus具备强大的多代理架构和工具调用能力,能在多个领域表现出色,包括简历筛选、股票分析和旅行规划等。其技术领先性体现在GAIA基准测试的高排名,以及多代理架构确保任务执行的稳定性和速度。此外,Minus还具备个性化能力,能根据用户偏好调整输出形式,广泛应用于教育、金融、商业分析等领域。 ● 06:59 AI零售行业的成熟与未来挑战零售行业的成熟与未来挑战AI在零售行业的应用标志着该领域的成熟,尤其今年被视为AI零售的延年,AI 的角色从回答问题升级为解决问题,例如自动撰写市场调研报告和处理文件。AI的高性能对国内影响显著,引发相关板块股价上涨。市场对AI的期待高,但面临后台计算能力和专利成本增加的挑战。Manus的内测显示其异步处理和任务分解能力,用户可离线操作,最终收到完成报告。这标志着AI从解决问题到自动完成任务的跨越。应用场景广泛,未来可能激发更多垂直行业深度应用的AI解决方案。然而,通用型AI可能在某些垂类行业表现浅层,需进一步优化。 ● 14:28比较和讨论比较和讨论AI通用通用Agent的发展与应用的发展与应用对话主要围绕一种新型通用AIagent与其竞争对手OpenAI的产品进行了比较和讨论。这种新型agent 被描述为在完成具体任务方面比OpenAI的agent更强大,尤其在网页操作、API调用、数据分析等方面表现出色,但并不涉及物理 世界的直接操作。此外,还讨论了新型agent所基于的基础模型可能包括OpenAI和Code Pink,以及其使用H20芯片进行推理的可能性。参会者提出了关于模型基础和芯片类型的问题,展现了对AI agent技术细节的高度关注。 ● 19:09大模型在编程任务和执行能力中的应用大模型在编程任务和执行能力中的应用对话围绕一个特定的大模型在编程任务和执行能力中的应用展开。首先讨论了该模型在编程校验方面的优势,因 其能通过代码执行的正确性实时判断任务完成情况,从而提高学习效率。随后,详细探讨了模型所使用的基础架构、芯片类型,以及如何调用API执行任务。此外,还提到了模型在公开数据和知识上的局限性,以及其在工程和产品创新上的应用。最后,会议邀请电话和网络端的参会者进行提问,以便进一步讨论相关议题。 ● 25:52讨论单任务成本、讨论单任务成本、token用量及云端推理生态体系用量及云端推理生态体系本次讨论集中于单任务的成本及所使用的token数量,初步估算单任务平均成本约为两美金,token 用量可能在1000左右。进一步探讨了基于云端运行任务和推理过程的生态体系,指出这一体系对于云计算有积极影响,但对特定平台任务的支持有限,如不支持Windows操作系统下的游戏任务。此外,还讨论了AI处理PDF文件的方式,包括直接读取文字和使用OCR技术识别图片中的文字,并指出演示中的翻页动作更多是为了视觉效果而非实际需求。 ● 31:43 Manus产品的本质及其技术壁垒探讨产品的本质及其技术壁垒探讨对话围绕Manus目前所做的工作是否可视为套壳产品进行了深入讨论。参会者指出,若从大部分技术基础来源于 外部供应的角度看,可以将Manus的产品视为套壳模型。然而,从另一个角度看,Manus更像是一个供应链管理系统,通过整合各领域最佳模块形成最终产品。虽然其他公司如阿里智杰可能复制其流程,但在细节和整体一致性上达到完全相同水平存在难度,这表明Manus的产品虽非绝对壁垒,但在技术整合与实现上有其独特之处。 ● 34:11 Venus系统准确率保证及系统准确率保证及Token消耗量讨论消耗量讨论讨论了Venus 系统通过编程大模型生成代码以保证准确率,尽管能确保代码正确运行,但无法百分百满足客户需求。同时,提及Venus这种形式对Token的消耗量相比传统超包要高10到100倍,主要由于其决策模型可能引起的多次循环和结果检查导致。 ● 36:14探讨端侧大模型应用及单任务成本问题探讨端侧大模型应用及单任务成本问题讨论了使用端侧大模型配合云端容器在实际应用中的局限性,特别是考虑到GPU 计算要求、安全性问题以及执行代码的潜在风险。同时,对话还涉及了如何定义单任务成本的问题,明确指出单个提问的成本是整体的,而非拆分后的子任务单独计算。 问答回顾问答回顾 发言人发言人问:近期大模型和应用层面有哪些重要的催化事件?问:近期大模型和应用层面有哪些重要的催化事件? 发言人答:近期有阿里发布了千万参数规模的32倍推理模型,该模型在性能上可以与满血版D21相媲美,并且以约10分之1的成本达到相同效果。此外,国内大模型的性能正在迅速追赶海外模型,预计年内会在多模态方面取得突破。 发言人发言人问:问:AI agent领域有什么新的进展?领域有什么新的进展? 务,如编写执行代码、浏览网页、操作应用,并能交付完整成果,比如创作网页游戏或编写并部署代码。个人助理功能正在逐步实现,受到市场高度关注。 发言人发言人问:问:Manus的主要特点是什么?的主要特点是什么? 发言人答:Manus由莫妮卡团队开发,是全球首款通用型AI agent产品,其核心定位在于能够自主执行复杂任务并交付成果。相比传统AI助手,Manus具备更强的跨领域工具调用能力,不仅限于某一个垂直领域,例如在股票分析中可以自动生成可视化仪表盘和提供投资建议。 发言人发言人问:问:Manus的技术优势有哪些?的技术优势有哪些? 发言人答:Manus在GAIA基准测试中的表现突出,综合能力超越了openAI同类产品,达到业内领先水平(SOTA)。其关键技术优势在于采用多代理架构,通过多个独立智能体协作保证任务执行的稳定性和安全性,同时具有很强的个性化能力,能根据用户的偏好优化输出形式。 发言人发言人问:问:Manus对行业产生了什么影响?对行业产生了什么影响? 发言人答:Manus标志着AI零售的成熟,今年成为AI零售的元年,将AI角色从问答升级为解决问题。其优异性能超越了openAI,对国内市场特别是信创板块产生积极影响,股价上涨,市场需求强烈,用户抢着内测邀请码,显示出市场对AI1点的高度期待。 发言人发言人问:问:Manus未来面临哪些挑战?未来面临哪些挑战? 发言人答:未来Manus面临的挑战在于后台需要强大的计算能力支持多个子代理协作,对算力需求比传统模型大幅增加。目前仅开放部分内测,若要实现全网开放,还需解决算力不足的问题。 发言人发言人问:它的运行过程中,子问:它的运行过程中,子agent完成任务后如何进行标记和通知用户?完成任务后如何进行标记和通知用户? 发言人答:在异步处理中,当每个子agent完成一个任务时,会修改to do list并将任务标记为完成。整个过程中,人可以离线操作,无需实时关注。当所有任务完成后,系统会自动通知用户。 发言人发言人问:这个问:这个agent在执行任务并生成报告输出时,是否满足用户个性化需求?在执行任务并生成报告输出时,是否满足用户个性化需求? 发言人答:是的,该agent能够根据用户的具体需求生成符合用户期望的报告,不仅解决了问题,还进一步满足了用户对于报告内容和格式的要求,相比之前仅解决基础问题的产品,进步跨度较大。 发言人发言人问:该通用型问:该通用型agent的应用场景有哪些,并且未来发展前景如何?的应用场景有哪些,并且未来发展前景如何? 发言人答:该agent已具备四十多个案例,并且随着更多用户的接入,案例数量可能会增加。它提供了一个完整的通用agent解决方案,长远来看,对于像OpenAI和科比等公司推出类似产品也会相对容易,只需在工程上进行调整和应用优化。未来可能会催生出更多垂直行业的专业agent,有助于市场教育和发展。 发言人发言人问:问:Matus使用的后台大模型是否基于云服务或使用的后台大模型是否基于云服务或openAI等平台,以及它的定位是什么?等平台,以及它的定位是什么? 发言人答:Matus可能采用基于云服务或openAI等全球顶级编程大模型,利用多架构代理方式,以实现高质量的代码运行。它的定位是在浏览器环境下完成一些类似网站操作的任务,而非直接进行编程或物理世界操作。 发言人发言人问:问:Matus推出的通用推出的通用agent是否比是否比OpenAI的通用的通用agent更强?更强? 发言人答:Matus的通用agent相较于OpenAI的通用agent,在web操作和具体任务完成方面更为聚焦和丰富,虽然没有直接执行物理世界操作,但在数据分析、API调用等方面表现出更强的能力。 发言人发言人问:问:Matus使用的具体基础模型是什么?所用芯片类型能否透露?使用的具体基础模型是什么?所用芯片类型能否透露? 发言人答:Matus基础模型主要采用openAI和code pink,虽然无法确定百分之百使用,但有很大概率采用这两种模型。至于芯片类型,大概率使用的是H20芯片进行推理计算。 发言人发言人问:从现在结果来看,分数更高的原因是否是因为选择了特定的问:从现在结果来看,分数更高的原因是否是因为选择了特定的benchmar